Skip to content

SEO

Search Engine Optimization

搜索引擎

分类

  • 通用搜索引擎:谷歌、百度
  • 垂直搜索引擎:软件内部搜索

搜索&推荐

  • 搜索:用户主动触发
  • 推荐:系统主动推送

爬虫

  • 网页爬虫收录网页(镜像):深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略
  • 内容处理:数据清洗、网页内容分词、建立正排索引、建立倒排索引
  • 内容存储
  • 内容排序
  • 解析查询
  • robots.txt,robots协议,位于网站的根目录,用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取。
  • sitemap,站点地图/网站地图,一种xml文件,您可以在其中提供与您网站中的网页、视频或其他文件有关的信息,还可以说明这些内容之间的关系。可以构建后主动提交给搜索引擎。

分词

  • 网页分词在线工具:http://www.78901.net/fenci/
  • 分词算法
    • 基于字符串匹配的分词算法
    • 基于概率统计的分词算法
    • 基于语义规则的分词算法

索引

正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。

倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。

SEO

搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。

搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。

优化措施

  • 使用语义化标签。
  • 为页面添加元数据描述。
  • 为视觉内容附加文字形式的说明。
  • 构建并提交站点地图。
  • 对于实现客户端路由的单页应用,尽量使用 History API 而非 Hash。

SEO Audits

Powered by VitePress