SEO
Search Engine Optimization
搜索引擎
分类
- 通用搜索引擎:谷歌、百度
- 垂直搜索引擎:软件内部搜索
搜索&推荐
- 搜索:用户主动触发
- 推荐:系统主动推送
爬虫
- 网页爬虫收录网页(镜像):深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略
- 内容处理:数据清洗、网页内容分词、建立正排索引、建立倒排索引
- 内容存储
- 内容排序
- 解析查询
- robots.txt,robots协议,位于网站的根目录,用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取。
- sitemap,站点地图/网站地图,一种xml文件,您可以在其中提供与您网站中的网页、视频或其他文件有关的信息,还可以说明这些内容之间的关系。可以构建后主动提交给搜索引擎。
分词
- 网页分词在线工具:http://www.78901.net/fenci/
- 分词算法
- 基于字符串匹配的分词算法
- 基于概率统计的分词算法
- 基于语义规则的分词算法
索引
正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
SEO
搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
优化措施
- 使用语义化标签。
- 为页面添加元数据描述。
- 为视觉内容附加文字形式的说明。
- 构建并提交站点地图。
- 对于实现客户端路由的单页应用,尽量使用 History API 而非 Hash。