搜索引擎蜘蛛的抓取策略
这篇文章主要讲解搜索引擎的蜘蛛爬虫的工作原理,包括它的四种抓取策略。
首先呢,搜索引擎的蜘蛛抓取网页是有着一定的规律,不会去随便抓取网页,并且呢,蜘蛛是通过超连接来抓取网页的,我们刚刚说了,搜索引擎有四种抓取网页的策略,下边我们一一讲解。
深度优先
所谓深度优先,就是蜘蛛在一个页面中发现第一个超链接,然后爬取这个页面,当爬到第二个页面后,在第二个页面发现的第一个超链接,然后再顺着往下爬,如下图:
深度优先
深度优先,导致蜘蛛抓取的网页的质量,越来越低,并且在传递网站权重上,也有着根本的问题。
宽度优先
在深度优先上,搜索引擎有着根本的问题,那么在之后,搜索引擎又推出了蜘蛛抓取的第二个策略,也就是宽度优先,宽度优先指的是,蜘蛛会先把这个页面所有的链接都爬一次,然后在顺着这些链接往下爬,如下图:
宽度优先
但是宽度优先也存在着问题,那就是蜘蛛抓取的效率和质量问题。
先宽后深 – 权重优先
现在搜索引擎是宽度和深度优先的结合,蜘蛛在抓取一个网页的时候,会先把这个页面所有的链接都抓取一次,然后再根据这些ULR的权重来判定,那个URL的权重高,那么就采用深度优先,那个URL权重低,就采用宽度优先或者不抓取。
重访抓取策略
重访抓取策略,是最后的一个,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间在来抓取一次,比如我们常常搜索的百度大更新,蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取,一般情况,百度大更新,一个月一次。
- 上一篇: 分享导致百度收录不稳定的5个因素
- 下一篇: Google的中文分词技术真的很二
- 相关文章:
搜索引擎算法风云变幻 我们该如何招架呢? (2015-8-11 21:39:19)
如何利用seo高级搜索指令找外链资源 (2015-3-19 20:22:9)
影响淘宝搜索排名的几个潜在因素 (2015-3-5 17:34:40)
用站内搜索分析挖掘访客价值 (2015-3-5 17:17:20)
利用丰富网页摘要提高搜索结果点击率 (2015-3-5 17:15:16)
浅谈网页搜索排序中的投票模型 (2015-3-5 17:12:39)
网站站标如何出现在百度搜索结果中 (2015-3-5 16:25:28)
百度收录百度搜索结果页面 是制造垃圾还是用户体验? (2015-3-5 16:22:30)
读百度《浅谈网页搜索排序的投票模型》有感 (2015-3-5 16:19:28)
花3分钟去认识搜索引擎的祖宗 (2015-3-5 15:1:13)
- 留言列表:
- 最新
- 热门
- 随机
- 搜索
-
- 日历
- 网站分类
-
- 最近发表
-
- 网站收藏
-
- Tags列表
-
- 图标汇集
-
- 友情链接
-