证据表明百度蜘蛛可以爬行纯文本网址

很久之前我写过文本格式的网址对网站的权重有好处,今天我终于发现了纯文本网址可以吸引百度蜘蛛的证据。

大家知道百度站长平台已经对站长开放了,其中有很多有用的功能,包括提交网站地图、提交死链接、查看robots等等。其中有一项功能大家可能没有太注意,那就是站点抓取异常查询。

有时候我们的网站收录或者其他方面出现异常了,这时候还得分析网站日志等,查找原因。而这个工具可以直接查到,百度在抓取你的网站的时候出现了哪些错误,方便找到原因。

我今天检查的时候发现了有一个404抓取错误,本来抓取的是http://***.com/1227.html 但是后面多了个“>”,理论上不会出现这种链接错误啊。

 

经过搜索发现,有网站在转载文章的时候,出现了如上图的网址,而且是纯文本的网址:

 

百度因为抓取到了上面的网址,并把>也当做网址的一部分,并进行抓取,自然就出现了404错误。

从这个例子就可以知道,百度是可以抓取纯文本的网址的,这对广大SEO工作者和互联网从业人员是个好消息。

  • 留言列表: