2008年8月30日星期六

百度收录网站的特点分析

  两年前,我曾经写过一篇文章《Google和百度收录网站页面的比较》(发布于2006年4月17日《计算机世界》),分析当时情况下百度和Google搜索引擎对于网站的收录比较,两年过去了,这两个搜索引擎的算法都发生了巨大的变化,那时的比较收录规则已经完全不适用于当前了,现在,我就根据今天搜索引擎当前的发展情况,再次比较和分析一下百度和Google这两大搜索引擎在收录网站方面的异同。

  首页规则

  搜索引擎的索引更新速度是衡量搜索质量的一个重要的参数,对于大型网站(比如门户新闻网站)以及其他更新量大的网站,百度和Google的索引速度都很快,基本上都能做到当天更新。

  但是对于更新量小的网站,例如博客,两者就有较大区别,Google对于高权重并提交Sitemaps和Ping的网站,索引速度可以达到分钟级别,有时刚刚写完一篇文章,几分钟后,就能在Google中搜索到解决,但是对于百度来说,索引速度较慢,通常仅仅更新了博客网站的首页,搜索文章标题,排在前面的是博客首页或者目录页,而不是文章页。

  总的来说,百度对于网站首页的关注以及权重给的似乎特别高,而Google对于最终的文章内容页面的关注多于百度。

  半个月规则

  百度对于更新量较小的博客,收录页面有一个奇怪的时间规则限制:半个月规则,根据我对于月光博客文章收录速度的观察,通常情况下,半个月之内发布的文章,使用百度搜索文章标题,排在前面的基本上都是门户网站转载或聚合我的文章,我写的原始文章不见踪影。而使用Google搜索,我的原文基本上都是第一位。

  而大约半个月之后,我的文章的原始内容才在百度上出现,这时候搜索文章的标题,我的原文才会成为百度搜索结果的第一位。

  权重计算规则

  Google计算权重的方式主要参考页面的反向链接,如果别人转载我的文章并添加了原文链接,那么Google通常会给予原始文章较高的权值,而百度似乎对于自己的网站(百度知道、百度空间、百度百科等)给予较高的权值,并且对于更新频繁的大型门户网站更为青睐,而对于反向链接似乎没有给予太多的权重。

  新站规则

  一个新注册的网站,经过一些宣传之后,通常Google就会对其进行收录,但赋予的权值并不太高。

  百度对于新站不会立刻收录,并且相当长的时间内都不会收录,当新网站在搜索引擎有了一个不错的表现,并且有了较多的反向链接,会出现一个阀值,百度判断其网站内容不属于明显复制其他网站内容之后,会开始收录这个新站点内容,这时候网站才会出现来自百度的流量。

  总的来说,在网站收录速度上来看,Google现在比百度要快,不过由于百度的用户更多一些,所以网站搜索来源大多还是来自百度的多一些。不过对于技术博客来说,来源Google的访问量应该和百度旗鼓相当了。