2006年10月29日星期日

百度和Google清除站点的规则探讨

  任何一个搜索引擎都需要制定一些收录和清除站点的标准,以便确保搜索结果的公正和公平,并提供客户最佳的搜索体验,不过不同搜索引擎对于收录和清除站点的标准是不太一样的。

  关于收录上的问题,以前我曾经写了一篇文章比较百度和Google收录网站的区别,主要观点是,百度收录的多而快,对于小站点也可以大量收录,而Google收录速度较慢,主要优先收录大站点的页面。

  那么,在清除网站方面,百度和Google又有什么不同呢?这是本文主要探讨的问题。

  对于百度和Google的清除站点规则,我觉得主要分为程序的自动判断和人工判断两部分组成,下面我们将介绍一下主要的一些规则。

  Google清除网站的规则在 Webmaster Help Center 上有详细介绍,概括起来主要分为网站作弊(如隐藏文字,重复堆砌文字),使用非法的自动跳转页面技术(如302重定向),使用程序自动进行Google查询,使用子域名或者其他域名创建大量重复内容,使用门页欺骗搜索引擎,加入链接工厂等等,Google建议做网站要针对用户设计而不要针对搜索引擎设计。对于中文网站来说,Google对于作弊网站会先采用降权的方式,不太常见直接删除中文网站的情况,Google人工干预大概主要是针对英文网站来做的。另外做SEO不要使用googlepages或者blogspot进行网站优化,那样做只会被Google立刻删除。

  值得称赞的是,Google与网站管理员之间的信息是比较通畅的,Google建立了专门的“网站管理员中心”,网站管理员可以登录查看Google蜘蛛抓取网站的情况,甚至还可以设置“首选域”,设置网址在Google索引中显示的方式。

  与此对比,百度也有自己收录和删除网站的规则,有一些规则和Google的相同,有一些则比较含糊和笼统,一般认为百度的反作弊法则是神秘而让人难以捉摸的,其中部分原因是,为了保证删除的准确性,百度会人为进行一些网站的删除操作。

  百度会删除什么样的网站呢?通常认为,Google认为应该删除的网站,百度同样也会删除,Google认为不应该删除的网站,百度也可能会删除。总之,百度的删除标准会比Google更严厉一些。

  由于有了人为因素,有人会产生一个问题,就是批评百度的网站会不会被百度删除,结合一些例子,至少从目前的情况来看,百度还没有因为网站批评百度而人为进行删除的先例。

  另外一个疑问是人工的成本,人工不可能监视所有的海量搜索内容,百度也不可能雇用那么多人,那么具体这个人工干预是怎么实现的呢?根据一段时间的观察和分析,我个人推测,百度的人工干预有可能是以搜索流量为标准,对于搜索热门关键词的第一页网站进行人工验证,如果发现第一页的网站有作弊行为而百度没有正确判断,则进行人工方式降权或者删除。当然,也可能百度有一些自动化的程序进行自动处理行为。

  百度对于网站的惩罚也可能并非永久的,特别是对于本身知名度较大的网站,如果网站在百度中具有较多的反向链接,并且及时删除了百度认为不合适的页面,那么百度有可能会在一段时间后,重新收录被惩罚的网站,但是网站的权值有可能会降低。

  百度目前和网站管理员之间的信息渠道是否通畅很令人质疑,甚至可以说两者之间没有任何交流渠道,这点是远远不如Google做的好,比如webmaster的邮件永远是自动回复,贴吧里的问题永远无人处理,没有类似Google的专用工具进行分析处理等等,这也是百度在很多地方口碑不佳的一个原因。

  其实百度也发现这样所带来的问题。网络新手和普通网民的影响力微不足道,被流氓网站修改了浏览器,也不会反抗,用时间长了反而会依赖和喜欢上这样的流氓网站。而IT专业人士则不同,他们建网站、写博客、开论坛,他们可以影响一大批普通用户,如果百度长期依靠低端用户而和大量网站管理员结怨的话,其发展前景也是令人质疑的。