2007年7月25日星期三

解决聚合网站发布全文RSS Feed的问题

  随着越来越多的博客提供全文RSS Feed输出,不少人开始对一些RSS聚合网站感到疑惑。这些RSS聚合网站通过获取其他博客的全文RSS Feed输出,将这些RSS做为网站内容重新发布,这样的行为引起了不少争议。

  显而易见,博客提供全文RSS Feed输出的原因并不是为了方便所谓的RSS聚合博阅网站的内容更容易发布,而是为了方便读者阅读,减少读者阅读文章所花的成本。那些聚合软件大部分未取得授权而将他人的全文RSS输出做为内容发布出去,这本身就不妥。从SEO的角度上讲,这样将造成大量的“复制网页”的内容出现,使得搜索引擎难以判断哪篇文章是真正的原始出处。对于一些不懂得SEO的博客来说,其较低的页面权值以及大量重复内容的出现,往往会让搜索引擎发生误判而惩罚这些原创内容的博客。

  因此,对于博客作者,需要对这些“复制网页”的行为有所行动,否则最终可能会殃及自身,目前我分析有几种不同的选择。

  下策:将RSS Feed输出从全文输出修改为摘要输出,甚至取消RSS Feed输出。这种对策虽然可以解决“网页复制”的问题,但是伤敌一千,自损八百,通过阅读器阅读的读者无端受到影响,阅读效率大幅下降。因此这种策略我并不推荐。

  中策:联系聚合网站,要求其做出一些行动。根据CC协议中的相关规定,如果你认为别人在使用你的作品有一些不当行为的时候,你可以通知他们进行删除,他们也有删除的义务。但问题是,对于大量的RSS聚合网站,这样的操作要耗费巨大的时间和精力。

  上策:通过技术手段解决问题。只要在RSS输出上进行一些针对搜索引擎方面的技术上的优化修改,就可以使得全文输出的RSS对自己的负面影响减少,这个优化修改就是增加一个指向原始文章的超级链接。

  从Google搜索引擎的角度来看,如果发现网络上有很多相同的复制内容,如果内容中存在链接,那么Google就很容易判断原文的地址,因此,全文RSS Feed必须要在每篇文章中,增加一个指向原文的超级链接,这样简单的操作就可以减轻被Google“诬陷”自己“复制网页”的罪名。

  具体的修改方法是,对于WordPress系统,使用一个名为better feed的插件,对于Z-Blog系统,请参考我写的一个Feed插件。安装好后,就增加一个链接,名字叫做“发表评论留言”等都可以,链接地址指向原文的URL地址。

  不过这个方法也有一个缺点,就是有时候即使有明显的链接指向,对于百度搜索引擎来说还是无法正确找到原始文章地址,估计百度判断分析超级链接的原理和Google有所差别。