2007年3月22日星期四

Google的博客搜索排名分析

  今天在“谷歌治印”里看到一篇翻译Google Blogoscoped转载的Ionut Alex. Chitu修改的原创于seroundtable的文章(好大一个圈啊),讲的是Google博客搜索对于页面排名的一些分析,我这里谈一下我的看法。

  Google的BlogSearch默认是按照“相关度”(relevance)进行排序的,还有一种是按照时间排序。按照时间排序的规则很简单,就是最新的文章放在最前面。按照相关度排序,则是使用某种特殊的公式计算出一些参考分数,然后对这些分数进行排序。

  和原文说的一样,有利因素为正分,不利因素为负分。在有利因素中,应该还包括一个时间因素,据现在最近的文章其加分越高,反向链接也是一个重要参数,反向链接越多,加分越高。这两个因素应该是最为重要的因素。其他因素就是内容的相关性了,这实际上和普通网页搜索没有什么区别。

  Google博客排名的这个专利文档里面讲述的更为详细,不过我还没有仔细看过,有时间一定好好读一下,估计能学到不少东西。

  下面是关于Google Blogsearch排名规则的原文。

Google的博客排名专利

  Google在2005年年底的一份“博客排名文档”专利文件现在生效。(我没有在文件里看到过Google提及这个,但我知道一些在Google工作的工程师如Andriy Bihun, Jason Goldman and Vinod Marur.Google呈现了一组包括有利因素和不利因素的指标。为了清除Spammers,这个已经在Google博客搜索中上线了。不管怎样,从这可以窥探出Google是怎样想的。

  这里是一些对博客搜索有利因素:

  1. 博客的流行程度
  2. 是否存在于其它博客中“博客链接”里
  3. 大量的订阅数
  4. 标签的使用
  5. 在博客地址中包含的电邮地址和聊天记录(我在想Google是否把分析Gmail或Google Talk内容也用于这种用途?)

  博客或博客文章的PageRank(Google加入“博客文档”(例如一片文章)也许和PageRank没有关系(例如发表一篇新文章)。在这些情况下。新的博客文章可以把博客的PageRank保留下来和单独的PageRank为新文章确定下来)

  这里是一些不利因素:

  1. 文章在短暂时间内连续发表, 像自动的一样
  2. 在博客里发表重复的文章
  3. 使用在spam里经常出现的词汇
  4. 每片文章都是非常相似的长度
  5. 博客里的很多链接都是指向同一个网站的
  6. 包含很多广告

  当然,每个spammer同样也可以使用标签,并且有些很好的博客也有很多广告,所以我们可以把这些指标看成个别元素,缺少任何元素的存在或非存在都不能形成一个完整的好的博客。举个例子,Google可以根据其多少可见性来指定每属性几组点,通过属性的重要性来调整其价值,然后将它同某些人口进行比较来决定怎么来评定排名(或将它评定为spam)

  [经由 Ionut Alex. Chitu, 在 Search Engine Roundtable看到的.]

  原文:Google's Blog Ranking Patent , Translated by KEViN恺