2010年7月13日星期二

对未来Google搜索技术的深度分析

  随着互联网的信息量越来越大,搜索在生活中的应用也越来越普遍,越来越多的企业也加入到了搜索这片没有边界的市场中。Google作为行业内公认的技术领跑者,在近些年也不负众望,推出了多项创新型的搜索技术,比如商品搜索、基于地理位置的搜索、加密搜索等等。

  相对于百度、必应等其他搜索引擎,我们能从大量的仔细分析中感受到Google在提供更有价值的结果页面所做的努力。尤其是作为一个SEO从业人员,对搜索引擎的分析也是不可或缺的,Google搜索或许已经在下面列举的这些技术细节上有了突破:

  1、Google已经开始尝试感知信息的来源地址,并在为保护原创作出努力

  众所周知,中国的互联网是一片抄袭的天地,国外虽然有比较强烈的版权意识,但转载也是非常普遍的事情,这就给许多坚持内容为主的中小型网站带来了毁灭性的打击:既打击了原创作者的积极性,也对互联网的健康发展有着非常消极的影响。并且在这一大的互联网环境下,也催生了许多以转载、采集为主要内容、以各种广告联盟为资金来源的“垃圾网站”。

  从对Google的大量分析来看,Google已经在开始逐步清理这种垃圾网站了,并且会刻意降低此类网站的权重。

  例如,对于某些站长聚集的原创网站,往往都会有大量的垃圾网站进行采集。而当这个原创站发布新的新闻之后,就会马上被垃圾站进行转载。然后在百度等搜索引擎进行搜索,很可能垃圾网站上的这篇文章的排名比原创站上的这篇文章的排名还要高得多。因此,百度对文章内容是否原创的判断是,网上是否还有其它相同文章,如果没有,放出页面再说;而Google则不然,Google会检索大量的类似页面,然后做出一个判断,这篇文章的原创来源应该是哪一个网站,然后再放出页面并将这个网站的排名放于其它转载的网站之前。

  或许以上只是我的个人推断,但实现这一原创识别技术并不困难,比如原创的文章一般会带有来源网址,原创网站大部分都是原创文章,原创的文章会带有网站的特殊标识,比如网站名等等……Google应该有能力进行模糊判断。

  2、Google已经有能力推断某一访问者的行业与兴趣,并且尽力提供相关的内容

  如果你查看计算机上存储的Cookies,会惊讶的发现,Google的几乎全线产品都会在用户的计算机上留下Cookies,并且过期时间非常的长。即使你从来不使用Google的产品,也同样骗不过Google的眼睛:非常多的网站上都有Google Adsense广告,非常多的网站都有Google Analytics统计等等。

  通过Google庞大的数据分析系统,它甚至可以追踪到你打开浏览器的那一瞬间,在大部分的网站做的任何事情,包括访问轨迹、点击情况、浏览时间等等。如果将这一分析结果应用到你的搜索结果页面,将会出现非常不可思议的情形:你是一个IT从业人员,经常浏览IT相关的网站,你在Google中搜索“联想”,Google将会给你返回与联想计算机有关的结果;如果你是一名文学爱好者,经常浏览各大文学网站,你在Google中搜索“联想”,Google将会给你返回精神、思想方面的“联想”词条。

  3、Google已经在尝试分析你输入关键词的意图,甚至是具体意图

  曾经有人嘲笑Google不懂本土化、不懂中文,并且举了个例子:《功夫》电影上映时,在百度中输入“功夫”,返回的是与电影有关的资料,而在Google中输入“功夫”,却出现了中国功夫的介绍和少林武术的广告。

  这的确是当时谷歌存在的现实情况,但是,随着谷歌的不断努力,现在的状况已经今非昔比了。Google不仅可以敏锐地捕捉各种新闻词汇,而且可以实时显示全球当前正在发生的新闻,甚至连Tittwer上正在发表的有关微博也没有放过。这种巨大的进步与开放的姿态是国内许多公司都无法比拟的。

  4、Google一直在坚持技术主导的概念,并且与百度等公司的文化形成了巨大的差异

  要说百度非常懂中国人一点也不为过:在娱乐、时事、体育等方面,百度花费了大量的努力来整理搜索结果,力求在人们心中留下一个好的印象,但你在百度中搜索“delphi embeddedwb”等纯粹技术类的文章就傻眼了。但是,Google在在这些冷门的搜索中依旧保持着良好的表现。

  因此,Google是按照文章的含金量来决定是否收录的,而不是某些搜索引擎的搜索热度。

  从上面的分析中可以看出,Google作为国际上著名的搜索引擎,不仅没有因退出大陆市场而放弃本地化的尝试,而且更加努力的去适应这片神奇的土地。

  来源:读者投稿,作者:李方,来源链接