2009年9月4日星期五

搜搜尚未成功,腾讯仍须努力

  在几乎没有任何媒体宣传的情况下,腾讯旗下搜索引擎搜搜上线了自主搜索技术。众所周知搜搜之前的网页搜索结果是使用来自Google的技术,估计这个时候双方的合作协议也刚好到期,目前搜搜的帮助文档还没有作相应的更新。

  搜搜网页搜索相较之前增加了类似有道的预览功能,搜搜保留的是基本的文字内容和超链接,有道保留的是文字和基本的CSS样式。其他部分也有细微差别,不过这两个功能并不存在实质差别,都可以帮助用户快速获取目标网页的相关信息,提供除了快照以外的更多一种选择。

  腾讯当然是想要借助自有搜索技术的上线在搜索市场分一杯羹,不过是骡子是马拉出来遛遛,我们来看看腾讯新搜索的表现怎么样。

SOSO

  错词纠正

  由于中国文化博大精深,同音字太多导致我们可能有时候会遇到输入错误,当然这种情况也可能发生在英文的拼写错误,这个测试项目选用一个中文关键词与一个英文关键词进行测试。

  周于明:用户想要搜索的是F4里面的周渝民,中文的错词纠错根据拼音库进行判断,搜搜、百度、谷歌都给出了“周渝民”这样的正确提示,搜搜和百度都显示为错误输入的搜索结果,谷歌胜出的点是是它对所有可能拼写错误的搜索结果都会给出所提示的关键词的两个搜索结果,这让它的搜索结果具备更多的可用性。

  Michel Jackson:MJ的粉丝应该可以很容易看出这是一个拼写错误,正确的拼写应该是“Michael Jackson”。搜搜并没有给出正确的拼写提示,搜索结果显示为错误拼写的搜索结果;百度给出了正确的拼写提示,第一二项结果具有可读性(MJ粉丝网站和维基百科),其余为错误拼写的搜索结果;谷歌给出了正确的拼写提示,搜索结果为正确拼写的搜索结果。

  索引数量与索引速度

  这两个指标直接关系着搜索引擎能否为用户提供快速的搜索体验和优秀的搜索质量,这里将会使用两个随机选择的热门关键词进行测试。

  网瘾:搜搜、百度、谷歌的完成搜索时间分别为0.104秒、0.002秒、0.20秒,百度以巨大的优势领先,搜搜与谷歌紧跟其后,需要说明的是这样短的差距对于普通用户几乎是没有差别。接下来是索引网页数量的较量,搜搜搜索到了2,570,000项结果,百度搜索到了6,090,000项结果,谷歌这个数字为8,640,000,百度领先搜搜接近200%,而谷歌又领先百度超过40%.搜搜落败在意料之中,毕竟Sosospider的出道时间比另外两家实在是晚太多。

  郁可唯:中国头号选秀节目的热门选手,郁可唯自然适合用来作为测试关键词。搜搜、百度、谷歌的完成搜索时间分别为0.051秒、0.003秒、0.30秒,三方趋势与上一个关键词相同不再赘述;索引网页数量这一指标,搜搜为1,370,000项搜索结果,百度为1,020,000项搜索结果,谷歌为11,700,000项搜索结果,搜搜在这一轮反超百度,而谷歌大幅扩大了优势,大有打着望远镜都找不着对手的感觉。

  中文分词技术

  中文分词一直都是各大搜索引擎相互比拼的领域,中文分词技术的提升能够最有效提升用户的搜索体验,所谓中文分词简而言之就是让电脑知道用户想要什么,尽管用户的搜索是那么千奇百怪,仍然选用两个中文关键词进行测试。

  学生会组织义演活动:搜搜的分词为学生会组织义演活动,正确;百度的分词为学生会组织义演活动,错误将学生会组织这样一个动宾短语识别为一个名词;谷歌的讽刺结果为学生会组织义演活动,正确。

  胜利取决于勇气:搜搜的分词为胜利取决于勇气,正确;百度的分词为胜利于勇气,取决那个词直接被忽略,让人比较困惑;谷歌的分词为胜利取决于勇气,正确。

  百度在这一回合的落败让人意外,毕竟几年前百度曾经叫嚣着最懂中文,搜搜的分词与谷歌基本相同。

  搜索质量实测

  这一回合避开单项测试可能造成的误判,采用最直观的搜索结果来作一个较量,同样是两个关键词,一个是问答式的需要得到解答,另一个热门关键词,考验搜索结果内容质量。

  2010世博会在哪里开:搜搜在第三位提供了来自百度知道的搜索结果,前两位搜索结果并不能提供相关性了解;百度在第六位提供了来自百度知道的搜索结果,上方的搜索结果皆为世博官方网站或者对应的门户专题,这体现了百度越来越明显的倾向于门户站点;谷歌在第三位提供了来自搜搜问问的搜索结果,前两位为来自世博官方网站的搜索结果。如果要排序的话谷歌第一,搜搜第二,百度第三。

  周杰伦:周董的关注度绝对是毋庸置疑,用这个词来考察搜索引擎第一页内容的丰富程度。搜搜的第一页搜索结果包含两条歌迷网站、两条音乐搜索(百度MP3、搜搜音乐)、一条图片搜索(搜搜图片)、一条百科(百度百科)、四条网站专题(新浪、腾讯、TOM);百度的第一页搜索结果包含两条歌迷网站、一条音乐搜索(百度音乐)、一条图片搜索(百度图片)、一条百科(百度百科)、两条网站专题(新浪、腾讯)、一条相关新闻(百度新闻)、一条贴吧、一条视频(百度视频);谷歌的第一页搜索结果包含一条歌迷网站、两条音乐搜索(百度MP3、谷歌音乐)、一条百科(百度百科)、七条网站专题(新浪、腾讯、TOM、搜狐、网易、人民网)、一条相关新闻(谷歌资讯)、一条博客搜索,值得指出的是谷歌音乐、谷歌资讯、谷歌博客都是没有算进十条搜索结果的,也就是谷歌有十三条搜索结果。排序依次为谷歌第一、百度第二、搜搜第三。

  搜搜如果想要争得一席之地需要走得路还很长,搜索引擎很大程度上并不能从腾讯在IM的强势获利太多,搜搜需要面对的更多是技术提升和用户习惯的教育,百度的崛起是因为当时在中文搜索的技术优势与用户习惯而,谷歌市场份额回升是因为技术的改进和用户教育,而这两方面都是搜搜缺乏的。So,腾讯仍须努力。

  来源:读者xjp投稿,原文链接