2009年7月30日星期四

解读谷歌中国低俗门,谷歌被陷害证据不足?

  一个月前的谷歌低俗门事件疑点重重,由于网络流出谷歌可能被当局陷害的证据,网民几乎往谷歌一边倒。本人学习法律,深知证据的重要性和国人人云亦云的特点,希望用更多的数据进行分析,以求达到辟谣的目的。我不太懂技术层面的原理,同时也不谙谷歌这两个统计工具的算法,我把它们当成未知的函数,希望通过代入广泛的变量,期许管中窥豹,多多少少了解一点它们的“函数性质”。我的结论是:仅仅通过网路上的证据,尚不足以认定谷歌遭陷害的事实。

  这张截图是今日央视官网焦点板块的“谷歌专区”。据说,今年谷歌中国三次收到了央视的橄榄枝,前两次可谓“众星捧月”,但是这一次,谷歌一个人遭批斗。有意思的是,三次都登上了冠冕堂皇的《新闻联播》的谷歌中国,理由并不是那么冠冕堂皇,三次都是因为涉嫌充当网络色情的催化剂。我们可以看到,央视和中国互联网协会互联网违法和不良信息举报中心从来没有如此完美地收官,似乎高同学就是“一锅白米饭中的一粒鼻屎”,大煞风景。

解读谷歌中国低俗门

  我其实很早就从手机冲浪里了解了这次事件,但是当时只是一笑而过。昨天晚上我在写一篇关于中国网络审查制度的文章的时候,不经意看到了一篇文章。大意就是指谷歌被暗箭所伤,实乃虚拟世界上演真实的六月飞雪!我仔细分析了大家的证据和臆测,同时不忘看看网友的留言,突然感觉这件事情其实没有那么简单。我在想,有理由写一篇文章来分享一些我自己不成熟的见解,毕竟孰是孰非,自有公理,“不可以用谎言对抗谎言。”(月光语)

  首先看看网路流出的谷歌被陷害的说法。据说谷歌上搜索“儿子”后出现的低俗内容都是之前人为刷关键字形成的。

  主角就是下面这张图片。

谷歌被陷害

(图片来源:月光博客)

  这张图究竟有什么玄机呢?

  这是谷歌在今年刚刚推出的工具“Goolge Insight For Search”它可以形象直观地表现出人们的搜索兴趣,是关键字的流行风向标。目前只有英文版本。注意它的纵坐标的参数的意义。 They don't represent absolute search volume numbers,那它指什么呢?假设迈克尔杰克逊挂掉那天,北京全市有300万的人用谷歌进行搜索,其中有20万人打入了“迈克尔.杰克逊”这几个字;同一天,浙江省全省有1000万人使用谷歌,其中有65万人搜索这个词语,说明北京有7%对杰克逊感兴趣,而浙江有6.5%的网友对迈克尔情有独钟;接着北京为标准分成100个级别,浙江的数据就是100乘以6.5处以7,大约等于93.这时我们就会看到这样的图表:

数据图表

(数据仅供参考)

  当时在谷歌中国里,也有一个它的祖宗Google Trends,功能基本上是一样的,只是前者的推出更像是迎合了一些需要高级功能的研究人员和广告商。需要注意的是,它们使用的数据库是一样的。那么,Google Trends又是怎么说的呢?

Google Trends的数据图表

(图片来源:月光博客)

  可以清楚地看到,正是由于新闻联播和焦点访谈无与伦比的号召力,广大网民纷纷在新闻播出后即18日上网求证,所以造成了曲线在十八日大高潮的来临。这是其实也是疑点之一,我会在下面的论述中提及。

  于是有人在谷歌文档里发表了一篇文章,然后拿出了上面这张图。照理来说,新闻联播是在18号对谷歌进行曝光,网友为了一探究竟,一般都会在18号以后键入儿子等等联想词,所以曲线应该在18号开始上升。而如果我们仔细研究个图表,就会发现,曲线从十号开始就很有规律的上升,而在十七号晚上,终于到达了高峰。为什么调用同样的数据却生成两张完全不一样的图表,是中途动了手脚,抑或是系统采取了不同的算法?

  下面的分析不完全是本人的原创,很多是某些人之前的无心插柳,但有心人听到了。

  我们看到曲线的折点之间似乎相差了一周的时间间隔,是不是对于一些冷僻的词组和关键字,Goolge Insight For Search会默认以一周为时间单位进行数据的采集和处理呢,然后根据常理的推算进行中间的数据点的“插补”。

  有网友提出了这样的观点,只可惜淹没在大家不理智的“嫉恶如仇”当中。所以我们看到的是城门失火,殃及池鱼(这样的比喻,百度的粉丝不要骂我),大量抵制国产搜索引擎的留言泛滥;更有甚者,把矛头直接对准了CCTV和它背后的靠山,言论偏激。不知道大家还记不记得,正义或是邪恶的斗争总是需要一个导火索,我想摆事实,讲道理,不想重蹈先人的冲动。

  谷歌在2006年正式在大陆开展服务,这几年的摸爬滚打实在不容易,正如李开复所言“我们希望做一个既合法、又完整的搜索引擎。这一点,谷歌总部是有共识的”企业也有自己的价值底线需要去传承,更何况是一家标榜人权的美国公司。不过,我记得曾经有一家美国民间人权组织AMNESTY INTERNATIONAL USA这样写道:(为了不被和谐,用截图好了)

来自美国的对Google的责难

  这是来自自家本土的赤裸裸的责难,不过凭借着清爽的界面和人性的服务,谷歌的市场份额不断上升。根据易观国际Enfodesk今年五月下旬发布的《2009年第1季度中国搜索引擎市场季度监测》显示,谷歌中国的市场份额首次超过30%。

搜索引擎市场份额

  我想,随着谷歌音乐以正版音乐的良好质量占据打击盗版的道德高地,越来越多的年轻人会选择谷歌。这正是一直以来谷歌在客户群体上的软肋。我们可以在下面这三张表格里面发现,谷歌的定位着眼拥有一定知识水平的客户,它的很多产品也更加拥有技术含量。

高端用户使用的搜索引擎
百度
Google
其它
比例
27.9%
58.7%
13.4%
 
25岁以下年龄段的市场份额
百度
Google
其他
比例
62.7%
23.7%
13.6%
25岁以上年龄段的市场份额
百度
Google
其他
比例
39.5%
42.7%
17.8%
 
学生中的市场份额
初中
高中
大专
大学本科
硕士
博士
百度
58.5%
71.5%
73.3%
58.9%
40.0%
25.0%
Google
24.5%
17.9%
8.9%
27.7%
50.0%
75.0%
其他
17.0%
10.6%
12.8%
13.4%
10.0%
0.0%

(以上数据来自:《2005年中国搜索引擎市场调查报告》北京部分)

  哈哈,写着写着就脱缰成野马,我的毛病一直没改。

  回归主题,为了证明Goolge Insight For Search处理数据有时会偏心。我特论述一下几点理由。

  一、外国人以周日打头阵,所以夹在中间的星期三成了一个采集数据的不错选择,当然数据应当算这一周七天的的平均数。到底是不是这样的呢?至少上图的十日就是周三。我们先放着,往下看。

  二、我在Goolge Insight For Search上搜索了以下三个关键字。结果非常漂亮。(MJ也是我的最爱,他在天堂如果看到这篇文章千万不要Beat Me啊)

Goolge Insight For Search上搜索MJ

Goolge Insight For Search上搜索MJ

  大家可以看到这三条曲线拥有完全相同的折点日期,分别是六月十七日、六月二十四日、七月一日、七月八日。它们之间相隔七天,而且均是周三。

  这恐怕不能解释成有人恶意在同一天刷爆关键搜索字了吧。

  三、我喜欢在碰到新鲜的互联网工具时第一时间看看它的帮助说明。以下就是我从一大堆英文网页中发现的蛛丝马迹。

英文

  从这句话中,我了解到对于不流行的词汇,机器会调整数据的频率,只是为了更容易的分析。因为看下面:

英文

  我想,这一句已经足够明了。

英文

  这句话表明它有数据流量的准入门槛。最后一句话更是关键中的关键,它讲的是谷歌比你们想的周到,早就采取了措施防止某些人恶意刷数。

  四、换一个角度考虑问题。可以看到这次谷歌的联想词保守了不少,措辞也不够地道。如果正在看这篇文章的你和我一样臭味相投,一定知道用这样的字眼去搜索简直太菜了。有一种可能,通过非刷新的方式篡改数据,郑重强调,这只是一种猜测!

  值得注意的是,月光博客里有一篇文章,讲的是07年的时候碰巧写了一篇有关搜索建议的博文,同时也做了截图,说明在“机器”根据频率进行联想词筛选时,的确出现了这样的结果,好笑的是,这里的词语简直不堪入目,是之前望尘莫及的。就好像中国人知识水平高了,荤段子也含蓄了。百度之前可能也存在这样的情况,现在可以光明正大的以五十步笑百步喽。

历史截图存档

(图片来源:月光博客)

  五、到目前为止,依然没有谷歌内部工作人员透露一点情报,我们看到的是李开复一如既往地堆彻绅士微笑,赔礼道歉,认真整改。如果内有不可告人的的冤情,自然会有人憋不住心中这口恶气。

  六、如果一个高频词汇的诞生可以如此轻而易举,那企业何必花巨资打造广告。

  可惜的是,老牌节目《焦点访谈》同样深陷公信危机。高同学的一句“记者叫我怎么说,我就怎么说”让人很难不把这一连串事件解释为阴谋。从上面一些图可以看出大家对于这条新闻的反映还是很大的,这个大就从侧面说明谷歌的做法根本没有节目中的“局外人”说的那么病入膏肓,因为只有心存疑虑,才会去点击,才会有流量爆炸。如果言论自由被限制,再加上一个连自己定位立场都不清楚的电视台搞舆论独裁,我还有什么话可以说呢。

  值得注意的是,今天我发现在CCTV专题谷歌低俗门的显要位置出现了这个

  究竟葫芦里卖的什么瓜,大家可以放肆意淫,冷静表态,小心求证。

CCTV的专题

(图片来源:中央电视台)

  事件已经过去了一个月,谷歌也的确有了一些动作。如果这真的是一场有目的的“杀猴儆鸡”。应该看看谷歌的整顿措施是不是有暗渡陈仓的嫌疑。首先谷歌关闭了搜索建议,这是一了百了的应急措施,我相信这个功能不会英年早逝。然后是去除“语言”和“地域”两个按钮,前者可让用户选择是搜索中文简体网页还是繁体网页,后者可选择搜索中国大陆网页还是全球网页。也就是所谓的关闭境外网站搜索业务。不过今日www.google.com已经开放了,只是中文首页依然没有那些按钮。前者是可以暂停的,后者关闭会造成严重的商业损失和国际舆论谴责,我想有些人不是傻子。

  结束前想对其他网友的疑虑试着做一下解答,应该可以吧?

  月光博客有两幅有出入的图,见下面:

搜索“儿子与情人”

Google Insights搜索“儿子与情人”(全球范围)

搜索“儿子与情人”

Google Insights搜索“儿子与情人”(北京地区)

  就一个地域范围的差别,为什么会造成数据采样频率的不一样呢,可能还是机器的算法吧。我们试着假设北京在事件发生后对此特别特别关注,全球数据因为人口基数大,让机器以为这个词汇不够热只适合一周一次去取数据,尽管事实上谷歌都有这个词条的每日流量记录,只是没有显示出来罢了。北京就不一样了,人口基数突然变少,这时机器就觉得有必要一天一次的形势展现给搜索者。

  今天晚上,我试着往谷歌里敲入“谷歌 陷害”这样的关键字,发现一些论坛到处转载这些不负责任的文章,只有月光博客还没失去理智。我认为有必要在这里进行辟谣,因为我希望大家可以用事实说话。

  针对it168上的“用数据说话 看看Google是如何被陷害的”文章的回击

  (这篇文章的点击量达到了16万以上,排搜索结果第一位)

  这是他的证据

陷害谷歌的证据

  首先根据曲线在17号戛然而止,说明这很有可能是20号以后的从14日到20日的平均数据。从这里可以很清楚地看到为什么Goolge Insight For Search的数据记录总是晚三天左右,因为要等到周六(20号),一周统计才结束,然后把平均数标注在周三上面。

  现在我正式提出以下疑虑:

  一、“这些搜索量100%来自北京。”这句话是错误的,上文的帮助文件已经说明,数据采集需要达到一定门槛,这导致了我国一些信息化程度不高的城市很难满足这个条件,所以显示为0.其次,Goolge Insight For Search的纵坐标可以生动地表示为是一个人打开google后可能会敲入某个关键词的概率,并不是指搜索量,图表明确标示了是“Interest over time”,这是与谷歌趋势的另一大区别。北京相对于其他省份是直辖市,人口比较少,所以基数小,这样会导致似乎北京人对“儿子母亲不正当关系”特别感兴趣,其实这是算法和截止时间造成的假象。证据在下面:

证据图示

证据图示

  上图中的时间截至七月十四日左右,照理说应该离新闻联播播出有将近快一个月了,为什么其他的省份的人如此麻木?照你的意思是,其他省份的人民根本就没有搜索过么?这充分说明北京对谷歌低俗门的“兴趣”表现出如此反常的行为特征,是有其深刻的原因的,有主观也有客观,岂是你厮两三口唾沫就解释得了的!

  那到底为什么会有如此奇特的现象产生,我认为应当和当地谷歌的普及率,当地自身的信息化程度,以及这个行政单位的人口(包括总数和人口成分)以及当地经济发展水平有关系。不信的话,可以再看下面这两张图:

证据图示

证据图示

  是不是觉得两张中国地图中的北京、山东、江苏、广东等省份都是颜色比较浓的。我认为,这两者(人口和新型词汇的查询率)之间存在某种联系。

  二、“有人故意在谷歌大量搜索黄色词汇,使单日黄色词汇搜索量同比猛增 5950% ,单月搜索总量与上月相比增幅达数千倍。”请原谅我才疏学浅,特别是大学里放弃了数学。请问从你提供的证据,如何得出上面一精一略两个数据。洗耳恭听。(并且你提到之前的“搜索量一直为0”,除数为0,你居然可以算出猛增5950%!我今日总算见识了传说中的“无中生有”)

无中生有的指控

无中生有的指控

  三、这两张图也是相当值得分析。我之前已经声明过,所有的材料均应该取自20号左右(前提是原作者只是一时糊涂,并没有可以造假)。我们发现在右边的“上升排行榜中”,根本就看不到日期。如果是18号以后这数据又有什么奇怪呢。下面是我的证据:

儿子与母亲

  看清楚了么,和谷歌趋势是一样的,都是十八号开始流量上涨的。并不是之前所说是人为刷上去的。

  接下来我们在来看看另一位粗心的网友。这位匿名网友在网路上发布了一题为《谷歌,你不应该服务中国大陆》的pdf文件。里面他提出了自己的疑惑:

谷歌,你不应该服务中国大陆

谷歌,你不应该服务中国大陆

  这里他犯了一个超级大的错误,这里的横坐标的17指的是17日的早上零点整,17到18指的是十八日一天,新闻18日播出,当然应该在这一天开始上涨。不是在十七号刷上去的。至于为什么全国范围内的曲线和北京的曲线如此相似,和之前那个糊涂蛋说数据流都来自北京的原因也是因为北京在事件发生后的确在趋势上起到了主导作用。同时我也希望广大网友在拿出证据的时候可以可以附上insight的时间段和过滤条件,只有一个曲线,如何使人信服?如果找你的逻辑,“杰克逊死亡”这个关键词也是25号刷出来的么?他是北京时间26号凌晨死的。见下图:

时间的计算

  (后记:我要感谢月光博客的博主,只有他在碰到数据的时候会进行冷静思考。以及那些忍不住寂寞,说上两句的网友,是你们的智慧,才有了这篇处处渗透马克思触角的文章,希望大家多用事实说话,毕竟曾经的焦点访谈已经离我们而去,所以我们只能相信自己的眼睛了)

  2009.7.20

  作者:潘亚东

  职业:法学本科大一

  地点:温州

  工作单位:浙江工商大学

  联系方式:qq:315110793