2009年8月5日星期三

如何建立个人网上品牌

  对于品牌而言,无论是你的公司或是自己,始终一致是至关重要的。品牌的概念是将某些名称、图像或设计,这些要素所形成的一种形象认知度,总体来讲它属于一种无形资产。如果您的名字或图像一直在不断变化,那么它怎么可能成功呢?

  始终使用相同的用户名

  无论是在什么地方注册服务,都要坚持使用完全相同的用户名。你应该在每一个系统都使用相同的名称,包括所有的即时通讯软件(Skype、AIM、MSN、雅虎通等),任何社交网站中创建的个人资料或页面(Facebook、MySpace、Twitter、LinkedIn、Flickr、Bebo等),以及你使用的任何一个社会化媒体(Digg、Stumble Upon、Reddit、del.icio.us等)。此外,你和他人沟通使用的电子邮件名称也应该使用这个名字,并且这个邮件要在公司文档或者市场营销中使用。

  选择一个用户名,坚持下去,每次都使用同样的拼写和结构。对于我的博客来说,我一直使用williamlong这个名字,从来没有改变,除非别人抢注这个名字。

  始终使用相同的图像

  当你在一个Web服务上创建一个帐户的时候,大多数系统会要求你上传个人资料图片。务必让你注册的每一项服务都使用同一张图片。如果你是要宣传公司的品牌,那么使用公司的LOGO。如果你想建立自己个人品牌,那就在所有的Web服务中使用完全相同的头像。

  对于公司来说,主要有两个标志图像需要使用,实际的公司LOGO图片以及很小的favicon小图标。这个小图标应该是网站上的favicon图标,可以在只允许很小图片的服务上(例如即时通讯客户端)使用。

  保持一致的设计风格

  某些服务,例如Facebook可能无法实现,但对于有些网站,如MySpace和Twitter的,我们可以使用一个自定义的模板风格来建议一个独立的品牌形象,也就是在个人资料上使用同一个背景和LOGO图片,如果有可能的话,在你的博客或者网站上也使用相同的设计模板。

  使用电子邮件签名

  这个听起来似乎没什么必要,但实际上,电子邮件仍然是最受欢迎的进行交流和工作的方式。如果你每天都要处理电子邮件,那你应该做一些设置,保持你的电子邮件一致。最简单的方法就是建立一个电子邮件签名,它会在发送邮件的时候自动添加到每个电子邮件的底部。

  对于论坛来说也是同样的道理。

  推广你的品牌

  为了使你的个人品牌获得成功,你要在各种不同的用户群中显得出众,首先确保您已经做好了一个最基本的网站,并建立了一个邮件地址。这些可以在各类社交网站或社会化媒体上使用。你还应该有至少一个即时通讯帐户。在这之后,你应该搜索一下同行的博客,并参与评论和留言,注意要使用相同的头像和用户名,使用Gravatar可以自动完成这个功能。

  最后,你需要花一些时间来浏览和你博客主题相关的社交类网站,并在上面建立个人档案。这些社交类网站包括论坛、SNS网站、行业会议网站等等。

  但是,切记不能在过多的网站中推广你的品牌形象。虽然在大量网站上宣传似乎很美好,但同样重要的是,你是那些网络的贡献者。只有积极参与到社交网络的交流中,才能较为顺利的推广个人品牌,而如果推广的网站太多,则没有人能有那么多精力放在上面。

  总体而言,虽然个人品牌不会直接给你的博客带来流量,并且个人品牌怎么才算成功很难衡量,但历史已经证明,具有良好品牌的公司也业界会得到越来越多的认同并成为行业领袖。以上的方案可以帮助你或你的公司在丰富多彩的网络上成功建立个人或公司的品牌。

  英文原文:How To Build Your Online Brand
  中文翻译:William Long
  中文译文:如何建立个人网上品牌

2009年8月4日星期二

你的密码还安全吗?

  密码安全是一个系统的基本安全要素,读者这次投递的稿件论述只用MD5进行密码HASH并不安全,如果将这个HASH数值保存在数据库中,有可能会被人破解。我认为,比较安全的密码保存方法是MD5(用户名+用户密码+随机数),这个HASH数值不仅无法反向破解,而且无法替换,完美的解决了读者的这个疑问。以下是读者的投递文章。

  你的密码安全吗?你觉得你的密码已经很复杂了?密码再复杂,都有可能被破解掉。

  让我们做个实验吧,你手里有数据库吗?如果有,用数据库的函数计算你的密码md5值。

  如果没有,可以到这个网站去计算。为了你的密码安全,不要用“真”的密码去试,虚拟一个密码吧。我拿密码“goodday ”来试验。在上面的网站计算goodday的md5值(32位)。得出结果0CF21CE35322D2E56D745E319B933470

  我们拿这个值到这个网站去破解吧。得到的结果是什么?goodday!说明这个密码并不安全。

  为什么这么说?假如你是某论坛的用户,因为这个论坛管理不当,或其它人为原因,导致数据库被“偷”。那你的用户名和密码就被hacker拿去了,他们可以通这类似的网站“破解”你的密码。有了你的用户和密码,可以在这个论坛以你的名义发贴,修改。可以查你相关的资料,然后以相同的密码试你在其它应用上的帐号,比如说QQ,facebook之类的。

  md5的反算是相当麻烦的,甚至可以说是不可行的(据说山东某大学的女博士破解了它,但破解方法有多少人懂?)。但为什么可以通过md5值“破解”掉密码呢?其实cmd5这个网站做得相当的简单,它只是不是用数据库两个字段而已,一个字段保存原来的字符串,一个字段保存字符串的md5值。它通过存储过程(或其它程序)插入一些字符串(如密码字典),md5值由数据库生成。页面查找只是查找相关记录而已。

  然后,这个字符串添加的渠道就是个问题了。这些网站似乎还没有意识到这个利益。

  假如说,这些网站提供用户查询功能,包括md5的正向运算,用户好奇要算算自己密码的md5值。算完后,网站“顺便”把它的密码和md5值保存起来,日积月累,那这个数据库就相当于一个超大的密码字典,卖出去肯定值钱。

  如果有人以这个数据库作为密码字典写破解程序,破解起来就容易多了。

  我觉得,这些都应该引起sysadmin,DBA,技术总监和网络警察的注意。

  传统密码离它死去的日子还有多远?

  作者:TonyLiao 原文出处

  另外,对加密系统感兴趣的同学可以参考我的一篇文章《加密技术在企业数据安全中的应用》。

2009年8月3日星期一

基于GAE的Twitter RSS Feed过滤工具

  经常使用Twitter的用户,一定会遇到同步Twitter信息到其他平台的功能,通常都会使用RSS Feed的方法同步。当用户使用Twitter的RSS Feed的时候,会发现这个Feed中包含用户的username,看着很不舒服,并且不能过滤掉@回复的信息。

  这时候,我们就需要一个过滤程序,对Feed进行处理,使用程序自动过滤掉原始Twitter Feed中的用户名,同时还过滤掉所有回复给他人(包括RT)的信息,只保留自己的信息,然后重新以RSS Feed的方式输出,供其第三方应用程序使用,例如,可以在TwitterFeed中加入这个RSS Feed地址,然后使用TwitterFeed更新Hellotxt,来实现通过Twitter更新多个社会化网络。

  先前我曾经介绍过一个基于PHP的过滤程序,可以使用PHP语言实现这个功能,现在,我将这个程序使用Python改写并开源,该项目名称为twitter-feed,使其可以在Google App Engine上使用。

  将其放在Google App Engine的好处是稳定和免费,不用购买虚拟主机就可以实现,稳定性也很好。

  安装使用说明:

  下载方法,使用TortoiseSVN检出这个SVN地址,然后,编辑app.yaml,修改为自己的appspot应用名,接着,修改feed.py,将Twitter username修改为自己的Twitter用户名,然后就可以按照此文的方法进行发布,执行 appcfg.py update 目录名,使用Gmail帐号和密码,就可以发布了。

  发布之后,过滤的Feed地址应该是myapp.sppspot.com/feed或者myapp.sppspot.com/feed.py,使用这个Feed地址即可替换Twitter原有的Feed地址。

2009年8月2日星期日

Google App Engine使用简介

  Google App Engine是Google提供的基于Google数据中心的开发、托管网络应用程序的平台,每个 Google App Engine 应用程序都可使用500MB存储空间,以及可支持每月约500万页面浏览量的CPU和宽带。目前每个用户可以免费创建十个应用。

  下载开发环境

  Google App Engine SDK 下载地址http://code.google.com/intl/zh-CN/appengine/downloads.html

  Python 2.5.4 下载地址http://www.python.org/download/releases/2.5.4/

  本地调试

  使用dev_appserver.py myapp在本地启动Google App Engine服务,然后通过http://localhost:8080访问自己的应用。

  dev_appserver.py --port=9999 myapp 指定端口号

  发布应用

  使用 appcfg.py update myapp来发布开发好的应用。发布好的应用可以使用 myapp.appspot.com 来访问。

  相关资源

  开发人员指南 http://code.google.com/intl/zh-CN/appengine/docs/

  开发示例 http://code.google.com/p/google-app-engine-samples/

  精选文章 http://code.google.com/intl/zh-CN/appengine/articles/

  发布第三方程序到Google App Engine

  SVN checkout 源代码,放到一个目录中,

  进入目录,编辑app.yaml,修改为自己的应用名

  执行 appcfg.py update 目录名

  比较有用的第三方应用有:

  GAppProxy http://code.google.com/p/gappproxy/

  birdnest  http://code.google.com/p/birdnest/

  欢迎大家补充。

2009年7月31日星期五

轻松搭建一个Windows SVN服务器

  前文所述SVN客户端使用的时候,用的SVN服务器通常为外部,例如Google Code的服务器,不过,做为一个程序开发人员,就算自己一个人写程序,也应该有一个SVN版本控制系统,以便对开发代码进行有效的管理。这里我就介绍一个在Windows环境下简单快速搭建SVN服务器的方法。

  通常的SVN服务器是搭建在Linux等系统下,例如用Apache+SVN配置,Linux下的SVN性能会非常好,但配置有些繁琐,如果SVN服务器只有自己使用,那么可以直接把SVN服务器搭建在个人Windows环境下使用。

  目前较为简单的方案是VisualSVN Server。该SVN服务器是免费的,支持Windows NT, 2000, XP and 2003等环境,安装非常简单。

  安装的时候可以选择SVN走http协议还是https协议,http协议速度快一些,而https协议安全性好。两者均可以从浏览器直接访问SVN项目。

  安装完成后打开,可以看到一个微软的MMS管理界面,在里面可以轻松添加设置项目。用户权限可以使用Windows的用户,也可以单独新建用户。如果原先有一个SVN数据,则可以在界面上导入原有的SVN数据。

VisualSVN Server

  SVN客户端依旧推荐使用Windows下的TortoiseSVN,两者搭配起来,非常好用。

TortoiseSVN使用帮助和下载

  随着应用软件的开发规模及复杂程度日趋大型化,使得软件开发模式从早期的个人作坊式渐渐转变为团队协作开发方式,在这种团队协作的开发模式,为了管理好开发项目,就离不开版本控制软件,在开发过程中采用版本控制软件,能够完整地保存开发中对应用程序每一个源文件所有的修改记录,充分地利用版本控制软件能够对软件开发进行卓有成效的管理。

  常见的版本控制软件有VSS、CVS和SVN

  VSS(Visual Source Safe)为微软的产品,较为易学易用,使用微软的产品进行开发通常都用这个,但是VSS只能在windows平台上运行,并且不是免费软件,安全性也不高,因此应用并不太广泛。

  CVS(Concurrent Version System)是免费开源的配置管理工具,其源代码和安装文件都可以免费下载。由于其简单易用、功能强大,跨平台,支持并发版本控制,而且免费,它在全球中小型软件企业中得到了广泛使用。不过CVS的部署比VSS要复杂一些。

  SVN(Subversion)作为CVS的重写版和改进版,其目标就是作为一个更好的版本控制软件,取代CVS.总的来说,CVS在发展的过程中逐渐失去优势,已经不再适合现代开发,目前,绝大多数CVS服务已经改用SVN.

  目前流行的Google Code开源项目托管平台就是使用SVN进行版本控制。

  Windows下的SVN客户端

  TortoiseSVN是Windows下的SVN(Subversion)版本控制系统的一个免费开源客户端,可以超越时间的管理文件和目录。文件保存在中央版本库,除了能记住文件和目录的每次修改以外,版本库非常像普通的文件服务器。用户可以将文件恢复到过去的版本,并且可以通过检查历史知道数据做了哪些修改,谁做的修改。

  下载TortoiseSVN

  TortoiseSVN的官方下载地址是 http://tortoisesvn.net/downloads ,普通Windows用户下载32位软件即可,下载地址后面还有中文语言包(Language packs)提供,安装完后可以将TortoiseSVN的界面编程简体中文。

  TortoiseSVN使用简介

  安装完成TortoiseSVN后,会发现文件夹图标被重载,不同的重载图标所表示不同的意义。所有的TortoiseSVN命令都是通过windows资源管理器的右键菜单执行。右键点击一个文件或者文件夹,大多数菜单项都能够直接显示。比较常用的功能是“更新”和“提交”。通过“更新”可以从SVN服务器上下载最新的代码,“提交”则可以将本地修改的代码上传到SVN服务器上。

  更为详细的TortoiseSVN使用帮助,请参考TortoiseSVN中文手册

  Google Code上使用SVN

  在Google Code上使用SVN提交的时候,会要求输入密码,这个密码并非你的Gmail密码,而是Google Code密码,在Profile-Settings中可以看到你的Google Code密码,我第一次使用Google Code的时候就误以为是Gmail密码,结果重复输入了N次密码都没提交成功。

2009年7月30日星期四

解读谷歌中国低俗门,谷歌被陷害证据不足?

  一个月前的谷歌低俗门事件疑点重重,由于网络流出谷歌可能被当局陷害的证据,网民几乎往谷歌一边倒。本人学习法律,深知证据的重要性和国人人云亦云的特点,希望用更多的数据进行分析,以求达到辟谣的目的。我不太懂技术层面的原理,同时也不谙谷歌这两个统计工具的算法,我把它们当成未知的函数,希望通过代入广泛的变量,期许管中窥豹,多多少少了解一点它们的“函数性质”。我的结论是:仅仅通过网路上的证据,尚不足以认定谷歌遭陷害的事实。

  这张截图是今日央视官网焦点板块的“谷歌专区”。据说,今年谷歌中国三次收到了央视的橄榄枝,前两次可谓“众星捧月”,但是这一次,谷歌一个人遭批斗。有意思的是,三次都登上了冠冕堂皇的《新闻联播》的谷歌中国,理由并不是那么冠冕堂皇,三次都是因为涉嫌充当网络色情的催化剂。我们可以看到,央视和中国互联网协会互联网违法和不良信息举报中心从来没有如此完美地收官,似乎高同学就是“一锅白米饭中的一粒鼻屎”,大煞风景。

解读谷歌中国低俗门

  我其实很早就从手机冲浪里了解了这次事件,但是当时只是一笑而过。昨天晚上我在写一篇关于中国网络审查制度的文章的时候,不经意看到了一篇文章。大意就是指谷歌被暗箭所伤,实乃虚拟世界上演真实的六月飞雪!我仔细分析了大家的证据和臆测,同时不忘看看网友的留言,突然感觉这件事情其实没有那么简单。我在想,有理由写一篇文章来分享一些我自己不成熟的见解,毕竟孰是孰非,自有公理,“不可以用谎言对抗谎言。”(月光语)

  首先看看网路流出的谷歌被陷害的说法。据说谷歌上搜索“儿子”后出现的低俗内容都是之前人为刷关键字形成的。

  主角就是下面这张图片。

谷歌被陷害

(图片来源:月光博客)

  这张图究竟有什么玄机呢?

  这是谷歌在今年刚刚推出的工具“Goolge Insight For Search”它可以形象直观地表现出人们的搜索兴趣,是关键字的流行风向标。目前只有英文版本。注意它的纵坐标的参数的意义。 They don't represent absolute search volume numbers,那它指什么呢?假设迈克尔杰克逊挂掉那天,北京全市有300万的人用谷歌进行搜索,其中有20万人打入了“迈克尔.杰克逊”这几个字;同一天,浙江省全省有1000万人使用谷歌,其中有65万人搜索这个词语,说明北京有7%对杰克逊感兴趣,而浙江有6.5%的网友对迈克尔情有独钟;接着北京为标准分成100个级别,浙江的数据就是100乘以6.5处以7,大约等于93.这时我们就会看到这样的图表:

数据图表

(数据仅供参考)

  当时在谷歌中国里,也有一个它的祖宗Google Trends,功能基本上是一样的,只是前者的推出更像是迎合了一些需要高级功能的研究人员和广告商。需要注意的是,它们使用的数据库是一样的。那么,Google Trends又是怎么说的呢?

Google Trends的数据图表

(图片来源:月光博客)

  可以清楚地看到,正是由于新闻联播和焦点访谈无与伦比的号召力,广大网民纷纷在新闻播出后即18日上网求证,所以造成了曲线在十八日大高潮的来临。这是其实也是疑点之一,我会在下面的论述中提及。

  于是有人在谷歌文档里发表了一篇文章,然后拿出了上面这张图。照理来说,新闻联播是在18号对谷歌进行曝光,网友为了一探究竟,一般都会在18号以后键入儿子等等联想词,所以曲线应该在18号开始上升。而如果我们仔细研究个图表,就会发现,曲线从十号开始就很有规律的上升,而在十七号晚上,终于到达了高峰。为什么调用同样的数据却生成两张完全不一样的图表,是中途动了手脚,抑或是系统采取了不同的算法?

  下面的分析不完全是本人的原创,很多是某些人之前的无心插柳,但有心人听到了。

  我们看到曲线的折点之间似乎相差了一周的时间间隔,是不是对于一些冷僻的词组和关键字,Goolge Insight For Search会默认以一周为时间单位进行数据的采集和处理呢,然后根据常理的推算进行中间的数据点的“插补”。

  有网友提出了这样的观点,只可惜淹没在大家不理智的“嫉恶如仇”当中。所以我们看到的是城门失火,殃及池鱼(这样的比喻,百度的粉丝不要骂我),大量抵制国产搜索引擎的留言泛滥;更有甚者,把矛头直接对准了CCTV和它背后的靠山,言论偏激。不知道大家还记不记得,正义或是邪恶的斗争总是需要一个导火索,我想摆事实,讲道理,不想重蹈先人的冲动。

  谷歌在2006年正式在大陆开展服务,这几年的摸爬滚打实在不容易,正如李开复所言“我们希望做一个既合法、又完整的搜索引擎。这一点,谷歌总部是有共识的”企业也有自己的价值底线需要去传承,更何况是一家标榜人权的美国公司。不过,我记得曾经有一家美国民间人权组织AMNESTY INTERNATIONAL USA这样写道:(为了不被和谐,用截图好了)

来自美国的对Google的责难

  这是来自自家本土的赤裸裸的责难,不过凭借着清爽的界面和人性的服务,谷歌的市场份额不断上升。根据易观国际Enfodesk今年五月下旬发布的《2009年第1季度中国搜索引擎市场季度监测》显示,谷歌中国的市场份额首次超过30%。

搜索引擎市场份额

  我想,随着谷歌音乐以正版音乐的良好质量占据打击盗版的道德高地,越来越多的年轻人会选择谷歌。这正是一直以来谷歌在客户群体上的软肋。我们可以在下面这三张表格里面发现,谷歌的定位着眼拥有一定知识水平的客户,它的很多产品也更加拥有技术含量。

高端用户使用的搜索引擎
百度
Google
其它
比例
27.9%
58.7%
13.4%
 
25岁以下年龄段的市场份额
百度
Google
其他
比例
62.7%
23.7%
13.6%
25岁以上年龄段的市场份额
百度
Google
其他
比例
39.5%
42.7%
17.8%
 
学生中的市场份额
初中
高中
大专
大学本科
硕士
博士
百度
58.5%
71.5%
73.3%
58.9%
40.0%
25.0%
Google
24.5%
17.9%
8.9%
27.7%
50.0%
75.0%
其他
17.0%
10.6%
12.8%
13.4%
10.0%
0.0%

(以上数据来自:《2005年中国搜索引擎市场调查报告》北京部分)

  哈哈,写着写着就脱缰成野马,我的毛病一直没改。

  回归主题,为了证明Goolge Insight For Search处理数据有时会偏心。我特论述一下几点理由。

  一、外国人以周日打头阵,所以夹在中间的星期三成了一个采集数据的不错选择,当然数据应当算这一周七天的的平均数。到底是不是这样的呢?至少上图的十日就是周三。我们先放着,往下看。

  二、我在Goolge Insight For Search上搜索了以下三个关键字。结果非常漂亮。(MJ也是我的最爱,他在天堂如果看到这篇文章千万不要Beat Me啊)

Goolge Insight For Search上搜索MJ

Goolge Insight For Search上搜索MJ

  大家可以看到这三条曲线拥有完全相同的折点日期,分别是六月十七日、六月二十四日、七月一日、七月八日。它们之间相隔七天,而且均是周三。

  这恐怕不能解释成有人恶意在同一天刷爆关键搜索字了吧。

  三、我喜欢在碰到新鲜的互联网工具时第一时间看看它的帮助说明。以下就是我从一大堆英文网页中发现的蛛丝马迹。

英文

  从这句话中,我了解到对于不流行的词汇,机器会调整数据的频率,只是为了更容易的分析。因为看下面:

英文

  我想,这一句已经足够明了。

英文

  这句话表明它有数据流量的准入门槛。最后一句话更是关键中的关键,它讲的是谷歌比你们想的周到,早就采取了措施防止某些人恶意刷数。

  四、换一个角度考虑问题。可以看到这次谷歌的联想词保守了不少,措辞也不够地道。如果正在看这篇文章的你和我一样臭味相投,一定知道用这样的字眼去搜索简直太菜了。有一种可能,通过非刷新的方式篡改数据,郑重强调,这只是一种猜测!

  值得注意的是,月光博客里有一篇文章,讲的是07年的时候碰巧写了一篇有关搜索建议的博文,同时也做了截图,说明在“机器”根据频率进行联想词筛选时,的确出现了这样的结果,好笑的是,这里的词语简直不堪入目,是之前望尘莫及的。就好像中国人知识水平高了,荤段子也含蓄了。百度之前可能也存在这样的情况,现在可以光明正大的以五十步笑百步喽。

历史截图存档

(图片来源:月光博客)

  五、到目前为止,依然没有谷歌内部工作人员透露一点情报,我们看到的是李开复一如既往地堆彻绅士微笑,赔礼道歉,认真整改。如果内有不可告人的的冤情,自然会有人憋不住心中这口恶气。

  六、如果一个高频词汇的诞生可以如此轻而易举,那企业何必花巨资打造广告。

  可惜的是,老牌节目《焦点访谈》同样深陷公信危机。高同学的一句“记者叫我怎么说,我就怎么说”让人很难不把这一连串事件解释为阴谋。从上面一些图可以看出大家对于这条新闻的反映还是很大的,这个大就从侧面说明谷歌的做法根本没有节目中的“局外人”说的那么病入膏肓,因为只有心存疑虑,才会去点击,才会有流量爆炸。如果言论自由被限制,再加上一个连自己定位立场都不清楚的电视台搞舆论独裁,我还有什么话可以说呢。

  值得注意的是,今天我发现在CCTV专题谷歌低俗门的显要位置出现了这个

  究竟葫芦里卖的什么瓜,大家可以放肆意淫,冷静表态,小心求证。

CCTV的专题

(图片来源:中央电视台)

  事件已经过去了一个月,谷歌也的确有了一些动作。如果这真的是一场有目的的“杀猴儆鸡”。应该看看谷歌的整顿措施是不是有暗渡陈仓的嫌疑。首先谷歌关闭了搜索建议,这是一了百了的应急措施,我相信这个功能不会英年早逝。然后是去除“语言”和“地域”两个按钮,前者可让用户选择是搜索中文简体网页还是繁体网页,后者可选择搜索中国大陆网页还是全球网页。也就是所谓的关闭境外网站搜索业务。不过今日www.google.com已经开放了,只是中文首页依然没有那些按钮。前者是可以暂停的,后者关闭会造成严重的商业损失和国际舆论谴责,我想有些人不是傻子。

  结束前想对其他网友的疑虑试着做一下解答,应该可以吧?

  月光博客有两幅有出入的图,见下面:

搜索“儿子与情人”

Google Insights搜索“儿子与情人”(全球范围)

搜索“儿子与情人”

Google Insights搜索“儿子与情人”(北京地区)

  就一个地域范围的差别,为什么会造成数据采样频率的不一样呢,可能还是机器的算法吧。我们试着假设北京在事件发生后对此特别特别关注,全球数据因为人口基数大,让机器以为这个词汇不够热只适合一周一次去取数据,尽管事实上谷歌都有这个词条的每日流量记录,只是没有显示出来罢了。北京就不一样了,人口基数突然变少,这时机器就觉得有必要一天一次的形势展现给搜索者。

  今天晚上,我试着往谷歌里敲入“谷歌 陷害”这样的关键字,发现一些论坛到处转载这些不负责任的文章,只有月光博客还没失去理智。我认为有必要在这里进行辟谣,因为我希望大家可以用事实说话。

  针对it168上的“用数据说话 看看Google是如何被陷害的”文章的回击

  (这篇文章的点击量达到了16万以上,排搜索结果第一位)

  这是他的证据

陷害谷歌的证据

  首先根据曲线在17号戛然而止,说明这很有可能是20号以后的从14日到20日的平均数据。从这里可以很清楚地看到为什么Goolge Insight For Search的数据记录总是晚三天左右,因为要等到周六(20号),一周统计才结束,然后把平均数标注在周三上面。

  现在我正式提出以下疑虑:

  一、“这些搜索量100%来自北京。”这句话是错误的,上文的帮助文件已经说明,数据采集需要达到一定门槛,这导致了我国一些信息化程度不高的城市很难满足这个条件,所以显示为0.其次,Goolge Insight For Search的纵坐标可以生动地表示为是一个人打开google后可能会敲入某个关键词的概率,并不是指搜索量,图表明确标示了是“Interest over time”,这是与谷歌趋势的另一大区别。北京相对于其他省份是直辖市,人口比较少,所以基数小,这样会导致似乎北京人对“儿子母亲不正当关系”特别感兴趣,其实这是算法和截止时间造成的假象。证据在下面:

证据图示

证据图示

  上图中的时间截至七月十四日左右,照理说应该离新闻联播播出有将近快一个月了,为什么其他的省份的人如此麻木?照你的意思是,其他省份的人民根本就没有搜索过么?这充分说明北京对谷歌低俗门的“兴趣”表现出如此反常的行为特征,是有其深刻的原因的,有主观也有客观,岂是你厮两三口唾沫就解释得了的!

  那到底为什么会有如此奇特的现象产生,我认为应当和当地谷歌的普及率,当地自身的信息化程度,以及这个行政单位的人口(包括总数和人口成分)以及当地经济发展水平有关系。不信的话,可以再看下面这两张图:

证据图示

证据图示

  是不是觉得两张中国地图中的北京、山东、江苏、广东等省份都是颜色比较浓的。我认为,这两者(人口和新型词汇的查询率)之间存在某种联系。

  二、“有人故意在谷歌大量搜索黄色词汇,使单日黄色词汇搜索量同比猛增 5950% ,单月搜索总量与上月相比增幅达数千倍。”请原谅我才疏学浅,特别是大学里放弃了数学。请问从你提供的证据,如何得出上面一精一略两个数据。洗耳恭听。(并且你提到之前的“搜索量一直为0”,除数为0,你居然可以算出猛增5950%!我今日总算见识了传说中的“无中生有”)

无中生有的指控

无中生有的指控

  三、这两张图也是相当值得分析。我之前已经声明过,所有的材料均应该取自20号左右(前提是原作者只是一时糊涂,并没有可以造假)。我们发现在右边的“上升排行榜中”,根本就看不到日期。如果是18号以后这数据又有什么奇怪呢。下面是我的证据:

儿子与母亲

  看清楚了么,和谷歌趋势是一样的,都是十八号开始流量上涨的。并不是之前所说是人为刷上去的。

  接下来我们在来看看另一位粗心的网友。这位匿名网友在网路上发布了一题为《谷歌,你不应该服务中国大陆》的pdf文件。里面他提出了自己的疑惑:

谷歌,你不应该服务中国大陆

谷歌,你不应该服务中国大陆

  这里他犯了一个超级大的错误,这里的横坐标的17指的是17日的早上零点整,17到18指的是十八日一天,新闻18日播出,当然应该在这一天开始上涨。不是在十七号刷上去的。至于为什么全国范围内的曲线和北京的曲线如此相似,和之前那个糊涂蛋说数据流都来自北京的原因也是因为北京在事件发生后的确在趋势上起到了主导作用。同时我也希望广大网友在拿出证据的时候可以可以附上insight的时间段和过滤条件,只有一个曲线,如何使人信服?如果找你的逻辑,“杰克逊死亡”这个关键词也是25号刷出来的么?他是北京时间26号凌晨死的。见下图:

时间的计算

  (后记:我要感谢月光博客的博主,只有他在碰到数据的时候会进行冷静思考。以及那些忍不住寂寞,说上两句的网友,是你们的智慧,才有了这篇处处渗透马克思触角的文章,希望大家多用事实说话,毕竟曾经的焦点访谈已经离我们而去,所以我们只能相信自己的眼睛了)

  2009.7.20

  作者:潘亚东

  职业:法学本科大一

  地点:温州

  工作单位:浙江工商大学

  联系方式:qq:315110793