2007年4月9日星期一

谷歌承认拼音法词库存在问题

  据新浪科技报道,在搜狐今天于官方首页高调声明,指责谷歌拼音输入法非法盗用搜狗拼音输入法的词库,并要求Google立即停止谷歌输入法的下载、运营和宣传,将搜狗谷歌输入法之争推向高潮,谷歌今天也进行了回应,声明“该词库在试验阶段确实包含了一些非Google(谷歌)的数据源”,并表示“抱歉”,同时在一周内发布了第三个更新版本,更新了词库,“目前的词库是从谷歌多年积累的海量搜索数据库数千万条目中产生。”

  Google这个声明应该是承认了输入法词库的确存在着问题。这实在是一件令人遗憾和失望的事情。当然,我还是善意地认为,Google故意抄袭搜狗词库的可能性不大,可能是开发人员自身的问题。不过,Google的开发人员犯这样的错误实在是不应该,即使开发人手不够,也向Google总部申请相关资源,而不是直接把别人的东西拿来使用,谷歌输入法又不是开源产品,词库这东西和拼音输入法内核关联可能并不大,正当的购买一下第三方的数据也没什么大不了,汉语字典中的词库其实也不少,Google搜索引擎中也会积累大量新词,这样不就不会产生现在这些麻烦了。

  稍后,Google中文官方博客“Google黑板报”上正式发表了对于搜狐的道歉,事情应该算是有了个交代。Google介入拼音输入法这档子事,炒作了有大半年时间,真没想到最后竟然会出这种事情,实在是不可思议啊。谷歌的这次事情使得很多Google爱好者和支持者感到失望。我感觉谷歌中国像是小说《围城》中的方鸿渐,可以同时尝到老实人吃亏骗子被揭穿这两种截然不同的滋味。莫非真如钱钟书所言,“国外的好东西,到了中国没有不走样的”。

DreamHost的DNS故障

  DreamHost的DNS服务器今天发生了故障,带来的问题就是,所有使用DreamHost提供的DNS的网站,全部都无法访问,包括DreamHost自己的网站。DreamHost的服务器故障频频,居然自身都无法访问,可真是丢人丢到家了啊。

  我一开始并没有发现这个问题,别人告诉我DreamHost无法访问,我还很奇怪,后来才知道,我的DNS用的是Godaddy的DNS服务器,没有使用DreamHost的,所以我访问并没有出现什么异常情况。

  DreamHost也实在不怎么样,我现在ping其主站都ping不同,如下图所示,出现“Unknown host”,不过其IP地址还是可以直接访问的。

DreamHost的DNS故障

  所有购买DreamHost的虚拟主机的,如果目前无法访问自己的网站,可以参考以下两种解决方法:

  1. 如果域名不是在DreamHost购买的,那么可以登录自己的域名控制台,更换一个DNS服务器,将DNS服务器修改为域名服务商默认的DNS,将IP地址直接指向DreamHost的主机IP地址,这样就不会受到DreamHost的DNS故障影响了。
  2. 如果域名是在DreamHost购买的,那就需要更改DNS到一个免费的DNS服务中了,估计也不是太好找,如果有耐心的话,可以等待一下,DNS故障估计几个小时后DreamHost会自己解决的。

  DreamHost的服务器出现故障已经不是一次两次了,看来这个主机还真是有些问题呢。

2007年4月7日星期六

焕然一新的Adsense广告

  大家可能已经注意到了Adsense广告单元最近在外观上发现了一些变化,据Adsense官方博客报道, Adsense目前已经将广告单元更换为一种较为清新的广告样式。

  经过Google的广泛的测试和研究后,Google认为新形式的广告不仅仅令用户赏心悦目,并且对于发布者和广告商来说也比以前的效果更好,Google将在之后的几天逐步将所有旧样式的广告自动转换为新样式的广告,用户不必担心,转换过程中广告单元依旧会匹配网站内容,并且用户的广告字体、色彩都不会改变。

  预计,新的设计将会使得广告单元格式更清晰、更具吸引力,进而带动广告点击率的提升,使得Adsense用户收入得到提高,Adwords用户的点击率也会提高。当然,Google依旧会在未来探索新的改善外观的广告形式,希望能有更好的广告外观,达到广告商、网站、Google的三方共赢。

  各位加入Adsense的网站也可以观察一下自己网站的点击率和广告收入,看看这些天的点击率是否比以前要多一些。

谷歌拼音输入法的词库导入方法

  这些天使用谷歌拼音输入法的时候,发现谷歌输入法的用户词库导入导出功能有严重的缺陷,不能方便的导入个人词库。不过通过一些变通的方法也可以完成批量词库的导入。

  对于个人词库来说,人名是一个非常重要的词库,特别是公司同事的姓名。对于搜狗输入法来说,可以直接将以回车分割的姓名文件做为词库导入,非常方便扩充个人词库。通常情况下,我们只需要将个人通讯录按照姓名存为文本,就可以导入到搜狗输入法,很简单且易于操作。我们还可以将经常使用的专业单词也批量导入,这样就可以让自己的输入法在短时间内迅速成为一个个性化的顺手而好用的输入法。可是在谷歌输入法中却不支持这样的简易导入方式,只支持指定格式的词库导入,很不方便。

  不过,我通过分析搜狗和谷歌两者的词库格式,发现用户词库还是很类似的,于是我就依样画葫芦,找到了一个可以将搜狗用户词库转换为谷歌用户词库的方法,是的谷歌输入法中也可以批量导入搜狗拼音的用户词库。

  首先要将需要的词语先导入搜狗输入法,然后再搜狗中选择导出,将用户词库导出为一个文本文件。

  之后,在EXCEL中打开词库,会出现一个“文本导入向导”,选择分隔符号为空格,就会出现如下图的显示界面。

文本处理

  删除1、2行,将B列放在第一列,C列放在第二列,A列放在第三列,D列删除。最终整理为如下图所示的格式。

文本处理

  然后将文件另存为“文本文件(制表符分割)”。用记事本打开这个文件,将单引号全部替换为空格,重命名为dic后缀的文本文件。

  这时候,再在谷歌拼音输入法设置的“辞典”里点导入,即可导入词库,我用此方法成功将我在搜狗拼音输入法里的1万多词库导入了。

  最后,谷歌输入法于今天更新了版本为1.0.16.0,支持如下功能:

  1. 支持“TAB”键翻页功能
  2. 修改双拼方案中的错误
  3. 全角模式下“/”键将打出顿号
  4. 修正了Windows Vista系统下的安全问题
  5. 词典质量更新

  更新后,原先词库中的搜狗开发人员的姓名就没有了。另,搜狗实验室里有搜狗提供的公开词库供人下载,里面的“使用许可证”指出,“在利用搜狗实验室数据进行深入研究而获得的成果中,应指明数据的提供方(搜狐研发中心)”。

2007年4月5日星期四

搜狗拼音和谷歌拼音之争

  谷歌拼音输入法昨天刚刚发布,就引起了不少争议,在techweb就有人发帖说,谷歌拼音输入法的词库是使用搜狗输入法的,理由是“在搜狗词库建立之初就加入了词库指纹,即十几个很偏僻、但不影响输入的词汇。里面就有数位搜狗员工的名字。Google居然也能够打出来。例如:赵立洋、佟子健、吕杰勇。”

  我尝试使用谷歌输入法输入这些人的名字,的确是这样的,这些人的名字是很典型的冷僻词,一个输入法的词库再大,也不可能将网络所有冷僻词都包含进去,因此我也怀疑可能两者使用较为类似的词库。胡洋则认为这可能是由于谷歌使用网络搜索的原因。我觉得这个解释有点牵强,毕竟那些词是相当生僻的单词。不过也有可能,两者都引用了一些公共的无版权的词库,而这个词库中恰好又有这些人的名字。为了求证两者词库是否相同,我测试输入更多的词汇,这时我发现有些词是谷歌有的而搜狗没有,比如“和菜头”,在谷歌输入法中就是一个词汇,而搜狗则没有,对于一些其他的博客名或者网站名也有类似的效果,因此我觉得,可能谷歌输入法的词库使用了一些公共词库以及大量人们的搜索词汇组成的,因此数量较多,写长句子的时候较为顺手,两者词库虽然相似,但是并非完全相同的,具体是否盗用词库,我也很难判断。(另:搜狗实验室里有搜狗提供的公开词库供人下载,有可能谷歌开发人员进行了一些借鉴。)

  在测试谷歌输入法的时候,我发现这个输入法从一开始就站在一个较高的起点,很多实用的功能也大多建立在其他输入法的经验值上,是一个不错的输入法。做为输入法的前辈,搜狗输入法同样也是优秀的,其各种功能并不比谷歌输入法弱,谷歌拼音输入法比搜狗拼音多的功能,比如“自动同步”、“一键搜索”,其实并不是什么复杂的功能,词库同步无非就是本地和服务器同步一个文件而已,一键搜索就更不用说了,紫光早就集成了百度搜索和百度插件。搜狗没有提供这些功能,是因为有所忌惮。将用户输入的单词放在服务器上,如果有关部门要求提供这个月输入某某关键词的所有用户清单,你该怎么办呢?搜索插件则已经和流氓软件成为同义词了,搜狗输入法不开发这样的功能,显然是很珍惜自己的名声。

  自从去年六月份看到搜狗输入法后,我就放弃了紫光拼音输入法,因为其不稳定、常年不更新、捆绑百度插件。尽管最开始的版本有一些缺陷(比如网址输入问题),但是其快速反馈和修改使得搜狗拼音输入法功能越来越多,越来越好用。诞生大半年来,更新了多个版本,从搜狗拼音输入法官方网站长长的更新日志,还有搜狗输入法的官方博客,我可以感觉出搜狗的确也是在认真的做中文输入法,认真聆听用户的心声。

  中文输入法本来就类似一项公益事业,开发投入大而收益小,我们不可能总指望微软来做“智能ABC”这样的输入法给我们使用,因此对于这些做中文输入法的开发者,我们不能对其过于苛求,毕竟这些都是造福于网民大众的事情。

2007年4月4日星期三

谷歌拼音输入法下载和评测

  今天,Google发布了第一个中文拼音输入法系统:谷歌拼音输入法。其程序为10M的容量,较为庞大。下载地址在这里

  我下载后初步使用了一下,发现这个输入法界面还是比较清新的。其使用操作非常简单,和紫光、搜狗等输入法几乎完全一样,上手非常快,如果习惯于紫光和搜狗,那么使用谷歌输入法会非常容易。个人感觉谷歌输入法特别像搜狗拼音输入法,两者无论从功能还是操作,都非常相像,快捷键几乎完全相同,都有整句输入的功能,输入过程中会自动智能调整词频顺序。

  基本功能

  这个输入法做的中规中矩,能有的功能基本上都有,输入也较为人性化,在拼音状态下输入网址、邮件等都不会出现问题。这个输入法最有特色的地方是自动同步用户词库功能,就是说,使用Gmail帐号登录输入法后,会自动将用户词库保存在Google服务器上,这样用户在不同地点使用输入法,会自动同步最新词库。

  我以前用的最多的是搜狗拼音输入法,从搜狗拼音输入法诞生的时候,我就开始使用这个输入法,搜狗拼音输入法的更新速度非常快,尽管前期一些功能有缺陷,但是快速的更新使得原有的功能缺陷得到了改善。希望谷歌拼音输入法也能够做到快速反馈、快速更新。

  隐私政策

  由于需要将用户词库保存在Google的服务器上,很多用户常用的输入单词都会被Google所获得,因此Google应该提供明确的隐私政策,保证不会对外公布某个用户所输入的单词,并且保证不对用户输入的信息进行跟踪或记录。否则的话,我们录入的任何信息都有可能会被泄露出去,这点就比较可怕了。

  在谷歌拼音输入法底部的“使用条款”的“用户贡献及隐私”中提到了以下几点:

  “Google 可以向业务合作伙伴或其他第三方透露有关您的汇总信息(不会识别您个人身份的信息)。不过,除非为了遵守有效的法定程序(例如搜查证、传票、法令或法庭命令)或者在需要或适当的情况下应对非法或有害的活动,Google 不会有意将识别您个人身份的信息透露给第三方。”

  “除非我们已事先征得您的同意,我们不会收集敏感信息也不会将敏感信息用于本隐私政策和/或特定具体服务声明中所载明的内容外其他目的。”

  稳定性

  一个输入法最基本的还是稳定性,目前还无法知道谷歌输入法的稳定性如何,我会使用其一段时间,然后再来报告其稳定性。

谷歌拼音输入法

  不足之处

  谷歌拼音输入法的不足,我觉得有以下几点:

  输入法的状态栏太大,且无法像搜狗拼音输入法一样设置为隐藏,有点影响美观。

  外观显示有待改善。

  界面没有换肤的功能。

  没有输入统计功能。

  自定义功能稍显不足,打开搜狗和谷歌拼音输入法的设置属性对比,可以看到搜狗的要多于谷歌的。

百度日文图片搜索分析

  百度日文搜索已经开通了一段时间,在刚开通的时候,我就对百度日文搜索进行了一些体验和初步评测。现在已经过去了一段时间,百度日文的表现如何呢?通过对百度日文的流量进行分析,我们发现百度日文有几大怪现象。

  流量大起大落

  从流量统计网站Alexa上可以看到一个夸张的曲线,百度日文在刚发布时候流量猛增到一个顶点,然后流量逐步回落。

流量大起大落

  谁在搜索

  同前一段时间相比,日文用户的确在慢慢增长之中,但是依旧少于中国的用户。Alexa数据表明,在百度日文搜索的用户中,58%来自中国,35%来自日本。这个奇怪的数字表明,更多的中国人在使用百度日文搜索,那么,这些中国人在搜索什么呢?

谁在搜索?搜索什么?

  搜索什么

  这些中国人在使用日文百度的什么服务呢?在Alexa上的数据表明,75%的用户在使用百度图片搜索,24%的用户在使用普通网页搜索,原来大家都去百度搜索图片去了啊。为什么百度的图片有这么大的吸引力,让这么多中国用户突破语言的障碍而使用日文百度呢?看一下我前面那篇文章的介绍,我们就知道原因了,这是色情的力量。自从前段时间各个网站报道百度日文有色情图片后,这个独特的功能就吸引了大量的中国网民,这是一块新大陆,大陆网民可以在日文百度的图片搜索中找到大量丰富的色情图片。做为对比,我也使用同样的关键字在日文Yahoo和日文Google的图片搜索中进行搜索,却发现并没有色情图片,不知道是否是因为有什么法律限制的原因。

  图片盗链

  在百度图片搜索中,显示图片依旧使用中文百度的显示方式,就是点中图片缩略图,会弹出一个页面,这个页面会将目标图片放在正中央,而对于原始图片的内容则没有显示,有人认为这有盗链的嫌疑。而Google则是显示原始的网页内容,再点图片链接后显示原始图片。相比这两种方式来说,Google的方式更为尊重网站一方,可以为网站带来图片搜索的页面流量,而百度的方式更为讨好搜索用户,给网站带来的只有负担增加网站自身的工作量,而没有给网站带来任何实质性的页面浏览或点击。

  对付百度的这种图片盗链,方法也很简单,Apache主机普遍都支持禁止Hotlink,即使IIS主机也可以通过第三方插件来禁止这种盗链

  最后讲一个小技巧,对于图片搜索来说,如何查询各个搜索引擎收录自己网站的图片数量,可以在图片搜索里使用site语句,例如我的月光博客域名是www.williamlong.info,百度收录的图片可以点这里,Google收录的图片就可以点这里,从这两个链接可以看到这两个搜索引擎对于我站的索引情况,大家可以点进去看看我屏蔽百度图片盗链的最终显示效果。