2007年4月7日星期六

谷歌拼音输入法的词库导入方法

  这些天使用谷歌拼音输入法的时候,发现谷歌输入法的用户词库导入导出功能有严重的缺陷,不能方便的导入个人词库。不过通过一些变通的方法也可以完成批量词库的导入。

  对于个人词库来说,人名是一个非常重要的词库,特别是公司同事的姓名。对于搜狗输入法来说,可以直接将以回车分割的姓名文件做为词库导入,非常方便扩充个人词库。通常情况下,我们只需要将个人通讯录按照姓名存为文本,就可以导入到搜狗输入法,很简单且易于操作。我们还可以将经常使用的专业单词也批量导入,这样就可以让自己的输入法在短时间内迅速成为一个个性化的顺手而好用的输入法。可是在谷歌输入法中却不支持这样的简易导入方式,只支持指定格式的词库导入,很不方便。

  不过,我通过分析搜狗和谷歌两者的词库格式,发现用户词库还是很类似的,于是我就依样画葫芦,找到了一个可以将搜狗用户词库转换为谷歌用户词库的方法,是的谷歌输入法中也可以批量导入搜狗拼音的用户词库。

  首先要将需要的词语先导入搜狗输入法,然后再搜狗中选择导出,将用户词库导出为一个文本文件。

  之后,在EXCEL中打开词库,会出现一个“文本导入向导”,选择分隔符号为空格,就会出现如下图的显示界面。

文本处理

  删除1、2行,将B列放在第一列,C列放在第二列,A列放在第三列,D列删除。最终整理为如下图所示的格式。

文本处理

  然后将文件另存为“文本文件(制表符分割)”。用记事本打开这个文件,将单引号全部替换为空格,重命名为dic后缀的文本文件。

  这时候,再在谷歌拼音输入法设置的“辞典”里点导入,即可导入词库,我用此方法成功将我在搜狗拼音输入法里的1万多词库导入了。

  最后,谷歌输入法于今天更新了版本为1.0.16.0,支持如下功能:

  1. 支持“TAB”键翻页功能
  2. 修改双拼方案中的错误
  3. 全角模式下“/”键将打出顿号
  4. 修正了Windows Vista系统下的安全问题
  5. 词典质量更新

  更新后,原先词库中的搜狗开发人员的姓名就没有了。另,搜狗实验室里有搜狗提供的公开词库供人下载,里面的“使用许可证”指出,“在利用搜狗实验室数据进行深入研究而获得的成果中,应指明数据的提供方(搜狐研发中心)”。

2007年4月5日星期四

搜狗拼音和谷歌拼音之争

  谷歌拼音输入法昨天刚刚发布,就引起了不少争议,在techweb就有人发帖说,谷歌拼音输入法的词库是使用搜狗输入法的,理由是“在搜狗词库建立之初就加入了词库指纹,即十几个很偏僻、但不影响输入的词汇。里面就有数位搜狗员工的名字。Google居然也能够打出来。例如:赵立洋、佟子健、吕杰勇。”

  我尝试使用谷歌输入法输入这些人的名字,的确是这样的,这些人的名字是很典型的冷僻词,一个输入法的词库再大,也不可能将网络所有冷僻词都包含进去,因此我也怀疑可能两者使用较为类似的词库。胡洋则认为这可能是由于谷歌使用网络搜索的原因。我觉得这个解释有点牵强,毕竟那些词是相当生僻的单词。不过也有可能,两者都引用了一些公共的无版权的词库,而这个词库中恰好又有这些人的名字。为了求证两者词库是否相同,我测试输入更多的词汇,这时我发现有些词是谷歌有的而搜狗没有,比如“和菜头”,在谷歌输入法中就是一个词汇,而搜狗则没有,对于一些其他的博客名或者网站名也有类似的效果,因此我觉得,可能谷歌输入法的词库使用了一些公共词库以及大量人们的搜索词汇组成的,因此数量较多,写长句子的时候较为顺手,两者词库虽然相似,但是并非完全相同的,具体是否盗用词库,我也很难判断。(另:搜狗实验室里有搜狗提供的公开词库供人下载,有可能谷歌开发人员进行了一些借鉴。)

  在测试谷歌输入法的时候,我发现这个输入法从一开始就站在一个较高的起点,很多实用的功能也大多建立在其他输入法的经验值上,是一个不错的输入法。做为输入法的前辈,搜狗输入法同样也是优秀的,其各种功能并不比谷歌输入法弱,谷歌拼音输入法比搜狗拼音多的功能,比如“自动同步”、“一键搜索”,其实并不是什么复杂的功能,词库同步无非就是本地和服务器同步一个文件而已,一键搜索就更不用说了,紫光早就集成了百度搜索和百度插件。搜狗没有提供这些功能,是因为有所忌惮。将用户输入的单词放在服务器上,如果有关部门要求提供这个月输入某某关键词的所有用户清单,你该怎么办呢?搜索插件则已经和流氓软件成为同义词了,搜狗输入法不开发这样的功能,显然是很珍惜自己的名声。

  自从去年六月份看到搜狗输入法后,我就放弃了紫光拼音输入法,因为其不稳定、常年不更新、捆绑百度插件。尽管最开始的版本有一些缺陷(比如网址输入问题),但是其快速反馈和修改使得搜狗拼音输入法功能越来越多,越来越好用。诞生大半年来,更新了多个版本,从搜狗拼音输入法官方网站长长的更新日志,还有搜狗输入法的官方博客,我可以感觉出搜狗的确也是在认真的做中文输入法,认真聆听用户的心声。

  中文输入法本来就类似一项公益事业,开发投入大而收益小,我们不可能总指望微软来做“智能ABC”这样的输入法给我们使用,因此对于这些做中文输入法的开发者,我们不能对其过于苛求,毕竟这些都是造福于网民大众的事情。

2007年4月4日星期三

谷歌拼音输入法下载和评测

  今天,Google发布了第一个中文拼音输入法系统:谷歌拼音输入法。其程序为10M的容量,较为庞大。下载地址在这里

  我下载后初步使用了一下,发现这个输入法界面还是比较清新的。其使用操作非常简单,和紫光、搜狗等输入法几乎完全一样,上手非常快,如果习惯于紫光和搜狗,那么使用谷歌输入法会非常容易。个人感觉谷歌输入法特别像搜狗拼音输入法,两者无论从功能还是操作,都非常相像,快捷键几乎完全相同,都有整句输入的功能,输入过程中会自动智能调整词频顺序。

  基本功能

  这个输入法做的中规中矩,能有的功能基本上都有,输入也较为人性化,在拼音状态下输入网址、邮件等都不会出现问题。这个输入法最有特色的地方是自动同步用户词库功能,就是说,使用Gmail帐号登录输入法后,会自动将用户词库保存在Google服务器上,这样用户在不同地点使用输入法,会自动同步最新词库。

  我以前用的最多的是搜狗拼音输入法,从搜狗拼音输入法诞生的时候,我就开始使用这个输入法,搜狗拼音输入法的更新速度非常快,尽管前期一些功能有缺陷,但是快速的更新使得原有的功能缺陷得到了改善。希望谷歌拼音输入法也能够做到快速反馈、快速更新。

  隐私政策

  由于需要将用户词库保存在Google的服务器上,很多用户常用的输入单词都会被Google所获得,因此Google应该提供明确的隐私政策,保证不会对外公布某个用户所输入的单词,并且保证不对用户输入的信息进行跟踪或记录。否则的话,我们录入的任何信息都有可能会被泄露出去,这点就比较可怕了。

  在谷歌拼音输入法底部的“使用条款”的“用户贡献及隐私”中提到了以下几点:

  “Google 可以向业务合作伙伴或其他第三方透露有关您的汇总信息(不会识别您个人身份的信息)。不过,除非为了遵守有效的法定程序(例如搜查证、传票、法令或法庭命令)或者在需要或适当的情况下应对非法或有害的活动,Google 不会有意将识别您个人身份的信息透露给第三方。”

  “除非我们已事先征得您的同意,我们不会收集敏感信息也不会将敏感信息用于本隐私政策和/或特定具体服务声明中所载明的内容外其他目的。”

  稳定性

  一个输入法最基本的还是稳定性,目前还无法知道谷歌输入法的稳定性如何,我会使用其一段时间,然后再来报告其稳定性。

谷歌拼音输入法

  不足之处

  谷歌拼音输入法的不足,我觉得有以下几点:

  输入法的状态栏太大,且无法像搜狗拼音输入法一样设置为隐藏,有点影响美观。

  外观显示有待改善。

  界面没有换肤的功能。

  没有输入统计功能。

  自定义功能稍显不足,打开搜狗和谷歌拼音输入法的设置属性对比,可以看到搜狗的要多于谷歌的。

百度日文图片搜索分析

  百度日文搜索已经开通了一段时间,在刚开通的时候,我就对百度日文搜索进行了一些体验和初步评测。现在已经过去了一段时间,百度日文的表现如何呢?通过对百度日文的流量进行分析,我们发现百度日文有几大怪现象。

  流量大起大落

  从流量统计网站Alexa上可以看到一个夸张的曲线,百度日文在刚发布时候流量猛增到一个顶点,然后流量逐步回落。

流量大起大落

  谁在搜索

  同前一段时间相比,日文用户的确在慢慢增长之中,但是依旧少于中国的用户。Alexa数据表明,在百度日文搜索的用户中,58%来自中国,35%来自日本。这个奇怪的数字表明,更多的中国人在使用百度日文搜索,那么,这些中国人在搜索什么呢?

谁在搜索?搜索什么?

  搜索什么

  这些中国人在使用日文百度的什么服务呢?在Alexa上的数据表明,75%的用户在使用百度图片搜索,24%的用户在使用普通网页搜索,原来大家都去百度搜索图片去了啊。为什么百度的图片有这么大的吸引力,让这么多中国用户突破语言的障碍而使用日文百度呢?看一下我前面那篇文章的介绍,我们就知道原因了,这是色情的力量。自从前段时间各个网站报道百度日文有色情图片后,这个独特的功能就吸引了大量的中国网民,这是一块新大陆,大陆网民可以在日文百度的图片搜索中找到大量丰富的色情图片。做为对比,我也使用同样的关键字在日文Yahoo和日文Google的图片搜索中进行搜索,却发现并没有色情图片,不知道是否是因为有什么法律限制的原因。

  图片盗链

  在百度图片搜索中,显示图片依旧使用中文百度的显示方式,就是点中图片缩略图,会弹出一个页面,这个页面会将目标图片放在正中央,而对于原始图片的内容则没有显示,有人认为这有盗链的嫌疑。而Google则是显示原始的网页内容,再点图片链接后显示原始图片。相比这两种方式来说,Google的方式更为尊重网站一方,可以为网站带来图片搜索的页面流量,而百度的方式更为讨好搜索用户,给网站带来的只有负担增加网站自身的工作量,而没有给网站带来任何实质性的页面浏览或点击。

  对付百度的这种图片盗链,方法也很简单,Apache主机普遍都支持禁止Hotlink,即使IIS主机也可以通过第三方插件来禁止这种盗链

  最后讲一个小技巧,对于图片搜索来说,如何查询各个搜索引擎收录自己网站的图片数量,可以在图片搜索里使用site语句,例如我的月光博客域名是www.williamlong.info,百度收录的图片可以点这里,Google收录的图片就可以点这里,从这两个链接可以看到这两个搜索引擎对于我站的索引情况,大家可以点进去看看我屏蔽百度图片盗链的最终显示效果。

2007年4月3日星期二

雅虎易搜重装上阵

  最近,雅虎中国又将原来的“一搜”重新包装,改名为“易搜”,重新上阵。

  搜索体验

  打开“易搜”的主页,我们看到搜索界面看起来比较“酷”,风格另类,翻页使用侧边的标签,默认搜索结果5条。搜索结果中,除了包含“网页快照”之外,还包括“收藏”和“站内”,不过最新的Google搜索也包含“加入笔记本”(奇怪的名称)的选项。

  搜索结果可以在一屏内显示,不用拉动滚动条,因此一屏只显示5条记录。这的确方便了初级用户,但我觉得显示界面应该给人以自行设置,有些人还是喜欢一屏的内容多一些,这样浏览速度会快一些,比如我个人习惯一屏显示10条记录,否则翻页就太频繁了。

  易搜像谁

  根据我的观察,易搜似乎和Yahoo.cn使用相同的搜索引擎,只是外部界面不同,另外,易搜目前还没有显示广告,而雅虎中国则有竞价广告。对于我来说,因为操作习惯类似,我更习惯于使用Yahoo.cn这样类Google的搜索引擎。

  搜索显示的方式也很特别,搜索结果包含“网页”、“图像”和“音频”,有点和searchmash相似了。然而首页似乎无法直接图像或者MP3搜索,需要多点一次链接才能访问。搜索目前还只有网页、图像、音乐,没有博客搜索和新闻搜索。

  重装上阵

  此次的易搜复出,无疑是雅虎中国希望改变原有中国区域的策略,延续原有“一搜”的道路,直接和百度谷歌相竞争,并重夺搜索引擎市场份额。不过,目前中国的搜索引擎市场已经被百度占据了大半,这时候加入这个市场似乎在时间上有点晚了。

  背景新闻

  新浪网:雅虎重新启用Yisou.com 周鸿祎称马云刻舟求剑

  2004年周鸿祎主政雅虎中国时期,他创立了易搜网的同域名前身--“一搜网”。在2005年8月底,周离开雅虎中国。之后,马云入主雅虎中国,不久一搜网被废,该网站的域名被直接跳转到“雅虎搜索”(yahoo.cn)。

  周鸿祎认为,易搜的推出从侧面证明了他当时给雅虎定的搜索策略是对的。不过,他认为雅虎中国从05年底到现在是“守株待兔、南辕北辙”。

  对于易搜的推出,周鸿祎认为这是马云“刻舟求剑”。周表示,一搜在推出的时候曾给百度带来了很大的压力。但是,“现在的搜索市场与三年前推出一搜的时候,已经完全不一样了”,周鸿祎认为,雅虎如果再次推独立品牌的易搜,挑战很大。

2007年4月2日星期一

Google的愚人节玩笑

  今天,如果大家能上Google英文版的首页(访问方法,进入中文Google后,点击“Google.com in English”),应该可以看到Google带来的一则愚人节新闻:“New! Get FREE breakthrough broadband with Google TiSP (BETA).”(Google 免费马桶无线网)

Google TiSP

  进入马桶网站的页面,上面还真煞有介事的介绍了这个“系统”的原理,马桶无线网络提供高达8M至32M的下载带宽(10倍于DSL线路),其中8M的线路完全免费使用,如果用户上网后不在线一段时期后,厕所可能会被阻塞,这时候需要冲水三次,然后再重新连线上网,推荐使用无线连接上网,不推荐使用自动清洗马桶。

Google的愚人节玩笑

  当然,这个肯定是Google在愚人节的玩笑了,不过这个玩笑可真令人感到吃惊啊。(感谢读者徐君和benif的邮件提示)

Google的愚人节玩笑

2007年4月1日星期日

中文AdWords的广告价格

  现在很多网站都在投放Adsense广告,Adwords则是广告发布商,我个人觉得,如果大家想深入了解Adsense,不如使用一段时间的Adwords,自己来做广告发布商,使用一段时间的Adwords后,我们就会明白为什么自己的Adsense挣不到钱了。

  我以前用过一段时间的Adwords,后来感觉没有什么效果就不用了,这些天我又再次使用了一次Adwords,使用一天时间,我就明白了一个道理:为什么我的Adsense赚不到钱呢?只有用过Adwords才会知道原因,因为目前的广告价格实在是低的离谱。

  我投放的是每天1美元的预算,每个点击为0.01美元,结果显示的数字令人吃惊,我只花了0.03美元,就取得了5363次显示,点击率为0.05%,展现次数却挺高,以我的每天1美元的预算,竟然可以将广告显示18万次,18万次显示只需要1美元,你说做Adsense可能挣到钱吗?即使有可能,那么代价也是极高的。

  出现这种情况,根据我的推断,其最为根本的原因就是因为:中文流量本身就不值钱。

  目前国内的中文网站多如牛毛,中文广告显示的次数也很多,人为的造就了一个不对等的市场环境,广告发布商很少,却又有很多个人网站希望通过Adsense赚钱,不过有人挂Adsense很长时间,却连100美元的门槛都没有达到,其实是在白白给别人显示广告。这里面最根本的原因就是,中文的流量根本就不值钱。即使广告商出价为0.01美元,也照样可以显示大量的广告,那么广告商们就会想,我为什么要把点击价格提高到0.02美元呢?于是中文Adsense的广告就被普遍压到这么低的价位上了。

  而更为可悲的事情是,即使Google Adsense的价格这么低,也要比国内所有的广告商的价格都要高(包括百度主题推广),这也就是即使Adsense价格这么低,广大中文网站还不得不做Adsense的原因了。

  那么,面对这种情况,国内的个人网站或者个人博客应该怎么办呢?

  我看只能等待,中文的网络广告市场目前还太小,广告商处于强势地位,只有耐心等待中文网络广告市场变大,变得竞争激烈,中文广告的点击价格才有可能上升,目前0.01美元的点击价格,短时间内估计个人网站或博客还需要忍受一下。

  我的另外一个观点是,既然广告价格这么低,那么大家不如干脆就申请加入Adwords好了,用这么便宜的价格显示广告,可以获得不错的广告展示次数,又何乐而不为呢?