2005年12月7日星期三

实行手机实名制的杂感

  最近关于手机实名制的消息越来越多,根据广州日报消息说,手机实名登记制度可能将在本月底强制实施,新老用户都必须进行身份登记。未登记手机用户在三个月内去运营商营业厅或代理点办理身份注册手续,否则将会被终止服务,受此影响的将有全国约2亿个左右的未登记用户。

  我自己现在使用的是神州行卡,当初我注销了全球通而改用神州行,其中一个很大的原因,就是因为神州行话费能及时掌控,私密性强,使用方便等特点。目前不登记名字的卡类用户占总用户数70% 以上,约2亿用户,可以说是中国移动的摇钱树。如果严格实施手机实名制政策,对于已经上市的移动公司来说无异于一刀砍倒了自己的摇钱树,所以目前两大移动运营商自己就很抵制这项政策,信产部要强行推行手机实名制的话,需要先摆平中国移动再说。如果中国移动消极处理,那么这项政策即使实施,也会变成一阵风似的走过场。

  不过目前的诈骗短信和“不良信息”也的确泛滥成灾,其中一个典型的案例是“银行信用卡消费诈骗”,即诈骗人发送“您的银行卡在某商场消费××××元,如有疑问请咨询××××……”的短信给手机用户,如果用户信以为真,打电话咨询,则诈骗人装扮为银行工作人员,谎称其信用卡可能被盗用,让其迅速找到一台ATM机后,将钱转移到某个“安全账户”上。如果用户转帐了,那么他的钱就化为乌有了。

  手机实名制对这种诈骗会起作用吗?很简单就可以分析出来,银行实行实名制已经很长时间了,而犯罪分子目前依然可以用假身份证骗过银行工作人员,并开始成功诈骗,那么手机实名制比银行的实名制难道更有效吗?犯罪分子既然连银行的实名制都可以骗过,那么手机实名制又算的了什么呢?

  既然是骗子,自然会有隐藏的办法,否则骗子也就成为正当商人了。骗子只要弄个假身份证、弄个别人的身份证,自然就能购买到手机卡了。这年头,除了骗子多,盗贼也不少,当盗贼与骗子融为一体,身份证这东西,似乎是要多少有多少了。

  除此以外,监管的困难对实名制的实施是致命打击。市场的竞争是无情的,现在连小卖部都可以卖手机卡,而且甚至比去营业厅购买更便宜。只要能赚钱,对于这些小型经销商来说,自然会想法设法为用户开户。另外,即使在营业厅,对身份证的查验有多严格呢?基本上只需要复印件就可以了,更多的只需要填写号码就可以开通办理。

  打击违法短信不是一朝一夕可以完成的,自古以来,骗子就一直存在,肯定不可能冀望通过实名制就能解决的问题。如果骗子实行诈骗需要高成本、高风险的话,自然就没那么猖獗了。改善市场秩序,提高消费者素质,努力建造一个诚信的社会,违法短信自然会减少,上当受骗的人也会减少很多。

  然而可惜的是,在中国建造一个诚信社会是多么的困难。所谓上梁不正下梁歪,那些当官的自己都不说实话、不说真话,干的是贪污受贿、违法乱纪的勾当,在这个社会上敢说真话的人也没有好下场,这样的社会氛围,建造诚信社会无异于痴人说梦。

  建造诚信社会就需要提高人民的素质,如何提高人民的素质,这里又说到了一个老话题:教育。教育是立国之本,我们目前的所谓的“教育产业化”的政策是一个彻头彻尾祸国殃民的亡国政策。它让大多数贫苦的人民无法接受更多的教育,通过知识改变命运的道路被封死了。国家财政在教育上的预算在全世界范围内是倒数的几名,只有2%左右。而我们的各级政府官员则全然蔑视中央多如牛毛的“三令五申”禁令,奢糜享乐,挥霍开支,修建这种所谓的“形象工程”和“豆腐渣工程”,从中捞取好处。连希望工程的捐款居然也有人在贪污挪用,人心已经败坏了,做再大的恶行也不会在良心上产生任何犯罪感了。

  不肯花教育的钱,那就要多盖监狱了。由于教育的失败,由于缺乏内在道德约束力和外部公正昌明法制体系,从政府官员、执法人员、到工人、农民等都已不能切实履行各自在社会中应当承担的义务和责任。一方面市场没有秩序,政府行政干预,每一次干预无非是要拔一次毛,收一次买路钱。另一方面,道德沦丧,做生意不讲信誉,欺骗行为无所不在。国家几乎天天都有枪决人犯,但歪风邪气却刹不住,国家的治安成本,国家机器成本日益升高。

  中国的教育,早一日投入,早一日得利。今日图省钱,不投资办教育,日后将不得不投钱去盖“监狱”,目前的“教育产业化”政策是一个彻头彻尾祸国殃民的亡国政策,如果我们的执政者再不亡羊补牢的话,那么不要问丧钟是为谁而鸣,它就是为你而鸣!

2005年12月6日星期二

Google Picasa:免费图像管理软件

  Google总是在给竞争对手带来恶梦,和Google处于同一个时代是不少软件商的心头之痛:“当你某天早上醒来,忽然发现你所出售的东西人家在免费提供……那么后果可想而知。”

  ACDSee这个老牌的图片浏览器也迎来了自己的恶梦:虽然ACDSee的市场占有率还是相当高,但搜索巨头Google推出了免费的图像管理软件Picasa

  Picasa原本是Picasa公司的同名收费软件,去年Google收购了Picasa以后,不仅把它的名字改为了Google Picasa,而且还把它更改为免费软件供大家使用。

  Picasa是一个便捷、高效和快速的图像管理软件,由于对图像采用了全新的组织方法和查看方法,所以一些习惯了ACDSee的朋友总觉得它不够方便。下面是笔者在使用当中总结的一些经验和技巧,希望能对大家使用Picasa有所裨益。

  图片组织、管理和查看方法的剧变

  大多数人有这样的经验,看到硬盘里成堆的图片,虽然非常有成就感,但心里也不乏有一丝的沉重:我需要的图片在哪里呢?很多朋友就很有经验,他们会把图片分类归档。但是倘若你想欣赏图片呢?完了,得需要在不同的窗口里频繁地切换。保存图片也如恶梦来临,不同的图片需要按照每个人自己的习惯分类收藏。可以说,整理图片决不会是你想像的那么轻松,特别是那些由于工作而需要处理大量图片的朋友。于是,图片管理的概念也就诞生了,随之而来的就是图片管理软件。

  Picasa提供了全新的图片组织和管理的方法。Picasa安装后,它会扫描硬盘上全部的文件夹或您指定的文件夹,并把扫描到的图片以文件夹为组织单位按时间的先后顺序放到图片集“硬盘上的文件夹”中。Picasa为我们提供了全新的图片查看方法——按时间顺序查看。左侧的图片文件夹是按照文件夹时间进行排序的,单击窗口左侧的图片文件夹就可以看到其中的图片缩略图。

  快速的图像预览

  Picasa采用了一种独特的缓存机制,正是因为这种全新的缓存机制才使Picasa能够瞬间显示所有图片的缩略图,其浏览速度快到了令人难以致信的程度,如果和Windows自带的“缩略图”的显示速度对比,起码差距在百倍以上。

  当然,这种缓存机制也是有代价的,在第一次使用Picasa时软件会扫描搜索计算机上兼容的图片文件,在Picasa的使用过程中,软件会监控新增加的图片并把它们添加到相应的图片集中,其都要花费一定的时间,但个人感觉这很值得。

  傻瓜型的图像编辑功能

  Picasa预置了三类(基本修正、微调、效果)功能让我们来修正和编辑图像,利用这些功能,通过简单的单次点击就可获得震撼的图像效果。更有甚者,单击“手气不错”按钮,Picasa会自动修改图片使图片的颜色和对比度达到最理想的状态。当然,比起专业而复杂的Photoshop图像处理软件,Picasa的图像编辑功能看起来的确很简单,但是大多数用户还是很喜欢简单易用的软件。

  完美的图像导出功能

  浏览到好的图片之后,如果想与朋友们分享,Picasa就提供了丰富的共享和导出功能,比如通过电子邮件发送图片、发布图片到网站等等。

  其图片导出功能可以将选定图片导出到指定文件夹中,值得注意的是,导出时候可以选择调整图像大小,将大小不一的图像导出为指定宽度的图像,这是一个非常有用的功能,类似“JPEG Resizer”这样的修改图片大小的共享软件又要倒霉了。

  另外一个导出到网页的功能也很值得注意,此功能将选定图片定制导出为一个可以直接浏览的网页文件,我试用了一下,效果很不错,将图片发布到网站上去就显得更容易了。

  多格式兼容

  Picasa不仅支持TIF,TIFF,BMP,GIF,JPEG,PSD,PNG等图片文件,还支持AVI,MPG,ASF,WMV等电影格式。当然,Quicktime的MOV它也不会放过。Picasa不但完全支持中文(简体及繁体),而且还支持荷兰语、英语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语以及西班牙语。

  总的来说,Picasa是一款相当出色的软件,华丽的界面,傻瓜式的操作非常容易上手,软件小巧玲珑,运行速度快似流星。功能比ACDSee强大的多。不过可能正是因为功能多,所以使用起来有些复杂,对于低端用户可能不很方便。很多人只需要一个简单易用的图像浏览器。但我相信,Google凭借Picasa还是会给ACDSee等软件造成相当大的冲击。

  看了我介绍的Google Picasa的这么多功能,大概大家都心动来吧,那么还等什么呢?赶快行动吧。现在就下载最新的中文版Google Picasa吧。

深圳儿童公园游记

  今天带着全家去本地唯一的儿童公园去玩。

  深圳儿童公园位于深圳市罗湖区笋岗东雅园立交桥附近,面积近6万平方米,它是深圳市区儿童主要的游乐场所之一,是深圳面积最小的市政公园。园内的游乐项目有十余项,包括小火车、单、双人童车、戏水池、碰碰车、观缆车、激流涌进、海盗船、动物世界、金龙滑车、幸福快车等。

  公园位于罗湖区,坐车到那里时候已经中午了,只好先去吃饭。儿童公园对面只有一个麦当劳,进去后发现麦当劳居然还在贩卖可以致癌的炸薯条给儿童吃,看来麦当劳的道德良心连肯德基都不如啊,至少肯德基好久前都不贩卖致癌薯条了。另外麦当劳送了个洛克人玩具还挺有意思,不过现在的小朋友都不玩洛克人游戏了,他们都去玩网络游戏去了。

洛克人

  儿童公园和本地大多数公园一样,是免费开放的,只有里面的游乐项目是收费的。公园已经有了近二十年的历史了,显得有一些破旧了,看看这个大门,够寒酸的吧。

儿童公园

  儿童公园里面的游乐项目不多,就几个,价格不贵,其中最贵的“激流勇进”是八块钱,不过一般都需要购买双份票,因为好多项目需要大人陪同。

儿童公园游乐项目

  这个“激流勇进”当然不能和欢乐谷的“激流勇进”相比了,其落差和刺激度都小很多,适合儿童玩。

激流勇进

  小火车这个项目可真幼稚的可以啊。看看这辆火车,还真象那么回事呢。

小火车

  还是海盗船看上去刺激一些,不过不敢让小孩子玩。

海盗船

  明明这个游乐项目是旋转木马,却起名字叫动物世界,真奇怪啊。

旋转木马

  游乐项目少而人却很多,小朋友们你争我抢,一部小小的滑梯居然有二三十个孩子在“高效”使用。

滑梯

  儿童公园的项目的确是够陈旧的,不过这些项目小朋友们还是瞒喜欢的,我陪着玩也累的腰酸背疼的,一个下午就这么过去了。

  回家的车上,儿子在我怀里睡着了,他大概也玩累了,真是幸福的一代人啊。

2005年11月29日星期二

电信级的网络弹出广告

  我是用中国电信的ADSL上网的,一直碰到一个奇怪的现象:我自己的网站并没有弹出广告代码,但是我浏览自己的网站时候,偶尔会弹出一个类似“绿色上网”等的广告窗口。我查看我网页的源代码,没有弹出广告代码,再刷新网站,又没有广告弹出了。

  上网搜索了一下,发现不少人也遇到这种情况,这种广告非常隐蔽,一般人不会注意到,只是以为该网站有弹出广告。而实际上网站并没有弹出广告。该广告的地址是以http://pbvertisegreen.139.com/push/开头的,一般是深圳电信自己的垃圾广告,投放隐蔽,且没有成本。

  这种广告实际上是电信局在电信级网关路由器上安放的,我分析其原理如下:用户刚拨号上网的时候,访问的第一个网站时,电信局在这个网站的HTTP包中增加一段弹出代码,弹出广告后再自动转移到正式的网站。弹出广告也有一定随机性,不是每次都弹出,而是随机挑选某些HTTP包进行拦截,所以通常我们再次刷新会发现没有广告弹出。

  这种广告手段是很卑劣的,并且也是违法的。电信局肯定也知道这一点,因此这种广告投放的非常隐蔽:浏览一个网站的时候才弹出,让别人误以为是这个网站的广告;并不是每次都弹出,而且弹出也没有什么规律性,以免引起用户注意;弹出代码使用技术进行隐藏,让别人找不到证据。

  这样的广告方式据说不少ISP都采用,我想大多数上网者都遇到过,由于其广告是在电信的路由器上安放的,因此很难屏蔽。不过并不是说我们一点办法也没有。最好的办法,就是抵制这个ISP,拒绝使用其服务。其次,安装GOOGLE工具条,GOOGLE工具条可以屏蔽大部分弹出广告。

2005年11月27日星期日

搜索引擎技术揭密:中文分词技术

  信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。

  搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

  什么是中文分词

  众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

  中文分词和搜索引擎

  中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)上以“和服”为关键词进行搜索:

  在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。

  在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。

  在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。

  这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

  中文分词技术

  中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

  现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

  1、基于字符串匹配的分词方法

  这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

  1)正向最大匹配法(由左到右的方向);

  2)逆向最大匹配法(由右到左的方向);

  3)最少切分(使每一句中切出的词数最小)。

  还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

  一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

  对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。

  2、基于理解的分词方法

  这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

  3、基于统计的分词方法

  从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

  到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

  分词中的难题

  有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

  1、歧义识别

  歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

  交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

  如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

  2、新词识别

  新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

  新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

  中文分词的应用

  目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。

  分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。

  作者:Winter

Google地图带我们进入开放共享时代

  大名鼎鼎的搜索引擎公司Google,现在已经将它的卫星地图服务延伸到了中国。而在不久前,有很多人为Google的卫星地图没有中国版本而感到遗憾。现在,中国版本的Google卫星地图来了,对那些Google卫星地图的推崇者们来说,这无疑是个激动人心的消息!

  北京、上海、杭州、广州、深圳、哈尔滨、沈阳、重庆……只要你在http://maps.google.com的卫星地图搜索中,键入以上城市的汉语拼音,就能得到由Google提供的卫星地图;更“致命”的是,Google的这项服务是完全免费的。这意味着,以前普通人很难看到的卫星地图,现在可以通过Google方便地获取。

深圳地图

  Google卫星地图扩展步伐

  2004年10月份,Google收购了一家名为Keyhole(中文译为“匙孔”)的数字地图测绘公司,该公司拥有卫星和航拍高质量地面地图。在Google完成对该公司的收购后,Google的一位副总裁曾公开表示:“收购Keyhole公司将使Google的用户拥有一个新的、功能强大的搜索工具,使用户可以看到地球上任何地点的三维图像。Keyhole对于Google来说是一个很有价值的补充,它使Google能够更好地组织世界各地的信息并使之更加有用。”在说完这番话的六个月后,Google就让人见识了什么叫“新的、功能强大的搜索工具”——2005年4月份,Google推出了全新的免费卫星地图服务,而此前用户必须花费29.95美元的费用,才能查看卫星地图。

  Google的免费卫星地图服务最初只局限于北美地区。现在,美国的用户已经切实感受到了卫星地图服务的便利———在美国,Google的免费卫星地图可以细化到街道,用户可以在地图上搜索旅店、公园、地铁甚至提款机等信息;对于准备开车出门旅行、对道路交通状况又不熟悉的人来说,他可以在Google的卫星地图上查清交通路线,以获得驾车的具体方向;甚至Google还能为警方提供数据,跟踪罪犯……

  在北美的加拿大,有一位用户在自己的Blog上,留下了自己使用Google卫星地图的经过和感想:在Google卫星地图的LocalSearch(本地搜索)项中,在第一栏填“Chinese Noodle”,第二栏填“Vanocuver”,搜索出来的全是温哥华附近地区(75公里之内)的中国面店地址与地图;如果第一栏填“Chapters”(加拿大的一家连锁书店),第二栏填“Vancouver”,出来的结果就是该书店分布于全温哥华地区的分店地址与地图、方向、距离和路线。该用户评论说,Google已经从“虚拟空间”的搜寻,跨入“实体空间”的搜寻了。

  总之,Google卫星地图的横空出世,在吸引了大量Google“崇拜者”目光的同时,也引起了一些人对“隐私”泄露的担忧。

  在Google推出北美免费卫星地图的两个多月后,Google终于将它的卫星地图版本扩大到了中国。现在,你可以在卫星地图上看到北京天安门广场、人民英雄纪念碑、中南海,甚至长安街上的车流;相比之下,香港地图显得更加清晰、细致,其应用程度看起来已经接近北美地区。

  当你进入http://maps.google.com的卫星地图搜索时,在你面前的默认页面,是一张卫星拍摄的世界地图!世界就在你的眼前——这种感觉是地球仪不能带来的。

  卫星地图引起各方反应

  Google在北美推出卫星地图服务后不久,微软主席比尔·盖茨向外界展示了卫星地图技术——一项旨在和Google卫星地图服务竞争的“MSN虚拟地球”计划,据报道将于今年夏天推出。

  而自Google卫星地图服务进入中国以来,国内几家提供电子地图服务的本土搜索引擎公司,到目前为止尚未做出反应;在中国大陆,媒体对此事的相关报道也极少,至少没有大的报道,倒是一些“博客”们对此事给予了关注。

  有网友将Google的卫星地图服务称为“互联网近五年来少有的让人激动的创新”:通过Google的卫星地图服务,你可以更好地了解全世界的地形地貌,可以清晰地看到各地的高山、河流、湖泊、公路甚至足球场。在北美的一些城市,Google卫星地图能够非常清楚地显示出街道和建筑物,可以分辨出汽车,比普通地图更加直观。不过有一点,Google的卫星地图并不是最新拍摄的。但即便这样,仍然有人笑称,“年轻的朋友请不要在大街上接吻,以免被卫星发现”。虽然这句话有开玩笑的成分,但这反映了人们在对Google刮目相看的同时,也确实对自己个人隐私可能会遭到泄露表示出了担心。

  面对种种猜疑,Google方面表示,Google“不会违反不做坏事的格言,不会挖掘非公开信息”。

  不过,据报道,Google的卫星地图让台湾军方感到了“紧张”:台湾军方视为最高机密的花莲佳山基地等空军机场,也成了Google卫星地图的“猎物”。军方人士表示,如果有经纬度坐标,这些地图会令人冒冷汗。

  另外,据国外某网站报道,普通人无法亲临的美国军事基地,也被Google“曝了光”——大名鼎鼎的美国“B-2隐形轰炸机”,竟然可以被Google发现停在基地停机坪上!

  关于Google卫星地图和中国军事的关系,有人这样评论:中国大陆重要城市立体地图在Google里一览无余……特别令人担心的是,Google是一家私人企业,此次网上的卫星地图解析度肯定比军用卫星地图要低得多——可以想像:军用卫星地图可能连人都会看得很清楚,更不用说重要的军事基地了。

  而现在,免费提供的Google卫星地图,可以让每个人都能轻易获得某些城市敏感地方的地形图——在某些人看来,这是一项“激动人心的创新”,但在另外一些人看来,这是一项“要命的创新”。

  也许Google制造的,是一把锋利的双刃剑。

  电子地图没什么稀奇,国内提供这项服务的网站有不少,名气最大的属“图行天下”(www.go2map.com)。在这个地图上,你可以查到杭州等城市每个街道和公交线路,应该算是比较好用的。正因为如此,搜狐才以960万美元的价格收购了它。当Google在美国推出地图服务后不久,国内的搜索引擎——中搜也宣布推出地图服务。但此地图非彼地图。无论是go2map,还是国内大大小小的电子地图网站,都难以与Google地图相提并论。

  因为Google提供了其他地图没有的东西——卫星照片和“应用程序接口(API)”。

  API:越开放,越无敌

  应用程序接口(Application Programming Interfaces),听起来有点玄乎,其实并不复杂。它是Google、亚马逊、雅虎、Flickr等网站为程序员提供的一个数据接口,有了这个接口,你稍懂一点编程,就可以调用上述网站的数据,在它们的基础上,重新建造一个全新的网站。

  以亚马逊书店为例,通过这家全球最大的网上书店提供的API,可以建立个性化的书店,比如开一家音乐电影类书籍音像专卖店(http://www.live-plasma.com)。作为互联网技术领跑者的Google,当然不会走闭关锁国之路,在推出Google地图的同时,它也提供了API。这就是它与国内外其他电子地图最大的区别。

  Google地图的炫酷应用

  国外有些高人,已经利用Google地图API开发出许多让人不可思议的网站。

  1.美国房地产交易地图(http://www.housingmaps.com/):利用房地产研究机构提供的数据和Google地图,有人开发出了美国房地产的交易图。在这个互动地图上,你可以非常直观地查询美国主要城市各处可供租售房产的情况,包括价格、位置、照片,以及交通路线图。

  2.便宜汽油地图(http://www.ahd-ing.com/cheapgas/):该地图提供了美国各地加油站的汽油价格,通过在地图上进行比对,使用者可以找到油价最便宜的加油站,就近加油。

  3.Lawrence娱乐休闲地图(http://www.lawrence.com/places/the_bottleneck/):一张吃喝玩乐的卫星地图,不用问你也知道,这是调用的GoogleMaps。

  4.芝加哥犯罪地图(http://www.chicagocrime.org):这是迄今为止,利用Google地图所做出的最炫、最酷、最实用的网站。这个地图提供芝加哥市一个月内,所有发案的数据,你可以通过选择犯罪类型,查看这类犯罪发生在芝加哥哪些街区,从而总结出犯罪分子的活动规律,避免受到犯罪侵害。

  Google地图,带我们进入开放共享时代

  看了以上Google地图的应用举例,你会发现一个共同的规律:这些网站除了做一点整合的工作,几乎不需要自己做什么。地图,是Google提供的;数据,是其他公共机构提供的。以上面说过的芝加哥犯罪地图为例,它的数据来源是芝加哥警方向社会公开的市民报案数据。

  这给我们一个启发,现在的互联网已经进入了一个“大导演时代”,你不需要自己搜集信息,也不需要自己开发应用程序,原创的工作尽管留给别人去做,我们应当做的就是站在巨人的肩膀上,把别人的东西整合起来。当然这一切的基础在于开放和共享。

  国内电子地图的开发者显然没有意识到这一点。他们的认识似乎还停留在凡事亲力亲为,肥水不流外人田的地步。在一家“中国电子地图网”(http://www.joinmap.com/)的首页,我们看到一则“严正警告”:现发现“中国交通旅游网”的电子地图栏目,为完全盗取我网站首页内容,在此提出严正警告!

  这家网站的愤怒心情,我们完全可以理解,自己辛辛苦苦开发的电子地图,却被别人盗用,心里的确不是滋味。但换个角度思考,这家网站做电子地图的思路是不是有点问题呢?不提供与他人共享的API,这样的地图也许会做得很认真、很详细,但网民从中却享受不到技术带来的便利。

  道理很简单,网络时代一个人精彩不叫精彩,只有共享与协作,大家才能一起HIGH。

  Google催生“地图玩家”

  目前,国外已经有一些Google卫星地图玩家,这些玩家往往还有另外一个身份:博客。他们乐此不疲地在自己的Blog里张贴自己的新发现,比如一个人造岛屿,一片奇怪的沙漠,一个秘密军事基地……可以说,在“报道”Google卫星地图方面,博客们又占了先机。而在中国,由于Google推出中国版本卫星地图的时间还很短,因此只有少数博客对此事表示出了关注,中国的媒体,也还处于普遍反应冷淡的地步。

  而国外的博客们,却已经开始了自己的“地图玩家之旅”。

  在一个名为“GoogleSightseeing”的Blog里,作者James和Alex几乎每天都更新日志,上传不同的卫星图片,而每篇日志后面,总有人跟帖发表评论。至截稿时,最新一篇日志里的图片,是一张某日本人造岛屿的卫星截图;在一篇题为《DesertFarming》的日志中,作者上传了一张沙漠的卫星地图,从这张图上,可以看到在这片沙漠中间,有明显、独特的痕迹———作者据此推论,这片沙漠上曾经有过巨大的灌溉系统;在6月24发表的一篇日志中,作者上传的一张卫星地图显示,在墨西哥某海岸边有一个奇怪的洞,作者对此表示非常好奇,有27个人发言参与了对此事的讨论。除了上述“发现”以外,这个Blog里的卫星地图,还有埃及的狮身人面像金字塔,北京的天安门和紫禁城,古罗马的圆形大剧场,太平洋上的一个火山口……如果不是亲眼看到,你很难想像这两个“地图玩家”,会有那样大的能耐,将这些地方从Google的卫星地图上找出来,其中有些地方还很神秘。

  显然,这是一个对Google卫星地图很感兴趣的Blog,如果你有兴趣访问,加入他们的Google卫星地图之旅,请打http://www.googlesightseeing.com

  尽管国外有为Google卫星地图而痴迷的博客,但也有些博客对Google表示出了担忧。在国外某Blog上,记者读到了这样一篇文章:《Google Maps:Invading Your Town!》翻译成中文的意思是:Google地图正在侵入你的城镇!该博客质问:“你能想像当我们走向公共汽车时,头顶上有个巨大的阴影在旋转吗?”这篇日志引来了众多人的讨论。

  Look,Up in the sky!(看,天上!)——有人发出了这样的“警句”。

  但在Google推崇者眼里,Google却是一家最“酷”的公司。Google in the Sky,with Satellites(Google在天上,和卫星一起)——这句话读来感觉有点“激荡人心”,事实上这确实是一个国外博客对Google的溢美之词。他还写道:“哇,Google确实知道怎样提高它的技术水平,它正在提供越来越多的免费服务,比如Google的卫星地图服务,这真是太酷了。现在,你可以偷看你邻居家的后花园了。”

  而像下面这样的观点,则让人有点忍俊不禁:“天,我竟然在Google卫星地图上发现了自己的房屋,这真是太有趣了!我很自豪我能在地图上找到它,感谢Google提供的这项新服务。”

  怎么样,你是不是对Google的卫星地图动心了?毕竟,“Google在天上,和卫星一起”,听起来是一句能“蛊惑人心”的“豪言壮语”。

2005年11月25日星期五

博客世界的战争:垃圾博客和恶意评论

  随着博客这个概念在中国越来越热,博客目前也面临一个很艰难的挑战:垃圾博客、恶意评论的增多。这些负面影响如果没有得以很好处理的话,那么未来博客也会象目前的邮件一样,成为垃圾邮件的下一个替代品。

  垃圾博客:

  垃圾博客就是那些通过垃圾文件影响搜索引擎的博客。有时候它被用来影响网页的算法,这些网页控制和其他网页或网站的链接。在更多的普通网站中,这被称为“链接工厂”。垃圾博客的内容通常毫无意义,充满广告或者是从其他网站上扒来的文章,但都带有大量的链接,链至垃圾博客作者的网站——购物、贷款、色情、二手车……与你收到的垃圾邮件内容类似,目的是为了强奸读者的视听,达到产品宣传的目的。当然也有不同之处,这些垃圾博客还急切地想做另一件事:SEO,或者可以说成是迷奸Google,要提高他们站点的PageRank。

  恶意评论:

  现代博客系统允许评论和反馈成为其他用户和读者给文章简单添加想法和评论的方式。不幸的是,有些人却滥用了这种系统,在评论中恶意加入大量毫无意义的广告和链接地址。一些人甚至开发相应的工具,自动提交大量链接到博客的评论中。那些创造了垃圾博客和垃圾评论的人认为这会产生很多好处,通常通过建立这些系统获得额外的搜索引擎排名或者收入。

  其实,当业界达人把Blog称作是电子邮件、即时通讯、BBS之后的第四大交流沟通之时,垃圾博客已经有苗头了。这两年来,随着全世界劳动人民对垃圾邮件的抗议,微软、AOL等巨头联合司法机构,合力对垃圾邮件发送者进行了绞杀。于是,这些老鼠们纷纷寻找其他的突破口。Blog世界不可避免的受到影响。在垃圾博客之外,早先更让Blogger们感到头疼的,是那些已经成灾的垃圾留言、垃圾反向链接和垃圾Trackback。国内某知名Blogger曾在其Blog上痛骂一个家伙,这人很喜欢给各种Post后面留言,内容大抵都是“你的文章越来越精彩了”、“我很喜欢你的这篇文章”云云,然后就开始推销自己的网站。在相互间联系如此紧密的Blog世界,还披上虚伪的吹捧外衣玩家个把戏,让人不禁要猜测这家伙脑积水的水位。因为更多发垃圾留言的家伙,早就开始采用自动化软件工具了——一指定BSP或者WP、MT一类的Blog软件,它就能把垃圾留言一篇接一篇地往出贴。验证码是一个阻止垃圾的有效办法,但对正经人来说,用户体验无疑降低了。

  道高一尺,魔高一丈。我们还有什么办法呢?在国外,无数Blogger都开始为未来忧心忡忡:Blog会不会成为下一个垃圾场?很难说我们不愿看到的未来会不会真的来临。因为,即使是技术力量已经十分强大的Google,对于来自众人的抗议,也只是暂且删除了Blogspot上的13,000个二级域名,还有“努力防御自动注册Blog和发文的脚本”的承诺。而目前看来,垃圾博客这股污水,还正源源不断流向Blog的大海。

  现在,是到了深入思考和建立控制干涉系统的时候了,这样才能处理好这些问题。这个问题的解决也需要大量时间,因为垃圾博客会通过各种新方法产生来影响搜索引擎和网站运作。相信这场和垃圾博客的对抗将是一个长期而艰巨的战争。