2005年11月29日星期二

电信级的网络弹出广告

  我是用中国电信的ADSL上网的,一直碰到一个奇怪的现象:我自己的网站并没有弹出广告代码,但是我浏览自己的网站时候,偶尔会弹出一个类似“绿色上网”等的广告窗口。我查看我网页的源代码,没有弹出广告代码,再刷新网站,又没有广告弹出了。

  上网搜索了一下,发现不少人也遇到这种情况,这种广告非常隐蔽,一般人不会注意到,只是以为该网站有弹出广告。而实际上网站并没有弹出广告。该广告的地址是以http://pbvertisegreen.139.com/push/开头的,一般是深圳电信自己的垃圾广告,投放隐蔽,且没有成本。

  这种广告实际上是电信局在电信级网关路由器上安放的,我分析其原理如下:用户刚拨号上网的时候,访问的第一个网站时,电信局在这个网站的HTTP包中增加一段弹出代码,弹出广告后再自动转移到正式的网站。弹出广告也有一定随机性,不是每次都弹出,而是随机挑选某些HTTP包进行拦截,所以通常我们再次刷新会发现没有广告弹出。

  这种广告手段是很卑劣的,并且也是违法的。电信局肯定也知道这一点,因此这种广告投放的非常隐蔽:浏览一个网站的时候才弹出,让别人误以为是这个网站的广告;并不是每次都弹出,而且弹出也没有什么规律性,以免引起用户注意;弹出代码使用技术进行隐藏,让别人找不到证据。

  这样的广告方式据说不少ISP都采用,我想大多数上网者都遇到过,由于其广告是在电信的路由器上安放的,因此很难屏蔽。不过并不是说我们一点办法也没有。最好的办法,就是抵制这个ISP,拒绝使用其服务。其次,安装GOOGLE工具条,GOOGLE工具条可以屏蔽大部分弹出广告。

2005年11月27日星期日

搜索引擎技术揭密:中文分词技术

  信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。

  搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

  什么是中文分词

  众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

  中文分词和搜索引擎

  中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)上以“和服”为关键词进行搜索:

  在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。

  在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。

  在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。

  这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

  中文分词技术

  中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

  现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

  1、基于字符串匹配的分词方法

  这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

  1)正向最大匹配法(由左到右的方向);

  2)逆向最大匹配法(由右到左的方向);

  3)最少切分(使每一句中切出的词数最小)。

  还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

  一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

  对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。

  2、基于理解的分词方法

  这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

  3、基于统计的分词方法

  从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

  到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

  分词中的难题

  有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

  1、歧义识别

  歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

  交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

  如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

  2、新词识别

  新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

  新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

  中文分词的应用

  目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。

  分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。

  作者:Winter

Google地图带我们进入开放共享时代

  大名鼎鼎的搜索引擎公司Google,现在已经将它的卫星地图服务延伸到了中国。而在不久前,有很多人为Google的卫星地图没有中国版本而感到遗憾。现在,中国版本的Google卫星地图来了,对那些Google卫星地图的推崇者们来说,这无疑是个激动人心的消息!

  北京、上海、杭州、广州、深圳、哈尔滨、沈阳、重庆……只要你在http://maps.google.com的卫星地图搜索中,键入以上城市的汉语拼音,就能得到由Google提供的卫星地图;更“致命”的是,Google的这项服务是完全免费的。这意味着,以前普通人很难看到的卫星地图,现在可以通过Google方便地获取。

深圳地图

  Google卫星地图扩展步伐

  2004年10月份,Google收购了一家名为Keyhole(中文译为“匙孔”)的数字地图测绘公司,该公司拥有卫星和航拍高质量地面地图。在Google完成对该公司的收购后,Google的一位副总裁曾公开表示:“收购Keyhole公司将使Google的用户拥有一个新的、功能强大的搜索工具,使用户可以看到地球上任何地点的三维图像。Keyhole对于Google来说是一个很有价值的补充,它使Google能够更好地组织世界各地的信息并使之更加有用。”在说完这番话的六个月后,Google就让人见识了什么叫“新的、功能强大的搜索工具”——2005年4月份,Google推出了全新的免费卫星地图服务,而此前用户必须花费29.95美元的费用,才能查看卫星地图。

  Google的免费卫星地图服务最初只局限于北美地区。现在,美国的用户已经切实感受到了卫星地图服务的便利———在美国,Google的免费卫星地图可以细化到街道,用户可以在地图上搜索旅店、公园、地铁甚至提款机等信息;对于准备开车出门旅行、对道路交通状况又不熟悉的人来说,他可以在Google的卫星地图上查清交通路线,以获得驾车的具体方向;甚至Google还能为警方提供数据,跟踪罪犯……

  在北美的加拿大,有一位用户在自己的Blog上,留下了自己使用Google卫星地图的经过和感想:在Google卫星地图的LocalSearch(本地搜索)项中,在第一栏填“Chinese Noodle”,第二栏填“Vanocuver”,搜索出来的全是温哥华附近地区(75公里之内)的中国面店地址与地图;如果第一栏填“Chapters”(加拿大的一家连锁书店),第二栏填“Vancouver”,出来的结果就是该书店分布于全温哥华地区的分店地址与地图、方向、距离和路线。该用户评论说,Google已经从“虚拟空间”的搜寻,跨入“实体空间”的搜寻了。

  总之,Google卫星地图的横空出世,在吸引了大量Google“崇拜者”目光的同时,也引起了一些人对“隐私”泄露的担忧。

  在Google推出北美免费卫星地图的两个多月后,Google终于将它的卫星地图版本扩大到了中国。现在,你可以在卫星地图上看到北京天安门广场、人民英雄纪念碑、中南海,甚至长安街上的车流;相比之下,香港地图显得更加清晰、细致,其应用程度看起来已经接近北美地区。

  当你进入http://maps.google.com的卫星地图搜索时,在你面前的默认页面,是一张卫星拍摄的世界地图!世界就在你的眼前——这种感觉是地球仪不能带来的。

  卫星地图引起各方反应

  Google在北美推出卫星地图服务后不久,微软主席比尔·盖茨向外界展示了卫星地图技术——一项旨在和Google卫星地图服务竞争的“MSN虚拟地球”计划,据报道将于今年夏天推出。

  而自Google卫星地图服务进入中国以来,国内几家提供电子地图服务的本土搜索引擎公司,到目前为止尚未做出反应;在中国大陆,媒体对此事的相关报道也极少,至少没有大的报道,倒是一些“博客”们对此事给予了关注。

  有网友将Google的卫星地图服务称为“互联网近五年来少有的让人激动的创新”:通过Google的卫星地图服务,你可以更好地了解全世界的地形地貌,可以清晰地看到各地的高山、河流、湖泊、公路甚至足球场。在北美的一些城市,Google卫星地图能够非常清楚地显示出街道和建筑物,可以分辨出汽车,比普通地图更加直观。不过有一点,Google的卫星地图并不是最新拍摄的。但即便这样,仍然有人笑称,“年轻的朋友请不要在大街上接吻,以免被卫星发现”。虽然这句话有开玩笑的成分,但这反映了人们在对Google刮目相看的同时,也确实对自己个人隐私可能会遭到泄露表示出了担心。

  面对种种猜疑,Google方面表示,Google“不会违反不做坏事的格言,不会挖掘非公开信息”。

  不过,据报道,Google的卫星地图让台湾军方感到了“紧张”:台湾军方视为最高机密的花莲佳山基地等空军机场,也成了Google卫星地图的“猎物”。军方人士表示,如果有经纬度坐标,这些地图会令人冒冷汗。

  另外,据国外某网站报道,普通人无法亲临的美国军事基地,也被Google“曝了光”——大名鼎鼎的美国“B-2隐形轰炸机”,竟然可以被Google发现停在基地停机坪上!

  关于Google卫星地图和中国军事的关系,有人这样评论:中国大陆重要城市立体地图在Google里一览无余……特别令人担心的是,Google是一家私人企业,此次网上的卫星地图解析度肯定比军用卫星地图要低得多——可以想像:军用卫星地图可能连人都会看得很清楚,更不用说重要的军事基地了。

  而现在,免费提供的Google卫星地图,可以让每个人都能轻易获得某些城市敏感地方的地形图——在某些人看来,这是一项“激动人心的创新”,但在另外一些人看来,这是一项“要命的创新”。

  也许Google制造的,是一把锋利的双刃剑。

  电子地图没什么稀奇,国内提供这项服务的网站有不少,名气最大的属“图行天下”(www.go2map.com)。在这个地图上,你可以查到杭州等城市每个街道和公交线路,应该算是比较好用的。正因为如此,搜狐才以960万美元的价格收购了它。当Google在美国推出地图服务后不久,国内的搜索引擎——中搜也宣布推出地图服务。但此地图非彼地图。无论是go2map,还是国内大大小小的电子地图网站,都难以与Google地图相提并论。

  因为Google提供了其他地图没有的东西——卫星照片和“应用程序接口(API)”。

  API:越开放,越无敌

  应用程序接口(Application Programming Interfaces),听起来有点玄乎,其实并不复杂。它是Google、亚马逊、雅虎、Flickr等网站为程序员提供的一个数据接口,有了这个接口,你稍懂一点编程,就可以调用上述网站的数据,在它们的基础上,重新建造一个全新的网站。

  以亚马逊书店为例,通过这家全球最大的网上书店提供的API,可以建立个性化的书店,比如开一家音乐电影类书籍音像专卖店(http://www.live-plasma.com)。作为互联网技术领跑者的Google,当然不会走闭关锁国之路,在推出Google地图的同时,它也提供了API。这就是它与国内外其他电子地图最大的区别。

  Google地图的炫酷应用

  国外有些高人,已经利用Google地图API开发出许多让人不可思议的网站。

  1.美国房地产交易地图(http://www.housingmaps.com/):利用房地产研究机构提供的数据和Google地图,有人开发出了美国房地产的交易图。在这个互动地图上,你可以非常直观地查询美国主要城市各处可供租售房产的情况,包括价格、位置、照片,以及交通路线图。

  2.便宜汽油地图(http://www.ahd-ing.com/cheapgas/):该地图提供了美国各地加油站的汽油价格,通过在地图上进行比对,使用者可以找到油价最便宜的加油站,就近加油。

  3.Lawrence娱乐休闲地图(http://www.lawrence.com/places/the_bottleneck/):一张吃喝玩乐的卫星地图,不用问你也知道,这是调用的GoogleMaps。

  4.芝加哥犯罪地图(http://www.chicagocrime.org):这是迄今为止,利用Google地图所做出的最炫、最酷、最实用的网站。这个地图提供芝加哥市一个月内,所有发案的数据,你可以通过选择犯罪类型,查看这类犯罪发生在芝加哥哪些街区,从而总结出犯罪分子的活动规律,避免受到犯罪侵害。

  Google地图,带我们进入开放共享时代

  看了以上Google地图的应用举例,你会发现一个共同的规律:这些网站除了做一点整合的工作,几乎不需要自己做什么。地图,是Google提供的;数据,是其他公共机构提供的。以上面说过的芝加哥犯罪地图为例,它的数据来源是芝加哥警方向社会公开的市民报案数据。

  这给我们一个启发,现在的互联网已经进入了一个“大导演时代”,你不需要自己搜集信息,也不需要自己开发应用程序,原创的工作尽管留给别人去做,我们应当做的就是站在巨人的肩膀上,把别人的东西整合起来。当然这一切的基础在于开放和共享。

  国内电子地图的开发者显然没有意识到这一点。他们的认识似乎还停留在凡事亲力亲为,肥水不流外人田的地步。在一家“中国电子地图网”(http://www.joinmap.com/)的首页,我们看到一则“严正警告”:现发现“中国交通旅游网”的电子地图栏目,为完全盗取我网站首页内容,在此提出严正警告!

  这家网站的愤怒心情,我们完全可以理解,自己辛辛苦苦开发的电子地图,却被别人盗用,心里的确不是滋味。但换个角度思考,这家网站做电子地图的思路是不是有点问题呢?不提供与他人共享的API,这样的地图也许会做得很认真、很详细,但网民从中却享受不到技术带来的便利。

  道理很简单,网络时代一个人精彩不叫精彩,只有共享与协作,大家才能一起HIGH。

  Google催生“地图玩家”

  目前,国外已经有一些Google卫星地图玩家,这些玩家往往还有另外一个身份:博客。他们乐此不疲地在自己的Blog里张贴自己的新发现,比如一个人造岛屿,一片奇怪的沙漠,一个秘密军事基地……可以说,在“报道”Google卫星地图方面,博客们又占了先机。而在中国,由于Google推出中国版本卫星地图的时间还很短,因此只有少数博客对此事表示出了关注,中国的媒体,也还处于普遍反应冷淡的地步。

  而国外的博客们,却已经开始了自己的“地图玩家之旅”。

  在一个名为“GoogleSightseeing”的Blog里,作者James和Alex几乎每天都更新日志,上传不同的卫星图片,而每篇日志后面,总有人跟帖发表评论。至截稿时,最新一篇日志里的图片,是一张某日本人造岛屿的卫星截图;在一篇题为《DesertFarming》的日志中,作者上传了一张沙漠的卫星地图,从这张图上,可以看到在这片沙漠中间,有明显、独特的痕迹———作者据此推论,这片沙漠上曾经有过巨大的灌溉系统;在6月24发表的一篇日志中,作者上传的一张卫星地图显示,在墨西哥某海岸边有一个奇怪的洞,作者对此表示非常好奇,有27个人发言参与了对此事的讨论。除了上述“发现”以外,这个Blog里的卫星地图,还有埃及的狮身人面像金字塔,北京的天安门和紫禁城,古罗马的圆形大剧场,太平洋上的一个火山口……如果不是亲眼看到,你很难想像这两个“地图玩家”,会有那样大的能耐,将这些地方从Google的卫星地图上找出来,其中有些地方还很神秘。

  显然,这是一个对Google卫星地图很感兴趣的Blog,如果你有兴趣访问,加入他们的Google卫星地图之旅,请打http://www.googlesightseeing.com

  尽管国外有为Google卫星地图而痴迷的博客,但也有些博客对Google表示出了担忧。在国外某Blog上,记者读到了这样一篇文章:《Google Maps:Invading Your Town!》翻译成中文的意思是:Google地图正在侵入你的城镇!该博客质问:“你能想像当我们走向公共汽车时,头顶上有个巨大的阴影在旋转吗?”这篇日志引来了众多人的讨论。

  Look,Up in the sky!(看,天上!)——有人发出了这样的“警句”。

  但在Google推崇者眼里,Google却是一家最“酷”的公司。Google in the Sky,with Satellites(Google在天上,和卫星一起)——这句话读来感觉有点“激荡人心”,事实上这确实是一个国外博客对Google的溢美之词。他还写道:“哇,Google确实知道怎样提高它的技术水平,它正在提供越来越多的免费服务,比如Google的卫星地图服务,这真是太酷了。现在,你可以偷看你邻居家的后花园了。”

  而像下面这样的观点,则让人有点忍俊不禁:“天,我竟然在Google卫星地图上发现了自己的房屋,这真是太有趣了!我很自豪我能在地图上找到它,感谢Google提供的这项新服务。”

  怎么样,你是不是对Google的卫星地图动心了?毕竟,“Google在天上,和卫星一起”,听起来是一句能“蛊惑人心”的“豪言壮语”。

2005年11月25日星期五

博客世界的战争:垃圾博客和恶意评论

  随着博客这个概念在中国越来越热,博客目前也面临一个很艰难的挑战:垃圾博客、恶意评论的增多。这些负面影响如果没有得以很好处理的话,那么未来博客也会象目前的邮件一样,成为垃圾邮件的下一个替代品。

  垃圾博客:

  垃圾博客就是那些通过垃圾文件影响搜索引擎的博客。有时候它被用来影响网页的算法,这些网页控制和其他网页或网站的链接。在更多的普通网站中,这被称为“链接工厂”。垃圾博客的内容通常毫无意义,充满广告或者是从其他网站上扒来的文章,但都带有大量的链接,链至垃圾博客作者的网站——购物、贷款、色情、二手车……与你收到的垃圾邮件内容类似,目的是为了强奸读者的视听,达到产品宣传的目的。当然也有不同之处,这些垃圾博客还急切地想做另一件事:SEO,或者可以说成是迷奸Google,要提高他们站点的PageRank。

  恶意评论:

  现代博客系统允许评论和反馈成为其他用户和读者给文章简单添加想法和评论的方式。不幸的是,有些人却滥用了这种系统,在评论中恶意加入大量毫无意义的广告和链接地址。一些人甚至开发相应的工具,自动提交大量链接到博客的评论中。那些创造了垃圾博客和垃圾评论的人认为这会产生很多好处,通常通过建立这些系统获得额外的搜索引擎排名或者收入。

  其实,当业界达人把Blog称作是电子邮件、即时通讯、BBS之后的第四大交流沟通之时,垃圾博客已经有苗头了。这两年来,随着全世界劳动人民对垃圾邮件的抗议,微软、AOL等巨头联合司法机构,合力对垃圾邮件发送者进行了绞杀。于是,这些老鼠们纷纷寻找其他的突破口。Blog世界不可避免的受到影响。在垃圾博客之外,早先更让Blogger们感到头疼的,是那些已经成灾的垃圾留言、垃圾反向链接和垃圾Trackback。国内某知名Blogger曾在其Blog上痛骂一个家伙,这人很喜欢给各种Post后面留言,内容大抵都是“你的文章越来越精彩了”、“我很喜欢你的这篇文章”云云,然后就开始推销自己的网站。在相互间联系如此紧密的Blog世界,还披上虚伪的吹捧外衣玩家个把戏,让人不禁要猜测这家伙脑积水的水位。因为更多发垃圾留言的家伙,早就开始采用自动化软件工具了——一指定BSP或者WP、MT一类的Blog软件,它就能把垃圾留言一篇接一篇地往出贴。验证码是一个阻止垃圾的有效办法,但对正经人来说,用户体验无疑降低了。

  道高一尺,魔高一丈。我们还有什么办法呢?在国外,无数Blogger都开始为未来忧心忡忡:Blog会不会成为下一个垃圾场?很难说我们不愿看到的未来会不会真的来临。因为,即使是技术力量已经十分强大的Google,对于来自众人的抗议,也只是暂且删除了Blogspot上的13,000个二级域名,还有“努力防御自动注册Blog和发文的脚本”的承诺。而目前看来,垃圾博客这股污水,还正源源不断流向Blog的大海。

  现在,是到了深入思考和建立控制干涉系统的时候了,这样才能处理好这些问题。这个问题的解决也需要大量时间,因为垃圾博客会通过各种新方法产生来影响搜索引擎和网站运作。相信这场和垃圾博客的对抗将是一个长期而艰巨的战争。
 

感恩节的祝福

  这是我在感恩节那天临下班时收到的邮件。说实话,我根本忘记了时间的概念,更忘记了这样的洋节日。然而,就在我打开这个邮件,并在几米的漫画氛围中欣赏完这个PPT之后,心中溢出的是温暖,是感动。

  我感恩

  “有每夜和我抢棉被的伴侣,那表示他 /她不是和别人在一起。

  有只会看电视而不洗碗的青少年,那表示他 /她乖乖在家而不是留连在外。

  我缴税,那表示我有工作。

  衣服越来越紧,那表示我吃的很好。

  有阴影陪伴我的劳动,那表示我在明亮的阳光下。

  有待修整的草地,待清理的窗户,和待修理的排水沟,那表示我有个家。

  有各样对政府不满的抱怨,那表示我们有言论自由。

  能找到最远的那个停车位,那表示我还能走路,且还有幸能有辆车。

  有巨额的电费帐单,那表示我冷气吹的很爽。

  教堂礼拜时我身后有个五音不全的女士,那表示我还听的到。

  有一堆衣服要洗烫,那表示我有衣服穿。

  一天结束时,浑身疲劳、肌肉酸痛,那表示我有拼命工作的能力。

  一大早被响起的闹钟吵醒,那表示我还活着。

  最后,感恩过量的电子邮件,那表示有许多朋友会想到我。”


  看了这篇文章,就想着要把它录在BLOG上,和大家分享。

  其实,平日中的点点滴滴,我们并未留意,而如果我们换一种感恩的心态来看待周围早已熟悉甚至有些乏味的事物,或许品出的会是另一番滋味,唤醒的会是另一种激情。

2005年11月23日星期三

站长必去的十个编程网站

  这是个网站是我经常去的网站,在个人站长的圈子里有相当的知名度,是写网站或者编程序必去的地方。

1、中国软件开发网 - http://www.csdn.net
中国最大的开发者网络,程序员必去的地方,讨论社区人气很旺。

2、中国站长站 - http://www.chinaz.com
访问量很大的站长站,提供网站源码下载以及网站设计资料。

3、蓝色理想 - http://www.blueidea.com
有名的关于网站设计的网站。

4、DoNews写作社区 - http://www.donews.com/
IT写作、博客和社区,参与的人不少是IT业界的名人。

5、落伍者论坛 - http://www.im286.com
是一个较有人气的网站建设和网站程序的讨论区。

6、月光博客 - http://www.williamlong.info
每天都更新的专业技术性博客,提供了很多编程技巧和开发文档等等。

7、编程爱好者网站 - http://www.programfan.com
提供各种流行语言的文章,源码,论坛。

8、模板天下 - http://www.mbsky.com
提供网站模板,源码,flash,图片下载。

9、洪恩在线网页制作教程 - http://www.hongen.com
提供frontpage,dreamweaver,Flash,CSS等教程。

10、你自己的站
这个其实应该是第一的,你自己的站,难道不是最应该去的吗

2005年11月22日星期二

Google Sitemaps使用指南

  Google Sitemaps是Google的一个和网站管理员相关的工具,有点象BLOG的RSS功能,是一个方便自己的服务,如果大家(互联网上所有的信息源)都采用了这种方式提交自己的更新的话,Google就再也不用派出那么多爬虫辛辛苦苦的到处乱窜了,任何一个站点,只要有更新,便会自动“通知”Google,方便Google进行索引。

  初步使用了一下Google Sitemaps,用法非常简单。

  首先在自己网站根目录上上建立一个名为GOOGLE11e5844324b7354e.html,文件本身可为空。然后在Google Sitemaps主页上单击验证按钮。Google会验证这一文件。如果验证通过,Google会显示一个已验证状态,并提供一个指向用户网站统计信息的链接。经过验证后,用户随时可以通过单击“网站概述”页上的链接来查看自己网站的统计信息。

  接下来,建立Sitemaps文件。Sitemaps文件是XML格式的,Google建议使用Sitemaps协议格式的文件。不过使用BLOG的RSS甚至纯文本文件也都可以。XML Sitemaps 格式其实也很简单,建议多花几分钟转换为XML Sitemaps 格式后再提交Google。Sitemaps协议是XML的变种,用于概括与Web抓取工具相关的Sitemaps信息。对于每个网址,都可以加入抓取“提示”(如最后修改日期和近似更改频率)。Sitemaps协议以 <urlset> 开始标记开始,以 </urlset> 结束标记结束。 每个网址包含一个作为父标记的 <url> 条目。 每一个 <url> 父标记包括一个 <loc> 子标记条目。<loc>是网页文件的网址。此网址应以http开始并少于2048个字符。 <lastmod>表示该文件上次修改的日期。此日期允许删除时间部分,例如YYYY-MM-DD。其他的可选项可以不加。

  最后,在Google Sitemaps的提交页面填写你生成的Sitemap地址(比如我的是http://www.williamlong.info/sitemap.xml),并提交即可。

  过了几个小时后,再登录Google Sitemaps,可以看到功能菜单。

  Google Sitemaps还提供了Google Spider对用户网站访问情况的说明报告,如:查询统计信息、抓取统计信息、网页分析、索引统计信息等信息。“查询统计信息”中,有列出几个进入你网站的热门搜索关键字。在“抓取统计信息”中,可以看到Google Spider抓取网站的概要统计和抓取错误的地址。实现了网站主和Google Spider的信息交互。

  Google Sitemaps的访问地址是:http://www.google.com/webmasters/sitemaps/ 。