2009年4月4日星期六

屏蔽百度爬虫的方法

  在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

  在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

  但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

  当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。

中国类Twitter微博客网站分析

  专业的博客服务在中国还没有看到黎明的曙光,微型博客(Micro-blogging)却似乎有后来居上之势,越来越吸引人们的眼球,以Twitter为首的一批微博客服务正形成席卷全球之势,走向更为广泛的大众。

  那么中国的微博客服务前景如何呢?Twitter在中国扮演什么角色?中国本土的微博客服务商,例如饭否、叽歪的、做啥、滔滔、以及后起之秀嘀咕,谁能在这个市场上成为最后的胜利者呢?

  对于Twitter在中国的发展前景,我不看好,因为Twitter在中国并没有走向大众群体,并且在中国也没有什么影响力,因为没什么人在使用。

Twitter

  在中国,使用Twitter的用户群都非常小众,数量很有限,基本上集中在互联网从业者这样一个很小的圈子内,大量的非专业用户极少使用Twitter,这导致Twitter并没有像国外那样在大众之中迅速普及,这方面的原因是很多的。

  Twitter进入中国带有很多天生的缺陷:无中文界面,速度慢,域名不好记,没有一个好的中文名字,不支持短消息更新(国际短信一元一条),不支持树状讨论界面,不支持照片上传和彩信等等。这其中,中文界面是最为关键的一个因素,因为很多中国人根本不懂英文,不习惯用英文,因此有一个中文界面对于网站在网民中的普及非常重要,这也决定了这个网站能否真正走向中国大众。

  从功能上讲,类似FriendFeed的聚合网站以及社交网站Facebook都逐步增强了类Twitter的功能,吸引着Twitter的用户转移阵地,而Twitter在这方面的动作却几乎没有,这也带给众多第三方网站很多机会。

  总之,国内的类Twitter微博客网站的机会很多,看怎么把握了,如果一个互联网企业能从产品创新过渡到需求创新,发现广大中国用户更多的潜在需求或可能需求,通过重新定位、重新细分开创全新市场,那么这个企业在中国微博客市场开拓自己的蓝海并非不可能的事情。

2009年4月2日星期四

IIS网站服务器性能优化指南

  Windows Server自带的互联网信息服务器(Internet Information Server,IIS)是架设网站服务器的常用工具,它是一个既简单而又麻烦的东西,新手都可以使用IIS架设一个像模像样的Web站点来,但配置、优化IIS的性能,使得网站访问性能达到最优状态却不是一件简单的事情,这里我就介绍一下如何一步一步的优化你的IIS服务器。

  服务器端环境,我们以Windows Server 2003的IIS6.0为例,客户端环境为Mozilla Firefox 3.0,同时安装Yahoo的YSlow扩展。

  YSlow是Yahoo开发者团队发布的一款基于Firebug的插件。用于分析网页,并根据一些高性能网站的规则进行相应的评级打分,对于网页性能优化有很好的帮助作用,告诉你那些部分影响了你的网页速度,并告诉你如何基于某些规则而进行优化。我们对于IIS的优化策略就是基于YSlow的。

  使用安装了YSlow的Firefox打开目标网站,然后点击YSlow图标,点击Performance,如下图所示。

YSlow

  其中Performance Grade为YSlow对你网站的评级,A(100分)为最高,F为最低,后面列出如何进行修改,下面我以IIS 6.0为例介绍一下如何进行优化网站性能。

  1、减少HTTP请求数量

  这主要是修改网站代码,减少外部图片、CSS、JS等文件数量,手动合并多个CSS/JavaScript文件。IIS那里不用设置。

  2、使用CDN

  对于小网站来说,这个就免了吧。当然有钱人可以试试,可以从技术上解决用户访问网站响应速度慢的问题。

  3、启用内容过期

  对于静态文件启用内容过期可以提高访问性能。首先网站的目录要划分合理,图片、CSS、JavaScript均放在单独目录下,然后在IIS中选择目录,点属性-HTTP头,启用内容过期,可以选择30天后过去,这样,用户浏览器将比较当前日期和截止日期,以便决定是显示缓存页还是从服务器请求更新的页,由于图片、CSS、JS通常变化较少,因此基本上都从本地缓存读取,从而加快显示速度。

启用内容过期

  4、启用Gzip压缩

  HTTP压缩是在Web服务器和浏览器间传输压缩文本内容的方法。HTTP压缩采用通用的压缩算法如Gzip等压缩HTML、JavaScript或 CSS文件。压缩的最大好处就是降低了网络传输的数据量,从而提高客户端浏览器的访问速度。

  使用方法是,右击“网站”->“属性”,选择“服务”。在“HTTP压缩”框中选中“压缩静态文件”,“临时目录”建议单独设置另一个盘的目录下。

启用Gzip压缩

  之后,IIS管理器中,右击“Web服务扩展”->“增加一个新的Web服务扩展”,在“扩展名”中输入“HTTPCompression”,添加“要求的文件”为C:WINDOWSsystem32inetsrvgzip.dll,其中Windows系统目录根据您的安装可能有所不同,选中“设置扩展状态为允许”。

启用Gzip压缩

  最后,使用文本编辑器打开C:WindowsSystem32inetsrvMetaBase.xml,在HcFileExtensions中增加需要压缩的静态文件后缀名,默认为HTML和TXT文件,建议再添加上js、css等,不要添加图片或ZIP等已经被压缩的文件。

  5、将样式文件放在头部

  这是基本的HTML代码风格,将所有的CSS文件都放在HTML页面的头部。

  6、将脚本文件放在尾部

  这也是基本的HTML代码风格,将所有的JavaScript文件都放在HTML页面的尾部。

  7、避免CSS表达式

  这点很简单,因为大多数人从来不用CSS表达式。

  8、使用外部的JavaScript和CSS

  将所有的JavaScript和CSS都做成外部文件的形式进行引用,这主要是为了让这些文件可以被浏览器缓存起来,参见第三点的介绍。

  9、减少DNS查询

  域名的DNS查询会带来额外的访问开销,减少页面内文件的主机域名数量,一个页面的主机域名保持在2-4个以内,这样就不会降低页面的装入速度。

  10、压缩JavaScript文件

  压缩脚本文件,删除不必要的字符,可以改善加载时间,目前有很多JavaScript文件的压缩工具,我这里有一个GUI界面的JS压缩工具供下载。

  11、避免重定向

  网页的重定向会带来额外的运行开销,因此要避免页面进行重定向跳转操作。

  12、删除重复脚本

  一个页面两次包含同一个JavaScript文件会影响加载的性能,因此需要将重复的脚本文件删除。

  13、配置ETag

  这是一个令人迷惑的问题。理论上说将服务器的ETag删除会提高HTTP请求的性能,但是按照微软官方提供的修改方法配置IIS 6.0,并没有实际效果,最终我使用了一个第三方的DLL文件,以ISAPI的方式实现了删除ETag的功能。

  经过上面这些网站前端重构和WEB服务器的配置修改,我们的页面结构就变得更加规范,重构的页面大多都会取得不错的YSlow的评分,总体来说性能提升了不少。对于最终用户来说,也会明显感受到访问网站速度变快了很多,网站的浏览体验得到了较好的提升。

  参考书籍:高性能网站建设指南 —— 电子工业出版社出版

2009年4月1日星期三

谷歌打造“谷鸽鸟看”计划

  2009年4月1日, 总部位于美国加州山寨城(Mountain Village)的谷歌公司正式推出“谷鸽鸟看”计划。 该计划旨在利用装备了 CADIE 芯片和软体, 并被赋予了超智能信息处理能力的“谷鸽”, 动态采集、整理和分享山寨信息,打造全球最大的山寨信息网。

   简言之,“谷鸽鸟看”计划的使命是:鸟看全球信息,使人人皆可山寨并从中受益!

  类似谷歌街景(Street View) 采集技术,谷歌倾心打造的超智能谷鸽被赋予外出采集山寨信息的重要使命。 这一方面可以大幅提高谷歌地球(Google Earth) 和谷歌地图(Google Maps)的图像分辨率, 另一方面也可以弥补网页搜索中山寨信息含量明显偏低的缺憾, 实现搜索山寨化,山寨信息化,信息无废话。

  天涯何处不山寨,就看谁的动作快! 利用飞得高、看得远、耳朵灵、眼睛贼等特点, 谷鸽将重点采集以下山寨信息:

  1、最具有震撼力的山寨新闻:例如,湖南某烟花厂最新研制成功无污染、无燃烧、无烟尘, 适于在所有完工或未完工高层建筑安全燃放的绿色版山寨烟花的新闻。

  2、最有潜质的山寨明星:包括,上不了春晚一级的舞台,但有潜力成为网络人气偶像的型男、靓女; 不懂得炒作,但却充满娱乐气质的宅男、宅女;没有出众外表,但有满腹心事的痴男、怨女……

  3、最适合山寨恋人约会的时间地点:例如,2月14日晚,多情谷下、断肠崖边的爱情烧饼屋。

  4、最有创意的山寨发明、创造:例如, 能够从谷鸽音乐搜索中迅速找到可调解家庭矛盾、平息地区争端的“和平音乐编织机”。

  5、最有魅力的山寨流行语:类似2008年出现的“叉腰肌”、“囧”、 “谷鸽”等充满山寨活力的流行网络新词。

  谷鸽鸟看官方网站:http://www.google.cn/intl/zh-CN/google_pigeon/index.html

  去年的四月一日,谷歌曾推出“人肉搜索引擎”计划。

2009年3月31日星期二

谷歌音乐搜索升级

  先前曾经有流言称Google将在3月30日发布一个没人猜到的重磅神秘产品,当我知道这个产品是谷歌音乐搜索的时候,我甚至怀疑不会是Google提前过愚人节吧。

  在我印象中,谷歌音乐搜索并不是新产品,早在去年八月就推出了,该产品和百度的MP3搜索很类似,但谷歌与包括华纳、索尼、百代以及环球等上百家唱片公司签下合作协议,音乐全部都是正版音乐,没有版权方面的问题。该服务从发布之日起就屏蔽了其他国家IP访问的原因,只能在中国国内使用,在国外访问会提示:“抱歉,谷歌不在您所在的地区提供您所需要的服务。”

  带着疑问,我再次打开了谷歌音乐搜索网站,发现这次的产品升级的确有不少亮点,这次升级不仅仅歌曲库的容量增加,而且增加了一个非常有特色的新功能——“挑歌”,点击音乐搜索主页的“挑歌”标签,即可出现如下图的挑歌页面,用户可按节奏、声调、音色、年代、歌手、流派、语言等信息找到自己想要的那一类歌曲,适合用户分类听歌,这是其他中文音乐搜索网站所没有的新功能。

谷歌音乐搜索升级

  另外就是“相似歌曲”的功能,这个功能具有重大的突破意义,可以自动根据部分歌曲信息以及歌曲风格等找出相似的一些曲目,另外还会根据用户试听的风格来选择相似歌曲,这对于用户发现自己喜欢的新歌具有重要价值,相信这个独特的功能也会受到大家的喜爱。

  谷歌这次同全球四大唱片公司、140多家独立唱片公司、国际四大词曲出版商和中国音乐著作权协会建立了合作关系,目前已获得超过110万首音乐的正版授权,估计已经支付了不菲的版权费用,那么唱片公司大概已经乐翻了吧。

中国博客的写作哲学

  以前我曾经翻译过很多国外关于博客的写作技巧的文章,那些经验和技巧大多都是技术性的,类似一个博客教程,比较易于操作。当一个博客拥有较多读者的时候,应该考虑一下写作的高级技巧,讲求更高层次的写作经验。高级的博客技巧到底是什么呢?我不想照搬西方的那些理论,我想有一点自己的思考,就是按照东方的哲学思想来指导博客写作。前一阵我读过一本书,从中悟出了一些道理和启示,今天与大家分享一下。

  写博客和做人是一个道理,讲究德才兼备,不仅仅要有“才”,更重要的是“德”,以德为先。一个人可能很有才华,但如果缺少德行,依旧难以成为一个好博客,怎么样才能成为一个有德行的博客呢,下面是我悟出来的一些道理。

  1、利他

  东方哲学“仁道”的本质是关爱他人,推崇“亲和力”,反对利己主义。对于博客而言,多为自己的读者着想,帮助读者解决问题,传输给读者有用的资讯和技巧,个性化地写作,必要的时候要放弃一些个人利益,这就是博客的利他主义。举个例子,例如全文RSS Feed输出问题,虽然全文RSS输出有可能会被一些第三方聚合网站利用,损害博客作者的利益,但为了自己读者更加方便的阅读文章,博客就必须坚持全文RSS输出,哪怕有各种牺牲和损失也在所不惜,你对读者好,关心读者,读者自然会关心你,这就是所谓的“爱人者人必从而爱之,利人者人必从而利之,恶人者人必从而恶之,害人者人必从而害之。”

  2、寡欲

  每个人都有自己的欲望,有的人想出名,有的人想发财,但人的精力是有限的,不可能什么欲望都去追求。有些时候欲望还很可怕,一些人经不起诱惑往往在冲动之下做一些不理智的事情,因此应该有意识的不让自己产生欲望。西方有一些博客(例如John Chow)专门介绍怎么通过博客赚钱,这在西方是一个好主意,但在东方却未必,因为宣传写博客发财出名这种思想,会引发他人的一些不可能实现的欲望,如果过分痴迷和执着,往往还会害了别人。如果写作较少功利性,那可以让博主更多考虑长远目标,获取一些更好的甚至是意想不到的利益。

  3、无为

  无为的意思是说,做人要“有所为,有所不为”,在无为的地方应该无为,有所不为才能有所为,以道家的话来说,一个人有为还是无为的标准是“自然”。对于博客写作来说,博客的作者内容就是一个选择,博客作者应该写自己擅长或喜欢的内容,不应该为了追求流量而写一些偏离自己博客主题的内容,对于“博客话题广告”或者各类“软文”,尽量不要写,虽然会损失一些金钱或者流量,但这是值得的,只有做到有所不为,才能有所为。

  4、人和

  注重“以和为贵”是儒家崇尚的一种德行,对于人际关系乃至团队自身你生存和发展是至关重要的。人与人之间完全沟通和理解是不太可能的,“和”做为处理人际关系的一种原则,遵循了“和而不同”和“和而不流”这两个原理,包容不同的声音,和谐相处而又不盲从。对于博客而言,如果和其他博客发生矛盾和冲突,既要坚持自己的原则,也要包容对方的意见,做到“以和为贵”,努力平息相互之间的争论,而不应该写文章对他人进行人身攻击。攻击他人固然爽快,但为此丧失了德行可谓因小失大。

  5、中庸

  中庸以“过犹不及”为核心,做人处事追求适量、守度、得当,既不过头,也无不及,不偏不倚,恰到好处。写博客也是一样,不要写一些哗众取宠、耸人听闻的文章来吸引别人的眼球,更不要四处炫耀自己的成果,例如流量有多大,收入有多高等等,正确的做法是要坚持中庸之道,追求从容不迫、进退自如的人生境界。

  6、不争

  所谓“不争”,不是放弃一切,而是要以不争反立于不败之地。正因为你不争,所以天下才没有人能和你争,这才是竞争的最高境界,是“不战而屈人之兵”的竞争大智慧。博客写作过程中,难免会和他人发生矛盾甚至冲突,有时还可能会遇到他人的诽谤污蔑和人身攻击,遇到这种冲突,不必回应、也不必解释,“宠辱不惊,褒贬由人”,那些因得宠而惊喜,因失宠而惊恐,全是名利之心在作怪。只有做到了宠辱不惊、去留无意方能心态平和,恬然自得,方能达观进取,笑看人生。

  7、虚心

  “虚其心”指的是善于放下心事,整天心事重重不可能心想事成。虚心还是一种德行,体现为一种容人的度量,包容那些对你有成见的人、包容那些诽谤攻击你的人,尽管某些博客作者曾经攻击或污蔑过你,你却可以宽容和原谅对方。你的心量越大,你容人的空间越大,你的号召力和影响力也就越大。

博客

  总之,中国文化是博大精深的,博客写作的智慧也是如此,我们不可能把这里面的所有智慧一一穷尽,比起当今互联网那种急功近利的浮躁心态而言,这种东方的哲学智慧更能让中国博客作者达到一个新的境界。如果一个博客作者真能达到德才兼备这种水准,那么成功之路就离他不远了。

2009年3月30日星期一

世界博客服务稳定性评测

  很多人都使用BSP(博客托管服务)来托管自己的博客,在选择博客托管服务商的时候,需要考虑很多因素,其中第一重要的就应该是网站稳定性,毕竟,如果人们无法访问你的博客,其他一切都是没用。

  为了获得这一数据,Pingdom网站发布了一个评测报告,测试时间从2008年11月10日到2009年3月10日,为期四个月,评测了世界上主流的各个BSP服务,包括TypepadBlogger演示)、WordPress.com演示)、BlogsterBlog.comVoxSquarespaceWindows Live SpacesLiveJournal演示)。评测的内容是各个服务的停机时间,以此来考察博客服务的稳定性。

  评测的结果是,WordPress.com、Blogger和TypePad处于绝对领先的地位,不过,虽然WordPress.com和Blogger比TypePad多了6分钟,但由于TypePad是收费博客,考虑到用户量这个因素,WordPress.com和Blogger能做到目前这个程度更不简单。作为对比,微软Windows Live Spaces这个庞然大物的停机时间高达4小时10分钟。

  下面是评测结果的图表。

世界博客服务稳定性评测

  从以上的评测结果来看,Blogger和WordPress.com是最为稳定的免费BSP服务,其停机时间极少,已经接近收费的Typepad服务了,因此推荐国外博客用户使用这两个服务托管自己的博客。值得注意的是,这两个服务都支持域名绑定,Blogger的域名绑定是免费的,而WordPress.com的域名绑定收费,目前的收费标准是每年十美元。

  以上BSP中,仅微软的Windows Live Spaces可以从中国访问,其他都有过被屏蔽的历史。中国用户选择BSP服务的话,还是选国内的吧。