2006年5月4日星期四

Technorati无法访问

  真没有想到Technorati最终也逃不过最终的宿命。

  Technorati是一个著名的博客搜索引擎,截止2006年4月,Technorati已经索引了超过3千4百万个博客站点。可以说,Technorati已经成为世界上最重要的一个Blog搜索引擎。

  Technorati在2006年西南西音乐节(SXSW)中获得技术最高分奖(Technical Achievement)和最佳宠爱奖(Best of Show)。

  这一个星期来一直有人说Technorati无法访问,我也感觉访问Technorati很不稳定,今天是彻底上不去Technorati了,为了证实其是否无法访问,我先使用深圳电信访问,然后再使用我在上海电信和汕头电信的2个主机测试,都无法访问,使用代理服务器,也无法访问。

Technorati

  因此我估计Technorati被封的方式是主干路由器关键字过滤封锁。我在Google上搜索了和Technorati相关的几个关键字,初步确认被封锁的关键字可能是“.technorati.com”,注意这个关键字前面的点的作用包含该域名的所有子域名,但将包含technorati的其他域名排除。我在Google上搜索“technorati.com”,可以出现结果,但是搜索“www.technorati.com”,该页无法显示。

Technorati

  主干路由器关键字过滤技术的核心是IDS(Intrusion Detection System)-入侵检测系统,它能够从计算机网络系统中的关键点收集分析信息,过滤、嗅探指定的关键字,并进行智能识别,检查网络中是否有违反安全策略的行为。利用这些设备主要进行网址的过滤和网页内容的过滤,如果符合即定的规则,则向用户发送ACK-FIN,自动打断用户与服务器的会话连接,使数据流中断,而在终端电脑上会显示主机无法识别。不同的IDS甚至有可能在一段预定或随机的时间内试图阻止从用户主机发出的所有通信。

  所以在访问国外网站时,如果数据流里敏感字符时,即会被提示“该页无法显示”,随后在5-15分钟的时间内无法用同一IP浏览此域名或IP地址上的内容,屏蔽时间据猜测和敏感词等级以及所属网站有关。注意,当碰触到关键词后,出现的是连接被重置,而不是404错误(找不到该页)。

  Intrusion Detection System的弱点就是对已加密的信息无能为力,因此通过SSL加密的信息会使得过滤系统失去作用。为了证实Technorati自己的主机并没有停机,我使用某个加密代理服务器软件浏览Technorati的主页,可以正常打开,我又登录我的一台美国的主机进行验证,使用文本浏览器命令看看结果“lynx http://www.technorati.com/”,很快文本浏览器就返回了Technorati网站的文字信息,这说明从国外访问Technorati是没有问题的。

Technorati

  因此,我相信“.technorati.com”已经成为了“内容过滤路由器”中的一个敏感关键字。

  下一个受害者会是谁呢?我希望不要是FeedburnerBloglines