2009年6月26日星期五

国内外DNS服务器地址列表

  DNS(Domain Name System)是域名解析服务器的意思,它在互联网的作用是把域名转换成为网络可以识别的IP地址。目前国内电信运营商通过使用DNS劫持的方法,干扰用户正常上网,使得用户无法访问Google、Gmail、Google AdSense、Google Maps等常用服务,昨天我介绍了使用OpenDNS的方法解决这个问题,由于OpenDNS的服务器在美国,如果使用的人多了有可能会速度变慢,因此今天我介绍一些其他国外的DNS服务器地址,供大家选择。

  通常来说,香港、韩国、日本等国的DNS服务器速度会比较快,大家可以多用几个试试,尽量选择一个自己访问最快的DNS服务器,中国的电信运营商都是流氓,DNS服务器,早换早轻松。

  港澳台DNS服务器地址

  香港:
  205.252.144.228
  208.151.69.65
  202.181.202.140
  202.181.224.2

  澳门:
  202.175.3.8
  202.175.3.3

  台湾:
  168.95.192.1
  168.95.1.1

  国外DNS服务器地址

  美国:
  208.67.222.222
  208.67.220.220
  165.87.13.129
  165.87.201.244
  205.171.3.65
  205.171.2.65
  198.41.0.4
  198.41.0.4
  198.32.64.12
  192.33.4.12
  192.203.230.10
  192.5.5.241
  192.112.36.4
  192.36.148.17
  192.58.128.30
  192.9.9.3
  193.0.14.129
  128.9.0.107
  128.8.10.90
  66.33.206.206.
  208.96.10.221
  66.33.216.216
  205.171.3.65
  205.171.2.65
  165.87.13.129
  165.87.201.244

  加拿大:
  209.166.160.36
  209.166.160.132

  英国:
  193.0.14.129

  日本
  202.12.27.33
  202.216.228.18

  韩国:
  164.124.101.31
  203.248.240.31
  168.126.63.60
  168.126.63.61

  新西兰:
  202.27.184.3

  泰国:
  209.166.160.132
  202.44.8.34
  202.44.8.2

  印度:
  202.138.103.100
  202.138.96.2

  国内各省市DNS服务器地址

  北京:
  202.96.199.133
  202.96.0.133
  202.106.0.20
  202.106.148.1
  202.97.16.195
  202.138.96.2

  深圳:
  202.96.134.133
  202.96.154.15

  广州:
  61.144.56.100
  61.144.56.101

  广东:
  202.96.128.86
  202.96.128.143

  上海:
  202.96.199.132
  202.96.199.133
  202.96.209.5
  202.96.209.133

  天津:
  202.99.96.68
  202.99.104.68

  广西:
  202.96.128.68
  202.103.224.68
  202.103.225.68

  河南:
  202.102.227.68
  202.102.245.12
  202.102.224.68

  河北:
  202.99.160.68

  福建:
  202.101.98.54
  202.101.98.55

  厦门:
  202.101.103.55
  202.101.103.54

  湖南:
  202.103.0.68
  202.103.96.68
  202.103.96.112

  湖北:
  202.103.0.68
  202.103.0.117
  202.103.24.68

  江苏:
  202.102.15.162
  202.102.29.3
  202.102.13.141
  202.102.24.35

  浙江:
  202.96.102.3
  202.96.96.68
  202.96.104.18

  陕西:
  202.100.13.11
  202.100.4.16
  202.100.4.15
  202.100.0.68

  山东:
  202.102.154.3
  202.102.152.3
  202.102.128.68
  202.102.134.68

  山西:
  202.99.192.68
  202.99.198.6

  四川:
  202.98.96.68
  61.139.2.69

  重庆:
  61.128.128.68

  成都:
  202.98.96.68
  202.98.96.69

  辽宁:
  202.98.0.68
  202.96.75.68
  202.96.75.64
  202.96.69.38
  202.96.86.18
  202.96.86.24

  安徽:
  202.102.192.68
  202.102.199.68
  10.89.64.5

  吉林:
  202.98.5.68
  202.98.14.18
  202.98.14.19

  江西:
  202.101.224.68
  202.109.129.2
  202.101.240.36

  新疆:
  61.128.97.74
  61.128.97.73

  贵州:
  202.98.192.68
  10.157.2.15

  云南:
  202.98.96.68
  202.98.160.68

  黑龙江:
  202.97.229.133
  202.97.224.68
  219.150.32.132

  海南:
  202.100.192.68
  202.100.199.8

  宁夏:
  202.100.0.68
  202.100.96.68

  甘肃:
  202.100.72.13

  内蒙古:
  202.99.224.68

  青海:
  202.100.128.68

  全球路由DNS服务器

  全球只有13台路由DNS根服务器,在13台路由服务器中,名字分别为“A”至“M”,其中10台设置在美国,另外各有一台设置于英国、瑞典和日本。下表是这些机器的管理单位、设置地点及最新的IP地址。

  名称  管理单位及设置地点    IP地址
  A INTERNIC.NET(美国,弗吉尼亚州) 198.41.0.4
  B 美国信息科学研究所(美国,加利弗尼亚州) 128.9.0.107
  C PSINet公司(美国,弗吉尼亚州) 192.33.4.12
  D 马里兰大学(美国马里兰州) 128.8.10.90
  E 美国航空航天管理局[NASA](美国加利弗尼亚州) 192.203.230.10
  F 因特网软件联盟(美国加利弗尼亚州) 192.5.5.241
  G 美国国防部网络信息中心(美国弗吉尼亚州) 192.112.36.4
  H 美国陆军研究所(美国马里兰州) 128.63.2.53
  I Autonomica公司(瑞典,斯德哥尔摩) 192.36.148.17
  J VeriSign公司(美国,弗吉尼亚州) 192.58.128.30
  K RIPE NCC(英国,伦敦) 193.0.14.129
  L IANA (美国,弗吉尼亚州) 198.32.64.12

2009年6月25日星期四

Google国际网站遭到域名劫持

  今天晚上,包括Google.com在内的绝大多数Google国际网站,例如Google.com、Gmail、Google Reader、Google Docs等,在中国部分省市均出现无法访问的情况。

  根据我的分析,这次封锁Google的方式并不新鲜,是采用域名劫持(DNS劫持)的方法,通过技术手段,将Google的各类境外域名解析到一个错误的地址,使得Google.com无法访问。前段时间,中央电视台曾经在多个栏目中指责Google,并要求其关闭境外网站搜索功能。

  经过我的测试,使用中国大陆境内的DNS服务器,例如202.96.134.133是无法正确解析出Google的IP地址,而使用境外的OpenDNS进行域名解析,就可以正确解析出Google的IP地址。如下图所示。

Google域名遭到域名劫持

  解决的方法是使用境外的域名解析服务器(DNS服务器),例如OpenDNS的服务,设置方法是,在“设置”-“网络连接”中找到宽带上网的连接,打开网络连接属性,选择Interner协议(TCP/IP)的属性页里,不要选择自动获取DNS,而要选择“使用下面的DNS服务器地址”,首选DNS服务器和备用DNS服务器分别设置为208.67.222.222和208.67.220.220,如下图所示,完成后重新连接上网,就可以摆脱服务商对我们的DNS劫持。

网络连接属性

网络连接属性

  对于Google的域名劫持,这已经不是第一次了,2002年的时候Google的域名就曾经被劫持到百度等网站,2006年的时候Google.cn被域名劫持到万网的买卖网,这次轮到Google.com了,无论是谁在幕后操纵了这次域名劫持,都会给中国互联网产生极为负面的影响,好在全球13台DNS根服务器全都放在一些法制健全的国家(例如美国、日本),因此这次针对Google的域名劫持对于国外用户没有影响。

  最后,我强烈谴责这种对于Google网站进行域名劫持的无耻行为。

  名词解释(来源于维基百科):

  DNS是域名系统 (Domain Name Server) 的缩写,该系统用于命名组织到域层次结构中的计算机和网络服务。在Internet上域名与IP地址之间是一对一(或者一对多)的,域名虽然便于人们记忆,但机器之间只能互相认识IP地址,它们之间的转换工作称为域名解析,域名解析需要由专门的域名解析服务器来完成,DNS就是进行域名解析的服务器。

  域名解析的基本原理是把域名翻译成IP地址,以便计算机能够进一步通信,传递网址和内容等。

  域名劫持就是在劫持的网络范围内拦截域名解析的请求,分析请求的域名,把审查范围以外的请求放行,否则直接返回假的IP地址或者什么也不做使得请求失去响应,其效果就是对特定的网址不能访问或访问的是假网址。

解决中文Google的跳转问题

  从两年前开始,中国用户在使用Google搜索中,会自动从google.com跳转到google.cn,Google官方对此的解释是,google.com跳转到google.cn是为了对中国用户提供更具有针对性的搜索服务,很多新开发的中文google服务只有在google.cn上才会体现。

  不过,由于种种原因(特别是最近发生的一系列针对google.cn的事件),用户可能并不想使用google.cn,而希望使用google.com,因为Google的跳转是根据浏览器设置的语言来跳转的,因此修改浏览器默认语言就可以禁止google.com跳转到google.cn。

  对于IE用户来说,在工具—Internet选项—常规—语言中,添加英语(美国),并将其移动到最上面,使其成为默认语言,这样就可以把IE设置成使用英语做默认语言。

  设置好后,在IE中打开www.google.com,就不会自动跳转到www.google.cn,搜索时也是一样。

  IE设置的界面如下图所示。

IE设置

  对于Firefox用户来说,在工具—选项—内容—语言选择中设置,设置方法和IE相同。设置界面如下图所示。

Firefox设置

  对于Google Chrome用户来说,在选项—中级用户选项—更改字体和语言设置—语言中修改,设置方法和IE相同。设置界面如下图所示。

Chrome设置

2009年6月24日星期三

中文分词和TF-IDF

  中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

  TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。

  TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

  使用TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。

  常见中文分词开源项目:

  SCWS

  Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和PHP 5。

  ICTCLAS:  

  这可是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。

  HTTPCWS

  HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展

  庖丁解牛分词

  Java 提供lucence 接口,仅支持Java语言。

  CC-CEDICT

  一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。

  基于VB/ASP的中文分词

  上面的开源项目没有给予VB和ASP的,这里提供一个简单的VB/ASP类,加上词典之后就可以进行分词了,注意这个类只供演示,其分词速度极慢不适合实际应用。

  类名为:WordSplit

Private rootTable As String

Private Function GetCount(ByVal s As String) As Long
    GetCount = InStr(1, rootTable, s)
End Function

Public Function WordCount(ByVal strString As String, ByVal strGetWord As String) As Long
    Dim k
    k = Split(strString, strGetWord)
    WordCount = UBound(k)
End Function


' 分析输入的字符串,将其切割成一个个的词语。
' <param name="s">待切割的字符串</param>
' <returns>所切割得到的中文词语数组</returns>

Public Function ParseChinese(ByVal s As String, ByVal separator As String) As String
    Dim lngLength As Long
    Dim strTemp As String
    Dim ArrayList As String
    Dim i, j

    ArrayList = ""
    lngLength = Len(s)
    i = 1
    While i < lngLength
        strTemp = Mid(s, i, 1)
        If GetCount(strTemp) > 1 Then
            j = 2
            While i + j < lngLength + 1 And GetCount(Mid(s, i, j)) > 0
                j = j + 1
            Wend
            strTemp = Mid(s, i, j - 1)
            i = i + j - 2
        End If
        i = i + 1
        'WordAdd (temp)
        ArrayList = ArrayList + strTemp + separator
    Wend
    ParseChinese = ArrayList

End Function

Private Sub Class_Initialize()
    Dim fso, templetfile, txtfile
    templetfile = App.Path + "ChineseDictionary.txt"
    Set fso = CreateObject("Scripting.FileSystemObject")
    Set txtfile = fso.OpenTextFile(templetfile, 1)
    rootTable = txtfile.ReadAll
    txtfile.Close
End Sub

  调用示例:

    strInput = "中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。"
    Dim strWordSplit As New WordSplit
    strSubject = strWordSplit.ParseChinese(strInput, "|")
    arrSubject = Split(strSubject, "|")
 

2009年6月23日星期二

令人“心神不宁”的网络

  小高同学终于“心神不宁”了,因为他触到了一个“霉头”,他没有想到Google在中国有如此广大的粉丝群,以及人们对于“编造新闻”的反感之强烈,最终成为了一个牺牲品。

  小高同学应该也有他自己的难言之隐,一个国有企业的实习生,一旦转正就可以获得较为稳定的收入和待遇,对于一个还没有工作的学生来说的确具有诱惑力,他为了得到一份工作,自愿或者不自愿的做了这项工作。

  或许小高同学自己也的确有这样那样的想法,对于一个受过几十年传统教育,从来没有走出过国门的人来说,思维方式很难有所突破,小高有他自己说话的自由,但仅仅代表了社会中的一小部分,无法代表大众,否则也不会出现网民群起攻击和人肉他的现象了。这也说明一个问题,新闻工作者应该采访那些真正的大众群体,客观地记录事实,让普通大众也表达自己发言的自由,才能做到新闻的客观和公正。如果一开始就设定好调子,按照预先的思路去采访,甚至要求被采访人说些什么话,这是新闻节目的大忌,如果《焦点访谈》这样原本为人们关注和喜爱节目也这么搞,无疑将使得自己的权威性、公信力大打折扣,最终沦落为一个不伦不类的二流节目。

  广大网民对于小高同学的愤怒也是有理由的,人们对于说假话是深恶痛绝的,不愿说谎的人会认为,如果姑息纵容小高这样的投机者,那么未来为了获取利益而说谎的人会越来越多,能够给诚实者留下的生存空间也会越来越少,而通过央视这样的大媒体去编造的谎话则更为恶劣,如果对这样的行为都能容忍和麻木,那么总有一天,没有一个人会说实话了。

  实际上,说句实话真的就那么难吗?

  著名学者钱理群先生曾在一次讲座上说,人说话应该有底线,这些底线依此是:一,力图说真话;二,不能说真话则应保持沉默;三,无权保持沉默而不得不说假话时则不应伤害他人。钱先生补充说,无权保持沉默而不得不说假话,若这种假话并未伤害他人,这种人可成为奴隶,尚有可同情处;但若为伤害他人而说假话,则只能称奴才,不可原谅。

  如果说谷歌中国的不良信息让小高同学心神不宁有点失实的话,那么现在,真正让小高同学心神不宁的东西已经出现了,那就是互联网。

2009年6月22日星期一

碧桂园度假村游记

  周六玩了广州长隆欢乐世界之后,晚上我们就入住顺德碧桂园度假村休息,从番禺到碧桂园度假村很快,一会儿就到了,这个度假村座落于顺德碧桂园别墅区内,环境非常好,到处都可以看到漂亮的别墅和私家泳池。

  顺德碧桂园度假村里有不少游乐设施,包括一个很大的游泳池、保龄球馆、图书室、超市、健身房等,入住客人可以免费使用一次。

碧桂园度假村

  早晨起床之后,可以在游泳池、保龄球馆、健身房等设施中任意选择,度过愉快休闲的一天。

碧桂园度假村

  度假村的设施玩够了之后,还可以去园区深处还有碧桂园农庄游玩,从度假村到农庄每十分钟有免费巴士接送,大概一刻钟时间就能达到目的地。

碧桂园度假村

  农庄的景色非常优美,湖水碧绿,杨柳青青,风景迷人。

碧桂园度假村

  一群小鸭子在湖水里游泳。

碧桂园度假村

  农场里还饲养了很多动物,这只可爱的小山羊叫“灰姑娘”。

碧桂园度假村

  农场里还有专业骑师指导,游客在骑师指导下一展骑马英姿,不过骑马是要另付费的。

  碧桂园度假村的芒果非常多,满树的芒果一堆一堆的,却没有人摘,在城市里很难看到这样的情景。

  碧桂园度假村住的这一天,感觉田园生活的确充满了乐趣,环境也非常优美,难怪很多人选择在这里养老。

2009年6月21日星期日

广州长隆欢乐世界游记

  周六和同事一起去广州番禺的长隆欢乐世界玩了一圈,感觉还不错,和深圳欢乐谷相比,广州长隆的过山车令人印象深刻,而且排队的人很少,周末人也很少,几乎半天时间就可以将大部分好玩的项目玩完,而深圳欢乐谷的项目则太多,排队动辄就是一个多小时,任何时间人都很多。

广州长隆欢乐世界

  广州长隆欢乐世界的门票和深圳欢乐谷一样,是170元,我们团体票可以打折,大概能降到100元左右。

广州长隆欢乐世界

  入口处就是十环过山车,这个过山车据说创造了游乐设备环数最多的吉尼斯世界记录,全世界只有两台(仅在英国还有一台)。

十环过山车

  这个过山车的确很刺激,转的圈数很多,感觉其刺激程度仅次于垂直过山车。

十环过山车

  十环过山车的旁边是摩托过山车,游客骑在一个类似摩托的小车上,这个过山车的加速度非常快,可惜时间太短了,惊险程度也一般。

摩托过山车

  垂直过山车非常高,有两段几乎是直上直下的,非常刺激,速度快的惊人,坐在上面如同坐在一架高速战斗机上飞行一样,令人大呼过瘾,这个过山车的另一个好处是,排队几分钟就能玩上,我就连玩了两次,感觉很爽。

垂直过山车

  激流勇进这个项目和深圳欢乐谷的同名项目几乎一模一样,但高度还不到欢乐谷的一半,小艇会载着游客慢慢爬上一个斜坡,然后急速冲下来,虽然我穿了雨衣,但冲下来的时候还是把裤子全打湿了。

激流勇进

  超级大摆锤号称“全球最大大摆锤”,塔高26米,看起来似乎不太惊险,但上去之后才会感觉到,摆的可真高啊。

超级大摆锤

  U型滑板虽然看上去也不怎么样,但的确也挺刺激的,感觉比欢乐谷的UFO要好玩。

U型滑板

  除了惊险的栏目外,还可以看到特技表演《惊爆危机岛》,里面的故事情节和打斗虽然看上去比较老套,但里面的老外表演起来还真像那么回事,挺敬业的。

惊爆危机岛

  最后节目都玩遍了,还会看到每日的巡游表演,园区的演员们纷纷赤膊上阵,这东东被“绿坝”看到一定会被全过滤掉的。

  总的来说,广州长隆欢乐世界还挺好玩的,就是设施少了点,除了上面我介绍的几个栏目外,其他的栏目比深圳欢乐谷要少的多,不想排队的话去这里玩也挺不错的。