Google Translate机器翻译错误的技术分析-月光博客

　　前几天又发生了一次针对Google的所谓“辱华事件”，一篇号召网民“抵制Google翻译工具”的帖子在某著名论坛上出现，帖子指责Google的翻译工具出现离奇的“张冠李戴”现象，甚至有伤害中国人感情的嫌疑，对Google的不正确翻译，该文列举了一些例子，如“I thought this was shame”（我认为这是耻辱）被译为“我认为这是中国的耻辱”等等。

Google翻译中出现的错误

　　该篇文章发表后，引起了很多人的注意，不少媒体都进行了转载，之后，Google Translate翻译服务也迅速修正了这个技术错误。

Google翻译修正了技术错误

　　由于我自己也是经常使用Google翻译工具，因此我就结合一下我对Google Translate翻译工具的理解来阐述一下这种错误可能产生的内在原因。

　　以往的翻译通常都是使用一个一个词地“死译”，由于词义的多变性，同样一个单词在不同的场合下可能会出现完全不同的含义，因此原先的那种翻译效果可谓“惨不忍睹”，翻译质量普遍很差，基本上没有什么参考价值，大家可以使用词霸或者Yahoo翻译来随便翻译一两篇英文来实验一下。百度因为“更懂中文”，因此没有全文翻译产品，只有一个简单的单词翻译功能。

　　Google Translate翻译服务是目前中文翻译领域中表现最为突出的一个，主要原因是Google翻译于今年进行了一次创新，使得Google翻译具有人工智能的词义辨识能力，也就是说，通过Google搜寻不同字词同时出现在同一网页的频率来确定字词间的关联性，以这种人工智能的方法来进行真正意义上的全文翻译。

　　在Google眼中，一个字词的意义经常能从其他与它并用的字眼而获得，Google有天然的优势—已经索引过的海量资料库，通过对海量的多语言数据进行对比学习，找到不同语言之间的语法和文字对应规律，实现了机器自动学习功能。

　　Google的这种智能识别翻译虽然极大地提高翻译质量，但是总的来说翻译水准还是不能达到很高的水平，出现一些技术上的错误也在所难免。例如这次出现的这个翻译错误问题。

　　我推测这个错误可能是这么产生的，就是在Google的自动机器学习过程中，主要学习的是一些西方文献以及其翻译结果，由于西方对于中国的评价大多都是负面的，因此某些“不好的字眼”经常和“中国”一道出现，当出现的频率很高的时候，Google就根据以往的常识，将这个“不好的字眼”和“中国”进行了一定关联，于是就出现了这种智能推测，导致了所谓的“Google辱华翻译事件”。

　　当然，这个技术问题解决起来也不难，就是扩大Google翻译的机器学习资料库，从不同的环境多分析一些资料（比如也分析一下人民日报的信息），这样推测词义出现的偏差可能会小一些，结果也会更为“中立”一些。

　　总的来说，Google放弃传统的翻译方式，改而使用机器自动分析统计识别的方法，是一大进步，极大提高了文章的翻译质量，后续Google应该做的是优化识别统计算法，扩大自动学习资料库，使得翻译的结果更加准确。然而令人不解的是，某些怀有不可告人动机的人不去研究技术和算法上的问题，而专门去找一些奇怪的缺陷错误，并将这种纯粹的技术问题上升到政治层面，早先有“Google搜索南京大屠杀事件”，现在又有“抵制Google翻译事件”，是的，哪里有臭味，哪里就有苍蝇的身影，苍蝇改不了逐臭，正如狗改不了吃屎一样，我奉劝那些专门搜寻这方面材料的那些人，不要再做那些妖言惑众、哗众取宠的事情了，这么做不仅侮辱了自己的智商，同时也侮辱了广大网民的智商。当今社会是一个竞争激烈的社会，需要不断学习新知识，学习，不仅仅是学习知识，更重要的是学习分析问题的能力和技巧，如果只知道固步自封、闭门造车，整天想一些歪门邪道，不去想办法提高知识和技能，那么迟早有一天会被这个社会所淘汰。

2006年12月25日星期一

Google Translate机器翻译错误的技术分析