搜狗输入法隐私事件-月光博客

　　摘要：通过robots.txt协议让搜索引擎不收录网站内容是行不通的，也无法用其屏蔽搜索引擎的爬虫，即使在robots.txt协议进行了设置，百度和Google还是会继续为网页建索引，并在搜索结果中显示，而仅仅不显示网页快照而已。因此搜狗输入法要通过robots.txt来防止搜索引擎抓取用户隐私信息的方法不可取。

　　安全问题反馈平台乌云昨天通过新浪微博发布消息称，搜狗输入法存在可导致大量用户敏感信息泄漏的设计缺陷，用户发送的图片、声音等多媒体短信被搜索引擎抓取并泄露到网上，对此搜狗方面回应称，出现这一问题源于微软Bing等搜索引擎没有遵守禁止协议。而必应中国表示，必应搜索并未违反Robots.txt协议，公司一直遵守有序、健康、道德的市场行为规范。

　　上述所谓的漏洞，出自搜狗手机输入法中的“多媒体输入”功能。借助这一去年5月发布的功能，用户之间能够分享图片、语音、文字等信息，而其原理就是将用户想要分享的信息，上传到搜狗服务器中，形成一个可以点击查看的链接。这使得搜狗手机输入法在普通短信中也可发送语音和图片的功能，好友接收到短信后即可收听语音和查看图片。

　　在乌云的报告中指出，由于“不严谨造成信息被搜索引擎抓取”。并举例说以关键词“site:pinyin.cn”搜索，在微软Bing中能够得到3700条结果，在Google中能够得到1120条结果。

搜狗输入法隐私事件

　　搜狗认为，用户的“多媒体输入”信息泄漏，与搜索引擎没有遵守相关Robots.txt协议有关，并且指出重点问题出必应搜索引擎。

　　而必应针对“搜狗输入法泄露用户隐私事件”相关报道的正式答复称，“必应搜索并未违反Robots.txt协议。作为一个面向全球市场的互联网产品，必应始终遵循有序、健康、道德的市场行为规范，积极推动负责的数字公民理念；以严谨的数字安全考虑，为人们提供可信赖的计算和网络体验。我们呼吁并一贯坚持向用户提供高度安全的互联网服务与产品。”

　　微软必应声明的最后还提到，微软已经推出必应输入法等产品，赢得越来越多用户的关注与喜爱。

　　对于“搜索引擎的Robots协议”，月光博客早先曾经有专门一篇文章进行过分析，通常认为，robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。然而，robots.txt协议并不是一个规范，而只是约定俗成的，通常搜索引擎会识别这个文件，但也有一些特殊情况。

　　通常来说，只要有其他页链接到某个页面，搜索引擎就会对其进行索引，通过robots.txt协议让搜索引擎不收录网站内容是行不通的，也无法用其屏蔽搜索引擎的爬虫，搜索引擎最多就是不显示这个网页的快照而已，在搜索结果中依旧会显示其内容。例如，淘宝网目前就通过robots.txt来屏蔽百度爬虫，但百度依旧收录了淘宝网的内容，百度搜索“淘宝网”，第一个结果也是淘宝网首页地址，只是该页面没有网页快照。

　　对于Google来说，使用robots也未必能阻止Google将网址编入索引，但有一种方法可以阻止网页的内容在Google网页索引中（即使有其他网站链接到该网页）出现，实现方法是将下面的一行加入到网页的header部分。

　　由此可见，通过robots.txt协议让搜索引擎不收录网站内容是行不通的，也无法用其屏蔽搜索引擎的爬虫，即使在robots.txt协议进行了设置，百度和Google还是会继续为网页建索引，并在搜索结果中显示，因此搜狗输入法要通过robots.txt来防止搜索引擎抓取用户隐私信息的方法不可取。

　　解决输入法泄露用户隐私的方法有不少，例如对用户生成的链接地址进行访问限制，例如只允许访问2次，或者链接只在24小时内生效，可以避免隐私信息的大规模泄漏，要想彻底避免隐私的泄漏，就要使用身份验证机制，例如在发送短信时附带一个校验码，打开链接时输入校验码才能查看内容。

　　总而言之，用户使用这种“多媒体输入”功能发送短信的时候，可能以为这和普通短信是一样的，并不知道发送的信息可能会泄漏给第三方，因此开发商对这样的隐私漏洞需要谨慎处理，认真保护用户的个人隐私，切不可仅用Robots协议来敷衍了事。

2013年6月6日星期四

搜狗输入法隐私事件