OpenAI推出网络爬虫机器人GPTBot-月光博客

OpenAI推出了一种名为GPTBot的网络爬虫机器人，用于收集信息数据以改进未来的AI模型。据了解，GPTBot将严格遵守任何付费墙的规则，不会抓取需要付费的信息，并且也不会收集能追踪到个人身份的数据。

不仅如此，OpenAI也把是否要把自己的网站数据供GPTBot抓取的选择交到给网站所有者，他们可自行修改其robots.txt文件。或者通过屏蔽其IP地址，来阻止GPTBot从其网站上抓取数据。

这当然仍不足够，修改robots.txt是一种方式，但它可以更便利和更具透明度，也可进一步告知数据将被用于什么用途等等。

此前，OpenAI抓取公开数据来训练专利AI模型的行为备受争议。Reddit和Twitter等网站，已经采取措施打击AI公司免费使用其用户帖子的行为，而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。

OpenAI旗下GPT模型的训练需要大量的网络数据，这可能涉及到数据隐私和版权等问题。为了解决这些问题，OpenAI最近推出了一个新功能，让网站可以阻止其网络爬虫从其网站上抓取数据训练GPT模型。

据了解，网络爬虫是一种自动化的程序，可以在互联网上搜索和获取信息。OpenAI的网络爬虫名为GPTBot，其会以一定的频率访问各种网站，并将网页内容保存下来，用于训练GPT模型。

OpenAI在其博客文章中表示，网站运营者可以通过在其网站的Robots.txt文件中禁止GPTBot的访问，或者通过屏蔽其IP地址，来阻止GPTBot从其网站上抓取数据。OpenAI还表示，“使用GPTBot用户代理（useragent）抓取的网页可能会被用于改进未来的模型，并且会过滤掉那些需要付费访问、已知收集个人身份信息（PII）、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源，“允许GPTBot访问您的网站可以帮助AI模型变得更加准确，并提高它们的通用能力和安全性。”

但是，这并不会追溯性地从ChatGPT的训练数据中删除之前从网站上抓取的内容。

互联网为大型语言模型（如OpenAI的GPT模型和谷歌的Bard）提供了大部分的训练数据，为AI训练获取数据已经变得越来越有争议。一些网站，包括Reddit和Twitter，已经采取措施打击AI公司免费使用其用户帖子的行为，而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。

来源：综合驱动之家、IT之家

2023年8月8日星期二

OpenAI推出网络爬虫机器人GPTBot