GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭

2023-08-08 232 其它文章

编辑:桃子 好困

来源:新智元

导读:就在刚刚,OpenAI推出了GPTBot——一个可以自动从整个互联网抓取数据的网络爬虫。 得到的这些数据则会被用来训练像GPT-4和GPT-5这样的AI模型!

前段时间,抓取平台用户数据风波,Reddit网友吵翻了天。

今天,OpenAI推出了一个网络爬虫工具GPTBot,能够自动抓取网站的数据。

GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭


如何使用?


OpenAI在发布的文档中表示,网络爬虫将过滤删除需要付费强访问的来源,同时也会删除个人身份信息(PII)或违反其政策的文本。

GPTBot抓取的数据,被用来训练GPT-4或GPT-5,能够提升未来人工智能系统的准确性和能力。

可通过以下代码识别该工具:

User agent token: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)


禁止GPTBot访问


另一方面,你也可以通过将GPTBot添加到站点robots. txt,来禁止其访问网站。

这意味着,网站所有者必须自愿采取措施,禁止OpenAI对自己的网站访问,不将自己的数据用来训练。

User-agent: GPTBotDisallow: /


自定义GPTBot访问


你还可以通过以下代码,来控制GPTBot对网站部分内容的访问。

User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/

IP出口

对于OpenAI的爬虫,将从OpenAI网站上记录的IP地址块调用网站。

GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭


网友热议


OpenAI此举引发了网友对用于训练AI模型的网络爬虫的道德问题的讨论。

「OpenAI甚至没有适度引用。它是在制作衍生作品,却没有引用,从而掩盖了它的事实。」

GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭

网友表示,终于有机会阻止OpenAI抓取你的网络数据,来训练模型。

GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭
GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭

还有人表示,ChatGPT浏览器插件已被移除一段时间,部分原因是它可以访问付费墙后面的内容。

GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭

前段时间,OpenAI于7月18日向美国专利局提交了GPT-5的商标申请,暗示着公司正在训练更高级的AI系统。

GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭

GPTBot显然将帮助该OpenAI从互联网上收集更多数据来训练这个模型。

参考资料:

https://platform.openai.com/docs/gptbot

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥2,859.57亿
2 欧易OKX欧易OKX ¥1,182.73亿
3 HTXHTX ¥198.52亿
4 CoinbaseCoinbase ¥46.33亿
5 芝麻开门芝麻开门 ¥573.39亿
6 BitgetBitget ¥841.07亿
7 BybitBybit ¥894.12亿
8 Crypto.comCrypto.com ¥103.99亿
9 BitfinexBitfinex ¥21.59亿
10 抹茶抹茶 ¥1,838.80亿