OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

【免费下载】2023年7月份全网热门报告合集

超百页干货资料:AI应用的难点、痛点与未来!

千模大战:百家争鸣OR一地鸡毛?

2023年AIGC行业调研报告.pdf(附下载链接)

ChatGPT提词手册,学完工作效率提升百倍

马斯克谈AI:中美差距12个月,出现AGI只要三五年

万字干货:ChatGPT的工作原理

2023年创业(有创业想法)必读手册

ChatGPT调研报告(仅供内部参考)

2023年AIGC发展趋势报告:人工智能的下一时代

《底层逻辑》高清配图

众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。

不难想象,训练  GPT-4  需要海量的数据,这可不是付费购买能解决的问题。大概率,OpenAI 用了网络爬虫。很多用户指控 OpenAI,理由就是这种手段会侵犯用户的版权和隐私权。

刚刚,OpenAI 摊牌了:直接公布从整个互联网爬取数据的网络爬虫 ——GPTBot。

这些数据将被用来训练  GPT-4 、GPT-5 等 AI 模型。不过 GPTBot 保证了,爬取内容绝对不包括违反隐私来源和需要付费的内容。

ChatGPT国内可以直接访问的链接,支持绘图模型,无需注册,点开即用:

https://ai.zntjxt.com(复制链接电脑浏览器或微信中点开即可)

OpenAI 表示:「使用 GPTBot 爬取网络数据是为了改进 AI 模型的准确性、功能性和安全性。」

网站所有者可以根据需要允许和限制 GPTBot 爬取网站数据。接下来,我们来看下 GPTBot 究竟是如何工作的,顺便了解一下屏蔽方法。

首先,GPTBot 的用户代理字符串(User-Agent String)如下:

User agent token: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用如下方法可以将 GPTBot 添加到网站的 robots.txt,禁止 GPTBot 访问网站:

User-agent: GPTBotDisallow: /

还可以允许 GPTBot 访问网站特定部分的内容:

User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/

近期,OpenAI 因为未经明确批准而在网站数据上训练 GPT-4 等大型语言模型而遭到强烈反对。批评者们表示,即使内容可以公开访问,像 OpenAI 这样的公司也应该遵循训练协议。人们还担心,内容在输入 AI 系统时会被断章取义。

但即使遵循了 robots 协议,鉴于其并不是规范,而只是约定俗成的,所以并不能保证网站的隐私。

GPTBot 发布之后,这条动态已经在 Hacker News 上引发了一场争论,焦点是使用抓取的网络数据来训练人工智能系统的道德和合法性。

一部分人认为,GPTBot 的推出展示了使用公开数据研发 AI 模型的「灰色地带」:

「在训练完模型后还爬取数据,这真是太好了。根据推测,这些 header 不会影响他们已经抓取来训练 GPT 的任何页面。」

「现在,他们可以游说反抓取的监管并阻碍其他任何的追赶了。」

鉴于 GPTBot 会识别自己的身份,因此网站管理员可以通过 robots.txt 阻止它,但有些人认为允许它这样做没有任何好处,不像搜索引擎爬虫会带来流量。

一个值得关注的问题是,受版权保护的内容会在未注明出处的情况下被使用。ChatGPT 目前没有注明出处。

还有人质疑 GPTBot 如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到,则可能构成版权侵权。

另外一些专家认为,如果 AI 编写的内容被反馈到训练中,爬虫生成的数据可能会降低模型的性能。

相反,一些人认为 OpenAI 有权自由使用公共网络数据,并将其比作一个人从在线内容中学习。但也有人认为,如果 OpenAI 将网络数据货币化以获取商业利益,那么就应该分享利润。

总之,GPTBot 引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循 robots.txt 是一个很好的步骤,但仍然缺乏透明度。

这或许是科技界下一个舆论焦点:随着 AI 产品的快速发展,「数据」到底该怎么用?

「 更多干货,更多收获 」

 
 

 

【免费下载】2023年7月份全网热门报告合集

超百页干货资料:AI应用的难点、痛点与未来!

2023年AIGC行业调研报告.pdf(附下载链接)

ChatGPT提词手册,学完工作效率提升百倍

万字干货:ChatGPT的工作原理

2023年创业(有创业想法)必读手册

ChatGPT调研报告(仅供内部参考)

ChatGPT的发展历程、原理、技术架构及未来方向

2023年AIGC发展趋势报告:人工智能的下一时代

推荐系统在腾讯游戏中的应用实践.pdf

推荐技术在vivo互联网商业化业务中的实践.pdf

2023年,如何科学制定年度规划?

《底层逻辑》高清配图

推荐技术在vivo互联网商业化业务中的实践.pdf

推荐系统基本问题及系统优化路径.pdf

荣耀推荐算法架构演进实践.pdf

大规模推荐类深度学习系统的设计实践.pdf

某视频APP推荐策略详细拆解(万字长文)

智能推荐

个性化推荐技术与产品社区

长按并识别关注

一个「在看」,一段时光👇

本文链接:https://my.lmcjl.com/post/20747.html

展开阅读全文

4 评论

留下您的评论.