OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

省时查报告-专业、及时、全面的行研报告库省时查方案-专业、及时、全面的营销策划方案库【免费下载】2023年7月份全网热门报告合集超百页干货资料：AI应用的难点、痛点与未来！ 千模大战：百家争鸣OR一地鸡毛？ 2023年AIGC行业调研报告.pdf（附下载链接） ChatGPT提词手册，学完工作效率提升百倍马斯克谈AI：中美差距12个月，出现AGI只要 2024-04-30 0 Comments

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

【免费下载】2023年7月份全网热门报告合集

超百页干货资料：AI应用的难点、痛点与未来！

千模大战：百家争鸣OR一地鸡毛？

2023年AIGC行业调研报告.pdf（附下载链接）

ChatGPT提词手册，学完工作效率提升百倍

马斯克谈AI：中美差距12个月，出现AGI只要三五年

万字干货：ChatGPT的工作原理

2023年创业（有创业想法）必读手册

ChatGPT调研报告（仅供内部参考）

2023年AIGC发展趋势报告：人工智能的下一时代

《底层逻辑》高清配图

众所周知，OpenAI 从 GPT-4 开始就已经对技术细节完全保密了，最初只用一份 Tech Report 来展示基准测试结果，而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料，OpenAI 也从未回应。

不难想象，训练 GPT-4 需要海量的数据，这可不是付费购买能解决的问题。大概率，OpenAI 用了网络爬虫。很多用户指控 OpenAI，理由就是这种手段会侵犯用户的版权和隐私权。

刚刚，OpenAI 摊牌了：直接公布从整个互联网爬取数据的网络爬虫 ——GPTBot。

这些数据将被用来训练 GPT-4 、GPT-5 等 AI 模型。不过 GPTBot 保证了，爬取内容绝对不包括违反隐私来源和需要付费的内容。

ChatGPT国内可以直接访问的链接，支持绘图模型，无需注册，点开即用：

https://ai.zntjxt.com（复制链接电脑浏览器或微信中点开即可）

OpenAI 表示：「使用 GPTBot 爬取网络数据是为了改进 AI 模型的准确性、功能性和安全性。」

网站所有者可以根据需要允许和限制 GPTBot 爬取网站数据。接下来，我们来看下 GPTBot 究竟是如何工作的，顺便了解一下屏蔽方法。

首先，GPTBot 的用户代理字符串（User-Agent String）如下：

User agent token: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用如下方法可以将 GPTBot 添加到网站的 robots.txt，禁止 GPTBot 访问网站：

User-agent: GPTBotDisallow: /

还可以允许 GPTBot 访问网站特定部分的内容：

User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/

近期，OpenAI 因为未经明确批准而在网站数据上训练 GPT-4 等大型语言模型而遭到强烈反对。批评者们表示，即使内容可以公开访问，像 OpenAI 这样的公司也应该遵循训练协议。人们还担心，内容在输入 AI 系统时会被断章取义。

但即使遵循了 robots 协议，鉴于其并不是规范，而只是约定俗成的，所以并不能保证网站的隐私。

GPTBot 发布之后，这条动态已经在 Hacker News 上引发了一场争论，焦点是使用抓取的网络数据来训练人工智能系统的道德和合法性。

一部分人认为，GPTBot 的推出展示了使用公开数据研发 AI 模型的「灰色地带」：

「在训练完模型后还爬取数据，这真是太好了。根据推测，这些 header 不会影响他们已经抓取来训练 GPT 的任何页面。」

「现在，他们可以游说反抓取的监管并阻碍其他任何的追赶了。」

鉴于 GPTBot 会识别自己的身份，因此网站管理员可以通过 robots.txt 阻止它，但有些人认为允许它这样做没有任何好处，不像搜索引擎爬虫会带来流量。

一个值得关注的问题是，受版权保护的内容会在未注明出处的情况下被使用。ChatGPT 目前没有注明出处。

还有人质疑 GPTBot 如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到，则可能构成版权侵权。

另外一些专家认为，如果 AI 编写的内容被反馈到训练中，爬虫生成的数据可能会降低模型的性能。

相反，一些人认为 OpenAI 有权自由使用公共网络数据，并将其比作一个人从在线内容中学习。但也有人认为，如果 OpenAI 将网络数据货币化以获取商业利益，那么就应该分享利润。

总之，GPTBot 引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循 robots.txt 是一个很好的步骤，但仍然缺乏透明度。

这或许是科技界下一个舆论焦点：随着 AI 产品的快速发展，「数据」到底该怎么用？

「更多干货，更多收获」

【免费下载】2023年7月份全网热门报告合集

超百页干货资料：AI应用的难点、痛点与未来！

2023年AIGC行业调研报告.pdf（附下载链接）

ChatGPT提词手册，学完工作效率提升百倍

万字干货：ChatGPT的工作原理

2023年创业（有创业想法）必读手册

ChatGPT调研报告（仅供内部参考）

ChatGPT的发展历程、原理、技术架构及未来方向

2023年AIGC发展趋势报告：人工智能的下一时代

2023年，如何科学制定年度规划？

《底层逻辑》高清配图

荣耀推荐算法架构演进实践.pdf

大规模推荐类深度学习系统的设计实践.pdf

某视频APP推荐策略详细拆解（万字长文）

智能推荐

个性化推荐技术与产品社区

长按并识别关注

一个「在看」，一段时光👇

本文链接：https://my.lmcjl.com/post/20747.html

展开阅读全文

4 评论

擅长工具开发、爬虫采集技术、大数据统计处理！
座右铭：皇天不负有心人。

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

【免费下载】2023年7月份全网热门报告合集

超百页干货资料：AI应用的难点、痛点与未来！

千模大战：百家争鸣OR一地鸡毛？

2023年AIGC行业调研报告.pdf（附下载链接）

ChatGPT提词手册，学完工作效率提升百倍

马斯克谈AI：中美差距12个月，出现AGI只要三五年

万字干货：ChatGPT的工作原理

2023年创业（有创业想法）必读手册

ChatGPT调研报告（仅供内部参考）

2023年AIGC发展趋势报告：人工智能的下一时代

《底层逻辑》高清配图

【免费下载】2023年7月份全网热门报告合集

超百页干货资料：AI应用的难点、痛点与未来！

2023年AIGC行业调研报告.pdf（附下载链接）

ChatGPT提词手册，学完工作效率提升百倍

万字干货：ChatGPT的工作原理

2023年创业（有创业想法）必读手册

ChatGPT调研报告（仅供内部参考）

ChatGPT的发展历程、原理、技术架构及未来方向

2023年AIGC发展趋势报告：人工智能的下一时代

推荐系统在腾讯游戏中的应用实践.pdf

推荐技术在vivo互联网商业化业务中的实践.pdf

2023年，如何科学制定年度规划？

《底层逻辑》高清配图

推荐技术在vivo互联网商业化业务中的实践.pdf

推荐系统基本问题及系统优化路径.pdf

荣耀推荐算法架构演进实践.pdf

大规模推荐类深度学习系统的设计实践.pdf

4 评论

留下您的评论. Cancel reply

【免费下载】2023年7月份全网热门报告合集

超百页干货资料：AI应用的难点、痛点与未来！

千模大战：百家争鸣OR一地鸡毛？

2023年AIGC行业调研报告.pdf（附下载链接）

ChatGPT提词手册，学完工作效率提升百倍

马斯克谈AI：中美差距12个月，出现AGI只要三五年

万字干货：ChatGPT的工作原理

2023年创业（有创业想法）必读手册

ChatGPT调研报告（仅供内部参考）

2023年AIGC发展趋势报告：人工智能的下一时代

《底层逻辑》高清配图

【免费下载】2023年7月份全网热门报告合集

超百页干货资料：AI应用的难点、痛点与未来！

2023年AIGC行业调研报告.pdf（附下载链接）

ChatGPT提词手册，学完工作效率提升百倍

万字干货：ChatGPT的工作原理

2023年创业（有创业想法）必读手册

ChatGPT调研报告（仅供内部参考）

ChatGPT的发展历程、原理、技术架构及未来方向

2023年AIGC发展趋势报告：人工智能的下一时代

推荐系统在腾讯游戏中的应用实践.pdf

推荐技术在vivo互联网商业化业务中的实践.pdf

2023年，如何科学制定年度规划？

《底层逻辑》高清配图

推荐技术在vivo互联网商业化业务中的实践.pdf

推荐系统基本问题及系统优化路径.pdf

荣耀推荐算法架构演进实践.pdf

大规模推荐类深度学习系统的设计实践.pdf

相关文章

4 评论

留下您的评论. Cancel reply