训练一个ChatGPT需要多少数据？

“风很大”的ChatGPT正在席卷全球。作为OpenAI在去年底才刚刚推出的机器人对话模型，ChatGPT在内容创作、客服机器人、游戏、社交等领域的落地应用正在被广泛看好。这也为与之相关的算力、数据标注、自然语言处理等技术开发带来了新的动力。自OpenAI发布ChatGPT以来，出色的性能引发了全世界热爱AI的人们竞相围观使用。在官方描述中，ChatGPT是一个“可以连续回答问题、承认自己的错误、挑战不正确的前提并拒绝不适当的要求”的对话模型。它的应用场 2023-07-15 0 Comments

“风很大”的ChatGPT正在席卷全球。作为OpenAI在去年底才刚刚推出的机器人对话模型，ChatGPT在内容创作、客服机器人、游戏、社交等领域的落地应用正在被广泛看好。这也为与之相关的算力、数据标注、自然语言处理等技术开发带来了新的动力。

自OpenAI发布ChatGPT以来，出色的性能引发了全世界热爱AI的人们竞相围观使用。在官方描述中，ChatGPT是一个“可以连续回答问题、承认自己的错误、挑战不正确的前提并拒绝不适当的要求”的对话模型。它的应用场景十分广泛，包括问答系统、客服机器人、语音助手等等，亦可扩展到小说文本生成、搜索引擎等领域。

▲ 如果让ChatGPT写一首贬低自己的诗

在产业链的数据环节，ChatGPT的爆火也激发了行业对于多轮对话标注的新需求。澳鹏Appen MatrixGo平台的多轮对话标注工具便是针对训练ChatGPT这样的高质量对话模型而研发。

ChatGPT与数据训练

ChatGPT & Data Annotation

ChatGPT本质上是一个多轮聊天机器人，它具有自然语言理解（NLP）和文本生成能力，可以根据上下文内容与用户进行互动。基于预训练语言模型及其强大的语言理解和生成能力，ChatGPT通过在人工标注和反馈的大规模数据上进行学习，使模型能够更好地理解人类的问题并给出更好的回复。

聊天机器人的产生离不开大量的训练语料，ChatGPT的前身GPT-3就使用了3,000亿单词、超过40T的大规模、高质量数据进行训练。ChatGPT在其基础上，加入了人工打标的监督学习，即对话式模型给出结果后，由训练师对结果做出评价并修改结果以更贴切对话内容。

▲ 多轮对话标注工具

工具操作步骤

Steps for Training

Step 1：标注人员选择主题后发起对话

Step 2：机器人生成文本回应上述对话内容

Step 3：标注人员对生成的文本进行评价和修改

Step 4：重复以上流程

本文链接：https://my.lmcjl.com/post/2067.html

展开阅读全文

4 评论

留下您的评论. Cancel reply