ChatGPT的技术路线

基于 GPT-3.5，GPT-4 预计提升更明显

ChatGPT 是基于 GPT-3.5 的主力模型。在互联网开源数据集上进行训练，引入人工数据标注和强化学习两项功能，实现“从人类反馈中强化学习”。相比之前的模型，ChatGPT 可以更接近人类思考的方式，根据上下文和情景，模拟人类的情绪和语气回答用户提出的问题。OpenAI 首席执行官称，GPT-4 有望成为多模态的人工智能。GPT-4 的参数预计更大，计算模型优化有望实现更优化，且 GPT-4 将是纯文本模型，更具备“拟人化”的功能。文本生成和内容创作有望更加丰富，并有望进入文字工作的相关领域，例如新闻、金融等相关行业。

GPT、Bert 均源自 Transformer 模型

NLP 模型首选——Transformers。2017 年由 Google Brain 团队推出深度学习模型 Transformer，采用自注意力机制，对输入数据的每一部分的重要性进行差异加权，主要用于自然语言处理(NLP) 和计算机视觉(CV)领域。BERT(Bidirectional Encoder Representations from Transformers )为谷歌于 2018 年推出的一种基于神经网络的 NLP 预训练技术，BERT 在情绪分析和回答问题等分类任务中表现良好，在命名实体识别和下一句预测方面也表现出色。ChatGPT 同样是根据语言/语料概率来自动生成回答的每一个字（词语），即利用已经说过的语句作为输入条件，预测下一个时刻语句出现的概率分布。

领先的 NLP 模型

ChatGPT 是一个出色的 NLP（Natural language processing-自然语言识别）新模型。NLP 随算力增长突破：在过去的十年里，通过使用简单的人工神经网络计算，基于以 GPU、TPU 为代表的强大算力资源，并在巨量的数据上进行训练，自然语言处理（NLP）取得了令世人瞩目的成就和突破。自然语言处理最重要的进步在于它对书面文本的分析能力。

RLHF 与 TAMER 是重要架构支撑

RLHF：InstructGPT/GPT3.5（ChatGPT 的前身）与 GPT-3 的主要区别在于，新加入了被称为 RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）。
循环：训练范式增强了人类对模型输出结果的调节，整个训练过程是人类、代理对目标的理解和 RL 训练之间的 3 步反馈循环。
在 InstructGPT 中，以下是“goodness of sentences”的评价标准。真实性：是虚假信息还是误导性信息？无害性：它是否对人或环境造成身体或精神上的伤害？有用性：它是否解决了用户的任务？

TAMER（Training an Agent Manually via Evaluative Reinforcement，评估式强化人工训练代理）框架将人类标记者引入到 Agents 的学习循环中，可以通过人类向 Agents 提供奖励反馈（即指导Agents 进行训练），从而快速达到训练任务目标。通过 TAMER+RL（强化学习），借助人类标记者的反馈，能够增强从马尔可夫决策过程(MDP) 奖励进行强化学习 (RL) 的过程。

我们的 ChatGPT 模型是基于 GPT-3.5，并添加了 RLHF 的支持。我们相信，这个模型将在未来的 NLP 领域发挥重要作用，为人类带来更多便捷和创造价值。

本文链接：https://my.lmcjl.com/post/3697.html

展开阅读全文

擅长工具开发、爬虫采集技术、大数据统计处理！
座右铭：皇天不负有心人。

ChatGPT的技术路线

目录

ChatGPT的技术路线

基于 GPT-3.5，GPT-4 预计提升更明显

GPT、Bert 均源自 Transformer 模型

领先的 NLP 模型

RLHF 与 TAMER 是重要架构支撑

4 评论

留下您的评论. Cancel reply

目录

ChatGPT的技术路线

基于 GPT-3.5，GPT-4 预计提升更明显

GPT、Bert 均源自 Transformer 模型

领先的 NLP 模型

RLHF 与 TAMER 是重要架构支撑

相关文章

4 评论

留下您的评论. Cancel reply