前言：前一段时间GPT-4刚出来，正巧刷一个知乎老哥的帖子的时候看到了一段话：

我一看，好啊，正好在找科研的机会，这不可能是个机会（虽然本人集成电路专业），于是去询问了相关老师学校有没有能力在这上面搞研究，老师说有能力的，让我三天后联系他，于是，一个NLP（自然语言处理）小白开始了他三天的学习，也就有了这篇文章。

注：本文章暂时只是一个学习资源的汇总和摘要，并且主要偏向RLHF训练，之后有空的话会进行深入的学习，毕竟自然语言处理这一块会是将来的大趋势。文章里标红色的资料都是很优质的资料，个人认为很适合入门的同学看。

本人刚入门，技术细节都还没学，大佬轻喷。

以下正文

GPT学习笔记

需要学习的内容

chatgpt底层逻辑，基本算法
RLHF训练原理
RLHF训练中的RBRMS算法原理
RBRMS算法，论文可以写什么内容（需要相关论文）
硬件软件结合：用于ai的芯片对gpt开发有什么帮助？（需要相关论文）

资料

chatgpt工作基本原理：
1. 一文读懂ChatGPT模型原理http://t.csdn.cn/vS8el（易理解，推荐阅读）
2. ChatGPT 的工作原理：机器人背后的模型http://t.csdn.cn/cbc77
3. 万字科普ChatGPT-4为何会颠覆人类社会（墙裂推荐的视频，建议从没接触过的同学看这个视频）渐构 Modevol
RLHF训练原理
1. 抱抱脸：ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文http://t.csdn.cn/P6YKq（易理解，推荐阅读）
2. ChatGPT技术原理解析：从RL之PPO算法, RLHF到GPT4, instructGPThttp://t.csdn.cn/DUQas（涉及数学原理较多，介绍了几乎所有gpt用到的技术，含大量文献，适合深入学习GPT）
RLHF训练中的RBRMS算法原理
1. 该算法只在OpenAI最新报告中提出过：GPT-4 Technical Report（qq群）
2. 该算法相关论文：
  1. Improving alignment of dialogue agents via targeted human judgements（qq群）
  2. Red Teaming Language Models with Language Models（qq群）

RLHF的缺陷和优化方向

RLHF 的下一步是什么？虽然ChatGPT为代表的RLHF技术非常有影响力，引发了巨大的关注，但仍然存在若干局限性：

RLHF 范式训练出来的这些模型虽然效果更好，但仍然可能输出有害或事实上不准确的文本。这种不完美则是 RLHF 的长期挑战和优化目标。
在基于 RLHF 范式训练模型时，人工标注的成本是非常高昂的，而 RLHF 性能最终仅能达到标注人员的知识水平。此外，这里的人工标注主要是为RM模型标注输出文本的排序结果，而若想要用人工去撰写答案的方式来训练模型，那成本更是不可想象的。
RLHF的流程还有很多值得改进的地方，其中，改进 RL 优化器显得尤为重要。PPO 是一种基于信赖域优化的相对较旧的RL算法，但没有其他更好的算法来优化 RLHF 了

上面的图片是一些文献资料，都可以在https://arxiv.org/上搜到，基本每篇文章CSDN上面有大佬翻译分析。

后续：老师后来说学校基本无法做到去做一个类似GPT3或4的项目😂，不过说如果对NPL感兴趣，可以之后再合作，他们好像有一个东大的团队。额，怎么说呢，应该还是搞砸了，跟老师交流的时候紧张了，想说的反而没有表达出来，而且三天时间想学的深入也不现实，内容是真的多！就当是多认识个老师吧。之后有时间GPT肯定会继续学习的，有啥心得或者资源再发吧。

这是笔者写的第一篇文章，如果喜欢的话就点个赞吧，谢啦

本文链接：https://my.lmcjl.com/post/20345.html

展开阅读全文

擅长工具开发、爬虫采集技术、大数据统计处理！
座右铭：皇天不负有心人。

小白的GPT学习笔记

GPT学习笔记

需要学习的内容

资料

RLHF的缺陷和优化方向

4 评论

留下您的评论. Cancel reply

GPT学习笔记

需要学习的内容

资料

RLHF的缺陷和优化方向

相关文章

4 评论

留下您的评论. Cancel reply