ChatGPT的学习四个步骤(GPT的社会化的过程)
在看了李宏毅老师对于GPT社会化的过程讲解视频后做出来的笔记,
李宏毅老师的视频:https://www.youtube.com/watch?v=e0aKI2GGZNg
Chat GPT 官方 Blog:https://openai.com/blog/chatgpt
1. 学习文字接龙
从网络上大量学习语料,作为文字输出的素材库。文字接龙的输出结果是有几率分布的,从几率分布中随机抽取出一个字。(所以GPT输出结果时是一个字一个字蹦出来的)
2. 人类老师引导文字接龙的方向
直接随机输出结果具有不确定性,通过人工对一些问题的回答进行正确回答,把这种有益的回答给GPT看,告诉它人类对问题答案的偏好(更喜欢被回答的是什么形式),文字接龙的时候就有更明显的输出倾向。
3. 模仿人类老师的喜好
同一个问题会产生不同的答案,于是GPT雇佣人工,告诉机器哪一个答案好,哪一个答案差,并不是告诉机器答案的正确与否,而是给它输出的答案打分数。
根据这些人类老师打分的例子,去训练一个模仿老师的模型(Teacher Model),去模仿人类老师打分的标准,从而对自己的输出结果打分。
4. 用增强式学习向模拟老师学习
问题通过GPT得到答案后,先把答案丢给刚刚训练好的Teacher Model得到评分,此时使用增强式学习,不断调整参数,去迭代出评分最高的答案,最后输出评分最高的答案,也就是人类最满意的答案。
本文链接:https://my.lmcjl.com/post/9917.html
展开阅读全文
4 评论