ChatGPT的学习四个步骤（GPT的社会化的过程）

在看了李宏毅老师对于GPT社会化的过程讲解视频后做出来的笔记，
李宏毅老师的视频：https://www.youtube.com/watch?v=e0aKI2GGZNg
Chat GPT 官方 Blog：https://openai.com/blog/chatgpt

从网络上大量学习语料，作为文字输出的素材库。文字接龙的输出结果是有几率分布的，从几率分布中随机抽取出一个字。（所以GPT输出结果时是一个字一个字蹦出来的）

直接随机输出结果具有不确定性，通过人工对一些问题的回答进行正确回答，把这种有益的回答给GPT看，告诉它人类对问题答案的偏好（更喜欢被回答的是什么形式），文字接龙的时候就有更明显的输出倾向。

同一个问题会产生不同的答案，于是GPT雇佣人工，告诉机器哪一个答案好，哪一个答案差，并不是告诉机器答案的正确与否，而是给它输出的答案打分数。

根据这些人类老师打分的例子，去训练一个模仿老师的模型（Teacher Model），去模仿人类老师打分的标准，从而对自己的输出结果打分。

问题通过GPT得到答案后，先把答案丢给刚刚训练好的Teacher Model得到评分，此时使用增强式学习，不断调整参数，去迭代出评分最高的答案，最后输出评分最高的答案，也就是人类最满意的答案。

展开阅读全文

擅长工具开发、爬虫采集技术、大数据统计处理！
座右铭：皇天不负有心人。