国产开源ChatGPT模型对比(大雾)
概述
为什么要做国产开源ChatGPT模型对比呢(大雾),答案显而易见嘛。最近尤其是这阵子ChatGPT爆火, 2月3日在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。
而要达到这个用户量,TikTok用了9个月,Instagram则花了2年半的时间。作为一款聊天机器人,凭借大规模预训练模型GPT3.5(~100B参数)、指令微调尤其是人类反馈强化学习微调(RLHF,OpenAI在强化学习领域有独特的创见)等两件法宝,
ChatGPT拥有充足的知识储备和不可思议的问答逻辑性,尤其是强悍的多轮问答能力,满足了广罗大众对通用人工智能的幻想,那么其快速出圈就顺理成章了。此外,谷歌与OpenAI的恩怨情仇,那更是大家喜闻乐见的吃瓜情节啦。
让我们恭喜OpenAI这个bi,终于一洗往日的阴霾(或许是早前BERT始终压GPT一头)。果然,竞争、对抗才能迸发创造力呀。
简介
回到正题,让我们今天收集汇总一下当前的国产开源ChatGPT模型(2023.02.08)。
一、基本信息
模型 | 基础架构 | 训练数据量 | 参数量 | 开源程度 | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|---|---|
ChatGPT | GPT3.5 | 45TB | ~100B(GPT3是175B) | - | - | OpenAI | - | 通用 |
ChatRWKV | RWKV-4 | 0.78TB | 0.1B/1.5B/3B/7B/14B(开源)/20B(训练中) | 训练/推理代码和模型都开源 | huggingface | PENG Bo | github | 中英文对话(语料不多) |
ChatYuan | T5 | 0.5TB(存疑?) | 0.7B(开源)/~10B(api) | PromptCLUE指令微调代码开源 | huggingface | ClueAI | github | 功能型对话/生成(语料不多) |
SkyText | GPT2 | 0.5TB(存疑?) | 3B/14B(开源) | 推理代码和模型开源 | huggingface | SkyWorkAIGC | github | 功能型对话/生成(语料不多) |
二、训练过程
2.1 ChatGPT
步骤
- a. 训练GPT3.5系列模型, 在45TB数据上进行文本预训练(学习语言建模, GPT3), 在代码数据集上进行预训练(包括代码理解与生成, Codex), GPT3.5的参数量为175B;
- b. 有监督的指令微调(类似Instruct-GPT, Supervised Fine-tuning, SFT), 在高质量开源任务数据集上微调, 遵循人类指令, 为了泛化到没有见过的任务;
- c. 强化学习版有监督的指令微调(12.9k数据? Reinforcement Learning From Human Feedback, RLHF), 基于人类偏好, 从人类的反馈中标注排序;
- d. 思维链提示微调(Chain-of-thought, CoT), 使用逐步推理的指令数据集(对话数据集), Think step by step;
2.2 ChatRWKV
步骤
- a. 训练RWKV-4模型, 类似GPT(linear transformer的RNN), 早期用于小说生成, 使用的Pile数据集有800GB语料;
- b. 中英文语料指令微调(已知的有95G开源多语言数据xP3, 使用到的是en数据37.43G和zh数据4.38G), 指令微调模板为bigscience/promptsource, 注意这里只用了QA模板;
- c. 训练时间(存疑?), 显卡100-1000张A100(存疑?): RWKV-4-1.5b-8040训练了45天; RWKV-4-3b-8023训练了28天; RWKV-4-7b-8047训练了65天; RWKV-4-14b-7324训练了109天;
2.3 ChatYuan
步骤
- a. 在T5模型上继续训练, 数百G中文语料(400G存疑?)中文语料上进行语言模型的预训练;
- b. 指令微调PromptCLUE, 在已有的开源16个任务类型150+数据集(几百个数据集累积亿级别任务数据, 200M存疑?)训练, 也和a交替训练, 防止灾难遗忘;
- c. 多轮对话语料(数亿条功能对话多轮对话数据(200M?存疑))指令微调;
- d. 训练时间/显卡: 500张V100训练一个月;
2.4 SkyText
步骤
- a. 训练GPT2模型, 千亿级别的高质量数据(400G存疑?)中文语料上进行语言模型的预训练, 支持聊天、问答、中英互译、分类、文本续写、生成菜谱/对联/哲理/五言诗/采访/对联, 其他未知;
- d. 训练时间/显卡: SkyText-14B使用A100-GPU集群,训练200张显卡,训练4周,后续优化2周;
三、简单猜想
3.1 通用人工智能
实现通用人工智能的三条路:
- 1.符号主义(就像数学一样存在可以推倒一切的公理、定理)
- 2.连接主义(类脑模型的模仿, 如大模型就是模仿人脑数以亿计的神经元)
- 3.行为主义(注重与环境的交互, 如人类的后天学习等, 强化学习)
ChatGPT似乎是第一个把这三种路同时走通的算法模型, 称赞通用人工智能的里程碑事件也不为过。
代码训练语料的注入就是为了学习符号主义, 构建指令Prompt也与符号主义有关, 为了推理与泛化到没见过的任务;
模型175B参数量就与人脑800B神经元接近, 存储大量知识等待激活, 注意力Attention机制更是模仿人眼聚焦输入;
有人类反馈的强化学习版有监督的指令微调RLHF显然就是行为主义了, 与外界交互获得更多的聊天细节, 激活能力;
四、ChatGPT涉及的技术
4.1 ChatGPT进化树
图来自符尧等的ChatGPT的前世今生
4.2 GPT-3.5进化历程
图来自符尧等的ChatGPT的前世今生
参考
- ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习
- ChatGPT评测观察之对话能力
- ChatGPT的前世今生
- 2022年NLP突破进展
- RWKV-LM
- ChatRWKV
- PromptCLUE
- ChatYuan
- SkyText
- SkyText-4
本文链接:https://my.lmcjl.com/post/1088.html
4 评论