ChatGPT 火爆凸显算力瓶颈,量子计算会成为算力突破口吗?

自去年 12 月上线以来,ChatGPT 热度高居不下。

ChatGPT 横空出世,热度不断飙升
ChatGPT 不仅能写代码、修 bug、翻译文献、写小说,而且还能完成写商业文案、创作菜谱、做作业等一系列文字输出型任务。更重要的是,它能与用户自如对话,反应非常逼真。

与 ChatGPT 聊量子计算

凭借强大能力,上线 5 天,其注册用户达到 100 万;上线不到 3 个月,用户便已突破 1 亿。

ChatGPT 不仅变成科技媒体关注的焦点,而且成为各大科技巨头和互联网公司角逐的新方向。同时,众多科技领袖,从马斯克、纳德拉到李开复、周鸿祎等,都在发声称 ChatGPT 即将改变世界。如微软创始人比尔·盖茨最近在接受采访时,表示像 ChatGPT 这样的 AI "将会改变世界",更指它的重要性不亚于发明互联网。

美国知名科技行业分析师 Ben Thompson 对此总结道:2022 年堪称 AIGC 元年,首先出现了图像生成模型,包括 DALL-E、MidJourney 以及开源的 Stable Diffusion,然后是 ChatGPT,发布仅两个月用户便已突破了 1 亿,扩张速度前所未见,表明我们进入一个新的技术纪元。
 

源自  Transformer 模型,ChatGPT 背后的算力挑战

对于 ChatGPT,仅仅用人工智能对话机器人来描述它,太过简单。对很多人来说,这样的解释远远不够。因为这会带来一个问题:ChatGPT 与 Siri、Google Assistant、Alexa 等对话机器人有何根本区别。

ChatGPT | 图源:Unsplash

因此,只有从技术角度,我们才能更深入的理解 ChatGPT,了解其本质。

准确说,ChatGPT 是 OpenAI 原创性自动问答系统 InstructGPT 的延续,建立在 GPT-3 的后续改进版本 GPT-3.5 基础上,通过引入强化学习模型,大幅提高 AI 在人机对话中的准确度和可控性。

无论是 ChatGPT,还是 GPT-3,其源头是 Transformer 模型,诞生于 2017 年。当时,谷歌大脑团队在一篇论文中首次提出基于自我注意力机制(self-attention)的变换器(transformer)模型。它能同时并行进行数据计算和模型训练,训练时长更短,并且训练出的模型可用语法解释,即模型具有可解释性。

最初的 Transformer 模型有 6500 万个可调参数,是当时最先进的大型语言模型(Large Language Model, LLM)。之后,基于 Transformer 的模型不断迭代:2018 年,OpenAI 推出 GPT-1,它有 1.17 亿个参数;2019 年,GPT-2 诞生,它有 15 亿个参数,模型架构与 GPT-1 原理相同;2020 年,GPT-3 面世,它有 1750 亿个参数。2022 年 3 月,OpenAI 推出基于 GPT-3 模型并进行了微调的 InstructGPT 模型。它与 GPT-3 的区别在于该模型加入了人类的评价和反馈数据。

据 OpenAI 官网显示,ChatGPT 模型与 InstructGPT 模型是姐妹模型。而最大的 InstructGPT 模型的参数数目为 1750 亿,所以有理由相信 ChatGPT 参数量也在这个数量级。

OpenAI | 图源:Unsplash

但是,ChatGPT 参数量还不是最大的。目前,谷歌的 PaLM 是最大的通用语言生成模型,其参数量达到 5400 亿。

无论是 ChatGPT 的发展,还是 PaLM 的出现,都预示着大型语言模型的参数量未来将变得越来越大。而这在某种程度上,也将给大型语言模型乃至生成式 AI 的发展带来挑战。具体说来,挑战有二:

第一是成本。据 The Indian Express 报道 ,ChatGPT 托管在微软 Azure 云上,其生成的每个单词费用是 0.0003 美元。一般而言,ChatGPT 对问询的一次回应至少要花 1 美分。据估计,OpenAI 每天至少花费 10 万美元或每月 300 万美元的运行成本。事实上,由于巨大的参数数目以及训练所需数据集规模,训练一个 GPT-3 模型保守估计需要 500 万美元至 2000 万美元不等——如果用于训练的 GPU 越多,成本越高,时间越短;反之亦然。

第二是算力。作为人工智能的三要素之一,算力支撑着算法和数据,算力水平决定着数据处理能力的强弱。在 AI 模型训练和推理运算过程中需要强大的算力支撑。并且,随着训练强度和运算复杂程度的增加,算力精度的要求也在逐渐提高。

毫无疑问,ChatGPT 代表了新一轮算力需求的爆发,也对现有算力带来了挑战。数据显示,ChatGPT 的总算力消耗约为 3640PF-days(即假如每秒计算一千万亿次,需要计算 3640 天),需要 7-8 个投资规模 30 亿、算力 500P 的数据中心才能支撑运行。

由此可见,无论是成本问题,还是算力问题,本质上反映了经典计算在人工智能加速发展上遇到的阻碍,尤其是算力瓶颈。一方面,在芯片制作工艺越来越接近物理极限的情况下,经典算力的提升变得越来越困难;另一方面,由于可持续发展和降低能耗的要求,使得通过增加数据中心的数量来解决经典算力不足问题的举措也不现实。因此,提高算力的同时又能降低能耗是亟待解决的关键问题。

破解算力瓶颈,“量子计算+AI”的结合

在上述背景下,量子计算成为大幅提高算力的重要突破口。作为未来算力跨越式发展的重要探索方向,量子计算具备在原理上远超经典计算的强大并行计算潜力

与经典计算相比,量子计算在算力上有更大的优势,或将成为人工智能加速发展的助推器。

图灵奖得主姚期智院士曾表示,“人工智能是人类想要了解自然界是怎样做出聪明的人,而如果我们能够把量子计算用到这里,我们可能比大自然更聪明。”

人工智能 | 图源:千图网

一旦量子计算与人工智能结合,将产生独一无二的价值。从可用性看,处理以 ChatGPT 这样有千亿规模参数量的神经网络,需要规模庞大的服务器集群。但是,这也会带来挑战,不仅众多的服务器之间要交互,而且网络也会面临带宽问题。即便利用并行计算,服务器间的带宽也会影响计算效率。从算力看,量子计算是以叠加效应为基本原理,一个量子比特可以同时代表0、1,两个量子比特能代表四种状态,而几百上千个量子比特可以代表无数状态,拥有极大的算力。

如果量子计算可以真正参与到人工智能领域,不仅将提供更强大的算力,超越现今费时费力建造的 ChatGPT 模型,而且能有效降低能耗,极大推动可持续发展。

事实上,量子计算与人工智能的结合正在加速推进,全球诸多创业公司和科技巨头对此开展积极的研究探索和应用尝试。

在国外,IBM 与西班牙银行机构 CaixaBank 合作实施量子算法项目,基于实际数据,使用量子机器学习算法评估了两个专门为该项目创建的投资组合(抵押投资组合和国库券投资组合)的金融风险;谷歌推出了 TensorFlow Quantum ,将公司的机器学习和量子计算计划结合在一起。该框架可以构建量子数据集、原型混合量子模型和经典机器学习模型,支持量子电路模拟器以及训练判别和生成量子模型。

在国内,量旋科技与华夏银行合作,利用量旋科技量子计算机来预测 ATM 机器的裁撤和新增。由于传统模型运行速度慢,耗时长,所以双方利用量子计算机,采用量子神经网络模型来解决这个问题,不仅准确性有显著提升,运算速度快,而且所需时间短,模型精度高。

写在最后

在新技术纪元,ChatGPT 只是起点,不仅人工智能的发展将会加速,而且以 AIGC 为代表的人工智能技术将与其他技术结合,在更多领域产生技术变革。随着人工智能的加速发展,经典计算面临的算力瓶颈问题将会越来越突出。而量子计算与人工智能的结合将推动人工智能快速发展,并对工业、交通、金融等领域的技术变革提供强有力的支持。

本文链接:https://my.lmcjl.com/post/7413.html

展开阅读全文

4 评论

留下您的评论.