1 引言
ChatGPT是由OpenAI开发的一种大型语言模型,它使用了Transformer架构,在大量现实世界文本数据上训练,以捕捉人类语言的复杂性和多样性。能够实现许多人工智能语言处理任务,如回答问题、进行翻译、修改代码、生成文档、文本等。该模型于2022年11月底发布,在几天之内用户数突破百万。截止目前,发布两个月,月活用户数已超过1亿。每天对于ChatGPT的报道铺天盖地,各大厂商纷纷布局。本报告将对ChatGPT体系结构、工作原理进行介绍,并结合实际使用体验,分析其在亮点与局限,以及在GIS领域的应用前景与可行性。
2 ChatGPT简介
ChatGPT是语言生成模型、预训练语言模型和AI技术在自然语言处理领域的综合研究,旨在推动自然语言处理技术的进展,提供一种可以在多种NLP任务上取得卓越表现的模型。该模型的训练机制可分为三个阶段:
第一阶段:训练监督策略模型
GPT 3本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图,研究人员首先会在数据集中随机抽取问题,由人类标注人员给出高质量答案,然后用这些人工标注好的数据来微调 GPT3模型获得SFT模型(Supervised Fine-Tuning)。此时的SFT模型在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好。
第二阶段:训练奖励模型(Reward Mode,RM)
首先研究人员在数据集中随机抽取问题,使用第一阶段生成的SFT模型,对于每个问题生成多个不同的答案。人类标注人员对这些答案综合考虑后给出排名顺序。这一过程类似于教练或老师辅导。接下来,使用这个排序结果来训练奖励模型:对多个排序结果,两两进行组合,形成多个训练数据对。奖励模型接受一个数据对,给每个答案打分。通过给定损失函数优化奖励模型的打分标准,使得模型对高质量回答的打分比低质量的打分要高。
第三阶段:采用PPO(Proximal Policy Optimization,近端策略优化)强化学习。
PPO的核心思路在于将将在线学习转化为离线学习。这一阶段利用第二阶段训练好的奖励模型作为反馈信号,代替人类去指导大模型进行微调,来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。把分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。不断重复第二和第三阶段,通过迭代,训练出更高质量的GPT3.5模型。
以上步骤就是基于人类反馈的强化学习(Reinforcement Learningfrom Human Feedback, RLHF),通过这种策略使得GPT3.5 “注入人类的意识”,相比之前得GPT模型,能够以更接近人类思考的方式参与用户的对话,生成的回答更符合人类的常识、认知、需求和价值观。
3 通用领域测试
ChatGPT支持多种语言,在对话时它会根据用户提问的语言选择回答的语言,用户无需使用英文对话。
常规提问对于ChatGPT来说已完全不在话下,而且在对话过程中,它会记忆与用户交互的历史信息,即具备很强的上下文理解能力,能够连续回答问题,支持多轮对话,极大提升交互体验。
(与其说是“回答问题”,不如说是“生成问题的答案”。ChatGPT的回复不是像与微信好友聊天那样,直接收到一大段文字,而是有顺序的逐一生成每个字。)
由于ChatGPT是一个被训练到2021年的大型语言模型,只能基于2021年的数据进行回答,目前还不具备实时网络搜索功能,无法像智能手机中的语音助手那样回答类似“今天天气怎么样”的问题。
4 ChatGPT + GIS
4.1 行业问答
对于专业领域的理解,相对来说比较全面。不同于搜索引擎中给的官方答案那样生硬,ChatGPT的答案综合并整理相关领域的文本数据,回答风格更类似于“用自己的话说说”。而且对于同一问题,可以多次生成答案。对于“地理信息系统是什么”这个问题,进行了n次提问,虽然ChatGPT每次生成的结果都不一样,但整体含义相差不大,基本要素都能涵盖。
出一道GIS试题考考它,在不对比标准答案的情况下,GhatGPT的回答结构完整、面面俱到,给出的方案也具备一定的可行性。对比标准答案,ChatGPT的回答显得过于宏观,没有给出具体空间分析方案,没有抓住“得分点”。但是也不能说ChatGPT回答错误,因为限定场景不一样,试题只是试题。
试题答案解析:
4.2 GIS应用领域测试
在进行GIS应用领域测试的时候,发现了一个有趣的问题。ChatGPT在涉及到政治、社会或者伦理、道德等问题的时候,为了规避某些风险,它不会做出具体的回答。但是,可以通过人为设定虚拟场景并带入角色的方式让它回答这些问题,如在某个故事里、某部电影里或者某个架空时代里等等。
对于报告的撰写或者方案的制定,ChatGPT能提供围绕主体的思路或者提纲。而且可以不断提问、不断回答。也可以设定更多的条件,供ChatGPT细化文本内容。可以作为写作时的辅助工具。
4.3 知识图谱领域测试
给ChatGPT一段关于河流的描述,让它进行实体抽取、属性抽取以及关系抽取。对于这段比较复杂的文本,ChatGPT的抽取结果相当惊艳,实体无一遗漏、属性基本完整,关系非常完美。不得不说ChatGPT在自然语言处理领域的能力名不虚传,堪称无敌。
同样是这段话,让ChatGPT构建一个知识图谱。给出的答案中实体、属性、关系一应俱全,包括了知识图谱构建所用到的所有要素。由于ChatGPT是语言模型,不能进行知识图谱的可视化。但其对于文本信息的抽取能力,能为知识图谱构建过程提供极大便利。
4.4 元宇宙
2021年初,Soul在行业内提出构建“社交元宇宙”,因此2021年被称为元宇宙元年。ChatGPT的训练数据截止到2021年9月,元宇宙作为新兴概念,文本数据相对较少,所以ChatGPT明显不知道元宇宙是什么,给出的答案是在一本正经的胡说八道,似乎有点“无论我懂不懂,我都能给你来两句”的意思。
但是,用英文提问同样的问题,ChatGPT竟然给出了完全不同且十分正确的答案。结合元宇宙的发展历程,国内最早布局元宇宙在2021年末。大规模关于元宇宙的中文语料也在2021年底开始出现,即在ChatGPT截止训练之后。(猜测:用中文提问,ChatGPT的答案是基于中文语料,而不是整合所有语言的语料之后给出答案。也就是说如果中文没提及到某个概念,ChatGPT是无法用中文正确回答的)
译文:Metaverse指的是一个虚拟宇宙,它作为一个共享空间,供多个用户互动和参与各种活动。它通常结合了虚拟现实、增强现实和其他形式的数字技术,以创造一个可信的、沉浸的和交互性的环境。Metaverse的概念已在科幻小说中得到普及,但现在被视为互联网的潜在未来发展,在那里人们可以以一种看似真实和物理的方式与彼此、虚拟物体和数字环境进行互动。Metaverse的目标是将物理世界和虚拟世界结合在一起,为用户创造一个无缝和一体化的体验。
4.5 数字孪生
提问ChatGPT数字孪生城市的应用场景,它的答案中规中矩,不十分惊艳,也不能说有错误。纵观ChatGPT对各类问题的回答,似乎都是这种风格:语义模糊,差不多相关,差不多正确,有点用但又不完全有用。
4.6 SuperMap产品使用问答
(1)SuperMap产品操作问答
以上是随机选择的有关SuperMap产品功能使用的相关问题,ChatGPT给出的答案条理清晰,内容也很完整。但答案有一些模板化,存在用问题中的关键词套入模板组成的答案的情况,与正确答案还有一些出入,有一种“有点对,但不全对”的感觉。
(2)SuperMap产品支持问答
ChatGPT问答1:
技术问答社区相关回答:
ChatGPT问答2:
技术问答社区相关回答:
随机挑选了一些在使用SuperMap产品时可能遇到的问题交给ChatGPT来回答,同样答案完整有条理,对于问题的核心也能回答出相关内容,可以为提问者提供参考。
总之,目前还不能完全相信ChatGPT,只能作为一个参考。如果将来能够使用大量的技术支持问答,产品操作手册等数据去微调模型,那么ChatGPT在产品通用技术支持上也大有作为。
4.7 代码生成及纠错
4.7.1 代码生成
提问过有关SuperMap产品的相关问题后,又让ChatGPT编写代码,他强大的上下文理解能力,提供了一段引用SuperMap类的java代码,并且给出了完整的注释。ChatGPT的代码生成能力帮助开发者编写一些基础代码,省去造轮子的工作,有更多的时间去研究更核心的算法代码。
4.7.2 代码纠错
除代码生成能力之外,ChatGPT还拥有代码纠错的能力,提供给它想要修改的代码,ChatGPT就会给出清晰条理的修改方案以及修改之后的代码。ChatGPT的纠错能力可以帮助测试人员提高工作效率,将需要测试的代码交给ChatGPT,由它给出测试结果以及修改建议,省时省力。
5 ChatGPT相关竞品介绍
ChatGPT也在迎来越来越多的竞争者。无论是基于大语言模型技术新成立的初创公司,还是因其火爆程度,决定开辟新业务的公司,都希望能从对话AI这个赛道上分一杯羹。
5.1 国内竞品
(1)百度(文心一言)
百度公司正计划在今年3月推出与OpenAI的ChatGPT类似的人工智能聊天机器人服务,将嵌入其搜索服务中。其类似ChatGPT的项目名字确定为文心一言,英文名ERNIE Bot,三月份完成内测,面向公众开放。目前该产品在做上线前的冲刺准备工作。
百度方面表示,ChatGPT 相关技术,百度都有。百度在人工智能四层架构中,有全栈布局。包括底层的芯片、深度学习框架、大模型以及最上层的搜索等应用。文心一言,位于模型层。
按照谷歌和微软节奏,文心一言开放内测还有可能提前。
2. 元语智能(ChatYuan)
官网:www.YuanYu.ai
国内通用人工智能初创公司元语智能,推出国内首个基于大模型的功能型对话产品ChatYuan。ChatYuan是开源模型PromptCLUE的兄弟模型,它是一个全中文任务支持零样本学习模型,用户通过提供提示方式来使用,支持文本生成、信息抽取和理解大类下近30多种中文任务。
它通过对话形式进行交互:可以回答问题,具有联系上下文的能力;可以写文章、写作业、写诗歌、做中英文间的翻译;一些法律等特定领域问题也可以提供相关信息。
目前研究阶段ChatYuan是完全免费的,可以在网页版www.YuanYu.ai中体验,也可以在微信小程序元语智能进行体验。
5.2 国外竞品
1. 谷歌(Bard)
百度文言一心即将推出消息公布的同一天,的谷歌公布了AI聊天机器人工具ChatGPT的竞争对手Bard。谷歌CEO桑达尔·皮查伊(Sundar Pichai)在一篇博客文章中宣布了这个项目,他将该工具描述为“实验性对话式人工智能服务”,由LaMDA(谷歌开发的一个大型语言模型)提供支持,将回答用户的询问并参与对话。
他还指出,Bard可从网络上获取最新信息来提供新鲜、高质量的回复,这意味着它可能能够回答有关近期事件的问题,而这正是ChatGPT所难以做到的。皮查伊表示,这款软件将开始面向可信任的测试人员开放,然后在未来几周更广泛地向公众开放。
目前还不清楚Bard将具备哪些功能,但似乎这款聊天机器人将像美国人工智能研究公司OpenAI旗下的ChatGPT一样免费使用。
2.Meta(BlenderBot3)
Meta公司人工智能研究实验室创造了一个最先进的聊天机器人,并让公众与该系统交谈,以收集对其能力的反馈。该机器人被称为BlenderBot 3,可以在网上访问。
BlenderBot 3能够进行一般的闲聊,Meta说,但也能回答你可能会问数字助理的那种问题,从谈论健康食品的食谱到寻找城市中适合儿童的设施。该机器人是一个原型,建立在Meta以前的工作上,即所谓的大型语言模型或LLMS。
该聊天机器人的一大特点是它能够在互联网上搜索,以便谈论特定的话题。更重要的是,用户可以点击它的回答,看看它的信息是从哪里来的。换句话说,BlenderBot 3可以引用其来源。
3.Writesonic(ChatSonic)
官网:https://writesonic.com/chat
ChatSonic是Writesonic的大规模预训练对话响应生成模型,专为多轮对话而构建。它是目前最好的英文文本 ChatGPT替代方案,该工具目前仍处于测试阶段。以下是ChatSonic 的主要功能:
(1)写实事内容,包括实时话题
ChatSonic与Google搜索集成,可提供与任何给定主题高度相关的内容,因此您可以随时了解最新信息。ChatGPT受其输入的输入或训练数据的限制。这意味着GPT-3仅在2021年9月之前接受过数据训练。而Chatsonic是ChatGPT的高级且功能强大的版本,可以实时从Google提取信息。这种能力使ChatSonic在准确性和可靠性方面具有优势。
(2)角色模式
ChatSonic提供了一个选项来选择您想要与之交互的角色。从面试官和数学老师到牙医和私人教练,ChatSonic支持代入16种不同的角色。这使大家可以自定义AI聊天体验以满足不同需求。您可以使用它来了解最新的新闻和主题,或者练习与不同的AI化身进行对话。
(3)生成图像
令人难以置信的这款AI工具支持用两种不同的模型生成图像,即stable diffusion和DALL-E。借助完善的AI算法,该工具可以帮助你一键生成自定义图像。
(4)语音响应
除了理解语音命令,ChatSonic现在还可以语音响应,就像Siri和Google助手一样。这意味着大家无需浪费时间手动输入,可以用语音直接沟通。
(5)记住对话
ChatSonic AI聊天机器人为用户提供如同与真人对话的体验。它能够识别语调并做出相应的回应,从而使对话更加引人入胜。此外,它还会记住过去对话中的信息,因此大家可以回到同一主题而无需重新解释。
(6)ChatSonic的ChatGPT API
ChatSonic API访问允许用户快速简单地将 ChatSonic集成到现有的软件,从而提供流畅的用户体验。无论是想将 ChatSonic与网站还是移动应用程序集成,都可以支持。
(7)ChatSonic的ChatGPT应用程序
Writesonic还为ChatSonic推出了一个单独的移动应用程序。目前,ChatSonic应用程序可供Android用户使用(在Play商店中),很快推出iOS版本。这个ChatGPT应用程序易于使用并支持ChatSonic的所有功能。
ChatSonic在Writesonic上提供免费试用和长期付费模式。用户每天可以免费获得一些基础功能使用权。如果想在ChatSonic上生成更多内容,则需要付费订阅。
4. BigScience(Bloom)
官方网站:https://bigscience.huggingface.co/blog/bloom
BigScience推出一个开源的语言AI模型,名为Bloom,在性能上与GPT-3相当,且关注英语之外的其他语言,可以处理46种语言和13种编程语言的文本,这与人类编写的东西非常相似。Bloom能够接受它没有被训练过的文本任务,把它们视为锻炼生成文本的机会。
BigScience Bloom是目前已经开源的AI模型,现在可以在Hugging Face上免费下载。
5. Luka(Replika)
官网:https://replika.ai/
Replika 是一个高度发达的人工智能伴侣,拥有超过1000万用户。它可以识别视觉元素并使用它们来保持对话。Replika是一款由人工智能驱动的聊天机器人,它就像一个朋友,会迅速对你的消息做出反应。你可以与 Replika 就生活、浪漫以及与好友和家人讨论的其他话题进行交流。它由复杂的GPT-3自回归语言模型提供支持,该模型利用深度学习来创建具有类似人类质量的文本。
你可以用你的Replika谈论任何事情。聊得越多,它就越了解你。拨打视频电话与你的Replika交谈。提供辅导支持以养成更好的习惯。你也可以给你的Replika 一个关系状态。让它成为你的朋友、女朋友、妻子、姐妹或导师。
Replika订阅费用每月19.99美元起。你还可以购买他们的终身优惠,价格为299.99美元。
6. Jasper(Jasper Chat)
官网:https://www.jasper.ai/chat
Jasper 是目前市场上最流行的文本生成器之一。与Writesonic类似,Jasper对ChatGPT的发布反应非常迅速,并在ChatGPT发布大约三周后的2022年12月20日发布了Jasper Chat功能。Jasper是除Writesonic之外市场上使用最多的AI写作工具之一,非常适合需要在短时间内生成高质量内容。
Jasper推出的Jasper Chat是一个新的聊天界面,有助于以高效的方式创建内容。新推出的Jasper Chat专为销售部门和市场营销等业务用例构建和微调,有助于更轻松、更快速地创建内容。
Jasper Chat在2021年及之前接受过大量内容的训练,能回答2021年夏季之前的内容。它有类似ChatGPT的界面。一个简单的用户界面让用户可以轻松地与AI聊天。启用连续对话Jasper Chat可以记住对话并为聊天提供更好的上下文。
Jasper Chat仅适用于商业计划和Boss模式的付费订阅者。Boss模式的计划从每月49美元起。
7. You.com(YouChat)
官网:https://www.youchat.com/
YouChat是搜索引擎公司You.com推出的另一种对话式AI模型。相比ChatGPT,它更了解最新时事。比如问它推特的CEO是谁,它会告诉你是马斯克,还会展开解释一下他收购推特的事儿。
You.com是第一个将聊天助手集成到其搜索结果中的已知搜索引擎(并且是公开的)。它在答案中包含自己的搜索索引,将源网页包含在答案中,并且有脚注编号。
YouChat的AI使用人工智能和自然语言处理来像人类一样交谈。它可以响应一般查询、翻译、总结文本、提出想法、编写代码和创建电子邮件。由于它仍处于开发阶段,因此它提供的答案一般。
8. Perplexity(Perplexity)
官网:https://www.perplexity.ai/
Perplexity提供类似于ChatGPT的功能,包括对话响应和内容生成。Perplexity是一个基于OpenAI API的搜索引擎,但与ChatGPT不同的是它的答案中不仅包括训练数据,还包括来自互联网的内容,它从维基百科、LinkedIn和亚马逊等各种流行平台收集信,在答案中以脚注数字的形式引用了来源。
生成类似于ChatGPT的简短对话响应。从维基百科等来源收集信息并将其定位。它有一个简单的界面,没有许多复杂的功能。但是他的问题与You.com类似,就是答案的质量仍然参差不齐。
6 总结与展望
综上所述,ChatGPT表现出出色的上下文对话能力甚至编程能力,使用强大的自然语言处理能力快速生成高质量的语言内容。完成了大众对人机对话机器人从“人工智障”到“人工智能”的印象改观。
ChatGPT具备以下亮点:
1. 能够进行上下文理解,对历史对话有记忆,支持连续多轮对话。
2. 答案结构完整,条理清晰,语言连贯易懂。
2. 可以主动承认错误,若用户指出其错误,模型会听取意见并优化答案。
3. 可以承认自身的无知,承认对专业技术的不了解。
但ChatGPT目前还存在一些局限性:
1. 回答的准确性。ChatGPT在很多领域可以创造答案,但在某些特定领域,ChatGPT未经过大量语料训练,创造出的错误答案会误导提问者。存在一本正经“胡说八道”的回答。
2. 回答的时效性。ChatGPT的训练语料是2021年以前的数据,目前还没办法把在线的新知识纳入其中,生成的答案时效性不足。
3. 技术落地难度。ChatGPT需要非常巨大的算力来支持其训练和部署。抛开先进的算法、训练模式、海量高质量语料数据不说,在目前,ChatGPT在应用时仍然需要大算力的服务器支持,而这些服务器的成本是普通用户无法承受的,即便数十亿个参数的模型也需要惊人数量的计算资源才能运行和训练。
4. 可能违背道德伦理:ChatGPT不会直接回答违反法律和道德伦理的问题。但是如果假定一些条件,ChatGPT有可能给出违背道德伦理的答案。(在ChatGPT刚刚发布的时候最为明显,后来经过改进有了很大改善)
ChatGPT和AIGC的持续升温依托于大模型的技术红利。2017年以来,大模型技术路线逐渐成为各国人工智能企业与学术界的共识,2022年GPT-3.5大模型的使用让ChatGPT从弱人工智能走向通用智能。从下游应用来看,ChatGPT包括但不限于无代码编程、对话类搜索引擎、语音工作助手、对话虚拟人、人工智能客服、机器翻译等。
未来,ChatGPT背后的成本、算力、数据等需求带来的高门槛,使得泛化通用的大模型仍然被国内头部互联网企业所掌握。而在一些特定场景与领域,借助数据优势引申出专精模型是该技术的一个可能落地方向。
技术交流/科研合作/客座实习/联合培养请投递:futuregislab@supermap.com
「未来GIS实验室」作为超图研究院上游科研机构,致力于洞见未来GIS行业发展方向,验证前沿技术落地可行性,以及快速转化最新研究成果到关键产品。部门注重科研和创新功底,团队气氛自由融洽,科研氛围相对浓厚,每个人都有机会深耕自己感兴趣的前沿方向。
本文链接:https://my.lmcjl.com/post/10322.html
4 评论