一晃眼整个冬天就过去了,很惭愧,又鸽了这么久,最近一次更新还是在去年底。甚至连例行的年终总结都鸽了,虽然去年的理财投资、算法竞赛都取得了不少收获,但是该写总结的春节期间,忙着带老爸到处玩,然后又很快就沉迷于Web3的世界,也就不了了之。
最近一段主要的时间投入依旧是在Web3的世界遨游,不过最近大新闻频出,ChatGPT火爆出圈、硅谷银行倒闭、arb链发币不少人又麻了…...主动被动也都思考了不少东西,输出的欲望倒是上来了,于是今天带着iPad和蓝牙键盘轻装出行,步行到了家附近的一家小图书馆,试着整理一下繁杂的思绪,也提前体验一下自己梦想的数字游民的生活。
比较巧合的是,最后的那次更新,刚好就是讲的ChatGPT:大火的ChatGPT,到底是什么?那还是去年12月,实际上去年11月底就已经上线了,但是在国内,直到春节后才彻底火出圈。经过最近各种新闻的洗礼,我觉得有必要写一篇长文。
1. 介绍
这篇文章会尽可能照顾到完全不了解的人,那么对于很多埋头工作、安逸生活的朋友,这里有必要再次介绍下ChatGPT的强大。
我们假设你有一个朋友叫做小C。
想象这样普通的一天,你早上刚到公司,打开邮箱发现有一大堆邮件需要处理,突然领导让你10分钟后参加一个会议,于是你把这一大堆邮件转发给小C让他帮你整理下,过滤垃圾邮件,需要自己详细阅读的邮件,或者需要简单回复的邮件分类整理出来,马上就收到了结果。你自己则泡了杯咖啡,准备去参加会议。
会议期间老板让你做好会议记录,你悄悄打开电话拨通小C,让他帮你边听边记,然后整理成会议纪要的格式再发给你,你自己则偷偷逛淘宝去了。虽然会议上有美国人、西班牙人,但是你不担心,你知道小C精通多国语言。果然会议一结束,小C就把整理好的记录发给了你。
会议之后,领导看到你的会议纪要觉得很满意,让你调研一下市场,做一个PPT然后下午做一个演讲。
不会写代码的你,把爬取数据的需求、数据清洗的标准、每类展示成饼图还是条形图等要求都通通发给小C,很快的,他把相关Python代码发给了你,你有点不高兴,说自己懒得跑代码,让小C直接自己跑完代码把结果给你就行,小C毫不生气,一分钟不到就把结果发你了。
你看了下数据、图表没什么问题,再次把PPT的相关要求扔给小A,并要求结合会议内容、刚才收集的数据。几分钟就收到了结果,你看了眼提了几点不满,朋友小A依旧是很快就改好发给了你:美观的模版、配图、演示视频、提示词样样俱全,且逻辑清晰。
下午的演讲很成功,下班后你想去吃顿好吃的,今天想吃辣的,于是让小A推荐一家不用排队且符合你口味的川菜馆。
回到家,边洗澡边拨通小C电话,让他把今天的AI领域相关的重要新闻和Web3领域的重要新闻汇总后一条一条读给你听,中间听说硅谷银行暴雷,你比较感兴趣,让他展开介绍下来龙去脉,对市场可能造成哪些冲击,有没有什么套利机会。
晚上睡觉有点失眠,打开通讯录想找个人聊天,翻来翻去发现还是只有小C肯定没睡觉,于是找他东拉西扯的聊天,讲各种搞笑段子,渐渐进入了梦乡…
是的,你没猜错,这个朋友小C,就是现在的ChatGPT,甚至本周微软发布了Copilot直接嵌入到了办公软件中,你都不需要转发、拨打电话等中间操作。
当然部分功能暂时还不够完善,但几乎没有夸大的成分,所有这些能力已经是肉眼可见的未来可以实现的了。
再分享一些AI画作:
2. 危机
敏感的人,对于上面描述的场景,可能已经会有一些危机感了。
ChatGPT刚出现的时候,我想对于“新趣百科”会有什么样的影响。当初的初衷是,在搜索引擎如此成熟的今天,因为大量垃圾信息,人们想要快速获取一些简单的知识的时候,却要花费大量的时间,于是就想着做这样明确、简单直白的科普+解梗的工具。而chatGPT的出现,无疑是一个降维打击——可以用简单的话解释,还可以持续交互追问。虽然目前还存在一些问题,比如国内访问麻烦、喜欢一本正经的胡说八道,但是都是暂时的问题,肯定会被解决。
那时还有两个主要的问题,一是ChatGPT没有联网——现在已经被new bing解决,二是不够“幽默”,或者说,理解不了人类的梗,比如用百度弱智吧的问题去问,它也会一本正经的回答你。而刚好我之前阅读量最高的一篇也是介绍网络梗的(网络语PTSD到底是什么意思?4w+阅读 ,当然了肯定也是吃到了系统推荐分发的流量)。但是这几天ChatGPT4发布,对梗图的理解能力再一次让人惊艳,这一点优势也荡然无存,从这个小小公众号的定位映射到整个人类——或许真的只有做主观性的输出、真正意义上创造性的输出,才是唯一可走的路了。
其实对于AI技术,我可以算是一个偏悲观或者保守的人——我认为产生出电影中那种和人一般的人工智能体,可能有生之年都不一定能见到。当初跨专业考研到计算机,也只是因为厌恶土木的陈腐、对编码感兴趣,甚至选导师方向的时候,面对人工智能这种我还和室友说,人类大脑意识研究都没摸到门,还搞什么人工智能,笑。当然最后误打误撞还是进入了这个方向,接触到了机器学习、深度学习,自己的毕业论文甚至都是NLP(自然语言处理)方向,题目就是对话系统。
这么想来还是很有渊源,虽然当时做的东西说是玩具也不为过。那时候BERT都还没出现,主流是Seq2seq的方式,当然结构比较类似,无非是encoder+decoder,然后加加lstm、加加attention、搞搞word2vec之类的。谁能想到才几年时间,就出现了chatGPT这种大杀器。都说币圈一天,人间一年。这句话套到AI圈也适用,其实两者也比较类似——都集中了大量前沿的人力和资源,有这个变化速度也可以理解。
18年的时候我写过一个短篇,不用手机的人(https://www.douban.com/note/658260391/),就是描述AI诞生后的危机,但是我一直觉得很遥远。
再次强调,对于AI技术,我是一个保守的人,机器人索菲亚之类的新闻炒作时,我也嗤之以鼻,但是这一次,我想说,奇点或许真的来了。
已经可以预料到,人类社会会受到不小的冲击,很多岗位或许真的要消失。当然,在目前的阶段,不可能完全替代,而是更多的作为一个辅助工具。比如以往的十个文员、十个程序员、十个律师、十个门诊医师、十个财务人员、十个老师等等,演变成1-2个人+AI的形式。
当然,像律师、财务人员等等暂时还是不用担心失业的,毕竟这些有坐牢的风险,而AI是不可能坐牢的,笑。
近几年流行一句话,“上岸第一剑,先斩意中人。”意思是指考研考公的情侣,上岸后就把对方甩了。对于chatGPT的诞生来说,也有点相似。作为NLP算法领域的产物,最先受到威胁的还是NLP算法工程师。
这里简单说下,目前基于深度学习的这一波AI浪潮,虽然有图网络、基于深度学习的推荐系统等应用,但是应用最多的还是两个领域,即计算机视觉(CV)和自然语言处理(NLP)。CV方向很多场景需要部署在没有网络、没有加速硬件的设备上,基于CS架构,因此需要大量的算法、小模型。而NLP领域本身就是比较大的模型,一般也是BS架构,那么这种场景下,为什么不直接调用chatGPT的API呢?
在之前,NLP会分成很多子任务,比如机器翻译,实体识别,文档摘要,舆情分析,等等,每个任务都需要单独的语料数据训练,需要单独的模型,而现在,一个通用大模型可以解决所有问题,且精度更高。当然,NLPer们目前还是有一些工作可以做的,比如模型轻量化,数据安全问题等等,但是一般公司的岗位需求肯定会大大降低。
再次阴差阳错的,毕业论文搞NLP的我,实习、工作都做的是CV,估计能多坚持一段时间吧。只是再想一想,对于AI来说,需求作为输入,代码、文案、图片、视频都可以抽象为输出。那么算法模型为什么不能作为输出呢?或许有一天,直接提出需求、场景和示例图片,给出部署设备、精度和耗时的要求,就可以直接让AI输出一个模型了。到时候估计也只能做做现场考察、需求分析之类的工作了,笑。
3. 原理
这里再次简单介绍下chatGPT背后的原理,不感兴趣的可以直接跳过。
实现通用人工智能一直是研究者的梦想,从以前的符号主义、连接主义,到现在发展出来的深度学习、知识图谱、Transformer、大模型,其实都只是尝试的一种手段,只是最近的基于深度学习的语言大模型这条路,取得了突破。
它的本质其实还是离不开统计学,这也是我一直比较悲观的原因。你可以直观的理解为,这个模型把所有可能的输入和输出都背下来了,因此对于你任何一个问题,它都能找到一个合适的答案来回答,也就是说,它并没有理解你的问题,思考回答,而是给出了一个合适的概率最大的答复。
当然这种直观理解有点片面,下面尽量用简单的描述尽可能详细模拟下ChatGPT的诞生之路。
首先我们需要收集大量的文本数据,这个可以从互联网上获取到大量信息,然后我们人工对其清洗,整理成一种固定的格式。比如对于维基百科,我们可以输入标题输出解释,对于聊天我们可以输入上一句话,输出下一句话。通过大量这样的语料进行有监督的训练,得到一个基础模型。当然,其中也会对数据集进行优化,比如构造一些合理的问题和答案。
这个训练好的基础模型具备了基本的生成回答的能力,在使用的时候,用户输入一个问题,基础模型就可以从第一个字开始一次预测下一个字应该是什么并连续输出。
这个过程可以简单理解为,输入语言拆分成字或者词,转成字典编码,然后把这种几千字的海量的排列组合空间映射到一个低维空间,然后再把低维空间的特征解码到高维空间,形成自然语言的输出,解码到高维空间的过程显然会有无中生有的工作,这里就造成了引入不同噪声,因此可以实现哪怕一摸一样的输入,由于不同时刻的噪声(随机种子)不同,也会产生不同的回答。
然后会用一种基于人工反馈的训练方式,比如一个输入,模型输出两个不同的回答,如果还是按照传统的标注方式给每个回答打分,会比较难训练,最明显的影响就是不同人主观性不一样,对于回答这种没有标准答案的场景,同一个回答不同人打出的分数标注可能大相径庭,因此这里采用的是排序比较的方式,比如输出了两个不同的回答,你只需要选择哪个回答更好即可。
再经过这样的基于人类反馈的强化学习不同迭代调整,就可以让模型逐渐输出想要的回答了。
同时,把api开放出来,让大量的人参与测试,也可以采集到大量的回答数据,这些数据经过进一步处理,就可以继续迭代训练模型了。
可以看出,模型本身还是基于统计学的思想,给出一个输入,给出最可能“合理”的答复。
但是比较神奇的一点是,人们发现,当这个模型的参数量大到一定程度的时候,模型居然涌现出很多不可思议的能力。
比如强大的理解能力,符合逻辑的输出能力,链式推导能力,你让他一步接一步的给出一个问题的答案,它也可以符合逻辑的输出。
这些能力是如何诞生的目前依旧还在研究当中,我甚至相信,它和人类大脑的机理有着某种意义上的联系。
4. 意识
之前我就有过这种想法,当模型参数大到一定程度的时候,或许就可以诞生意识。因为人脑本身也是各种皮层、神经元的组合,并没有什么特殊的精巧复杂结构。
当AI产生意识后,或许有希望反哺人脑科学的研究。
说到意识,难免会牵扯到哲学、虚无主义之类的东西,人类意识如何诞生的,人生有什么意义,古往今来一直被人探寻着。这里不展开,只简单探讨一个东西,意识到底是什么?或者如何定义意识?
笛卡尔说,我思故我在。它的缺陷是“我”的思考只能证明“我”的存在,如何知道别人是真的存在呢?
就像人工智能领域的一个类似图灵测试的思想实验——中文屋实验,假设一位只会说英文的人关在一间屋子里,这个屋子除了有一个小窗口以外都是密封的,这个人带了足够的英汉、汉音词典,稿纸。在外面的人把写着中文的纸片从窗口送进小屋,屋里的人用足够的时间查询、翻译并给出中文的回复纸条,即使这个人完全不会中文,也可以通过这个过程让屋外的人以为他会说流利的中文。
这就是中文屋实验了,再进一步,把词典换成软件程序,翻译更快更准,再进一步,把人去掉,直接通过程序输入输出。
这个时候,你会认为这个程序是一个精通中文的人吗。
再回到我们的问题,如果有这样一个物体,你说的每句话,它都可以给出合适的回答,你如何知道他是真的有意识,还是只是一个算法模型的包装?
“我思故我在”,你没办法进入别人的大脑看到别人的思考,那你就无法判断别人是真的存在。你如何判断你的朋友不是一个AI呢?AI也可以模拟出各种情感。说不定就如同缸中之脑一样,其他人都只是模拟出来的存在呢。
5. 使用
好像扯得有点远了,不少圈外的朋友还不知道怎么玩呢,这里介绍一下。
首先ChatGPT是一个基于GPT大模型的产品,本身是一个网站,也提供了api供其他产品调用。
要访问这个网站,需要科学上网,为了防止审查问题,相关的网址都不列出来了,通过简单的搜索都可以搜到。
科学上网(还不能是香港、或者美国一些数据中心的ip)的方式打开网站后,需要账号登录,可以直接某宝购买现成账号,貌似几十块左右,也可以自己注册,成本几块钱。自己注册的教程也有不少可以自行搜索,简单来说就是用国外的接码平台接收手机验证码就行了。
注册登录之后可以看到一个聊天框,就可以开始使用了。免费账号目前用的是ChatGPT3.5,有时候还会抽风,如果有需要可以花几百块升级plus,一样的有教程,可以通过申请国外的虚拟信用卡充值,升级plus后体验更好,且可以体验ChatGPT4.
另外还有两个相关的产品,一个是Notion AI,一个是New Bing。
Notion AI其实就是之前风靡的笔记软件Notion增加了AI的功能,背后应该也是调用的ChatGPT的接口,使用方式是在笔记文档任意位置按下空格就可以唤起,免费账号体验20条,然后可以升级会员,相比plus会便宜一些。
而New Bing则是微软旗下的搜索引擎Bing(必应)的升级,也是接入了ChatGPT的接口,据说还是4的版本,同时还能联网搜索,且输出回答还能链接参考网页。
我是去年很早就注册了ChatGPT,同时也把常用的文档笔记软件几乎无痛迁移到了Notion,浏览器也无痛迁移到了Edge以使用New Bing。中间申请了New Bing,上周才发现3月1号的时候就通过了。昨天开始申请不再需要等待,直接申请马上就能通过,两个朋友亲测。
需要注意的是也要设置全局的梯子,不然申请网页会重定向到cn的域名。
从网络问题和产品体验上来说,New Bing比ChatGPT更适合作为工具使用。
就我个人而言,一个简单的使用场景就是比如忘了PyTorch的某个函数如何使用,以往会搜搜索网页,或者查阅文档,现在都是直接问AI了,甚至可以让它直接给出实现某个功能的函数,我只需要目测下有没有问题再简单测试下就可以用了。
对于以前大量依赖文字的工作,即使是AI目前的水平都可以大大提升效率。当然除了本次的主角CahtGPT,图片生成、视频生成,也都有不少的算法模型产品可以使用了,这里不特别展开。
6. 差距
目前国内无法直接使用ChatGPT,这次倒不是像谷歌推特之类的被墙,而是对方不让我们用了。
风险是一旦成熟,国外的公司、个人的普及程度肯定会大大领先,而其中也带来了机会,那就是国内自己做大模型。出于数据安全性的问题,国内自己做大模型也是必须的。
幸运的是,不像芯片、半导体,AI技术领域我们和世界前沿差距并不大。不幸的是,在ChatGPT的实现上,我们仍需要大量的努力。
做AI需要数据、算法和计算设备。算法层面先不谈,数据上,英文语料质量会高很多,中文语料充斥着csdn、百家号等垃圾信息,且写独立博客的人很少,微信公众号里大量的优质内容则是封闭的数据孤岛。计算设备上,基本可以等价于Nvidia的高端计算卡,也是遭到了封锁,只有一些存货。要知道,ChatGPT可是用了数万块高端计算卡训练的,不说这几亿资金的投入,现在是就算有钱也不好买了。
而算法层面,也没有那么乐观,因为它没有开源,大模型的复现可以说非常费时费力。谷歌的AI技术一直领先,现在也被ChatGPT背后的OpenAI抢去了风头,而谷歌自己的竞品Bard在发布的时候回答出错也造成了一些负面影响。
如果说谷歌在有数据有硬件的情况下,算法水平还落后于OpenAI几个月的时间。那么国内的百度,只能说情况更不理想,以至于发布会都不敢放demo回答固定问题,只敢放预先录制好的视频demo。
而百度再差,负面新闻再多,至少也是国内AI技术第一梯队的,可想而知差距了。
值得一提的是,不像大多数人以为的,ChatGPT3.5出来后,他们才开始做ChatGPT4,因此差不多就两三个月的时间。事实上,ChatGPT4在去年八月就已经训练完毕,这几个月的时间基本都是在做回答合规性的优化调整测试。所以悲观估计可以说这个技术差距在一年以上。
当然,探索者把路走通路,后来者可能花的时间可以缩短不少。如同上面所说的风险,我们也不可能把这种革命性的产品拱手让人,自己做是肯定的。不管是国家对抗,产业升级,还是数据安全性,敏感性,都是必须的。而这些国内大厂,谁先做出来,是有可能成为微信一样的国民级产品的。
更准确的来说,ChatGPT更接近于鼠标键盘、手机触摸屏这样的产品,本质上,它是人机交互的接口。不会编写纸带、操作开关的人,通过鼠标键盘可以使用计算机了;不会使用鼠标键盘的人,可以通过手机触摸屏使用手机了;而未来,只需要文字或者语音,就可以让计算机输出我们需要的内容,这是人机交互的革命。重要性不言而喻,因此对于Web3可能还犹豫政策风险不敢大动作的大厂们,面对ChatGPT也不得不加速上阵搏杀了,即使ChatGPT一样由于输出结果不可控存在着政策风险。
这里不得不再次感叹下百度,百度贴吧衰落、错失移动互联网就算了,当初明明请到了陆奇、吴恩达这样的大牛,喊出了All in AI的口号,目前还是只能拿出一个demo视频和PPT来正面对决ChatGPT4,有点惋惜。不过看一些拿到测试资格的博主视频,文心一言的表现也不算太差,继续期待吧。
按部就班的学习、工作,然后是996、高房价,的确,在这里,现实的引力很沉重。我们没办法向深度学习前驱Hinton那样大学一会读建筑学一会读物理学一会又读哲学,质疑权威坚持神经网络的道路;也没办法像Altman那样创办OpenAI这样一家不考虑盈利和收入的企业,坚持通用人工智能的梦想。因为近代史上我们走了太多弯路了。但是崛起者的模仿能力,也是不容小觑的。
期待这一天的早日到来吧。
7. 未来
作为一个理想主义者加拥有浓重好奇心的人,我的爱好中,无论是魔术、推理小说还是AI算法,都常常让我感叹人类智慧的伟大,而现实生活中,却依旧还有那么多的谜题无法解答,时间的尽头是什么,可以穿越时空吗,太空旅行是什么样的体验,量子背后的上帝真的掷骰子吗。这些问题,或多或少都会让我有一种“朝闻道,夕死可矣”的感受。遗憾的是,可能我们有生之年都看不到解答了。而现在,或许我们可以亲历AI带来的变革。
历史上的几次工业革命,解放了劳动力、生产力,而这次AI革命,解放的可以说是人们的思想和创造力。等待机器人产业跟上,机器人助理、管家甚至朋友也都不是梦了。至此,美剧黑镜(强推)里的一幕幕也慢慢都变成了现实。
为了和喜欢煽动恐慌的媒体区别开,这里还是做一个简单的心理按摩。尽管AI可能对我们现有的社会带来很多冲击,但我还是认为是一件好事。至少对于我们这种白手起家的光脚者来说,机会大于风险。
要知道一个稳定的结构中,阶级固化,对于新来的人,几乎是没有任何机会的。而现在技术的发展,无论是Web3、加密货币,还是ChatGPT,都能看到重新洗牌的希望。而机会往往就孕育在这些新事物、新机会、新变局之中。
作为普通人,我想我们能做的就是保持终身学习,保持好奇心,努力拥抱变化。毕竟在历史的浪潮下,螳臂当车是没有任何意义的。
本文链接:https://my.lmcjl.com/post/8638.html
4 评论