外行人来理解Chat GPT的工作原理

打印 被阅读次数

我有个习惯,当出现一个自己专业知识以外的新事物,就会在收集资料的基础上,以自己已有的知识和经验为基础,来理解一下并写出来。以前写过外行人看电动汽车,新能源,氢弹,高空气球等文章,不但得到好评,自己也受益匪浅,虽然没什么实际用处。但人一生如果只去了解有用的东西,那会多无聊?所以我还是乐此不疲,现在,又来理解一下火爆的Chat GPT。

ChatGPT的基础是OpenAI提出的GPT,GPT全名叫做Generative Pre-trained Transformer,即用生成式方法预训练的Transformer。其基础,是概率!

有种密码破解技术就是概率解码术。假设密码破解专家得到一大堆意义不明的信件,如何从中破译这些信件中的密码呢?他就按照公认的字母在文章中出现的概率,比如A的出现率是37%, B的出现率25%...., 在密文中统计各符号的出现频率,假设那些概率和公认概率最接近的符号就是A,B....., 然后看译文是否有意义,并不断修正。这曾是一种成功密码破译思路,虽然现在落后了。

GPT的基本思路是,首先要通过大规模训练,从而得到不同引导文后各种下续词出现的概率,根据概率计算,打出一段语句。GPT模型完成任务的方法就是“猜猜下一个概率最大的词是什么”,根据输入的一段文本,预测下一个单词出现的概率分布。比如给定引导句“我喜欢吃?”,模型可能预测下一个单词为“苹果”的概率是0.2,“香蕉”的概率是0.3,“披萨”的概率是0.1,等等,这些概率值的总和为1,代表了所有可能的下一个单词的概率分布。根据这个概率分布,选择最有可能出现的单词。所以ChatGPT都是一个字一个字地蹦出来的,跟刚刚学会说话的小孩子一样。

其次,它对于语言的最小理解单位是句子(phrase),而不是词汇(word)。你如果只打一个“总结”,它会不知所云。你必须问“写一篇年终总结,我是XX类公司的XX部门的经理“, 它才能开始工作,写出一篇总结。所以Chat GPT的引导文很重要,现在甚至出现了专门写引导文的职业,需要接受过GPT原理的训练。不同的引导文,会得到完全不同的结果。

ChatGPT的底层是自然语言大模型GPT,只是众多人工智能大模型中率先“涌现”的一个,它更倾向于生成文本的能力,所以看起来都是写写文章,说说话,画画画,但并不是说人工智能就只能干这些。比如中国的注意力,就集中在监控方面。

2021年6月,一个重磅消息震撼简体中文网络,中国人工智能专利申请数量达到11万,首次超越美国。这又是我的国厉害了的一个重磅证据。然而看看这些专利都是干什么的?这些专利中,用于安防的占比超过一半,达到53.8%,比如人脸识别、指纹识别、体态识别,用于金融占比15.8%,用于营销占比11.6%。换句话说,中国的人工智能不是用来盯人,就是用来盯人的钱包。

ChatGPT的底层是自然语言大模型GPT,仅就自然语言大模型而言,最有名的有两种方向,除了GPT模型外,还有Google的BERT模型,两者的核心区别在于目标不同,GPT更倾向于生成文本,而BERT 模型更倾向于理解文本。

这个区别可能人类无法理解,不理解文本怎么生成文本呢?GPT就是用学习和概率计算工作的。GPT模型就像文科毕业生,由于其在生成文本方面的强大能力,毕业后最大的“就业去向”是自动生成文章类的“工作”、包括新闻、广告文案、创意内容、法律文书、文秘、各类咨询,等等;其次的“就业去向”是作为聊天机器人、虚拟助手、智能客服,等等,进行更加自然、流利的对话。但你要让他去计算,去推理,就非常差,在不理解的基础上生成的文本,难免会发生胡说八道的情况,虽然大家已经觉得GPT很神奇了,但如果真的大规模投入应用,在那些非生成内容为主的应用上,它还是有缺陷的。而且,我发现,对非英语的内容,它就常常胡说八道。我曾问GPT日本最有名的导演及其作品,它就瞎几把讲。可能和日本人名的汉字,假名以及拉丁文符号发音规律混乱有关。

从GPT我又想到一个问题,人类到底是怎样理解的?

熟悉逻辑学的读者一定知道,它有一个著名的说法:相关性不代表因果性,相关性只是对现象的描述,因果性才是现象之间的内在联系。所以有人说,人类与人工智能的区别在于,人可以判断因果关系,而人工智能只能判断相关性。

这个观点的后半段是正确的,目前所有的人工智能模型,都是通过学习数据中的相关性来进行预测和推理。但人是否能判断因果关系呢?这是个似是而非的命题。

有的情况下,人好像能判断因果关系和相关关系的不同。自从掌握了自然科学的知识,人类发明了自然界不存在的以机翼压力差原理升空的飞机,和以轮子反作用力驱动的汽车,这样的发明举不胜举,似乎人确实能了解因果关系。人类认为,自己的判断靠的是因果关系,先学习各类事件之间的因果联系,再去推断出某个事件是另一个事件的原因或结果。所以,早期人工智能的方向也是模仿人类的思维,去建立因果关系。

可当专家们想用计算机语言描述因果关系时,才发现此路不通——人类自以为严谨的因果关系,可能并不存在。看过《三体》的读者,都应该对其中哲学家罗素的“农场主假设”有深刻的印象,农场里有一只火鸡科学家,通过长期观察,发布了一个科学规律,每次农场主来,就会有食物,两者之前存在因果联系。结果复活节前,农场主带来的不是食物而是屠刀。

哲学家大卫·休谟早在300多年前就称之为“因果关系幻觉”,他认为:“我们无从得知因果之间的关系,只能得知某些事物总是会连结在一起,而这些事物在过去的经验里又是从不曾分开过的。”因此,人类所谓的因果关系,也只是基于经验的。说到底,人也是通过训练,知道某种情况下应该如何处理,也是一种GPT。

于是人工智能科学家们产生了一个共识:相关性就是因果性,是一套描述因果关系的语言体系,它的单位是“概率”,因果关系不是0和100%,而是15%、60%、99%,等等。

人类的学习方式中有一类特殊的隐藏学习,学习者并不知道自己在学习,也没有人教,也不知道自己什么时候学会了,就算学会了,也无法总结其中的一些规律。心理学家称之为“内隐式学习”,最经常被引用的例子是“母语学习”。母语学习都是在上学之前完成的,几乎没有正式的学习过程,习得后,也无法总结语言的一般规律。人际关系、情感关系处理的学习,育儿与亲子关系的学习,欣赏品位的提升,等等,一切规则模糊领域的学习,都至少有一部分需要内隐式学习。

我们在上学前的学习方法,基本上是内隐式学习,上学后就变成了主动式学习,工作之后,内隐式学习的重要性又开始渐渐提升。人到底是如何进行“内隐式学习”的呢?不知道。

而GPT的人工智能训练过程,虽然有程序导引,但设计者自己也说,它能表现出一些始料未及的智力,这是一个黑箱,其间到底发生了什么,就像儿童有一天忽然开口说话了、站起来走路了,其中到底发生了什么,没有人知道。

人脑,也是一套特殊的算法模型,跟人工智能没有本质的区别,只是复杂得多——大黑箱设计出的小黑箱,难怪马斯克会担心,不知道它在无数次迭代后,会出现什么?

 

 

老歌好听 发表评论于
想起以前有个木工师傅对我说,计算机算的快,是因为它把所有答案都存好了。
登录后才可评论.