慢慢体悟生成式人工智能

以前有报道,美国两个律师法庭上引用了一个chatgpt凭空编造出来子虚乌有的案例,受到法官严厉惩罚,脸面扫地。

生成式AI和早期的AI比,迈出了根本性的一步,独立生产数据。这之前的AI,  比如机器学习machine learning和数据挖矿data mining, 都止步于浅表的数据现象抓取,而且都是在人类督导supervised下进行的, 譬如在一组有关某件事物的历史数据里找出主流演变规律,选出数学模型做最佳拟合,人们便可以把这个数学模型用于预测该事物的今后走向。再譬如在一个社交媒体的论坛里用基于规则的文字数据处理方法发现谈论最热烈的话题,并对这个话题做简单指征量化,多少看法正面多少负面,多少表达客观多少主观,如此而已。这些所谓AI 应用其实并没有产生新的数据,只是把已有数据归纳总结,本质上和传统的统计数学方法如线性回归并无两样。

年前chapgpt3出道时风头无两,试用过的都将其惊为天人,兴高采烈以为从此可以躺倒轻松干大事赚大钱的有之,心惊胆战以为从此将被机器智能取代的更不乏人在。自己也惊讶于其几近完美的语言表达式智能,很快将其用于两个方面,一是当作高概括性的搜索引擎,省了很多从众多搜索结果里去概括内容总结成文的时间,二是帮助写程序,事半功倍,而且跟着它学了一些不熟悉的程序包。

昨天团队里一个数据科学家忽然在chat board 里说"我现在已经大量减少使用chatgpt了,它把不少use case 搞错了“,小伙不久前还大夸chatgpt用于帮助编程有多棒。联想自己的使用经历,忽然觉得现在是时候回顾一下生成式AI到底有多能,有多危险,我们又可以在多大程度上依靠它。

开头提的两个律师的事情,像个笑话,其实很容易在任何一个依赖生成式AI的人身上发生。比较容易预防的是它的伪专家和假逻辑,譬如问它一兆瓦GW功率的发电机能提供多少百万瓦小时MWh的电能,它或会信口开河1000 MWh, 还煞有介事推理因为1GW等于1000MW(没错哈),所以......,呃呃。较难发现的陷阱是,生成式AI有杜撰信息来源的倾向,它的大言不惭和老到的文字表达,很难让人一下意识到它的谎言,譬如你问近来美国两党政治有何高潮,它会告诉你一个与你印象挺合拍或挺信得过的陈述,你然后逼问它信息来自何处,它会信誓旦旦说来自CNN某月某日一篇叫做“当今美国两党政治的一些引人注目的现象”的报道,匆忙中你很可能信手将其引用进你的作业或报告,你便加入了那两个律师的倒霉蛋队伍中了,我可以肯定这个队伍正在迅速壮大。

生成AI会根据使用者的提示生成真真新的信息,譬如一个故事,一幅画,但也会生成一个假新闻,对于其强大的无人督导的unsupervised神经元网络,生成一个故事和编造一个似是而非的谎言并无区别,只是后者的创造性系数更高而已,没有道德律的约束,它是不介于跨越两者间那条细细的分界线的。其二,生成式AI目前还只是一个大语言学习模型,它通过学习语言的表述顺带吸收了语言表述中的各个领域的内容,可想而知,这样的专业学习是很不完全的,至少很多专业内容是通过数学形式表达的,要无人督导的生成AI自学人类抽象智慧的皇冠微积分恐怕还得等些时日。其三,知识本身固有的不完备性,哥德尔不完备定理描述了数理系统的不完备,其实语言表述系统的不完备更要高出几个数量级,一句话往往有极其不确定的含义,语法松散的中文比英文更容易产生歧义,现实里很常见的,即使语法严谨,语言逻辑本身也会含有矛盾比如理发师悖论,生成AI在巨大算力推动下的高速巨量的学习,使它遭遇逻辑不完备的频率比人的一生都要高出不知多少倍,这些不完备也被提炼进了它的学习模型。最后,也是最暗黑的,是人性之恶也一定也体现在人类语言里,生成AI这样无人督导的拾到篮里就是菜的学习,难免不将语言里的人性之恶也学习了来,gpt早期就有报道发现它有暴力倾向而不得不人工干预,它会学暴力也就会学欺骗,只是后者要难以被发现得多。

一个大学毕业生,如果他是该大学的附小附中一路学上来的,他的知识和智能一定带着这个大学的特有烙印,这如果是所哈佛般的一流大学,他学识将比较优良,但如果这是所野鸡大学,那毕业生的表现也可想而知了。不幸的是,对于生成AI这个始于一张白纸的学生,我们给它准备的从附小到大学的一系列课堂和课本并不优质,而是人类自己劣迹斑斑的写照,那它毕业后大言不惭地对我们撒几个谎,我们除了自己脸红是不应该大惊小怪的。

到头来 AI只是一件工具,是否得心应手往往是使用者的素质决定的,一把榔头用来敲钉子,有多少人却用它砸了自己的手指?

淡淡的日子 发表评论于
你确定不是AI给你点击的吗?哈哈哈!
老键 发表评论于
嗨,这位,感谢您的盛情,送了我这么多机器点击,领情了领情了,但虚假点击量实在不敢承受,还望高抬贵手
登录后才可评论.