数据污染与AI

傳統學術之我見:從
daohuanblog。wordpress。com看過去的。
打印 被阅读次数

数据污染与AI

杨道还 7/14/2023

AI是今年特大的一个新闻,但也是特别诡异的一个。资本家们一边努力地推广,一边又大声地警告,十分不尴尬。这就像开着大奔进胡同里的农贸市场,一边鸣笛,一边前进;一边挤了市场里的摊位,一边又提供了推车、修车和擦车的新行当——司机都在跳车。

Fiddletown & Copperopolis by Carl Fallberg, 1960

日前又有新闻、新名词、新信息,叫做AI数据污染。这是更尴尬的一个问题,但不新,是个老问题。数据污染在自然科学里,是原始数据被污染羼入或被缺失,损害了其完整性和真实性,在没有现代科学时,就早已经有了。

这个新闻说,AI在网上抓人类数据,结果抓回来的“原始数据”,却被AI自己生产的数据羼入了。AI的脑瓜和键盘比人的快,一句问题,可以顶上一万句。所以这个污染一旦出现,规模该不小,不是前AI时代的宣传和广告所能比的。英文里,有misinformation,misknowledge,AI的数据污染应该有个新名词,叫misdata或misdatum。名不正,则言不顺。

如果以上估计正确,继知识爆炸和信息爆炸之后,会有这个AI导致的数据爆炸。爆炸越来越深入,也算一个自然的进程。诺贝尔之奖,被称为炸药奖,莫非前定?

之所以说自然,还因为misinformation不是disinformation或者malinformation,没有主观的故意。即AI仍不能算是个真人,仍然是个机器。当AI能有主观的故意时,它才能像个人一样负起责任。现下看来,AI没有主观故意却可能导致错误,这样的错误,没有专家愿意承担,只能由社会的非专家承受,主要是那些对警告听不太懂的门外汉们,譬如笔者。

AI算不算是个真人,怎么算?图灵测试?图灵说,如果一台机器能够与人类展开对话(透过电传设备)而不被辨别出其机器身份,那么称这台机器具有智慧。那个时代的机器,懂得的东西很少,但是纯粹理性和逻辑的,不犯错;但称不上智慧。现代有人认为,人只有完全理性和按照逻辑思考,才算是有智慧。如果这两者成立的话,那么那个时代的机器与人的差距就只在于知识量。是这样吗?填鸭式地喂给机器数据和信息,它就会生出知识来,以至于生出智慧来么?当然,没那么简单,还得有个人为的算法输进去,直到AI能自己源源不断地产生算法。但大方向似乎就是这样的。结果将是个智慧制造机。这有什么值得警告的呢?malinformation?

但图灵这句话翻成古文,就是一个机器“言足以饰非”,即为智慧。“言足以饰非”这句,前面还有一句“智足以拒谏”。加上这句,就反映了现在AI的真正状态,它比你知道的多得多,它也能让你分不出它是机器还是人,它犯了错,眨眼的功夫就可以换个说法,一样理直气壮——算法错了,它却没错,不可追责。工程师们也不能担其责,这就是加入集体的好处,兢兢业业的螺丝钉怎好有责?而监管、监管,如何监管?加芯片加电源。除了抱薪救火,有什么别的法儿?

上面这两句话从哪里来的呢?司马迁《史记·殷本纪》:“帝纣资辨捷疾,闻见甚敏,材力过人,手格猛兽,知足以距谏,言足以饰非;矜人臣以能,高天下以声,以为皆出己之下。”好巧不巧的是,纣也是不可追责的。AI人士发出的警告,是因为这个原因么?显然AI还没到这个地步。未来么,不要想得太远。

Misdata对AI来说,不完全是件坏事。这就像小孩子在成长的过程中,一边吸收信息,一边辨别虚假信息——无阴阳不成。当然AI能否辨别,是个未知数。

有极端的人认为,神话什么的,不理性,是不能教给孩子的。大概他们认为,用纯粹事实(?)和理性逻辑教出来的孩子,对错误就百毒不侵了。这种方法或者能制造出成功的科学家,但他如何与他人相处,如何与不能永远正确的自己相处?这是造AI的方法,然而即便对AI来说,从今开始,也属过时了。所以Misdata对某些人类来说,也不完全是件坏事。

进一步讲,现代人所谓的“纯粹事实”或“真相”,是真的吗?人终于出于柏拉图的洞穴了吗?恐怕不是。章学诚讲:“宝明珠者,必集鱼目。尚美玉者,必竞碔砆。是以身有一影,而罔两居二三也。”罔两一词,出于《庄子》,是影子之外,还有半影,叫做罔两。无影灯者,无影,却处处罔两;正如今日信息爆炸下的misinformation,misinformed无处不在。罔两而谈真相,只是罔两间“相示也”。“必集鱼目”,然后能识明珠,无阴阳不成,理有固然。思维之健康,来自于免疫力——未必得真,但“可欺不可罔”。

Misdata对AI来说,是个与同类相处的问题。或者这是AI能反思,有真正地进化,以至于接近人类思维的一个阶段。人类从哪里来?现代人类中,神创和自然的比例占多少?人类交互影响、文化自进化的比例又占多少?AI有类似的问题。

佛法讲无情与有情。无情如何生有情?有情未现前,如何含于无情?类似地,AI之情何在?将以何种方式和形式无中生有?当然,这些都是为AI专家担忧,思出其位了,不赘述。

但这里有个切近的问题,就是人脑能够处理左一片,又一片信息的能力是有限的,拿这样的左一坨、右一坨的数据怎么办?“真实”数据尚且处理不来,misdata怎处?虽说现代社会里的人,数据、信息不厌多,像广告一样,不看就好了,但无处不在的广告仍属生命不能承受之轻。大概只能希望后代有个好运了。

(待续)

登录后才可评论.