数据污染与AI

杨道还 7/14/2023

AI是今年特大的一个新闻，但也是特别诡异的一个。资本家们一边努力地推广，一边又大声地警告，十分不尴尬。这就像开着大奔进胡同里的农贸市场，一边鸣笛，一边前进；一边挤了市场里的摊位，一边又提供了推车、修车和擦车的新行当——司机都在跳车。

Fiddletown & Copperopolis by Carl Fallberg, 1960

日前又有新闻、新名词、新信息，叫做AI数据污染。这是更尴尬的一个问题，但不新，是个老问题。数据污染在自然科学里，是原始数据被污染羼入或被缺失，损害了其完整性和真实性，在没有现代科学时，就早已经有了。

这个新闻说，AI在网上抓人类数据，结果抓回来的“原始数据”，却被AI自己生产的数据羼入了。AI的脑瓜和键盘比人的快，一句问题，可以顶上一万句。所以这个污染一旦出现，规模该不小，不是前AI时代的宣传和广告所能比的。英文里，有misinformation，misknowledge，AI的数据污染应该有个新名词，叫misdata或misdatum。名不正，则言不顺。

如果以上估计正确，继知识爆炸和信息爆炸之后，会有这个AI导致的数据爆炸。爆炸越来越深入，也算一个自然的进程。诺贝尔之奖，被称为炸药奖，莫非前定？

之所以说自然，还因为misinformation不是disinformation或者malinformation，没有主观的故意。即AI仍不能算是个真人，仍然是个机器。当AI能有主观的故意时，它才能像个人一样负起责任。现下看来，AI没有主观故意却可能导致错误，这样的错误，没有专家愿意承担，只能由社会的非专家承受，主要是那些对警告听不太懂的门外汉们，譬如笔者。

AI算不算是个真人，怎么算？图灵测试？图灵说，如果一台机器能够与人类展开对话（透过电传设备）而不被辨别出其机器身份，那么称这台机器具有智慧。那个时代的机器，懂得的东西很少，但是纯粹理性和逻辑的，不犯错；但称不上智慧。现代有人认为，人只有完全理性和按照逻辑思考，才算是有智慧。如果这两者成立的话，那么那个时代的机器与人的差距就只在于知识量。是这样吗？填鸭式地喂给机器数据和信息，它就会生出知识来，以至于生出智慧来么？当然，没那么简单，还得有个人为的算法输进去，直到AI能自己源源不断地产生算法。但大方向似乎就是这样的。结果将是个智慧制造机。这有什么值得警告的呢？malinformation？

但图灵这句话翻成古文，就是一个机器“言足以饰非”，即为智慧。“言足以饰非”这句，前面还有一句“智足以拒谏”。加上这句，就反映了现在AI的真正状态，它比你知道的多得多，它也能让你分不出它是机器还是人，它犯了错，眨眼的功夫就可以换个说法，一样理直气壮——算法错了，它却没错，不可追责。工程师们也不能担其责，这就是加入集体的好处，兢兢业业的螺丝钉怎好有责？而监管、监管，如何监管？加芯片加电源。除了抱薪救火，有什么别的法儿？

上面这两句话从哪里来的呢？司马迁《史记·殷本纪》：“帝纣资辨捷疾，闻见甚敏，材力过人，手格猛兽，知足以距谏，言足以饰非；矜人臣以能，高天下以声，以为皆出己之下。”好巧不巧的是，纣也是不可追责的。AI人士发出的警告，是因为这个原因么？显然AI还没到这个地步。未来么，不要想得太远。

Misdata对AI来说，不完全是件坏事。这就像小孩子在成长的过程中，一边吸收信息，一边辨别虚假信息——无阴阳不成。当然AI能否辨别，是个未知数。

有极端的人认为，神话什么的，不理性，是不能教给孩子的。大概他们认为，用纯粹事实（？）和理性逻辑教出来的孩子，对错误就百毒不侵了。这种方法或者能制造出成功的科学家，但他如何与他人相处，如何与不能永远正确的自己相处？这是造AI的方法，然而即便对AI来说，从今开始，也属过时了。所以Misdata对某些人类来说，也不完全是件坏事。

进一步讲，现代人所谓的“纯粹事实”或“真相”，是真的吗？人终于出于柏拉图的洞穴了吗？恐怕不是。章学诚讲：“宝明珠者，必集鱼目。尚美玉者，必竞碔砆。是以身有一影，而罔两居二三也。”罔两一词，出于《庄子》，是影子之外，还有半影，叫做罔两。无影灯者，无影，却处处罔两；正如今日信息爆炸下的misinformation，misinformed无处不在。罔两而谈真相，只是罔两间“相示也”。“必集鱼目”，然后能识明珠，无阴阳不成，理有固然。思维之健康，来自于免疫力——未必得真，但“可欺不可罔”。

Misdata对AI来说，是个与同类相处的问题。或者这是AI能反思，有真正地进化，以至于接近人类思维的一个阶段。人类从哪里来？现代人类中，神创和自然的比例占多少？人类交互影响、文化自进化的比例又占多少？AI有类似的问题。

佛法讲无情与有情。无情如何生有情？有情未现前，如何含于无情？类似地，AI之情何在？将以何种方式和形式无中生有？当然，这些都是为AI专家担忧，思出其位了，不赘述。

但这里有个切近的问题，就是人脑能够处理左一片，又一片信息的能力是有限的，拿这样的左一坨、右一坨的数据怎么办？“真实”数据尚且处理不来，misdata怎处？虽说现代社会里的人，数据、信息不厌多，像广告一样，不看就好了，但无处不在的广告仍属生命不能承受之轻。大概只能希望后代有个好运了。

（待续）

数据污染与AI

数据污染与AI

今日热点

一周热点