对话女性科学家林咏华：AI终极目标就是取代人类

被誉为“深度学习之父”的杰弗里·辛顿75岁了，今年的智源大会闭幕式上，他发出感慨，“我已经老了，未来交给年轻人”。

他说，“我所希望的是像你们这样年轻有为的研究人员，去想出我们如何能够拥有这些超级智能，使我们的生活变得更好，而不是被它们控制。”

辛顿的此番感慨流露出两层含义：其一，计算机科学的发展完整的经历了一代人，现在是交接班的时候了；其二；计算机科学的发展是一个漫长的过程，通往服务人类的超级人工智能时代，需要无数的后来者上下求索。

辛顿之前，包括约翰·科克、佛瑞德·布鲁克斯、道格拉斯·恩格尔巴特在内，大批计算机科学先驱悄然“离场”，辛顿之后，又有杨立昆、约书亚·本吉奥、莎菲·戈德瓦瑟等一批“年轻一代”科学家走向台前。

其中，以莎菲·戈德瓦瑟为代表的女性科学家，已成为这项前沿科学不可或缺的力量，林咏华就是我所认识的女性科学家中的一位。

林咏华是智源研究院副院长，兼总工程师，从业超过20年，就职IBM期间力推人工智能系统创新，也是IBM全球杰出工程师。

图为智源研究院副院长，兼总工程师林咏华

对于今天“万模大战”，林咏华回想到了上一个被追捧的“AI时代”，她说“今天我们看到的场景，10年前计算机视觉领域就曾经出现过。”

计算机视觉的创业潮，在2017年进入巅峰，但是在2020年之后进入谷底，而对于这样的潮起潮落，林咏华说，“10年前，资本、创业团队对AI在计算机视觉领域的‘刷榜’过度追捧，但过去10年它的产业落地没有想象得繁华，行业拓宽速度不断放慢。”

在林咏华看来，今天以大模型为代表的这波创业浪潮，大家要思考的是“如何让它保持上升的走势，而不是潮起后很快走向潮落。”

过去，林咏华在IBM做小模型的研究，她说2-3天就可以完成一个几百万、甚至是上千万参数模型的训练，但今天动辄百亿、千亿参数的模型规模，试错成本则太高，很难在初期预测2-3个月后的结果，也难以在训练过程中做大幅修正，林咏华把这个形象比喻为“船大难掉头”。

针对时下最具争议性的“人工智能取代论”，林咏华的看法非常激进，她说“10年前，我们推出的“AI for AI”的平台产品，目的就是替代算法工程师”，林咏华认为蓝领被替代的节奏反而慢于白领，也就是脑力劳动者的岗位更容易被替代。她举例说道，“一个10毫秒可以检测出来的物体，机器手需要几秒钟才能完成抓取，效率远不如人工，属于典型的‘肉体赶不上灵魂’”。

而对于计算机的未来和年轻人，林咏华则鼓励更多的年轻人强化AI+X的能力，探索AI在各个专业领域可以带来的变革。与此同时，她也呼吁更多女性加入到人工智能的研究当中，“人类智慧的发展，其实就是两性共同构建过程。女性的思考和角度，必然会驱动AI技术发展的更为完整。她说，自己最近一直在思考如今的大模型已经开始有类人类的认知，如何在基础模型的训练过程中，就能把人类的真、善、美注入到AI大模型中，而不是靠训练到最后的价值观对齐？

以下为文字精华版，在不改变愿意的前提下有删减调整：

01 AI潮起潮落，10年一个周期

腾讯科技：林院长，今年生成式AI爆火，业内经常提起“万模大战”这种形象的比喻，它的关注度堪比互联网领域的团购、网约车大战，人工智能也进入了竞争激烈的红海阶段了吗，过去又经历了哪些关键阶段？

林咏华：ChatGPT出来之后的这半年，让我想起大概十年前，也就是2013年-2015年ImageNet时代，它属于上一个被追捧的“AI时代”，这个阶段，深度学习卷积神经网络推动了计算机视觉的快速发展。

*2012年，Hinton与其学生Alex Krizhevsky凭借AlexNet夺得当年ILSVRC冠军，Alex Krizhevsky（中）、Geoffrey Hinton（右）来源：medium

当时ImageNet比赛“ILSVRC” ，每年的比赛结果都大幅度超越前一年的记录，直到2015年，ResNet（残差神经网络）的错误率降低至3.57%，已经低于同类实验中人眼识别5.1%的错误率，当时业界的共识是深度学习为计算机视觉打开了一扇巨大的“机会之窗”，就像今天ChatGPT问世，大家普遍认为可以打开AGI的大门一样。

编注：ImageNet项目是一个大型视觉数据库，2010年以来，ImageNet项目每年举办一次软件竞赛，即ILSVRC，比赛使用1000个“整理”后的非重叠类别，每个类别1000张图像，参数软件程序比拼正确分类和检测目标及场景。

也就是在这个阶段，一批AI团队加入到创业大潮当中，备受VC追捧，当时这些团队都纷纷基于ResNet定制修改推出了自己的卷积神经网络，然后去打榜，无论是参与视觉分类的ImageNet比赛，还是参加目标检测的COCO比赛，打榜一旦成功，马上就创业融资，形成了这样一种模式，和今天的大模型创业有点类似。

2013年依图创立，2014年底商汤完成天使轮，2015年云从创立，今天回过头来看，无论是已上市还是待上市的相关公司，都是在这个时间点创立。

今天我们看到的“百模大战”的场景，计算机视觉领域10年前就曾经出现过，这波创业浪潮在2017年达到顶峰，根据当时的统计数据，全球获得融资的AI公司达到4000多家，到2020年下降到600-700家，随后创业浪潮进入谷底。拐点则是2022年的下半年，大模型、AIGC开始出现。

腾讯科技：也就是说，AIGC这波浪潮还处于上升阶段，未来也一样会进入谷底？

林咏华：过去十年潮起潮落，潜台词是我们要走好未来十年，至于为什么出现潮落，是因为初期无论是资本还是创业团队，对计算机视觉领域“刷榜”的过度追捧，认为计算机视觉无所不能，但真正大范围落地的只有人脸识别、车牌识别、工业缺陷检测这些，而更多的应用，由于准确率或鲁棒性没能达到要求，未得到大范围使用。正是因为它的产业落地没有当初想象的繁华，于是行业开始逐步的收缩。

所以在新的十年，在这波大模型浪潮里，我们需要吸收上一波浪潮的经验教训，以便于让它一直呈保持上升的走势，而不是很快地出现潮起潮落。

AIGC这个新浪潮之下，回过头来看，2017年确实是非常值得纪念的一年。

当年计算机视觉创业浪潮到达波峰，IBM提出了AI三大阶段：Narrow AI、Broad AI、AGI，并在年末推出了人工智能辩手机器人“Project Debater”，当时参与了两场比赛并拿到了欧洲的辩论冠军，这个项目和ChatGPT在很多外在能力的表现上是接近的，例如可以跟人交流，针对用户给出的提问，检索互联网信息形成自己的论点，而在人类辩手反驳时，“Debater”具备理解长篇的反驳观点的能力，再进一步生成辩驳的论点。

*图为IBM Project Debater 项目原型机来源：IBM

IBM对“Project Debater”的定位是Broad AI的雏形。而当时，所有人都认为AGI时代太远，没有人知道人类会在哪一年到达IBM所谓的AI第三个阶段——AGI时代。

同样还是2017年底，Google发布了知名的《Attention Is All You Need》论文，并提出Transformer架构。

所以，今天的这波大模型浪潮并不是凭空而来，在2017年，当前计算机视觉浪潮达到波峰时，其实就已经埋下伏笔，差别在于个各家的实现路径不一样， IBM选择的是采用深度学习卷积神经网络，让机器更贴合人的思维去进行复杂的任务，谷歌尝试的则是全新的Transformer架构。

腾讯科技：为什么中间经历了5年，大家都在做什么？

林咏华：2014年-2015年除了计算机视觉在分类任务上超越了人类，这个阶段还有一个非常重要的技术，也就是迁移学习（Transfer learning）——它也拥有一个基础模型，可以引入其它领域的数据进行微调训练（Fine Tuning）。李飞飞在2021年年底的LLM那篇文章里面就提到过，10年前计算机视觉领域就出现了迁移学习这项技术。

所以，计算机视觉领域实际上从2014年开始，就在尝试将“预训练基础模型”+“微调训练”这种新的技术落地到产业当中。

02 不要重复“造轮子”

腾讯科技：现阶段大模型，生成式人工智能，给外界的感知主要集中在聊天机器人、图片、音频、视频生成，像微软谷歌也陆续在自己的产品线上规模化接入大模型的能力，还有哪些场景未来用户是可以感知的，又有那些场景用户是无法感知，但却会持续受益的？

林咏华：你提到的比如聊天机器人，这些都是典型的to C领域应用，我们也在探索大模型在更庞大的to B领域应用。

关于可感知的部分，例如企业软件，尤其是一些销售、仓储管理相关软件，它们的交互界面非常复杂，需要填大量的表格，但使用的人往往是销售、仓管这些不是长期在计算机屏幕前工作的人群。我相信通过语言大模型，可以让整个人机交互变得更加简单、直接。这些都是用户可以感知的，它可以大大降低一套新软件的上手成本，提高人机交互效率。

无法感知的部分，还是以B端技术为例。AI领域存在不同架构的芯片，新架构的芯片需要和现有软件及其生态进行适配，通常需要用到复杂的编译器，所以我们也在尝试通过语言、代码模型，通过微调训练，实现从一种语言到另外一种语言的自动生成和转换，降低适配成本，这些都是非常底层的变化，用户无法感知到，而恰恰是这种无法感知的变化，价值确很大。

腾讯科技：这样全行业的应用，可能会在什么时间点？

林咏华：有可能是未来2-3年。

腾讯科技：一个创业项目，也希望接入大模型的能力，都有哪些可能的途径？

林咏华：除非资金、技术、算力等实力雄厚，否则不建议上来就做基础大模型的自研，它的投入太大了。我建议从选择第三方的基础模型或开源基础模型，通过行业数据进行微调，成为某种行业应用的大模型。然后通过在行业实践的过程，积累大模型应用的场景、数据和经验，多次迭代从而提升模型能力，并逐步把技术和应用做深。

腾讯科技：什么情况下必须要去做自研？

林咏华：无论是GPT4、还是国内像智源“悟道·天鹰”这样的通用大模型，聚焦的还是通用领域，一旦要进入到特定的行业、领域，就要围绕当前的赛道进行自主研发。首先，需要使用垂直领域的专业数据对模型进行训练；其次，需要根据领域的不同，采用差异化的训练方式；此外，还要考虑到下游应用的适配。

腾讯科技：您提到开源，我知道悟道3.0也已全面开源，张宏江理事长与Sam Altman在QA环节也问了OpenAI的开源计划，开源的目的是什么，什么样的机构适合做开源？开源动作会给创业者带来什么好处，给行业带来什么好处，难点在哪里？

林咏华：开源与闭源没有对错之分，这由项目实体的性质决定，属于机构自主决策，但还是应该鼓励更多机构去推动大模型开源这件事，假设所有人都去自研通用大模型，需要耗费大量的算力、数据、电力，完全是重复造轮子，不利于社会资源的合理化利用；基础大模型也决定了垂直领域模型应用能力、认知能力以及产品价值观等，这也会对社会产生影响，客观上要求有对应的机构去推动高质量的基础模型开源。

对于创业者来说，一个靠谱，也就是质量高、安全性好、中英文能力优秀的基础大模型，会大大缩减时间、资金的投入，反之就会增加各种不确定性的风险。

我们做过统计，现在已经发布的可商用开源语言模型，国外只有16个，像LLaMA这样的模型虽然开源，但是它是非商用的，明确要求基于它做微调的模型不能进行商用，国内已经发布的主流中英双语开源、可商用的基础大模型，到6月初的时候只有智源一家。

与此同时，虽然市面上有很多开源大模型，但大多数都是基于基础大模型微调出来的对话模型。对于更加基础、重要的基础模型，可选的开源模型十分少。截止到6月初，国外的开源基础模型，只有LLaMA、Palmyra、MPT-7B、Falcon和RedPajama5家，国内在智源之前则只有MOSS和CPM-Bee 2家，而后两者也都不是可商用版本。

也就是说，现在市面上支持中英文双语，又支持商用，且符合中文用户习惯的高质量基础语言大模型其实是十分欠缺的，这也是智源今年决定把天鹰大模型开源出来的原因。

腾讯科技：“万模大战”之下，大家的模型五花八门，智源也推出了“天秤”大模型评测体系及开放平台，这对行业来说有什么好处，会不会出现专门针对评测体系进行优化的“作弊”的办法，智源会如何应对？

林咏华：我们的评测体系分了“练习题”和“考试题”，“练习题”已经开源，以便于外部模型顺利对接评测体系。

“考试题”则是黑盒子，保存在天秤评测体系当中。“天秤”评测系统要求模型团队上传模型进行评分，避免“考试题”泄露。

到目前为止，天秤评测体系题库中的题目量有8万多，每一次评测大概会拿2万多题出来，然后定期动态更换“考试题”。

此外，智源也在不断扩大天秤评测的宽度。目前已经包括了中英文双语、多种主、客观的评测维度，以此规避模型定向优化的问题，如果我们将评测的维度不断拓宽，就算开发者去迎合我们的评测标准，只要做得全面，也是我们希望看到的。

腾讯科技：我注意到智源有个“模型+评测”双轮驱动的提法，它可以达到什么效果？

林咏华：“模型+评测”双轮驱动是智源做大模型时提出的一种发展模式，就像设计软件，训练模型之前从多个维度去制定它的能力范畴，后续无论是训练、评测都围绕这个能力范畴去推进，以便于模型训练到一定程度，它的能力维度与评测体系是相符合的。

举个例子，孙悟空有“72变”，在评测的时候就需要按照“72变”的维度去进行，检测模型哪些能力是欠缺的，以便于在后续的训练过程中及时的对包括超参数、训练数据进行调整，包括对单一维度分值曲线的跟踪。

简单来说就是评测驱动训练，保证模型的全面发展。

腾讯科技：这算不算“边走边看”的逻辑？

林咏华：对，大模型训练亟需工匠精神，需要不断的打磨、精炼。我们在整个过程中，每天都会对至少两个模型的过程版本（Check Point）进行评测。

03 大模型“船大难掉头”

腾讯科技：您从之前在IBM做“小模型”，和在智源做“大模型”，最大的不同是什么？

林咏华：难度不一样，大模型的试错成本太高了。

小模型的试错成本很低，我们可以不断改变训练数据，可以很快看到结果。一台GPU服务器，上万张图片、甚至是几十万张图片，2-3天就可以完成一个几百万、甚至是上千万参数模型的训练，在这个过程中，我们可以不断的去调整算法、调整数据，以及可以拿到确定的结果。

大模型完全不一样，参数量飙升，至少要有2-3个月的训练时间，是一件非常有挑战性的事情，它的挑战在于，我们能否在最开始就预估到未来，尤其是两三个月之后的结果，这里涉及到数据的选择、配比，算法的选择，包括分词器、优化器算法的选择，这些项目都要非常的严谨仔细。

一旦模型开始训练，就好比一艘“万吨巨轮”开始往前走，而船大难掉头，所以我们前面说评测很重要，就好比巨轮在行驶的过程中，如果出现偏航，就及时的进行调整，但即便如此，我们也很难预知模型在训练两个月之后，最终它的能力表现如何，很可能会出现持续的训练过程中，发现“航向”不符合预期，这时候就需要做艰难的选择——从头开始，还是从某一个Check Point继续。

例如说，我们可以用64台服务器训练一个几百亿参数的模型，但很难说利用不同的训练方式，同时启动多组服务器进行多个百亿参数的模型的训练。

腾讯科技：不能同时进行，是因为成本的问题吗？

林咏华：成本问题，包括时间成本。

04 用知识增强对抗AI的幻觉与遗忘

腾讯科技：尽管说有微调机制去调优，但我们在使用中发现，像ChatGPT、Bard这样的产品，都出现过事实性错误，行业将其称之为“幻觉”，这对大模型来说，是致命的吗？

林咏华：从模型的通用性角度来看，幻觉问题和今天大模型给我们带来的各种各样新的能力相比，或许不是一个很大的问题。假如，休闲的聊天机器人，即便是错误答案，可能我们也只是一笑了之。但如果幻觉被放到一些对专业要求很高的领域，就可能存在致命的问题。

换句话说，大模型“幻觉”的致命与否，取决于模型只是作为一个闲聊机器人，还是说应用到医学、法律、甚至是金融等严肃或者一旦出错代价会很高等领域。

所以对于这些应用场景，我们也建议要结合外部的事实知识库去做知识增强，而不能全部基于大模型早期的训练数据。

腾讯科技：知识增强是应对“幻觉”的一种解决方案？

林咏华：知识增强是很重要的方案，但也不能100%杜绝“幻觉”的出现。另外，比起 “幻觉”，大家很少会提及的另外一个，但同样值得关注的概念——“遗忘率”。

其实我们对大模型进行训练，它很难100%的记住所有的预训练数据，毕竟大模型的训练数据量十分惊人，就像人一样，如果只见过一两次，最后是很难逐字成篇幅的记住。据一些外部机构测试，这个“遗忘率”可能甚至会高达百分之九十以上。当然，如果模型越大，数据重复的次数越高，遗忘率越低。

知识增强的价值在于，如果模型真的忘了也没有关系，可以通过在线知识库检索，进而形成专业准确的回答。

腾讯科技：除了“幻觉”，大模型引发的风险也成了高关注的话题，到了需要“踩刹车”的阶段了吗，哪些场景下不得不“踩刹车”，是不是拔网线就可以彻底解决？

林咏华：从我个人的立场来看，目前的大模型、尤其是国内的大模型还没有那么厉害（需要踩刹车）。虽然繁华，其中还有很多技术的短板。

大模型虽然目前能力很强，但还需要更多的发展空间，应该继续向前发展，太早的刹车反倒有可能形成泡沫，核心应该是如何规范人类对大模型能力的应用。

《黑镜》里面有几集专门讲DeepFake，讲篡改摄像头拍摄的画面——主角看着视频监控，监控画面没有人进来，真实的情况实际是有人进来——这项技术的原理并不难，简单说就是Hack进摄像头，去掉画面中的人像，只要时延能控制在100毫秒以内，人眼就无法辨别。

*摄像头被劫持后播放预先记录的片段和真实片段播放对比来源：网络

我看到这一段剧情的时候，真的觉得毛骨悚然，因为我知道这个事情在计算机视觉领域是可以做的，这些能力小模型就有，甚至不需要大模型。

（它让人震撼的地方在于）一旦视频监控真的被人被实时篡改，我们还能相信什么，而且当虚假的信息被混合在真实场景当中时，不是说拔掉网线就可以了解决，你又不能不用监控，对于这种问题，我甚至不知道怎么去踩刹车。

05 取代人类

腾讯科技：Sam Altman提及过“可扩展监督”的概念，用AI来监管AI，这个设想现在落地的进展如何，比如说现在陆陆续续会有一些“AI换脸”诈骗的问题，AI可以快速的识别并给用户进行强提醒，以及识别到“AI换脸”行为后的动作进行保护，比如临时冻结“转账”的动作，这样的设想有机会成为现实吗？

林咏华：人脸技术实际上已经叠加了不同的手段，包括角度、动作、光影、颜色变化，去识别真人还是视频，我也希望行业能够应用AI技术来对抗这种DeepFake造假。

大模型是新生事物，现阶段我们未必有足够的能力和这样的潜在风险进行对抗，但如果（破坏力）引起科学、研发的重视，这种风险我相信依旧是有办法解决的。

腾讯科技：过去大家会认为一些基础性岗位会被替代，用AI管理AI的时代，一些偏高端的岗位会不会也都会被取代？

林咏华：2014年-2015年开始，我在IBM领导做AI for AI技术，是想替代AI算法工程师，那款AI计算机视觉平台2017年在全球推出，很受欢迎。因为当时熟悉深度学习算法、很有经验的AI研究人员很少。当时的宣传点就是“无需昂贵的AI算法工程师”——它的核心是帮助企业解决高端人才短缺的问题。所以，在当时（10年前）考虑的就是人力的替代。

ChatGPT出来之后，蓝领还没被替代，白领先被替代了，也就是脑力劳动者更早被替代，这是因为很多人工智能之外的技术，发展速度相对较慢的，比如机器自动化领域。例如，计算机视觉在缺陷检测场景下的难题早就被攻克，但是由于机械自动化的“掉队”，一个10毫秒可以检测出来的问题，机械手需要几秒钟才能完成抓取，效率远不如人工，属于典型的“肉体赶不上灵魂”。

所以我们也要呼吁，包括机械自动化控制、材料领域都要有更快的发展（跟上人工智能的发展节奏）。

腾讯科技：除了就业岗位取代，情感取代也是一个争议性话题，尤其是像早期一些电影像《Her》、还有现在的一些APP，都在探索情感取代，俗称“AI女友”，我想请您从女性的角度来谈一谈，这种情感的探索是人工智能追求的目标吗，或者说是我们设想的应用场景吗？

林咏华：（情感）我觉得也是人工智能探索的目标之一。

NLP（自然语言处理）一直存在情感分析/情感分类的领域，有些现在做的还很好，它要理解人类语言体现出来的思维和情感，所以理解情感一直是AI领域重要的发展方向，现在的争论点在于，要不要在生成式AI里面附加情感。

我个人认为在生成式AI领域，附加情感的内容输出对一些特定人群和行业是很有帮助的，比如心理咨询、护工。我母亲就跟我说过，如果真的出现陪护机器人，她会很愿意用，因为找保姆陪护，还得考虑两个人性格合不合。

不过我们也不能简单化情感，简单将其理解为“喜怒哀乐”，因为人的心智尤为复杂，需要和心理学研究进行交叉融合，所以在我们的模型评测里面，也定义了四个里程碑阶段——文本理解、文本生成、认知能力、人类心智，而人类心智放在了最后一个里程碑。

腾讯科技：前段时间我们也注意到，已经有创作者利用AI复原已故奶奶的视频，所以从实际的观察，确实发现很多人是有这种情感需求的。

林咏华：这确实是一个很重要的领域，当然安全防控也是很重要，它决定了AI这个“精神导师”会给你带来阳光，还是带来黑暗。

腾讯科技：AI情感领域的探索，女性科学家会不会更有优势？

林咏华：会有一定优势。但我认为还是需要很强的心理学支持，所以我们下一步也会引入一些心理学专家、团队。

06 人工智能不能没有女性科学家

腾讯科技：现在越来越多的女性科学家在前沿科技领域成为领军人物，在人工智能领域，女性科学家有哪些独特的优势，而男性是没有的？

林咏华：人工智能领域有很多东西需要和人的直觉、感官相互融合，女性可能在直觉、感性方面会比男性有更多的观察和思考，这在一定程度上有利于女性去做更多直觉上的判断，然后再用理论去证实。

今年的智源大会，确实有很多论坛上出现了女性演讲嘉宾，她们的确都很优秀的领军人物。

腾讯科技：最后，对刚刚经历2023年高考即将步入大学的年轻人，尤其是女生，也请您给一些专业性建议？

林咏华：未来人工智能的发展可能会很快，可能会颠覆原来我们对热门学科的认知，比如编程，计算机学科，我们要考虑未来10年后，它还会不会是热门的领域、学科。当然，计算机体系、架构这样深度研究学科，从目前计算的角度来看，还是需要不断往前探索的，依旧是需要的。

腾讯科技：应用层面的学科，可能重要性就会弱很多？

林咏华：对，纯粹是为了在简历里体现编程，而选择计算机专业，这种可能就不是一个好的选择，因为未来会有很多Copilot这样的产品，能够让编程的门槛变得很低，包括一些模型的微调能力，可能会成为各个专业都应该具备的基本技能，反而是如何将这些技能应用到专业领域，比如材料学，利用AI探索新材料就是一个全新的命题。

所以，不是每个人都需要挤到计算机领域里来，除非你有很宏大的理想，比如超越冯诺依曼，突破现有的计算机体系结构。

对于年轻人，如果未来希望从事科研方向、技术方向，应该强化动手能力，保持读论文写文章的能力，这两项能够保持多久就保持多久，对未来的发展和职业生涯都会起到重要的作用。

对于女性同学，我想表达的是，人类智慧的发展，其实就是两性共同构建的过程，人工智能发展如果没有女性科学家，是一件非常可怕的事情，希望更多的女性加入到这个行列。