大陆人工智能究竟如何?

这是国华对读过的书, 看过的电视/电影, 听过的音乐, 访游过的地方, 经历过的事物, 和时事的感想或点评.
打印 被阅读次数

曾几何时,中国大陆在人工智能领域的成就非常令人印象深刻,似乎其超越美国仅是时间问题。如李开复这位“创新工场”(Sinovation Ventures)创建人、前谷歌全球副总裁、大中华区总裁就曾指出,在人工智能技术的公开专利方面,中国在2015年超过了美国,2010年-2021的11年间申请量是美国的3倍多(下图1 StanfordU)。尤为重要的是,在学术界,大陆在人工智能研究出版物和期刊引文数量上都已超过了美国。哈佛学者艾利森(Graham Tillett Allison Jr.)和前谷歌CEO施密特 (Eric Emerson Schmidt 下图2 BELFER CENTER)也在一篇关于美中人工智能竞争的文章中警醒美国,在面部识别方面,世界上最有价值的人工智能初创企业是大陆的商汤科技(SenseTime)公司。在2018年的面部识别国际竞争中,大陆团队获得了前五名。海康威视(Hikvision)和大华科技(Dahua Technology)等大陆公司,控制着世界三分之一的安全摄像头市场。天地伟业(Tiandy)公司的相机在夜晚只需要一颗星星的光即可拍摄高清彩色图像。在语音技术方面,世界上最大的语音识别初创公司是大陆的科大讯飞(iFLYTEK)。在系统性能竞赛中,科大讯飞经常以第二语言击败来自谷歌、微软、Facebook、ibm和麻省理工学院的团队。在机器学习最热门的子领域深度学习中,大陆的专利出版物是美国的6倍。与此同时,在世界上持续时间最长的大学机器人竞赛国际空中机器人竞赛中,2019年排名前三的选手都是大陆选手,共获得了84枚金牌,而美国人获得了52枚。

时间来到2023年,包括中国大陆在内的世界人工智能界谈论的都是美国开放人工智能实验室(OpenAI)的ChatGPT,将ChatGPT整合其中的微软必应(Bing),和拥有类似ChatGPT功能的谷歌巴德 (Bard)。曾经如日中天,在一些领域超越美国同行指日可待的大陆人工智能,在最新一轮生成型人工智能创新中依然在跟跑,而非领跑。非但如此,美国的科技制裁引发了人们对大陆能否跟上人工智能发展的担忧。人们不禁要问,中国大陆的人工智能水平究竟是银样蜡枪头,还是真能打?

大陆在全球AI领域的位置

2022年清华-中国工程院知识智能联合研究中心、清华大学人工智能研究院知识智能中心、中国人工智能学会以及北京智源人工智能研究院发布了《人工智能全球2000位最具影响力学者报告》(下图 清华大学)显示,2022年度AI 2000推出200名人工智能全球最具影响力学者和1800名提名学者,美国达1146人次,占比57.3%,且多为高端、前沿创造性人才;中国入选学者数量位列第二,为232人次,多为应用层面。除多媒体和物联网外,美国在其余18个人工智能子领域领先世界。中国大陆以36名多媒体全球最具影响力学者超过美国的31名。同样,大陆以29名物联网最具影响力学者超越美国的26名。但大陆在计算机理论、人机交互、和知识工程领域与美国和其余先进国家差距较大。

另据斯坦福大学发布的2022年度AI指数报告,2010至2021的12年间,中国大陆在AI杂志发表的论文占全球总数的31.04%,是同期美国(13.67%)的2倍多(李开复没有说错)。但大陆学者的杂志论文质量(引用)要逊于美国。在反映研发新进展的AI国际会议上,中国大陆的论文占总数27.64%,多于美国的16.9%。但美国人再次在论文质量(引用)胜过大陆 – 29.52% 对大陆的15.32%。 在比国际会议更加迅速分享最新研发进展的电子预印本(如arXiv和SSRN)论文方面,美国的论文发表数量(32.52%)和被引用数量(38.60%)均高于大陆(论文发表数量16.60%、被引用数量16.44%)。在反映实际研发成果的专利申请方面,中国大陆申请的AI专利数量占同期世界总量的51.69%,但获得批准的仅占获批总量的5.90%。而美国的数据分别为16.92%和39.59%。大陆的AI研究质量不但大大低于美国,甚至都不如包括英国在内的欧洲(申请量3.89%,获批量7.56%)。在原创性基础理论和革命性算法等领域,大陆不但落后美国,甚至还在英国和加拿大后面跟跑 (下图 StanfordU)。

题内损失题外补。既然在创新方面一时半会儿还不能与老美并驾齐驱,咱就专注于提高应用技能和快速赚钱。大陆科技公司扬长避短,利用掌有的大数据在应用方面发力,取得了语音(如语音识别、语音合成)和视觉(如图像识别、视频识别)方面的对美赶超。于是就有了名噪一时的海康威视和大华科技的安全摄像头,大疆的消费无人机,和风靡世界、在青少年中比谷歌、脸书和油管更酷的TikTok。但这些名声响亮的产品,绝大部分都是建立在机器学习的核心和关键算法等技术之上开发的。作为全球AI主流算法的深度学习(Deep Learning)的底层框架主要有开源的TensorFlow(谷歌)和PyTorch(Facebook),全是Made in America。为防谷歌的安卓操作系统对华为制裁事件重演,大陆厂商急起直追,推出了各自的机器学习底层框架 -- 百度飞桨(Paddle Paddle) 、阿里巴巴(X-Deep Learning)、腾讯(Angel)、华为(Mind Spore)、商汤(SensenParrots)和旷视(Brain++)等。但大陆机器学习底层框架,虽然开源,因为后发而存在用户量不足和缺乏贡献者的劣势。

美国的AI优势

首先,美国拥有全世界最多的AI人才 -- 美国公司目前已经招募了100位世界公认的人工智能天才中的一半以上 (下图 Harvard Business Review)。而且,每年包括中国在内的各国AI优秀人才也都会选择来美国学习或工作。美国的自由开放的学术氛围意味着这些天才能充分发挥出她/他们的才华、创造力和创新,形成具有国际影响力的人工智能创新生态。人才之外的语言也是美国的一大优势,英语作为科学、商业和网络的通用语言确保美国从开始即可持续竞争。今天,地球上75亿人中有一半以上说英语,另有10亿人正在准备学英语。美国的还具备一个显著的先发优势 -- 拥有人工智能的主要平台,包括操作系统(安卓和苹果)、先进半导体设计(ARM)、谷歌搜索、微软必应以及Instagram、YouTube、Facebook等杀手级应用程序。美国的优势还在于拥有英伟达、高通、和英特尔这类设计生产AI所需高端芯片、关键部件、高精度传感器的半导体企业。

大陆的AI赶超前景

人才培养方面,中国大陆已经建立了一些强大的人工智能研究所,如北京人工智能学院(BAAI),以及百度研究院和腾讯人工智能实验室等,但仍远远落后于美国。一个公开的秘密是,中国最好的计算机专业毕业生,其中就有清华和北大,有机会都进美国高校继续深造,包括学习AI。而目前超过80%在美国接受培训的国际人工智能博士毕业后留在美国工作。如果大陆能留住部分每年赴美的清北毕业生,相信大陆可逐渐缩小与美国在AI人才上的差距。考虑到每年毕业世界数量最多的数理化工大学生 (下图 Forbes),这是完全可能的。但营造自由开放的学术环境,则不是一朝一夕就能搞定的。

在AI基础理论研究方面中国大陆显然仍有很大的进步空间,即便是AI运用领域,大陆也需要努力,因为大陆获批的AI专利不及美国的七分之一。至于AI芯片,美国政府对大陆实施的高端人工智能芯片出口管制,可能暂时放慢大陆尤其在AI基础研究领域的前进速度。对专注于应用领域,不需要处理海量数据的高性能半导体,则影响不大。百度的执行副总裁兼AI云集团负责人窦慎(Dou Shen)自信地表示:“从中长期来看,我们实际上拥有自己研发的人工智能芯片,名为昆仑(Kunlun 下图 iNEWS)。通过在大型语言模型中使用我们的昆仑芯片,在我们的AI平台上执行文本和图像识别任务的效率提高了40%,总成本降低了20%-30%。” 时间会告诉我们,昆仑和其他本土人工智能芯片是否会让中国在生成型人工智能竞赛中后来居上。

一些处于AI研究前沿的大陆公司项目 --

百度:计划于2023年3月推出一款名为“文心一言” (Ernie Bot) 的聊天机器人 (下图 yahoo!财经)。该机器人“扩展为一系列高级大模型,可以执行广泛的任务,包括语言理解、语言生成和文本到图像生成。”百度自2019年以来一直在构建Ernie的语言学习模型(LLM);

北京人工智能研究院(BAAI): 2021年6月发布了生成性深度学习模型“悟道”(Wu-Dao 2.0 下图 GPT-3 DEMO),称“悟道”在GPT-3的基础上,扩展了更多功能。又于2022年推出了最新版本的“悟道”,这是一种经过预训练的深度学习模型,参数高达1.75万亿;

京东:正推出ChatJD,这是一个基于其AI平台言犀(Yanxi)的AIGC平台,将用于零售和金融等多个领域的场景。ChatJD将整合K-PLUG,一种注入专有知识的预先训练语言模型,以生成文本并了解用户的意图;

科大讯飞:将使用ChatGPT相关技术开发其人工智能学习机;

阿里巴巴:阿里巴巴(Alibaba)正在内部测试ChatGPT风格的技术。

开放的技术交流 

人工智能研究通常是公开分享的,专利研究成果并不重要,改进往往来自用户生成数据和公司根据他们从数据中学到的知识改进产品的良性循环。与计算机硬件或药物开发不同,人工智能是开放科学(下图 ELSEVIER)。在知识和技术方面,人工智能领域的许多基本算法已经成为公共知识,可以从发表的论文和会议记录中获取。这种开放性意味着后进者可在短时间内弥补与先进者间的知识差距,让新入门的后进者迅速了解领域的最新前沿动态。一篇论文发表后,其同行搞定代码并重现研究结果并非难事。正因如此,微软一位高管上月(2月)接受采访时告诉记者,就技术能力而言,美国在人工智能研究方面仅领先中国几个月,而不是几年 。这不,复旦大学计算机科学技术学院邱锡鹏团队2月20日就发布了类ChatGPT模型MOSS,据说似一“聪明的小孩”。(即使复旦大学的MOSS不算正式发布的AI聊天机器人,美国领先大陆的时间也就是ChatGPT的发布时间与百度“文心一言”发布时间的差距)。这位高管表示,国家支持的北京人工智能研究院(BAAI)与谷歌的DeepMind以及微软与OpenAI的合作伙伴一起,是人工智能研究领域的三大全球领导者之一。所以,国会和拜登政府把大陆盯得紧,一不小心打个盹儿,大陆就超越了(TikTok的例子表明,大陆在算法上也有超越美国的能力)。毕竟,大陆是紧跟在美国后面的世界人工智能二哥。

人工智能前景展望

美国人工智能协会(AAAI)和美国科学院等发布的《美国未来20年人工智能研究路线图》对未来人工智能可能达到的理想功能状态进行了预测,一是集成智能发展应实现不同智能系统间的有效整合,打破当前人工智能研究仅限于单个技术领域、仅可应用于孤立问题的分立局面;二是实现人机、机机之间有意义的互动,开发具有社会特征的智能体,实现人机、机机之间的有效协作,以及可了解人类意图的敏捷交互机器人等;三是使人工智能具有自我意识的学习能力,使人工智能主动捕获超越表面相关性的知识,或无需人工介入便可进行长时有效学习。2018年启动实施的国防高级研究计划局(DARPA) “AI Next”计划提出,要提升人工智能技术的情景适应性,可根据不同的应用领域、基于不同的情景主动构建学习模型,目标是让机器从工具变成可信赖的合作伙伴,使机器具备一定的常识和识别能力,以及终身学习能力。

参考资料 

Allison, G. & Schmidt, E. (2020). Is China Beating the U.S. to AI Supremacy? BELFER CENTER. 链接 https://www.belfercenter.org/publication/china-beating-us-ai-supremacy

Lee, K. F. (2021). China Is Still the World's Factory—And It's Designing the Future With AI. Time. 链接 https://time.com/6084158/china-ai-factory-future/

Li, D., Tong, D. W. & Xiao, Y. (2021). Is China Emerging as the Global Leader in AI? Harvard Business Review. 链接 https://hbr.org/2021/02/is-china-emerging-as-the-global-leader-in-ai

Liao, R. (2023). How China is building a parallel generative AI universe. TC. 链接  https://techcrunch.com/2022/12/31/how-china-is-building-a-parallel-generative-ai-universe/?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAABZuqk_uB46OKgguBiMdndXvxJ4h4IGzf0LI6hrEHv13LPw76SmQeaA5VTWJFJE82Y4pUoyL4z5rojZbNA-Qiosml9LOnDNr2TZ4brxnwMO5vVuqM8FRE9jFOGVk3GWzi9gXNCmxrsX9mHj3jLarGOzeBnzJPNFiK7EqotrK6hLq

Naik, A.R. (2021). Wu Dao 2.0: China’s Answer To GPT-3. Only Better. AIM. 链接 https://analyticsindiamag.com/wu-dao-2-0-chinas-answer-to-gpt-3-only-better/

Smith, C. S. (2023). China’s AI Implementation Is Edging Ahead Of The US. Forbes. 链接 https://www.forbes.com/sites/craigsmith/2023/01/14/chinas-ai-implementation-is-edging-ahead-of-the-us/?sh=3b8d99ed2dfb

封泥巴 发表评论于
中国的短板是不技术算法层面的,一个是数据的开放性(data bias),第二就是各种资源的整合形成生态的能力(synthesis). 第一个有政治原因,也有语言的劣势,能够用来做training的优质语料相对很少。第二个完全就是经济,政治和文化的综合能力。所以出现的情况就是发表了若干论文,在单点上有突破,但是缺乏有用的产品。
jtkevin 发表评论于
这篇文章比较中肯,赞一个
三步两桥 发表评论于
谢谢介绍!仔细阅读了。
老生常谈12 发表评论于
谢谢详细介绍,学习了。
6ba6 发表评论于
深入钻研刮钱套人的技术
墙头的一朵梨花 发表评论于
一卡脖子翻白眼,一松手开始吹牛B。土共五毛大外宣的一贯尿性。
大号蚂蚁 发表评论于
对付老百姓很厉害
登录后才可评论.