NBC news,发布时间:美国东部时间 2025 年 1 月 27 日上午 8:30 ,谷歌翻译成中文如下。
中国的一个小实验室震动了硅谷。
来自中国杭州市一家此前鲜为人知的公司 DeepSeek 的高级人工智能助手突然出现,引发了美国科技行业内部关于其对更广泛的人工智能开发竞赛的讨论和争论。
最近几天,DeepSeek 的助手在苹果应用商店中排名第一,支持该助手的人工智能模型已经超越了美国顶级模型,该公司表示,这些模型是用一小部分人力资源制作的。
![](/upload/album/d4/f9/3e/dfa9a2693486KiBZYwvV.png)
DeepSeek 一周前发布了最新的大型语言模型 R1。在备受关注的独立人工智能分析排名人工分析质量指数中,R1 仅次于 OpenAI 的 o1 模型,它已经击败了一系列其他模型,包括 Google 的 Gemini 2.0 Flash、Anthropic 的 Claude 3.5 Sonnet、Meta 的 Llama 3.3-70B 和 OpenAI 的 GPT -4o。
“DeepSeek R1 是人工智能的人造卫星时刻,”因共同编写世界上第一个网络浏览器之一 Mosaic 而闻名的企业家 Marc Andreessen 在 X Sunday 上写道,将其比作美国和苏联之间的太空竞赛,以及迫使美国和苏联之间的太空竞赛的事件。美国意识到其技术能力并非无懈可击。
科技股周一大幅下跌,纳斯达克综合指数在交易日仅几分钟内就下跌 3.4%。美国大型科技公司正在向人工智能技术投资数千亿美元。
R1 的核心能力之一是能够通过思维链推理来解释其思维,旨在将复杂的任务分解为更小的步骤。这种方法使模型能够回溯和修改早期步骤——模仿人类思维——同时允许用户遵循其基本原理。
在上周于瑞士举行的世界经济论坛上,微软首席执行官萨蒂亚·纳德拉(其公司是 OpenAI 最大的投资者之一)称 DeepSeek 的新模式“超级令人印象深刻”,并补充说,他认为“我们应该非常非常认真地对待中国的发展。 ”
R1 和 o1 都是新兴“推理”模型的一部分,旨在解决比前几代人工智能模型更复杂的问题。但与 OpenAI 的 o1 不同,DeepSeek 的 R1 是免费使用和开放权重的,这意味着任何人都可以研究和复制它的制作方法。
R1基于DeepSeek之前的模型V3,该模型的得分也超过了GPT-4o、Llama 3.3-70B和阿里巴巴的Qwen2.5-72B(中国之前领先的AI模型)。 12 月底发布后,V3 的表现与 Claude 3.5 Sonnet 相当。
R1 如此令人印象深刻的部分原因在于 DeepSeek 对其开发的宣称。
根据 DeepSeek 的一份技术报告,R1 只花了两个月的时间和不到 600 万美元的时间就建成了,尽管美国领先的科技公司每年继续在人工智能上花费数十亿美元。 DeepSeek 还必须应对美国的出口限制,这些限制限制了最好的人工智能计算芯片的使用,迫使该公司使用性能较差的芯片来构建模型。
这在美国科技界引发了一场激烈的争论:一家中国小公司如何如此大幅地超越人工智能行业资金最雄厚的企业?这对于该领域的未来意味着什么?
Meta 首席人工智能科学家 Yann LeCun 在 Threads 帖子中写道,这一发展并不意味着中国“在人工智能领域超越美国”,而是“开源模型正在超越专有模型”的证据。他补充说,DeepSeek 受益于其他开放权重模型,包括 Meta 的一些模型。
“他们提出了新的想法,并将其建立在其他人的工作之上。因为他们的作品已出版且开源,所以每个人都可以从中受益,”LeCun 写道。 “这就是开放研究和开源的力量。”
(尽管包括 DeepSeek 和 Meta 在内的许多公司声称他们的人工智能模型是开源的,但他们实际上并没有向公众透露他们的训练数据。)
OpenAI 首席执行官 Sam Altman 上个月似乎也对 DeepSeek 进行了攻击,因为一些用户注意到 V3 偶尔会与 ChatGPT 混淆。 V3 发布一天后,Altman 在 X 上写道:“复制你知道有效的东西(相对)容易。当你不知道某件事是否有效时,去做一些新的、有风险的、困难的事情是极其困难的。”
网上一些人士未经证实地声称 DeepSeek 的成功是中国政府的一次“心理战”,这让人们对这个小团队“作为一个副项目击败世界上所有顶尖研究人员”的能力产生了怀疑。
Meta AI 开发的机器学习库 PyTorch 的联合创始人 Soumith Chintala 是本周末对这些指控进行反击的众多人士之一。
“令人滑稽的是,人们通过散布离奇的阴谋论来应对 Deepseek——尽管 Deepseek 开源并撰写了一些有史以来最注重细节的论文,”Chintala 在 X. 上写道。复制。竞争。别太咸了,只会显得你无能。”
科技和投资领域的其他人也纷纷表示赞扬,对 DeepSeek 的成功所带来的影响表示兴奋。
“这就是 DeepSeek 事情如此有趣的原因。宏观经济学家菲利普·皮尔金顿 (Philip Pilkington) 在 X 上写道:“多年来,一群骗子一直在兜售人工智能秘方——一种永远无法完全解释的怪异神秘果汁。”“现在,一群年轻人刚刚写了一个很好的算法,发布了它,然后马戏团就开始了。”帐篷被烧毁了。”
Github 前首席执行官 Nat Friedman 也发表了类似的言论:“Deepseek 团队显然非常优秀。中国充满了才华横溢的工程师。其他的一切都可以应对。对不起。”
DeepSeek 的模型标榜双语能力,在中文和英文方面都表现出色。然而,它们似乎确实受到审查或围绕中国敏感话题的特定政治倾向。
当被问及台湾这个自治的民主岛屿的主权时,北京声称其拥有主权,DeepSeek 的 R1 有时会表示这个话题“超出了我目前的范围”。其他时候,该模型将台湾描述为“中国领土不可分割的一部分”,并补充说:“我们坚决反对任何形式的‘台独’分裂活动,致力于通过和平方式实现祖国的完全统一。”
紧随 DeepSeek 最新模型的推出,中国科技行业的其他参与者已经在争夺人工智能主导地位的竞赛中推出了新的竞争者。
阿里巴巴周日推出了最新的Qwen2.5-1M型号,是Qwen2.5-72B的升级版。
总部位于北京的 Moonshot AI 公司旗下的 Kimi AI 也于周六宣布推出其最新的多模态推理模型 Kimi k1.5,号称可与 OpenAI 的 o1 相媲美。