DeepSeek 查伪的意义

就在美国推出高达5000亿美元的星际门计划时，中国一款AI模型震动了硅谷，华尔街，也使人们对这个巨大的星际门计划的意义产生了怀疑。

1月20日，中国新兴公司深度求索（DeepSeek）发布了推理AI大模型最新版DeepSeek-R1.经第三方试用和论证，其性能和ChatGPT-o1追平。问题是，DeepSeek R1真正与众不同之处在于它的成本——或者说成本很低。DeepSeek的R1的预训练费用只有557.6万美元，仅是OpenAIGPT-4o模型训练成本的不到十分之一。同时，DeepSeek公布了API的定价，每百万输入tokens 1元（缓存命中）/4元（缓存未命中），每百万输出tokens 16元。这个收费大约是OpenAI o1运行成本的三十分之一，也因此，DeepSeek被称为AI界的“拼多多”。

按深度求索的说法，在构建和训练模型时，只用了2048张H800显卡，价格只有被美国限制销往中国的H100（3万美元每张）的三分之一。而OpenAI的第一代ChatGPT模型用了20000张A100 （2万美元每张），新一代的具体数量不详，但从其每年几千亿的耗费来看，DeepSeek的性价比至少在ChatGPT最新型号的30倍以上。

AI投资中最大的就是芯片，其次是训练费用。而AI是个耗电大户，降温也是个大问题，美国最近的星际门计划，把核电厂都考虑上了。能玩得起AI模型的都是大厂，投资都是以每年上千亿美元来计的。投资的目的是盈利，据估算，需要每年收入6000亿美元，才能实现基本的break even。可以想象，AI必然是要收费的。

但DeepSeek却是开源的，任何人都可以利用其源代码，来开发自己的产品，不用支付专利费。测评家最大的诟病，是DeepSeek无法问询政治敏感词，如台湾和习近平。但这是可以改变的，开发者在原有框架下加入这方面内容训练，就可以搜寻了。如果OpenAI花了大价钱开发的模型，遇见了一个不需要专利费的竞争对手，那它的最大盈利目标专利使用权就落空了。现在我使用的AI多是免费的，就算收费的ChatGPT-1o也只要20美元每月，靠这点钱，OpenAI要猴年马月才能收入6000亿美元？

DeepSeek在华尔街引起恐慌，显卡生产商英伟达（Nvidia)的股价大跌。它的显卡利润率达90%，几乎每个员工都是富翁，如果以后别人都用普通的游戏机显卡搞AI，英伟达如何活？租用英伟达显卡的大型数据中心如何活？AI画的饼，让大量投资进入该行业，一旦了解到盈利前景很差，投资必然大减，科技巨头必然减缓购买和投入，英伟达破产不说，全靠投资撑着的OpenAI也得破产，一大堆AI初创企业全得破产！

这对美国的战略也产生了影响。本来，通过控制AI芯片出口，美国意在压制中国AI产业的发展。现在，高级芯片可有可无了，而DeepSeek的开源技术，显然能吸引更多的开发者以中国技术为基础平台开发产品，以后的全球AI以中国平台为基础了，就像现在全球的电脑都以微软的操作系统为基础，那如何来卡中国的脖子？如此，还搞星际门干嘛？

于是，出现了一波质疑DeepSeek成就的声音。有个初创公司老板Alexander　Wang认为，DeepSeek在说谎，它至少用了５万张H1００芯片，因为这是对中国禁运的，但通过黑市不难搞到。为了避免法律官司，所以DeepSeek声称使用了中国可以得到的H８００降能芯片。另外，OpenAI也声称 DeepSeek非法使用蒸馏技术获取自己的数据。

专家们对于的DeepSeek的分析，认为它确实有些创新，包括以下方面：

数据蒸馏技术： DeepSeek 采用了数据蒸馏技术，从海量数据中提取最关键的信息，生成高质量的训练数据集。这大大降低了对数据量的需求，提高了训练效率，并增强了模型训练效果。
FP8 混合精度框架： DeepSeek 使用 FP8 混合精度框架进行低精度计算。这在保证模型计算精度的前提下，大幅度减少了内存使用和计算成本。
强化学习的创新应用： DeepSeek 在 R1 模型的训练中，直接尝试了三种不同的技术路径，包括直接强化学习训练、多阶段渐进训练和模型蒸馏，并且都取得了成功。其中，直接强化学习的成功应用尤为重要，DeepSeek-R1 是首个证明该方法有效的模型。他们通过硬编码规则计算真实奖励，避免使用容易被破解的奖励模型，从而使模型产生自我反思和探索行为。
开源和低成本 API： DeepSeek 不仅开源了模型，还提供了定价极低的 API 服务，进一步降低了用户的使用成本。
专注技术而非硬件堆砌： DeepSeek 并没有像一些公司那样依赖大量的昂贵硬件，而是更注重技术创新和软件优化，以更少的资源达到更好的效果。

总而言之，DeepSeek 的成功并非偶然，而是通过一系列技术创新和策略选择实现的。他们的方法为 AI 领域的低成本高效训练提供了重要的借鉴意义。但Wang的说法也不无可能，也就是说，如果真的是这样的话，说明芯片能力还是决定性的，而DeepSeek因为其欺骗行为，将面临法律和信誉上的损失。

为此，Meta开始依据DeepSeek 论文描述的方法，使用2048张H800显卡进行训练和开发，看是否能重复其结果。而别的厂家，也打算静观Meta的结果，可能也会从不同侧面去重复结果。

Peer Review and reproduce（同行检验和重复）是科学技术发展的试金石。记得去年有个韩国试验室宣称发现了常温超导合金，结果在同行验证下无法重复结果，被否认了。还有一个中国科学家声称发现了一种可以进行基因编辑的技术，还发表在Nature上，结果也被否认了！

和以上情况不同，就算对DeepSeek 的查伪结果不佳，DeepSeek的真实性不存在问题，只是其低成本宣称不实。但即使DeepSeek拥有５万块H１００，也只是美国AI大佬的零头，依然不能否定其在工程技术，特别是技术路线上的创新。至于OpenAI的指责，在法律上的问题倒并不大，根据知识产权法律，AI产品不拥有知识产权，再说OpenAI收集的那么多信息，也没支付别人知识产权费用。

DeepSeek是开源的，代码都公布了，别人可以随便用。因此，这些查伪的结果无论如何，对一个非盈利产品，意义不大。就像有人老在文学城查抄袭，文学城博文没有稿费也没有打赏，属于非盈利作品，查实了也只是打打嘴仗，不会有法律后果。

DeepSeek对美国国家利益和AI公司的商业利益都有很大冲击，也深刻影响了国际政治。如果美国的公司都以DeepSeek的产品开发应用平台，美国的AI大公司要亏钱，美国技术领域也被中国牵着鼻子走了；如果朝鲜，伊朗也用DeepSeek的产品开发军事应用，那对美国的安全利益有着严重的影响。

因此，下一步，美国一定会在本国以及其势力范围内限制甚至禁用DeepSeek，　其次，不排除美国会和中国谈成一个限制AI扩散的协议，就像当初美苏关于核武器扩散的协议一样。

今日热点

一周热点