就在美国推出高达5000亿美元的星际门计划时,中国一款AI模型震动了硅谷,华尔街,也使人们对这个巨大的星际门计划的意义产生了怀疑。
1月20日,中国新兴公司深度求索(DeepSeek)发布了推理AI大模型最新版DeepSeek-R1.经第三方试用和论证,其性能和ChatGPT-o1追平。问题是,DeepSeek R1真正与众不同之处在于它的成本——或者说成本很低。DeepSeek的R1的预训练费用只有557.6万美元,仅是OpenAIGPT-4o模型训练成本的不到十分之一。同时,DeepSeek公布了API的定价,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。这个收费大约是OpenAI o1运行成本的三十分之一,也因此,DeepSeek被称为AI界的“拼多多”。
按深度求索的说法,在构建和训练模型时,只用了2048张H800显卡,价格只有被美国限制销往中国的H100(3万美元每张)的三分之一。而OpenAI的第一代ChatGPT模型用了20000张A100 (2万美元每张),新一代的具体数量不详,但从其每年几千亿的耗费来看,DeepSeek的性价比至少在ChatGPT最新型号的30倍以上。
AI投资中最大的就是芯片,其次是训练费用。而AI是个耗电大户,降温也是个大问题,美国最近的星际门计划,把核电厂都考虑上了。能玩得起AI模型的都是大厂,投资都是以每年上千亿美元来计的。投资的目的是盈利,据估算,需要每年收入6000亿美元,才能实现基本的break even。可以想象,AI必然是要收费的。
但DeepSeek却是开源的,任何人都可以利用其源代码,来开发自己的产品,不用支付专利费。测评家最大的诟病,是DeepSeek无法问询政治敏感词,如台湾和习近平。但这是可以改变的,开发者在原有框架下加入这方面内容训练,就可以搜寻了。如果OpenAI花了大价钱开发的模型,遇见了一个不需要专利费的竞争对手,那它的最大盈利目标专利使用权就落空了。现在我使用的AI多是免费的,就算收费的ChatGPT-1o也只要20美元每月,靠这点钱,OpenAI怎么可能年入6000亿美元?
DeepSeek在华尔街引起恐慌,显卡生产商英伟达(Nvidia)的股价大跌。它的显卡利润率达90%, 几乎每个员工都是富翁,如果以后别人都用普通的游戏机显卡搞AI,英伟达如何活?租用英伟达显卡的大型数据中心如何活?AI画的饼,让大量投资进入该行业,一旦了解到盈利前景很差,投资必然大减,科技巨头必然减缓购买和投入,英伟达破产不说,全靠投资撑着的OpenAI也得破产,一大堆AI初创企业全得破产!
这对美国的战略也产生了影响。本来,通过控制AI芯片出口,美国意在压制中国AI产业的发展。现在,高级芯片可有可无了,而DeepSeek的开源技术,显然能吸引更多的开发者以中国技术为基础平台开发产品,以后的全球AI以中国平台为基础了,就像现在全球的电脑都以微软的操作系统为基础,那如何来卡中国的脖子?如此,还搞星际门干嘛?
于是,出现了一波质疑DeepSeek成就的声音。有个初创公司老板Alexander Wang认为,DeepSeek在说谎,它至少用了5万张H100芯片,因为这是对中国禁运的,但通过黑市不难搞到。为了避免法律官司,所以DeepSeek声称使用了中国可以得到的H800降能芯片。
专家们对于的DeepSeek的分析,认为它确实有些创新,包括以下方面:
- 数据蒸馏技术: DeepSeek 采用了数据蒸馏技术,从海量数据中提取最关键的信息,生成高质量的训练数据集。这大大降低了对数据量的需求,提高了训练效率,并增强了模型训练效果。
- FP8 混合精度框架: DeepSeek 使用 FP8 混合精度框架进行低精度计算。这在保证模型计算精度的前提下,大幅度减少了内存使用和计算成本。
- 强化学习的创新应用: DeepSeek 在 R1 模型的训练中,直接尝试了三种不同的技术路径,包括直接强化学习训练、多阶段渐进训练和模型蒸馏,并且都取得了成功。其中,直接强化学习的成功应用尤为重要,DeepSeek-R1 是首个证明该方法有效的模型。他们通过硬编码规则计算真实奖励,避免使用容易被破解的奖励模型,从而使模型产生自我反思和探索行为。
- 开源和低成本 API: DeepSeek 不仅开源了模型,还提供了定价极低的 API 服务,进一步降低了用户的使用成本。
- 专注技术而非硬件堆砌: DeepSeek 并没有像一些公司那样依赖大量的昂贵硬件,而是更注重技术创新和软件优化,以更少的资源达到更好的效果。
为此,Meta开始依据DeepSeek 论文描述的方法,使用2048张H800显卡进行训练和开发,看是否能重复其结果。而别的厂家,也打算静观Meta的结果,可能也会从不同侧面去重复结果。
Peer Review and reproduce(同行检验和重复)是科学技术发展的试金石。记得去年有个韩国试验室宣称发现了常温超导合金,结果在同行验证下无法重复结果,被否认了。还有一个中国科学家声称发现了一种可以进行基因编辑的技术,还发表在Nature上,结果也被否认了!
和以上情况不同,就算对DeepSeek 的查伪结果不佳,DeepSeek的真实性不存在问题,只是其低成本宣称不实。那样,英伟达和美国将是赢家!