AI大模型开发之传奇DeepSeek

猫语闲聊：AI大模型开发之传奇DeepSeek

说起人工智能（artificial intelligent, AI）, 世界上最有名的AI应该是OpenAI公司的ChatGPT。它自从2022年末诞生至今一直就是AI领域的领头羊。后来也出来了一些优秀的AI应用，比如说，谷歌的Gemini，微软的Copilot，Anthropic公司的Claude，以及脸书的Llama。这些本猫都有试过，都非常的好，但是无一能够撼动ChatGPT的一哥位置。ChatGPT之所以厉害，是因为它有世界上最好的AI大模型，也就是人工智能大脑。理论上来说，一个大脑的神经元越多，编织的神经元网络越复杂，这个大脑就会越聪明。所有的AI公司都是在模仿人类的大脑来开发AI大模型。

要开发出一个聪明的AI大模型，需要几样基本的东西。一是算力，二是高质量的数据，三是算法。这和培养一个孩是很像的。要培养出一个优秀的孩子，首先就是需要这孩子他本身智商就高，这就是AI的算法的部分。然后是他要能够学习到非常精良的知识，也就是高质量的数据。但是开发AI大模型和培养人有一点不一样，就是还有个算力的部分，这是人类没有的。因为人类大脑结构是固定的，它已经不能改变了。但AI不一样，它可以靠堆芯片，也就是用不断更新的计算芯片来增加它的神经元和复杂它的神经网络，从而让它变得更聪明。由此可知，在理论上，AI的智商是一定会超过人类的，因为它可以无限地聪明下去，而人类的大脑结构决定了我们的智商是有上限的。而这个“堆芯片”就是AI的算力部分。也就是说，AI的智商其实是用算力和算法共同作用的结果。

从开发AI大模型角度来看，在算法和数据的部分，世界顶尖的几家AI公司之间都是差不多的。一是因为构建AI大模型的算法部分都是基于公开发表的论文，所以各自AI大模型的底层逻辑都是差不多的。二是训练AI大模型的数据也都是来自互联网的公开数据，所以数据这部分也没有什么太多竞争的余地。而可以竞争的地方就是算力部分了。也就是说，谁能往AI系统里堆更多的计算芯片让它的神经元更多，神经网络更复杂，谁的AI大模型就更聪明。

英伟达（NVIDIA）是目前最受瞩目的计算芯片公司。最先进的芯片型号是B200，一张卡的价格在4万美刀左右，相当于一辆高级家用车。而且这个芯片的产量是有限的，不是有钱就能买到的。据说OpenAI就一直在囤积英伟达的卡，基本上就是有多少就要多少。就目前来说，ChatGPT-4模型是用了5万张H100的卡，这还是上一代最先进的，而很快它们需求就要达到100万张左右了，需求量就是这么大！

芯片一直是美国的强项。美国之所以能够在科技领域一直领先，也是因为它在芯片领域是全球最顶尖的。这就保证了像OpenAI，谷歌这一众美国的AI公司的算力一直就是世界最顶尖的，也就保证了美国在AI领域的领先。

然而，美国公司在AI领域中领先的情况突然间发生了变化。有一家中国杭州的公司DeepSeek悄无声息的撼动了ChatGPT在AI领域的地位。在2025年1月27号这一天，多年霸榜手机应用榜首的ChatGPT变成了第二名。第一名出现了一个新的名字DeepSeek。为什么说是悄无声息，一是因为DeepSeek从来没有宣传过它的产品，二是DeepSeek这个公司在AI领域不是很有名的。它的手机应用1月15号才刚刚上架，仅仅过了两周就超过了ChatGPT。这一下子，不仅ChatGPT慌了，整个美国所有搞AI的人都慌了。

之前不论AI怎么争，都是美国的公司之间在争。美国也一直深信，他们是AI界老大的地位是不可能被动摇的。结果没想到一个没听说过的中国公司一下子就要改变了这个局势。现在到手机应用商店搜DeepSeek，就能看到这个软件。可以下载下来试试看看，它和ChatGPT几乎是一样功能的软件。就是你问他问题，他就能回答。当然，DeepSeek的回答也没有比ChatGPT要更高级。那么这个和ChatGPT差不多的东西，为什么能够撼动ChatGPT的地位？其实就4个字：物美价廉

物美体现在它的性能是可以比肩ChatGPT目前在市场上的旗舰模型。ChatGPT现在有两个主力模型4o和o1。这两个模型是两个不一样的的大脑，其中4o是处理日常业务的，它很聪明，反应也很快。而o1是深度思考模型，它反应慢点，但是思索更深。所以4o相当于你的一个私人助理，而o1是一个顾问。实际生活中，也不是所有事情都要问顾问的，有些简单事情4o就解决了。而DeepSeek也出了两个模型，叫V3和R1，其中V3对标4o，R1对标o1。性能几乎是一样的，能打个平手。

DeepSeek真正令人惊艳的是它的价格，也就是价廉。ChatGPT虽然免费用户也是可以使用的，但是有很多的限制。ChatGPT付费用户一个月20美刀，专业用户一个月200美刀。而DeepSeek是免费的，谁都可以免费使用它最聪明的大脑。除了手机应用之外，ChatGPT还有一个挣钱的地方，就是应用程序编程接口（API）调用。当企业在使用ChatGPT的API调用时要另付费，比如说客服。以前很多企业的客服是有人在接电话，或者在网上回答你的问题。现在人工客服已经渐渐变成AI客服了，是要比人工客服便宜很多。所以现在很多企业都使用ChatGPT的API调用服务。不仅是AI客服，还可以用AI来导航，带有AI的游戏，或者AI的股票分析系统，都是同样原理。ChatGPT不仅通过这个来挣钱，还可以通过这个方式来锁定客户。一旦企业把你的所有的客服人员都给辞掉了，用了ChatGPT服务以后，你就停不下来了。而DeepSeek也提供相同的API调用服务，价钱是ChatGPT的十分之一。

但是，物·美廉价只是DeepSeek的一个特点而已，还不是足以引发全球大冲击的真正原因。真正引发大冲击的原因，是DeepSeek把它的AI大模型给开源了。你可以下载这个AI大模型，然后在你自己本地的电脑上运行，你就有着像OpenAI一样的能力。你甚至可以开一个像OpenAI一样的公司去赚钱。这开源对全世界的企业和个人来说吸引力就太大了。而对像OpenAI这样的闭源的AI公司来说，就是一个极大的打击。因为把人家吃饭的碗给砸了。用一个通俗点的例子来说，就好比OpenAI训练了一个非常厉害的律师，你要有任何法律问题，都可以问他这个律师，但是你就需要交咨询费。但DeepSeek不一样，它把自己训练的律师公开了，谁都可以免费地把这个律师领回家，让他成为你的私人顾问。那是什么感觉? 再好比，地球上原先只有少数几家公司会打水井，你想喝水就只能给打井公司交钱。结果冒出一个DeepSeek，造了一个打井器，还免费送。人人都可以把这个打井器带回家，钻你自己的水井。就算你不会用打井器，你也不想用打井器自己打井，你依然可以喝DeepSeek井里的水，价钱只有其他打井公司的十分之一。你说那些打井公司能不着急吗？

所以DeepSeek一出来，美国就炸锅了。DeepSeek登顶当天（2025年1月27日），美国所有和AI相关的股票全面大跌。跌得最严重的就是英伟达，股价一天就跌了17%，市值蒸发6000亿美元，创下美国股市历史最大单日跌幅。为什么英伟达会跌那么多？原因就是DeepSeek不仅是物美价廉和开源这么简单，而且它的开发成本也超级低。DeepSeek之所以能开源，就是因为它开发AI大模型没花几个钱。据说OpenAI做那两个AI大模型4o和o1，花了不下数十亿美刀。估计主要钱都花在买英伟达的芯片上。

而DeepSeek的这两个同等级别的AI大模型V3和R1，做出来只花了560万美元，保守估计是OpenAI的1%。因为美国对中国是有芯片禁运的限制，DeepSeek并没有用最高端的芯片来开发出它的AI大模型。虽然传说中国在早期曾经囤积了一些高级的芯片，但是也囤积不了多少。也就是说DeepSeek用很少的钱，用比较低端的芯片，就把美国投入了几十亿美元，甚至上百亿美元的事情给办了。所以市场普遍认为，对英伟达芯片的估值过高，于是就纷纷抛售英伟达的股票。美国AI公司和AI专家学者对DeepSeek为何能用如此低的成本，在如此短的时间开发训练出如此好的AI大模型表示不可思议，因为感觉DeepSeek其实没有那么强大的AI开发背景。

DeepSeek全称叫杭州深度求索人工智能基础技术研究有限公司，是一家成立于2023年7月份的公司。这个公司的创始人叫梁文峰，他曾经是中国知名量化对冲基金幻芳量化的创始人。而这个幻芳量化就是DeepSeek的母公司，是10年前成立的一家对冲基金和人工智能公司。是一家搞投资的公司，主营业务是量化投资。所谓量化投资，就是利用数理统计方法和计算机程序对大量数据进行分析，以制定投资策略的投资方式。简单来说，就是人工智能加上计算机来进行自动投资运作的公司。DeepSeek就是它的一个子公司，专门研究底层AI技术，因为它需要这个技术来进行量化投资。所以DeepSeek的AI研发背景其实是相当强大的。

但是美国那边觉得这不足以说明它为什么能够在这么短的时间内研发出最顶尖的人工智能。所以就怀疑DeepSeek是不是有使用不正当的手段弯道抄车。比如说DeepSeek有抄袭ChatGPT之类的说法。但这个明显是不可能的，因为ChatGPT是闭源的，而闭源的系统显然是无法抄袭。如果DeepSeek真的有抄袭ChatGPT的话，在它开源的一瞬间，OpenAI就会发现。

事实上，DeepSeek开源之后，全世界最顶尖的学者和技术大神们就开始研究DeepSeek的文档和代码。结果发现一个令人更加惊奇的事情，这就使DeepSeek成为了一个AI开发竞争中的传奇。原来他们发现DeepSeek使用了一个完全创新的技术来训练AI大模型，才能够使得AI大模型在短短两个月的时间之内完成训练。这个全新的技术就是绕过了英伟达计算芯片上面特有的CUDA计算平台，利用英伟达的底层技术直接调用芯片的算力。DeepSeek使用了NVIDIA的低级编程语言PTX（Parallel Thread Execution）来增加芯片的算力。这种方法允许他们实现更精细的优化，从而显著提高了AI模型的效率。DeepSeek的这种创新方法使他们的AI大模型训练效率比传统方法提高了10倍。所以发现了这个事情当天，英伟达和微软的股价再次大幅下跌。而第二天，英伟达，微软，亚马逊都表示他们的计算平台都允许可以使用DeepSeek。

之所以本猫说DeepSeek是AI开发中的传奇，在一夜之间改变了这个世界的AI格局，是因为DeepSeek创新的思路和高超的技术是有目共睹的。面对质疑，它也从来没解释过什么。也不需要解释，开源的东西都摆在这你想看就看嘛。对于此事，美国川普总统在1月27号也发表了回应，他说DeepSeek的出现，是对美国科技主导地位的挑战，应该成为美国AI行业的警钟。特朗普还称赞了DeepSeek的低成本模式，认为这会对AI领域带来了积极影响，可能会减少巨额支出并取得相同成果。川普说的是很诚恳的。

AI大模型开发之传奇DeepSeek

今日热点

一周热点