DeepSeek，是否会毁于一场“愚蠢的狂欢”？

太阳下面就没有啥新鲜事

原本想趁着假期好好休息一下的。人总是会被各种繁琐事务塞得满满当当。对中国人来说尤为如此。春节假期可以让人有一段时间放空自己。然后再以空杯的心态重新面对新的一年。但今天这个话题实在忍不住要讲一讲。

我从小就知道，年，是有味道的。

当左邻右舍纷纷传来DuangDuang的剁馅声，年就到了。那时候的年，味道很重。是油锅里滋啦滋啦的热油的味道；是胡同里谁家小孩刚放完鞭炮以后的硫磺味儿；是大众浴池里热烘烘湿乎乎的水气味儿；还有杂货店里酱油醋带鱼肥肉混合在一起的味道。长大了一些，年味儿就变成了铺天盖地的烟花，新提的车子内饰的皮革味儿；寺庙的香烟缭绕；还有饭馆里的觥筹交错和庙会上的烤串味道。今年的北京，看电视春晚的人少了，串门儿的人少了，街上的人少了，开门的饭馆少了，发拜年红包的人也少了。有些时候，空气中充斥着一种不真实的味道或者索性没有味道也算是味道。

今年另一个巨大的变化就是，人们开始纷纷用AI工具编写个性化的拜年信息。追本溯源，发信息拜年不过是二十几年的历史。随着手机的普及，让短信拜年成为一时之尚。智能手机和微信又催生出微信拜年和拜年红包。每到这个时候，会有一部分人挖空心思编写最能代表自己心意的文字。但大部分人更喜欢“拿来主义”。用别人的内容“蒸馏”一下变成自己的，然后一键群发。总之都是在表达心意，也谈不上是孰对孰错。如果说短信拜年的时代，人们还有兴趣仔细阅读一下文字，咂摸一下文字里的滋味；微信拜年则变得越来越敷衍了事。反正都是一些见惯了的老词翻过来掉过去的排列组合。就像超市里每到春节必然循环播放的那种应景歌曲。你不喜欢它，但就是想不出办法摆脱它。

2024，应该算是国人开始普遍接受AI的元年。但大多数人对于AI的使用还是基于询问一些简单的问题。好一点的，可以帮忙撰写文案或者工作计划。项目公司投标的标书都普遍比以往的厚度增加了1/3。这也要拜AI所赐。得益于AI的推广应用，今年春节又有了新的应用场景。我身边的很多朋友开始用AI编写个性化拜年信息。只要在AI中输入你想要的风格以及表达的内容，短短十几秒钟就可以得到一篇“佳作”。无论是唐诗还是宋词皆可信手拈来。然后就可以欣欣然的将其作为自己的祝福发送给亲朋好友。很多人没有想到的是，AI大模型的民间爆发竟会得益于春节的拜年信息。

说到今年春节最受关注的AI大模型，非横空出世的DeepSeek莫属。DeepSeek于1月27日突然爆红。当天，其AI智能助手应用在中国和美国的苹果应用商店免费榜单中同时登顶，超越了ChatGPT，成为下载量最高的免费应用。这一现象直接引发了美国科技股的剧烈波动，英伟达等主要科技公司的股价大幅下跌。闻此佳讯，简中互联网上可谓彩旗招展锣鼓喧天一片喜气洋洋。刹那间，DeepSeek被捧为了改变国运的神器，AI技术进步一杆大旗。又一次，中国赢麻了，美帝被吓尿了。连中专生卢大师都抢在除夕发文称“DeepSeek痛击美国东林党”。嗯，好吧，还记得当初“天才少女”横空出世的时候，这厮曾撰写长文称“中国有14亿人，普通人中不乏有很多天才，只是有些被埋没了，而姜萍刚好是那个被发掘的天才”。但真实结果曝光后，这厮就默默的把文章删了。反正牠培养的韭菜也没啥记性。

不吹不黑的说，DeepSeek确实给美国AI科技圈带来了不小的震动。英伟达股价在1月27日下跌了约17%，市值蒸发约5890亿美元，创下美国股市历史上单日市值损失的纪录。但科技圈仅仅两天时间就从惊呼转为一片质疑。有研究团队指出，DeepSeek是在ChatGPT的数据基础上“蒸馏”出来的。换句话说就是，ChatGPT接受的是普遍的大模型训练。蒸馏就是从训练结果中提炼出精华数据，帮助训练出成本更低的小模型。这一说法得到了很多业内人士的验证。甚至被DeepSeek亲口承认。不过我相信这个小小的bug很快就会被DeepSeek的技术团队修正。

DeepSeek，到底是真的革了AI时代的命，还是另一个“天才少女姜萍”？我知道在这个时候说这种话无疑是极大的政治不正确。或许会有人质问，你算老几？你懂什么叫大语言模型么？是啊！我确实谈不上懂AI，但是我懂“他们”啊！我懂那些搞“快科技”的人是怎么圈钱的啊！美帝不懂这世上还有“刷榜”这种事，可我懂啊！DeepSeek公布了很多可以压ChatGPT一头的测试数据。但这些数据和研发成本费用都是开发团队自己发布的。相信在接下来的几天，其他专业团队也会测试这些“跑分”的真实性以及后台数据库的来源。越来越多的证据可以证明DeepSeek的研发成本是否符合逻辑。毕竟，大模型的开发除了需要昂贵的硬件成本，还需要源源不断的信息投喂。信息这块的成本到底如何，DeepSeek语焉不详。还是那句话，太阳下面就没有啥新鲜事！

我用了两天时间对比感受了一下DeepSeek和ChatGPT的区别。同时也和AI领域的朋友进行了一定深度的交流。可以说，相较于国内其他版本的大模型来说，DeepSeek确实有过人之处。即便是对上国外其他一些大模型也有很多亮眼的地方。首先从技术上讲，DeepSeek采用更高效的推理架构，同时通过蒸馏竞争对手的数据，使得计算成本更低，推理速度更快。这就带来了开发和使用成本的大幅下降。减少了GPU和算力工程师的使用，自然打破了硅谷精英的惯有逻辑。这才导致了英伟达的股价暴跌。当然，低成本优势的另一个重要原因就是信息的来源。毕竟中国是一个信息大国。而且对于信息的掌握又非常集中。此外，DeepSeek在数学推理、逻辑分析和代码生成方面也表现突出。在语言理解方面，DeepSeek提供多语言支持，但中文优化明显比ChatGPT更好。从市场推广的角度讲，DeepSeek更是具有ChatGPT无法比拟的优势。这么说吧，你能见到ChatGPT隔空操控数以万计的自媒体账号“扶清灭洋”么。

当然，DeepSeek的劣势也是不容忽略的。在大模型的测试成绩中，有一项重要指标是新闻事件的准确性。关键要点是：事实性、时效性、信息源可信度和多角度理解。所谓多角度理解会评估模型在报道新闻事件时是否存在偏见，或是否能涵盖多个观点。根据新闻可靠性评级机构NewsGuard于2025年1月29日发布的报告，DeepSeek的聊天机器人在处理新闻和信息时的准确率仅为17%，在所评估的11款人工智能聊天机器人中排名第十。落后于OpenAI的ChatGPT和谷歌的Gemini等西方竞争对手。报告指出，DeepSeek的聊天机器人在30%的情况下重复了错误信息，而在53%的情况下提供了模糊或无用的回答，总体错误率达83%。除此以外，基于数据蒸馏训练出来的小模型，往往很难超越上一代的“老师”模型。更何况，这位老师还在不断发展和进步。

其实我并不认为DeepSeek坦然承认自己蒸馏了ChatGPT数据是一件很丢人的事情。当然，这么做是否合规合法又是另外一码事。ChatGPT和Gemini这样的大模型摒弃了人工标注的”训练拐杖”，开始具备学习和自主推理的潜能。这不仅是技术方法的创新，更是AI对于世界的认知模式发生了改变。称之为“觉醒”一点都不过分。而一些小模型可以基于大模型的数据，借助蒸馏技术继承知识和推理能力。相当于老师把自己积累的精华传承给学生。让小模型在任务表现上大幅跃升，同时实现成本的大幅降低。这本身就应该是AI大模型发展的未来。我看到一位技术达人如是说：这场大模型觉醒和小模型崛起的双重革命正重塑AI行业规则。大模型拓展认知边界，小模型释放商业势能。当技术逻辑与商业思维完成融合，智能时代的格局不再是单一的算法至上，而是商业赋能技术、技术重构商业的双向进化。

从我个人的角度讲，当然希望能看到中国人创造出具有竞争力的商业大模型。但是尚需明确一点，大模型终究是一个工具。既然是工具，就要明确工具是为谁服务的；是否允许提出质疑；是否能带给人独立思考而不是强化某种偏见。当然还有非常重要的一点是要说真话。如果一个大模型连准确描述新闻事件都做不到，这样的大模型就算编程能力再强，终究也是个残障。某度当年号称可以替代谷歌。但如今谷歌已经成为世界顶尖的人工智能公司。某度还在靠售卖不清不楚的医疗广告赚钱。

AI在这个时代，已经无可争议的成为“国家竞争力”的代名词。但是，无数自媒体用盲目自嗨和网络狂欢的方式为DeepSeek“庆生”，真的有好处吗？真的有用处吗？科技不是关上门搞出来的。在当今这个时代，科技的每一分进步都离不开国际合作。只有小脑发育不完全、大脑完全不发育的卢粉之流，才会相信“天才少女”的神话。如果“天才少女”这种故事在国内讲讲也就罢了。但急于把DeepSeek捧上神坛，会带来什么呢？再宽泛一点说，对于那些需要与国际同行保持交流的技术研发人员来说，他们获得更新鲜的技术资讯的门槛是提高了还是降低了呢？DeepSeek能否融入国际AI的生态圈，被更多的人接受和使用呢？拜托，少点脑残似的狂欢，少一点枷锁镣铐，给真正想干事的人留条活路好不好！

今天的文章就写到这里吧。说实话，我是一边叹气一边写完这篇文章的。DeepSeek的研发团队是值得尊敬和肯定的。但要说的是，科技，来不得半点虚假，也容不得“亩产十万斤”式的迷之狂欢！不想让DeepSeek变成DeepSick，只有学会规则，路才能走得更远。

作者：如是大牛哥

DeepSeek，是否会毁于一场“愚蠢的狂欢”？

今日热点

一周热点