太阳下面就没有啥新鲜事
原本想趁着假期好好休息一下的。人总是会被各种繁琐事务塞得满满当当。对中国人来说尤为如此。春节假期可以让人有一段时间放空自己。然后再以空杯的心态重新面对新的一年。但今天这个话题实在忍不住要讲一讲。
我从小就知道,年,是有味道的。
当左邻右舍纷纷传来DuangDuang的剁馅声,年就到了。那时候的年,味道很重。是油锅里滋啦滋啦的热油的味道;是胡同里谁家小孩刚放完鞭炮以后的硫磺味儿;是大众浴池里热烘烘湿乎乎的水气味儿;还有杂货店里酱油醋带鱼肥肉混合在一起的味道。长大了一些,年味儿就变成了铺天盖地的烟花,新提的车子内饰的皮革味儿;寺庙的香烟缭绕;还有饭馆里的觥筹交错和庙会上的烤串味道。今年的北京,看电视春晚的人少了,串门儿的人少了,街上的人少了,开门的饭馆少了,发拜年红包的人也少了。有些时候,空气中充斥着一种不真实的味道或者索性没有味道也算是味道。
今年另一个巨大的变化就是,人们开始纷纷用AI工具编写个性化的拜年信息。追本溯源,发信息拜年不过是二十几年的历史。随着手机的普及,让短信拜年成为一时之尚。智能手机和微信又催生出微信拜年和拜年红包。每到这个时候,会有一部分人挖空心思编写最能代表自己心意的文字。但大部分人更喜欢“拿来主义”。用别人的内容“蒸馏”一下变成自己的,然后一键群发。总之都是在表达心意,也谈不上是孰对孰错。如果说短信拜年的时代,人们还有兴趣仔细阅读一下文字,咂摸一下文字里的滋味;微信拜年则变得越来越敷衍了事。反正都是一些见惯了的老词翻过来掉过去的排列组合。就像超市里每到春节必然循环播放的那种应景歌曲。你不喜欢它,但就是想不出办法摆脱它。
2024,应该算是国人开始普遍接受AI的元年。但大多数人对于AI的使用还是基于询问一些简单的问题。好一点的,可以帮忙撰写文案或者工作计划。项目公司投标的标书都普遍比以往的厚度增加了1/3。这也要拜AI所赐。得益于AI的推广应用,今年春节又有了新的应用场景。我身边的很多朋友开始用AI编写个性化拜年信息。只要在AI中输入你想要的风格以及表达的内容,短短十几秒钟就可以得到一篇“佳作”。无论是唐诗还是宋词皆可信手拈来。然后就可以欣欣然的将其作为自己的祝福发送给亲朋好友。很多人没有想到的是,AI大模型的民间爆发竟会得益于春节的拜年信息。
说到今年春节最受关注的AI大模型,非横空出世的DeepSeek莫属。DeepSeek于1月27日突然爆红。当天,其AI智能助手应用在中国和美国的苹果应用商店免费榜单中同时登顶,超越了ChatGPT,成为下载量最高的免费应用。这一现象直接引发了美国科技股的剧烈波动,英伟达等主要科技公司的股价大幅下跌。闻此佳讯,简中互联网上可谓彩旗招展锣鼓喧天一片喜气洋洋。刹那间,DeepSeek被捧为了改变国运的神器,AI技术进步一杆大旗。又一次,中国赢麻了,美帝被吓尿了。连中专生卢大师都抢在除夕发文称“DeepSeek痛击美国东林党”。嗯,好吧,还记得当初“天才少女”横空出世的时候,这厮曾撰写长文称“中国有14亿人,普通人中不乏有很多天才,只是有些被埋没了,而姜萍刚好是那个被发掘的天才”。但真实结果曝光后,这厮就默默的把文章删了。反正牠培养的韭菜也没啥记性。
不吹不黑的说,DeepSeek确实给美国AI科技圈带来了不小的震动。英伟达股价在1月27日下跌了约17%,市值蒸发约5890亿美元,创下美国股市历史上单日市值损失的纪录。但科技圈仅仅两天时间就从惊呼转为一片质疑。有研究团队指出,DeepSeek是在ChatGPT的数据基础上“蒸馏”出来的。换句话说就是,ChatGPT接受的是普遍的大模型训练。蒸馏就是从训练结果中提炼出精华数据,帮助训练出成本更低的小模型。这一说法得到了很多业内人士的验证。甚至被DeepSeek亲口承认。不过我相信这个小小的bug很快就会被DeepSeek的技术团队修正。
DeepSeek,到底是真的革了AI时代的命,还是另一个“天才少女姜萍”?我知道在这个时候说这种话无疑是极大的政治不正确。或许会有人质问,你算老几?你懂什么叫大语言模型么?是啊!我确实谈不上懂AI,但是我懂“他们”啊!我懂那些搞“快科技”的人是怎么圈钱的啊!美帝不懂这世上还有“刷榜”这种事,可我懂啊!DeepSeek公布了很多可以压ChatGPT一头的测试数据。但这些数据和研发成本费用都是开发团队自己发布的。相信在接下来的几天,其他专业团队也会测试这些“跑分”的真实性以及后台数据库的来源。越来越多的证据可以证明DeepSeek的研发成本是否符合逻辑。毕竟,大模型的开发除了需要昂贵的硬件成本,还需要源源不断的信息投喂。信息这块的成本到底如何,DeepSeek语焉不详。还是那句话,太阳下面就没有啥新鲜事!
我用了两天时间对比感受了一下DeepSeek和ChatGPT的区别。同时也和AI领域的朋友进行了一定深度的交流。可以说,相较于国内其他版本的大模型来说,DeepSeek确实有过人之处。即便是对上国外其他一些大模型也有很多亮眼的地方。首先从技术上讲,DeepSeek采用更高效的推理架构,同时通过蒸馏竞争对手的数据,使得计算成本更低,推理速度更快。这就带来了开发和使用成本的大幅下降。减少了GPU和算力工程师的使用,自然打破了硅谷精英的惯有逻辑。这才导致了英伟达的股价暴跌。当然,低成本优势的另一个重要原因就是信息的来源。毕竟中国是一个信息大国。而且对于信息的掌握又非常集中。此外,DeepSeek在数学推理、逻辑分析和代码生成方面也表现突出。在语言理解方面,DeepSeek提供多语言支持,但中文优化明显比ChatGPT更好。从市场推广的角度讲,DeepSeek更是具有ChatGPT无法比拟的优势。这么说吧,你能见到ChatGPT隔空操控数以万计的自媒体账号“扶清灭洋”么。
当然,DeepSeek的劣势也是不容忽略的。在大模型的测试成绩中,有一项重要指标是新闻事件的准确性。关键要点是:事实性、时效性、信息源可信度和多角度理解。所谓多角度理解会评估模型在报道新闻事件时是否存在偏见,或是否能涵盖多个观点。根据新闻可靠性评级机构NewsGuard于2025年1月29日发布的报告,DeepSeek的聊天机器人在处理新闻和信息时的准确率仅为17%,在所评估的11款人工智能聊天机器人中排名第十。落后于OpenAI的ChatGPT和谷歌的Gemini等西方竞争对手。报告指出,DeepSeek的聊天机器人在30%的情况下重复了错误信息,而在53%的情况下提供了模糊或无用的回答,总体错误率达83%。除此以外,基于数据蒸馏训练出来的小模型,往往很难超越上一代的“老师”模型。更何况,这位老师还在不断发展和进步。
其实我并不认为DeepSeek坦然承认自己蒸馏了ChatGPT数据是一件很丢人的事情。当然,这么做是否合规合法又是另外一码事。ChatGPT和Gemini这样的大模型摒弃了人工标注的”训练拐杖”,开始具备学习和自主推理的潜能。这不仅是技术方法的创新,更是AI对于世界的认知模式发生了改变。称之为“觉醒”一点都不过分。而一些小模型可以基于大模型的数据,借助蒸馏技术继承知识和推理能力。相当于老师把自己积累的精华传承给学生。让小模型在任务表现上大幅跃升,同时实现成本的大幅降低。这本身就应该是AI大模型发展的未来。我看到一位技术达人如是说:这场大模型觉醒和小模型崛起的双重革命正重塑AI行业规则。大模型拓展认知边界,小模型释放商业势能。当技术逻辑与商业思维完成融合,智能时代的格局不再是单一的算法至上,而是商业赋能技术、技术重构商业的双向进化。
从我个人的角度讲,当然希望能看到中国人创造出具有竞争力的商业大模型。但是尚需明确一点,大模型终究是一个工具。既然是工具,就要明确工具是为谁服务的;是否允许提出质疑;是否能带给人独立思考而不是强化某种偏见。当然还有非常重要的一点是要说真话。如果一个大模型连准确描述新闻事件都做不到,这样的大模型就算编程能力再强,终究也是个残障。某度当年号称可以替代谷歌。但如今谷歌已经成为世界顶尖的人工智能公司。某度还在靠售卖不清不楚的医疗广告赚钱。
AI在这个时代,已经无可争议的成为“国家竞争力”的代名词。但是,无数自媒体用盲目自嗨和网络狂欢的方式为DeepSeek“庆生”,真的有好处吗?真的有用处吗?科技不是关上门搞出来的。在当今这个时代,科技的每一分进步都离不开国际合作。只有小脑发育不完全、大脑完全不发育的卢粉之流,才会相信“天才少女”的神话。如果“天才少女”这种故事在国内讲讲也就罢了。但急于把DeepSeek捧上神坛,会带来什么呢?再宽泛一点说,对于那些需要与国际同行保持交流的技术研发人员来说,他们获得更新鲜的技术资讯的门槛是提高了还是降低了呢?DeepSeek能否融入国际AI的生态圈,被更多的人接受和使用呢?拜托,少点脑残似的狂欢,少一点枷锁镣铐,给真正想干事的人留条活路好不好!
今天的文章就写到这里吧。说实话,我是一边叹气一边写完这篇文章的。DeepSeek的研发团队是值得尊敬和肯定的。但要说的是,科技,来不得半点虚假,也容不得“亩产十万斤”式的迷之狂欢!不想让DeepSeek变成DeepSick,只有学会规则,路才能走得更远。
作者: 如是大牛哥