评论:Deepseek成本降低98％？“开发成本必然谎报”

luting 发表评论于 2025-01-28 17:29:55

湾区范儿发表评论于 2025-01-28 09:53:41别忘了中国十多年前还研制成了最先进的汉芯芯片呢，结果呢？

##############################################
汉芯敢于开源给国际检视吗？

aguafresh 发表评论于 2025-01-28 17:08:00

一个外行比美国的科技大公司、众多投资机构都懂AI？DeepSeek开源了，还有其他机构去下载尝试验证，才引起这么大的震动。

湾区范儿 发表评论于 2025-01-28 09:53:41

别忘了中国十多年前还研制成了最先进的汉芯芯片呢，结果呢？

luting 发表评论于 2025-01-28 08:49:31

你管它用了啥？看看模型大小就可以估算出算力的需求，记住，即使我的手机也可以做最顶尖NIVIDIA GPU的活，也就是慢个上百到上千倍而已。一旦算力确定，根据公司公布的NVIDIA 卡的型号，简单的小学数学就可以估计出需要的时间和成本。个人感觉，如果这个公司有NVIDIA最新的卡，估计成本还能降半，从这点而言，科技禁运还是有用。

不过这个公司太耀眼了，估计又是将来美国针对的对象，NVIDA卡是估计没有了。聪明点，赶紧往国产芯片上搬吧。

西岸-影 发表评论于 2025-01-28 07:59:42

再说她不过就是一个网红，也不是专业人员，台湾竟然把这种人的观点当回事，也是奇葩了。

西岸-影 发表评论于 2025-01-28 07:58:04

这些是并不难验证的，她大概是不知道DeepSeek公布了算法，理论上任何人可以复制。
那么只需要复制就知道了。而且这东西引起这么大的股市震荡，不是仅靠谣传就会这样的，英伟达仅仅一天就损失了几乎六千亿美元，美国整个损失一万亿。
大概率是因为验证了可行。

cacu 发表评论于 2025-01-28 06:28:00

Who is hu

xiaoxiao雨 发表评论于 2025-01-28 05:59:12

i think it is a strategy to push US to open the sales of more advanced AI chips.

时不时来看看 发表评论于 2025-01-28 03:48:44

theriver1: 我发帖招您啦？那么多铺天盖地的媒体认为是真的，为啥不给他们贴标签呢？您发帖我从来不感兴趣。“必然”放在题目，您看不懂？

荒野猎人 发表评论于 2025-01-28 01:22:00

DeepSeek利用较少且不够先进的芯片训练出了媲美ChatGPT的模型。DeepSeek在一份技术报告中称，它使用超过2000个英伟达H800芯片集群来训练其参数为6710亿的V3模型，而Meta训练参数量4050亿的Llama 3，用了16384块更强的H100显卡，花了54天。Deepseek的训练效率为Meta的11倍。DeepSeek表示，训练其最新模型之一的成本为560万美元（约合人民币4100万元）。相比之下，人工智能开发商Anthropic的首席执行官达里奥·阿莫迪 (Dario Amodei )去年提到的建立一个模型的成本为1亿至10亿美元。CNBC曾发文称：“DeepSeek-R1因其性能超越美国顶尖同类模型，且成本更低，算力消耗更少，引发了硅谷的恐慌。”但王话锋一转，谈到了中国人工智能企业可能为人工智能模型配备的GPU数量。他称，“中国的实验室拥有的H100芯片比人们想象的要多得多。”他补充道， “据我了解，DeepSeek拥有大约五万块H100芯片。”王认为，因为违反了美国实施的出口管制，所以DeepSeek不能谈论这些。英伟达的Hopper架构GPU如H100和H200，因其优秀的算力，出口受到美国政府的管制。拜登政府于2022年通过一项规定禁止英伟达向中国出售性能远超其旧款GPU A100 的GPU系列，迫使英伟达开发了名为H800和A800的性能削减版芯片用以替代，但一年后的2023年10月，这两款芯片也一并被禁止。目前，英伟达已在推广其最新一代Blackwell架构的GPU，其出口依然受到限制。王将中美之间的人工智能竞赛描述为一场“AI战争”，并补充道，“美国将需要大量的计算能力和基础设施，我们需要释放美国的能量以推动这场AI繁荣。”

荒野猎人 发表评论于 2025-01-28 01:21:00

截至我的知识更新日期（2024年7月），我无法提供关于DeepSeek使用的具体芯片信息。如果你需要了解DeepSeek的技术细节或硬件配置，建议访问其官方网站或联系其技术支持团队以获取最新信息。你可以访问 [***deepseek***](***deepseek***) 了解更多。

whaled 发表评论于 2025-01-27 21:22:39

哪那么多废话，有本事就all in买女大

大猪头- 发表评论于 2025-01-27 21:00:52

虽说我不能理解为啥本论坛专家不能自己去github看公开文档, 不过文学城群众在自由民主思想指导下的意淫还是值得大家学习的,

至于验证部份,我想咱爹家那些大公司比文学城专家更急于证明DeepSeek是造假, 如果有问题, 你过几天也可以看到了. 如果没问题, 抄作业也会立马进行. 不知道这里的专家在自己没能力验证的前提下,有啥好唧唧歪歪的

C*fusion 发表评论于 2025-01-27 20:55:57

The decision to make DeepSeek's AI model open-source is intriguing, especially given the strategic importance of AI technology. Why did the Chinese government allow DeepSeek to disclose their AI models? It doesn't quite add up. I suspect there might be something fishy.

我是bruce 发表评论于 2025-01-27 20:47:03

这女挺漂亮，是个真正的美女

秋林小屋 发表评论于 2025-01-27 20:41:13

我也不太相信这个开发成本是真实的。

theriver 发表评论于 2025-01-27 20:34:59

大猪头- 发表评论于 2025-01-27 20:26:37
英文就是真的啦? 人家只是转述DS的解释而已。DS当然要这么说，如果说是注册用户太多，不就暴露了自己的大规模并行服务的能力不足了吗？真正的网攻会只攻击注册系统吗？

theriver1 发表评论于 2025-01-27 20:27:32

京城老炮1950 发表评论于 2025-01-27 19:37:54
这家公司真的没有使用任何一款英伟达的GPU就能把成本降低98%？如果是真的，那绝对是人类奇迹！
-----------
它要不用英伟达的GPU，我跟你姓！

大猪头- 发表评论于 2025-01-27 20:26:37

你的网名配得上你的智商。收到攻击，停止服务的会仅仅是注册吗？
===========
这位智者英文不太好?******cnbc***/2025/01/27/deepseek-hit-with-large-scale-cyberattack-says-its-limiting-registrations.html
From CNBC: DeepSeek on Monday said it would temporarily limit user registrations “due to large-scale malicious attacks” on its services, though existing users will be able to log in as usual.

大猪头- 发表评论于 2025-01-27 20:23:50

文学城那些很懂的专家们难道真没看过公开文档, 还是没看懂就自己意淫? 在几个关键点上, 人家写得明明白白, 有能力的公司, 自己去认证一下就可以.

不过刚看了“Emmy追剧时间"频道,这货也能是AI专家?文学城群众对专家的理解再一此让人叹为观止.

李新发表评论于 2025-01-27 20:23:00

绿蛙酸了。

theriver1 发表评论于 2025-01-27 20:21:14

大猪头- 发表评论于 2025-01-27 20:10:06
不是说受到了攻击, 所以影响服务的嘛, 至少是咱爹的CNBC说的? 难道是文学城群众动用了神秘的民主自由的能量把DeepSeek打瘫痪了?
----------
你的网名配得上你的智商。收到攻击，停止服务的会仅仅是注册吗？

theriver1 发表评论于 2025-01-27 20:17:37

白云蓝天发表评论于 2025-01-27 20:06:06
问题是应该给出解释，绝不能说已经正在给用户提供服务，而事实上在睡大觉。不应该没有给用户解决任何一个问题之前，先给了用户造成很大困惑。
------------
我在很多服务器在国内的App上注册都遇到和你类似的问题，比如知乎和豆瓣。我都怀疑它们和DS用的都是同一个限制注册的防火墙。也许这就中国大陆IT企业的一种文化，它们暂时关闭注册但不敢告诉新用户，怕把用户永久性气跑，只敢偷偷搞小动作。另外如果公开告诉新用户停止注册，在国际上会很没面子，间接说明他们的系统不够稳定，无法无缝实现海量并行服务。

大猪头- 发表评论于 2025-01-27 20:10:06

不是说受到了攻击, 所以影响服务的嘛, 至少是咱爹的CNBC说的? 难道是文学城群众动用了神秘的民主自由的能量把DeepSeek打瘫痪了?

theriver1 发表评论于 2025-01-27 20:07:32

时不时来看看发表评论于 2025-01-27 19:48:51
----------
这位五毛，不懂就不要跑出来捣乱。怀疑DS的R1模型训练成本造假可不只是小编的造谣，而是很多AI专家的理性想法。西人的文化是疑罪从无，不管这个论文中的成本有多逆天，只要没有确凿的证据，西方主流媒体都会至少暂时把它当成是真的。但是以我们这些从小在中国长大和拿到大学文凭的熟悉中国文化的老中看来，这个成本的水分是非常可疑的。

白云蓝天 发表评论于 2025-01-27 20:06:06

theriver1 发表评论于 2025-01-27 19:57:57
楼下，我是在新闻里看到说DS因为太火而加入防火墙限制注册的，我估计DS因为害怕影响性能（毕竟它还是一家小公司，而且服务器很可能在国内），如果象Tiktok那样一开始每月注册10亿，很可能系统会崩溃。
------------------------
问题是应该给出解释，绝不能说已经正在给用户提供服务，而事实上在睡大觉。不应该没有给用户解决任何一个问题之前，先给了用户造成很大困惑。

ajaychen_2024 发表评论于 2025-01-27 20:03:10

就算成本再增长十倍，也就是五六千万美元，也比open Ai等模型的少很多。

过往的西 发表评论于 2025-01-27 20:02:55

人家是开源模型，自己装一个训练训练不就知道了，meta已经在做了，什么无法验证，你是可以验证的

白云蓝天 发表评论于 2025-01-27 20:01:50

象国内一些在国际上很火的纯商业软件 Temu（拼多多）、Trip***（携程）就非常好用，想必 Tiktok 也是如此，比同类的软件都方便实用，更不会存在注册方面的问题。

theriver1 发表评论于 2025-01-27 19:57:57

楼下，我是在新闻里看到说DS因为太火而加入防火墙限制注册的，我估计DS因为害怕影响性能（毕竟它还是一家小公司，而且服务器很可能在国内），如果象Tiktok那样一开始每月注册10亿，很可能系统会崩溃。

时不时来看看 发表评论于 2025-01-27 19:51:35

DS和openai的出现，基本宣告自由时报之类的造谣媒体将无谣可造，马大人手下留情，16亿别全没收

白云蓝天 发表评论于 2025-01-27 19:49:17

theriver1 发表评论于 2025-01-27 19:43:41
楼下，这就是国内令人无比生厌的防火墙。它故意不告诉你现在停止注册，而是让你一次次做无用功。
-----------------------
高级人工智能软件应该告诉用户是怎么一回事，而不是造成用户的困惑。连这个都做不到，不是在用最简单的事实砸自己的牌子？

时不时来看看 发表评论于 2025-01-27 19:48:51

自由时报还是多报点中共高铁没人坐，绿皮车挤破，和三哥家的一样买挂票，那样流量大不少，傻钱可以多拿点

DS的代码自由时报的编辑再学50年，到上帝那里继续学，估计也难搞明白

时不时来看看 发表评论于 2025-01-27 19:46:09

各大媒体铺天盖地，各大自媒体盖地铺天，花街先跌为敬，就数Wenxuecity最牛 -- 假的！

白云蓝天 发表评论于 2025-01-27 19:45:38

再说，最简单的注册手续太火，就搞不定了，那么世界性的大规模使用是怎样搞定的？

theriver1 发表评论于 2025-01-27 19:43:41

楼下，这就是国内令人无比生厌的防火墙。它故意不告诉你现在停止注册，而是让你一次次做无用功。

白云蓝天 发表评论于 2025-01-27 19:41:36

白云蓝天发表评论于 2025-01-27 18:51:45
非常怀疑其性能，用两个电子邮件注册，发给我多次验证码，只有一个验证码在很久以后收到，已经失效。这种人工智能连注册都搞不定，有可能强大吗？
---------------
theriver1 发表评论于 2025-01-27 19:28:44
这个倒是冤枉DS了，他们因为这两天注册太火了，所以给加了限制注册的防火墙。
----------------------
但是除了很多时候说太忙，稍后再试，其他时候都说验证码已发出，并给60秒时间，但事实上发了很多次验证码，只有收到过一次，而且是隔了很久才收到，早已失效。作为一个高级人工智能软件，这种错误也敢犯？！

theriver1 发表评论于 2025-01-27 19:39:56

bsmile 发表评论于 2025-01-27 19:21:59
训练成本和开发不一样，开发是程序，训练主要是数据，容器和水的关系。训练成本和使用的计算资源，做标注的人工费用等等相关，根据报道出来的使用gpu等等的数目和中国人工人本实质上可忽略可以看出，600万美元是可信的。
---------------
对啊，正因为AI训练主要依赖于训练算法和算力资源，所以理论上训练的成本只取决于算力资源，所以理论上DS不可能仅以50分之一的算力资源实现类似能力的大模型。因为几乎所有AI专家都认为新算法对训练效率的提升不可能达到50倍，对推理效率的提升更不可能超过50倍。

京城老炮1950 发表评论于 2025-01-27 19:37:54

这家公司真的没有使用任何一款英伟达的GPU就能把成本降低98%？如果是真的，那绝对是人类奇迹！

theriver1 发表评论于 2025-01-27 19:28:44

白云蓝天发表评论于 2025-01-27 18:51:45
非常怀疑其性能，用两个电子邮件注册，发给我多次验证码，只有一个验证码在很久以后收到，已经失效。这种人工智能连注册都搞不定，有可能强大吗？
---------------
这个倒是冤枉DS了，他们因为这两天注册太火了，所以给加了限制注册的防火墙。

时不时来看看 发表评论于 2025-01-27 19:24:09

自由时报一定不能信，不然拜总的16亿傻钱直接被马大人没收，不信估计也逃不过马大人的大刀，马大人咔嚓那天，就是鬼哭狼嚎的那天

Meta一定不能信，不然20个高管都得跳槽到自由时报领傻钱，但是机器人老板Z信了就完了

OpenAI更不能信，不然只能收日元

黄博士不能信，居然一夜之间跌个18趴，这些卖空的都是傻子，难道不抄底的也是傻子吗？

ajaychen_2024 发表评论于 2025-01-27 19:22:46

对这些殖人，回答就是“是是是，对对对，你说得都对，都是假的，都不存在，你高兴就好了”，反正AI股票崩盘又不关我事。到时美国爹不高兴怀疑你们在误导为中共打掩护放烟幕弹，抓你们祭旗也不关我们事。

bsmile 发表评论于 2025-01-27 19:21:59

theriver1 发表评论于 2025-01-27 19:19:04
我支持这位作者的观点，今天早上我在城里发言也说，其R1模型区区560万美元的训练成本非常令人怀疑！
=========
训练成本和开发不一样，开发是程序，训练主要是数据，容器和水的关系。训练成本和使用的计算资源，做标注的人工费用等等相关，根据报道出来的使用gpu等等的数目和中国人工人本实质上可忽略可以看出，600万美元是可信的。

旁观者XWY 发表评论于 2025-01-27 19:20:00

用美国电话注册中国平台如大众点评都会越到麻烦，注册不成功。这是地区性局部网络的问题。

theriver1 发表评论于 2025-01-27 19:19:18

我不否认DeepSeek-R1论文中提出的“大模型利用纯RL（强化学习）方法引导其自主学习和反思推理”这一发现是个革命性的创新。这个创新不再使用美国模型训练AI推理能力的传统方法，即通过在SFT（监督微调）加入大量的思维链（COT）范例，用例证和复杂的如过程奖励模型（PRM）之类的复杂神经网络奖励模型，来让模型学会用思维链思考。这个创新选择了一条前所未有的路径-强化学习路径，它完全抛开了预设的思维链模板（Chain of Thought）和监督式微调（SFT），仅依靠简单的奖惩信号来优化模型行为，也就是通过一套最简单的奖励系统，即准确性奖励(对了加分，错了扣分)和格式奖励（没这么做就扣分，做了就加分）来激发AI的推理能力。说白了就像让一个天才儿童在没有任何范例和指导的情况下，纯粹通过不断尝试和获得反馈来学习解题。同时为了避免任何内容特定的偏见，强制让模型进行反思性推理或推广特定的问题解决策略。靠着这么一个简单的规则，让AI在GRPO（Group Relative Policy Optimization）的规则下自我采样、比较、自我提升。因为DeepSeek-R1采用的这种输入问题 → 模型生成多个答案 → 规则系统评分 → GRPO计算相对优势 → 更新模型的流程来训练，大大提升了训练效率，大大降低了资源消耗，因为它省去了传统美国模型的SFT和复杂的奖惩模型。说白了，这种训练流程让模型可以在非常“原始”的方法下以“顿悟”的方式学会思考。问题是，这种强化学习的AI进化的新路径虽然高效，但是大量AI专家都一至认为它绝不可能把训练效率提高50倍！推理效率更绝无可能超过50倍！所以要么这些专家都错了，要么论文所说的560万美元的训练成本是在造假，二者必居其一！另外，这种新方法和美国模型采用的传统训练方法相比，在输出可读性上存在明显缺陷，所以它能否能完全取代美国模型的传统方法还真不一定！

theriver1 发表评论于 2025-01-27 19:19:04

我支持这位作者的观点，今天早上我在城里发言也说，其R1模型区区560万美元的训练成本非常令人怀疑！原因很简单，就凭我的第六感觉：DeepSeek-R1论文是中国人写的！中国人在最敏感的大模型训练成本上早假是很容易的，因为既没有监督和惩罚机制，又能为公司产生轰动和广告效应！这种造假绝不是个别现象！我在天猫、淘宝、Temu网站上买的所有物品，没有一件100%符合广告要求，每件都存在或多或少的造假或不实！

蟹粉小笼包 发表评论于 2025-01-27 19:13:10

一群脑残狗粮们还在质疑训练成本作假，你们比花街科技投资者还懂？

cfol2012 发表评论于 2025-01-27 19:13:00

已经从咋天开始没法用DS了.太多人凑热闹.我相信DS没有那么多高价的GPU.不然不至于这么快就不行了。而且它的记忆量也明显比其它的小多了。它的强处和弱处也非常明显.推理方面不输于o1.但知识问答与4o比就差多了。所以本人觉得DS还是比较诚实.而且开源的东西相比较难以掩盖

西门雪 发表评论于 2025-01-27 19:08:56

回复：‘白云蓝天发表评论于 2025-01-27 18:51:45
非常怀疑其性能，用两个电子邮件注册，发给我多次验证码，只有一个验证码在很久以后收到，已经失效。这种人工智能连注册都搞不定，有可能强大吗？’

**================**

新浪微博也是一样，美国手机注册几年都失败，输入手机号，说给我发验证码，结果等了一夜不睡觉都没收到。

白云蓝天 发表评论于 2025-01-27 18:54:39

本人一直在多方面使用Chat GPT，就先想测试一下DeepSeek，结果连最基本的操作，DeepSeek都不会！

评论: Deepseek成本降低98％？“开发成本必然谎报”