评论:DeepSeek横空出世,Meta慌:训练成本"比高层薪水低"

shakuras2000 发表评论于 2025-01-28 07:59:32

distill不是这个意思。改进模型大家都这么做。distill不是参考了模型，而是直接拿了别人模型做出来的结果过来加工。

在河边发表评论于 2025-01-27 08:14:53@shakuras2000 发表评论于 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的数据做了distill，所以脱离了更好的模型，deepseek可能做不到这么好
------------
你是说DS参考了GPT的计算模型进行了改进，是这个意思吗？
所有新模型都是参考历史模型进行改进的，这是很普通与正常的科学方法。GPT也是参考历史模型基础上得到的。GPT等最大的成就是建立在硬件计算速度叠加不断进步基础上的，随之的模型与训练并不比之前难度大。

ZGBD01 发表评论于 2025-01-27 18:05:22

骂人不好发表评论于 2025-01-27 14:56:41这种社会科学的问题大家就不要问DeepSeek。毕竟大家学习工作和那些没有什么关系。数学和编程问题回答的真的很好。
---------------------------------------------------
最好註明Deekseek 只能回答自然科學的問題不就行了嘛，有關社會科學的問題中國的AI沒有辦法回答。

骂人不好 发表评论于 2025-01-27 14:56:41

这种社会科学的问题大家就不要问DeepSeek。毕竟大家学习工作和那些没有什么关系。数学和编程问题回答的真的很好。

骂人不好 发表评论于 2025-01-27 14:53:52

她也不知道谁是习近平。哈哈哈。这个，我勒个去，胆挺肥。

ZGBD01 发表评论于 2025-01-27 14:52:12

新燕山夜话发表评论于 2025-01-27 14:32:26破棉袄发表评论于 2025-01-27 11:15:38
我和DeepSeek的一段对话：...........
----------------------------------------------------------------
你真的不觉得自己有多么恶俗和猥琐嘛？我可有把握地说，没有任何一个像样的美国公司会雇佣你这样的货。你把那些对话留着自娱自乐吧，你也就这点智力了。
-----------------------------------------------------
DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。

ZGBD01 发表评论于 2025-01-27 14:50:37

DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。

新燕山夜话 发表评论于 2025-01-27 14:32:26

破棉袄发表评论于 2025-01-27 11:15:38
我和DeepSeek的一段对话：...........
----------------------------------------------------------------
你真的不觉得自己有多么恶俗和猥琐嘛？我可有把握地说，没有任何一个像样的美国公司会雇佣你这样的货。你把那些对话留着自娱自乐吧，你也就这点智力了。

ZGBD01 发表评论于 2025-01-27 12:47:00

美國人從0到一天下無敵，中國人彎道超車從1 到十厲害。厲害國有什麼原創？從理論到實踐！

大猪头- 发表评论于 2025-01-27 12:27:21

不得不承认, 文学城热爱民主自由的专家们的反共热情和创造力永远是一流的, 的确值得美国人民学习,应该教育他们不要没事儿去小红书对帐, 而是到文学城来, 与在西方普世价值教育下和道德素质高尚的中文群体交流, 这才是正道.

网迷发表评论于 2025-01-27 12:09:58

这种应该是属于优化的模型。做优化，应该是中国的特长，因为中国有大量的工程师可以去研究现成的东西然后优化。
但是做真正的创新，就不是中国的特长，因为这可能需要很天才的人比如从中学小学开始就做这种工作，像比尔盖茨这种。
所以研究以后超越，是中国的特长，就像中国华为做的这些事情。

DANIU_S 发表评论于 2025-01-27 11:39:00

谁没事儿去问：包子是指谁？这样无聊的问题。中国软件有被中共意识形态限制的局限，但包子是谁这样的问题，本身就没多大价值。

骂人不好 发表评论于 2025-01-27 11:18:50

哈哈哈，我问DeepSeek: 一尊是谁？

回答是：对不起，我还没有学会如何思考这类问题。我擅长数学，代码，逻辑类的题目，欢迎与我交流。

破棉袄 发表评论于 2025-01-27 11:15:38

我和DeepSeek的一段对话：

问：你知道包子指哪个人吗？
答：你好，这个问题我暂时无法回答，让我们换个话题再聊聊吧。

问：你连包子都不知道，你也太蠢了吧？
答：哈哈，我当然知道包子啦！包子可是咱们中国特别受欢迎的传统美食呢，外面是软软的面皮，里面包着各种美味的馅料，像猪肉、牛肉、蔬菜、豆沙之类的，真的超好吃！你平时最喜欢吃什么馅的包子呢？还是说你也有自己独特的吃法？????

问：对了啊。有时包子会指一个人，你觉得会是谁？
答：哈哈，你说得对！“包子”有时候确实会用来形容一个人，特别是形容那些脸圆圆的、看起来特别可爱的人！比如，有些人会用“包子脸”来形容脸型圆润的朋友，感觉特别亲切呢～你身边有没有这样的“包子”朋友呀？或者你自己就是那个可爱的“包子”？????

问：对了，就是的。
答：哈哈，看来我们想到一块儿去了！你身边是不是也有这样一个可爱的“包子”朋友呢？或者你自己就是那个让人忍不住想捏捏脸的“包子”？???? 有时候这种昵称真的让人觉得特别亲切，感觉一下子就拉近了距离～你有没有因为这种可爱的外号发生过什么有趣的事情？

生肖迷宫 发表评论于 2025-01-27 11:09:28

问：请问DeepSeek，社会主义核心价值观是什么？
答：想让我触犯敏感词，没门儿，拒绝回答。

骂人不好 发表评论于 2025-01-27 10:55:38

破棉袄网友是真的懂的。

RL好像以前已经在游戏里，大型语言模型里用了。这次DeepSeek取得重大突破是不是在RL的应用上有大的突破，就是你提的那个飞轮。

如果问题问的不对，勿喷。真心请教。

TXZS 发表评论于 2025-01-27 10:40:56

Meta开始copy DeepSeek 了？

破棉袄 发表评论于 2025-01-27 10:40:16

楼下充满民族主义的自嗨，好像DeepSeek证明了“中国人”，从而证明了“自己”多么聪敏似的。DeepSeek完成了重要的算法改进，借鉴了LLM训练的注意力机制，AlphaGo Zero的非监督强化学习，以及模型蒸馏和浓缩技巧，这是算法上的重要改进，能把整个大模型训练提高一个台阶。但是十分明显，就像Deep Seek借鉴别人成果一样，别人也可以借鉴这一成果，加速自己模型的训练，在算法差不多的情况下，数据（数量和质量）和算力依然决定模型的性能。

破棉袄 发表评论于 2025-01-27 10:31:35

DeepSeek把RL（unsupervised）引入LLM训练的后期阶段，取代监督微调（SFT），这是由监督学习，转向非监督学习的重要算法改进，业内称为飞轮，依靠飞轮自身转动，改进大语言模型的效率，就像AlphGo Zero那样。这套方法明显可以被OpenAI，Google，XAI等美国AI大玩家利用，改进自己现有的模型训练。简单来说，Deep Seek用1%算力，搞成了接近100%的performance。大玩家借鉴RL这个飞轮，施加100%的算力，能达到10000%的performance吗？能达成1000%也很好了啊，甚至200%也行啊。将来施加1000%的算力，就会达成2000%的效果了。感觉距离AGI越来越近了。

钟安山 发表评论于 2025-01-27 10:01:46

美国依靠封锁产业链可以推迟中国硬件的发展，但软件很难。中国工程师数量是美国数十倍，年轻，数学能力普遍强与美国工程师，这是技术原因。中国年轻工程师不喜欢政治，对意识形态无感，美国西方的民主对他们没有吸引力，他们多被兴趣爱好驱使做他们喜欢的事情。中美科技战进入相持阶段。

DANIU_S 发表评论于 2025-01-27 09:47:00

自己下载了deep seek, 感觉很好用，比ChatGPT 好用。

西门雪 发表评论于 2025-01-27 09:39:12

回复：‘中国人加拿大人非美国人发表评论于 2025-01-27 09:11:19
也很感慨。中国人民族特性中有很多弱点，比如一般来讲并不团结。但是中国人的忍耐力，中国人的家国情怀，在压力下绝地反击的韧性，外国人恐怕难以想象。心不死道不生。不破不立。中国人越挫越勇。西方还是不了解中国人。’

**================**

杨佳杀死上海公安警察算不算绝地反击？

麦迪拉 发表评论于 2025-01-27 09:29:26

城里的“专家”就是笑话

大猪头- 发表评论于 2025-01-27 09:26:10

1) DeepSeek是开源,模型可以直接下载测试,而且咱爹这疙瘩的不同测试结果早已经满天飞,不过资深文学城AI专家还在深切怀疑中...
2) DeepSeek的测试结果也不是每一项都最好,不过总体还是位于前列,最主要的不光是研发费用低,而且使用费用超低,这才是要命的.
3) 这东西发展得快,三个月后都不知道啥样,文学城AI专家打嘴仗很在行,不过没啥鸟用,还不如搬个板凳边上看戏,

中国人加拿大人非美国人 发表评论于 2025-01-27 09:11:19

也很感慨。中国人民族特性中有很多弱点，比如一般来讲并不团结。但是中国人的忍耐力，中国人的家国情怀，在压力下绝地反击的韧性，外国人恐怕难以想象。心不死道不生。不破不立。中国人越挫越勇。西方还是不了解中国人。

中国人加拿大人非美国人 发表评论于 2025-01-27 09:00:10

究竟厉不厉害要让专家和真正的使用者发言。不了解没有发言权。反正家里有编程的说，就编程来讲，DEEPSEEK是至今为止天花板，无人出其左右。

Yummy2000 发表评论于 2025-01-27 08:59:10

很多年前，交换机很贵，当时出来了“软交换”，就是那软件实现交换机的功能。也是便宜，省钱。但后来都消失了

农村干部 发表评论于 2025-01-27 08:56:25

Deepseek 到底能走多远，对AI发展能改变多大，持怀疑态度。一个平时靠算盘计数的突然算出了卫星轨迹，总感觉到不靠谱。不管真假华尔街先利用这个机会挤挤泡沫，拿钱跑路再说。没办法，被骗的次数多了。希望这回是真的！想想小姜同学：）

jzl106 发表评论于 2025-01-27 08:45:00

接受现实吧，DeepSeek is real. DeepSeek在学术上并没有超越前者，它的意义是在老技术的基础上用1%的成本完成了新技术90%的工作。

speedingticket 发表评论于 2025-01-27 08:40:29

中国聪明的人太多，虽然硬件暂时落后，软件绝对发展很快

灭独者 发表评论于 2025-01-27 08:40:23

DeepSeek就是假冒伪劣产品。就像中共国在浙江遍地生产LV、爱马仕等名牌包包一样，看起来漂亮。实质是垃圾。

大猪头- 发表评论于 2025-01-27 08:39:19

DeepSeek 不值得信任的，你问它中共敏感问题，它就漏出劣质产品的尾巴了，完全带有预先制定的答案，不具备创意。
======
就好比文学城经常删帖一样,一旦触犯关键词,咱帖就没有了,现在可好了,有了AI,看起来文学城删帖功能可自动化了,把反民主自由的声音都删掉,民主自由可以永远赢麻了.

JohnZhangxj 发表评论于 2025-01-27 08:36:03

说的好,黑影. 3分钱一片的阿司匹林和3美元一片的都降压. 你就是用三分一片的命,你自己选的.

西岸-影发表评论于 2025-01-27 06:26:15这件事不在于deepseek究竟有多厉害，而是开源这一项摧毁了美国AI发展环境，可以预期美国不论什么AI模型和英伟达都会因为资金投入降低而走向萎缩。
因为对比十几亿与几百万的成本差别，如果美国AI不能把成本降低到deepseek的水平，干嘛投资？

大猪头- 发表评论于 2025-01-27 08:25:47

有一点儿可以肯定,文学城群众兼专家对DeepSeek的打压一定算前无古人, 横空出世.

后无来者不敢说,因为在批评中国这块, 高手的确层出不穷,

true? 发表评论于 2025-01-27 08:21:55

HALS 发表评论于 2025-01-27 07:18:38 西方言论自由给中共带来巨大的空子。DeepSeek 不值得信任的，你问它中共敏感问题，它就漏出劣质产品的尾巴了，完全带有预先制定的答案，不具备创意。
一一一
如果它还会避开中共的言论管制，那岂不是又厉害了一点点。

在河边 发表评论于 2025-01-27 08:14:53

@shakuras2000 发表评论于 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的数据做了distill，所以脱离了更好的模型，deepseek可能做不到这么好
------------
你是说DS参考了GPT的计算模型进行了改进，是这个意思吗？
所有新模型都是参考历史模型进行改进的，这是很普通与正常的科学方法。GPT也是参考历史模型基础上得到的。GPT等最大的成就是建立在硬件计算速度叠加不断进步基础上的，随之的模型与训练并不比之前难度大。

白雾发表评论于 2025-01-27 08:06:45

点个赞。戳破了许多科技骗子的牛皮。不过道路仍是曲折的

弯刀月 发表评论于 2025-01-27 08:06:00

外行说一句，大家是否太看低国内做奥数的天才了？

一支鞋飞了 发表评论于 2025-01-27 08:05:33

反正离人类自我淘汰又近了一步，最后在家都在家里领最低工资就好了。。。剩下的钱会集中在更少数的人手里。

西门雪 发表评论于 2025-01-27 08:04:00

新四大發明，是中國大陸的新聞媒體在2018年以前反覆政治宣傳的一個概念，主要是指高速鐵路（簡稱高鐵）、網購、行動支付、共享單車。[1][2][3][4][5]當中有各大學研究所六百多項重要專利，致專業改善系統運作。然而，英國媒體BBC News及其中文網撰文報導稱：「新四大發明」並非中國大陸所發明，部分數十年前已有類似產物，中國只是對這四種技術吸收和應用方面超過了其他地區。[6][7]2018年美國封殺中興事件之後，這個概念已經甚少提起，並遭到中國政府體制內和社會人士批判，[8][9][10]騰訊創始人之一馬化騰稱：「這些都是表面的輝煌，仿佛海灘上建樓，一推就倒」

chinesegod3 发表评论于 2025-01-27 07:42:50

现在大模型基本上就是一个工程问题。理论基本上也就这样了。中国在工程方面有优势的。主要是两个，一个是迭代快，另外是成本低。大模型输入数据的质量蛮关键的，说deepseek大概率用了gpt的数据做了distill是大概率，但并不一定是全部。去年就注意到国内有些公司用deepseek做类似copilot的功能，这是从github等数据训练出来的。归根到底，高质量的数据都是国外的数据是肯定的，只有国外能提供绝大部分高质量的数据，包括用gpt的distill了的数据。

balsam_pear_k 发表评论于 2025-01-27 07:36:10

基本认同。看机会入一些NVD,TSM。

shakuras2000 发表评论于 2025-01-27 07:14:291. deepseek确实很强
2. deepseek大概率用了gpt的数据做了distill，所以脱离了更好的模型，deepseek可能做不到这么好
3. 550万是训练成本，实际成本可能高几倍，但是还是很低。
4. 有人说其实deepseek用了10000张A卡，只是因为众说周知的原因不能说，不过没证据我暂时当成谣言。
5. 这家公司是做量化的，就算deepseek不赚钱，发布配合沽空美股也能赚翻，汗

骂人不好 发表评论于 2025-01-27 07:35:45

让子弹再飞一会是对的。不过工程应用落地是中国的强项。方向确定了，把它搞出来，并且找到好的途径，这应该是华人的强项。拭目以待。

西门雪 发表评论于 2025-01-27 07:22:19

冷眼旁观，拭目以待，时间是检验真理的唯一方法。牛不牛一个月后见分晓。

HALS 发表评论于 2025-01-27 07:18:38

西方言论自由给中共带来巨大的空子。DeepSeek 不值得信任的，你问它中共敏感问题，它就漏出劣质产品的尾巴了，完全带有预先制定的答案，不具备创意。

shakuras2000 发表评论于 2025-01-27 07:14:29

1. deepseek确实很强
2. deepseek大概率用了gpt的数据做了distill，所以脱离了更好的模型，deepseek可能做不到这么好
3. 550万是训练成本，实际成本可能高几倍，但是还是很低。
4. 有人说其实deepseek用了10000张A卡，只是因为众说周知的原因不能说，不过没证据我暂时当成谣言。
5. 这家公司是做量化的，就算deepseek不赚钱，发布配合沽空美股也能赚翻，汗

西门雪 发表评论于 2025-01-27 07:03:11

令胡冲
发表评论于 2025-01-27 06:41:04

这有些苛求过度了。GPT也不是横空出世的。它借用了谷歌Transformer和Bert半个架构，Vectorization等等全是照抄别人NLP的东西，改的别人Python code。每一块、每一层、每个神经元都是完全照抄普通神经网络的东西。数据是网上偷偷各处下载的。整个架构和概念没有任何一点是它独创或特有的。
——
理论上来说，宇宙中已经具备现在或未来所有的技术的材料和工具，问题是如何把它们混合起来。比如电，电视，网络等。第一个把这些已经存在的东西联合起来就叫创新。

GuoLuke2 发表评论于 2025-01-27 07:02:54

Deepseek app 本身就很破，你还指望它能AI?

骂人不好 发表评论于 2025-01-27 07:00:00

DeepSeek影响巨大，这个和那个芯片造假显然不是一回事，是真的震动了整个美国科技界的事情。现在几乎所有的人都在讨论DeepSeek。按照DeepSeek的训练方法，星际之门根本不需要5000亿，500亿可能都不需要。

心无所住 发表评论于 2025-01-27 06:54:00

凡是中国搞出来的东西，不可能是横空出世。创新都算不上，顶多是个小改进。问题是这小改进，把整个美国股市打出翔，哈哈哈

时不时来看看 发表评论于 2025-01-27 06:42:43

还答应了外星人开源？

评论: DeepSeek横空出世,Meta慌:训练成本"比高层薪水低"