评论: DeepSeek横空出世,Meta慌:训练成本"比高层薪水低"
只有登录用户才能发表评论,
点击此处
登录
返回新闻帖
shakuras2000
发表评论于 2025-01-28 07:59:32
distill不是这个意思。改进模型大家都这么做。distill不是参考了模型,而是直接拿了别人模型做出来的结果过来加工。
在河边 发表评论于 2025-01-27 08:14:53@shakuras2000 发表评论于 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好
------------
你是说DS参考了GPT的计算模型进行了改进,是这个意思吗?
所有新模型都是参考历史模型进行改进的,这是很普通与正常的科学方法。GPT也是参考历史模型基础上得到的。GPT等最大的成就是建立在硬件计算速度叠加不断进步基础上的,随之的模型与训练并不比之前难度大。
ZGBD01
发表评论于 2025-01-27 18:05:22
骂人不好 发表评论于 2025-01-27 14:56:41这种社会科学的问题大家就不要问DeepSeek。毕竟大家学习工作和那些没有什么关系。数学和编程问题回答的真的很好。
---------------------------------------------------
最好註明Deekseek 只能回答自然科學的問題不就行了嘛,有關社會科學的問題中國的AI沒有辦法回答。
骂人不好
发表评论于 2025-01-27 14:56:41
这种社会科学的问题大家就不要问DeepSeek。毕竟大家学习工作和那些没有什么关系。数学和编程问题回答的真的很好。
骂人不好
发表评论于 2025-01-27 14:53:52
她也不知道谁是习近平。哈哈哈。这个,我勒个去,胆挺肥。
ZGBD01
发表评论于 2025-01-27 14:52:12
新燕山夜话 发表评论于 2025-01-27 14:32:26破棉袄 发表评论于 2025-01-27 11:15:38
我和DeepSeek的一段对话:...........
----------------------------------------------------------------
你真的不觉得自己有多么恶俗和猥琐嘛?我可有把握地说,没有任何一个像样的美国公司会雇佣你这样的货。你把那些对话留着自娱自乐吧,你也就这点智力了。
-----------------------------------------------------
DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。
ZGBD01
发表评论于 2025-01-27 14:50:37
DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。
新燕山夜话
发表评论于 2025-01-27 14:32:26
破棉袄 发表评论于 2025-01-27 11:15:38
我和DeepSeek的一段对话:...........
----------------------------------------------------------------
你真的不觉得自己有多么恶俗和猥琐嘛?我可有把握地说,没有任何一个像样的美国公司会雇佣你这样的货。你把那些对话留着自娱自乐吧,你也就这点智力了。
ZGBD01
发表评论于 2025-01-27 12:47:00
美國人從0到 一 天下無敵,中國人彎道超車從1 到十厲害。厲害國有什麼原創? 從理論到實踐!
大猪头-
发表评论于 2025-01-27 12:27:21
不得不承认, 文学城热爱民主自由的专家们的反共热情和创造力永远是一流的, 的确值得美国人民学习,应该教育他们不要没事儿去小红书对帐, 而是到文学城来, 与在西方普世价值教育下和道德素质高尚的中文群体交流, 这才是正道.
网迷
发表评论于 2025-01-27 12:09:58
这种应该是属于优化的模型。做优化,应该是中国的特长,因为中国有大量的工程师可以去研究现成的东西然后优化。
但是做真正的创新,就不是中国的特长,因为这可能需要很天才的人比如从中学小学开始就做这种工作,像比尔盖茨这种。
所以研究以后超越,是中国的特长,就像中国华为做的这些事情。
DANIU_S
发表评论于 2025-01-27 11:39:00
谁没事儿去问:包子是指谁? 这样无聊的问题。中国软件有被中共意识形态限制的局限,但包子是谁这样的问题,本身就没多大价值。
骂人不好
发表评论于 2025-01-27 11:18:50
哈哈哈,我问DeepSeek: 一尊是谁?
回答是:对不起,我还没有学会如何思考这类问题。我擅长数学,代码,逻辑类的题目,欢迎与我交流。
破棉袄
发表评论于 2025-01-27 11:15:38
我和DeepSeek的一段对话:
问:你知道包子指哪个人吗?
答:你好,这个问题我暂时无法回答,让我们换个话题再聊聊吧。
问:你连包子都不知道,你也太蠢了吧?
答:哈哈,我当然知道包子啦!包子可是咱们中国特别受欢迎的传统美食呢,外面是软软的面皮,里面包着各种美味的馅料,像猪肉、牛肉、蔬菜、豆沙之类的,真的超好吃!你平时最喜欢吃什么馅的包子呢?还是说你也有自己独特的吃法?????
问:对了啊。有时包子会指一个人,你觉得会是谁?
答:哈哈,你说得对!“包子”有时候确实会用来形容一个人,特别是形容那些脸圆圆的、看起来特别可爱的人!比如,有些人会用“包子脸”来形容脸型圆润的朋友,感觉特别亲切呢~你身边有没有这样的“包子”朋友呀?或者你自己就是那个可爱的“包子”?????
问:对了,就是的。
答:哈哈,看来我们想到一块儿去了!你身边是不是也有这样一个可爱的“包子”朋友呢?或者你自己就是那个让人忍不住想捏捏脸的“包子”????? 有时候这种昵称真的让人觉得特别亲切,感觉一下子就拉近了距离~你有没有因为这种可爱的外号发生过什么有趣的事情?
生肖迷宫
发表评论于 2025-01-27 11:09:28
问:请问DeepSeek,社会主义核心价值观是什么?
答:想让我触犯敏感词,没门儿,拒绝回答。
骂人不好
发表评论于 2025-01-27 10:55:38
破棉袄网友是真的懂的。
RL好像以前已经在游戏里,大型语言模型里用了。这次DeepSeek取得重大突破是不是在RL的应用上有大的突破,就是你提的那个飞轮。
如果问题问的不对,勿喷。真心请教。
TXZS
发表评论于 2025-01-27 10:40:56
Meta开始copy DeepSeek 了?
破棉袄
发表评论于 2025-01-27 10:40:16
楼下充满民族主义的自嗨,好像DeepSeek证明了“中国人”,从而证明了“自己”多么聪敏似的。DeepSeek完成了重要的算法改进,借鉴了LLM训练的注意力机制,AlphaGo Zero的非监督强化学习,以及模型蒸馏和浓缩技巧,这是算法上的重要改进,能把整个大模型训练提高一个台阶。但是十分明显,就像Deep Seek借鉴别人成果一样,别人也可以借鉴这一成果,加速自己模型的训练,在算法差不多的情况下,数据(数量和质量)和算力依然决定模型的性能。
破棉袄
发表评论于 2025-01-27 10:31:35
DeepSeek把RL(unsupervised)引入LLM训练的后期阶段,取代监督微调(SFT),这是由监督学习,转向非监督学习的重要算法改进,业内称为飞轮,依靠飞轮自身转动,改进大语言模型的效率,就像AlphGo Zero那样。这套方法明显可以被OpenAI,Google,XAI等美国AI大玩家利用,改进自己现有的模型训练。简单来说,Deep Seek用1%算力,搞成了接近100%的performance。大玩家借鉴RL这个飞轮,施加100%的算力,能达到10000%的performance吗?能达成1000%也很好了啊,甚至200%也行啊。将来施加1000%的算力,就会达成2000%的效果了。感觉距离AGI越来越近了。
钟安山
发表评论于 2025-01-27 10:01:46
美国依靠封锁产业链可以推迟中国硬件的发展,但软件很难。中国工程师数量是美国数十倍,年轻,数学能力普遍强与美国工程师,这是技术原因。中国年轻工程师不喜欢政治,对意识形态无感,美国西方的民主对他们没有吸引力,他们多被兴趣爱好驱使做他们喜欢的事情。中美科技战进入相持阶段。
DANIU_S
发表评论于 2025-01-27 09:47:00
自己下载了deep seek, 感觉很好用,比ChatGPT 好用。
西门雪
发表评论于 2025-01-27 09:39:12
回复:‘中国人加拿大人非美国人 发表评论于 2025-01-27 09:11:19
也很感慨。中国人民族特性中有很多弱点,比如一般来讲并不团结。但是中国人的忍耐力,中国人的家国情怀,在压力下绝地反击的韧性,外国人恐怕难以想象。心不死道不生。不破不立。中国人越挫越勇。西方还是不了解中国人。’
**================**
杨佳杀死上海公安警察算不算绝地反击?
麦迪拉
发表评论于 2025-01-27 09:29:26
城里的“专家”就是笑话
大猪头-
发表评论于 2025-01-27 09:26:10
1) DeepSeek是开源,模型可以直接下载测试,而且咱爹这疙瘩的不同测试结果早已经满天飞,不过资深文学城AI专家还在深切怀疑中...
2) DeepSeek的测试结果也不是每一项都最好,不过总体还是位于前列,最主要的不光是研发费用低,而且使用费用超低,这才是要命的.
3) 这东西发展得快,三个月后都不知道啥样,文学城AI专家打嘴仗很在行,不过没啥鸟用,还不如搬个板凳边上看戏,
中国人加拿大人非美国人
发表评论于 2025-01-27 09:11:19
也很感慨。中国人民族特性中有很多弱点,比如一般来讲并不团结。但是中国人的忍耐力,中国人的家国情怀,在压力下绝地反击的韧性,外国人恐怕难以想象。心不死道不生。不破不立。中国人越挫越勇。西方还是不了解中国人。
中国人加拿大人非美国人
发表评论于 2025-01-27 09:00:10
究竟厉不厉害要让专家和真正的使用者发言。不了解没有发言权。反正家里有编程的说,就编程来讲,DEEPSEEK是至今为止天花板,无人出其左右。
Yummy2000
发表评论于 2025-01-27 08:59:10
很多年前,交换机很贵,当时出来了“软交换”,就是那软件实现交换机的功能。 也是便宜,省钱。 但后来都消失了
农村干部
发表评论于 2025-01-27 08:56:25
Deepseek 到底能走多远,对AI发展能改变多大,持怀疑态度。一个平时靠算盘计数的突然算出了卫星轨迹 ,总感觉到不靠谱。不管真假华尔街先利用这个机会挤挤泡沫,拿钱跑路再说。没办法,被骗的次数多了。 希望这回是真的!想想小姜同学:)
jzl106
发表评论于 2025-01-27 08:45:00
接受现实吧,DeepSeek is real. DeepSeek在学术上并没有超越前者,它的意义是在老技术的基础上用1%的成本完成了新技术90%的工作。
speedingticket
发表评论于 2025-01-27 08:40:29
中国聪明的人太多,虽然硬件暂时落后,软件绝对发展很快
灭独者
发表评论于 2025-01-27 08:40:23
DeepSeek就是假冒伪劣产品。就像中共国在浙江遍地生产LV、爱马仕等名牌包包一样,看起来漂亮。实质是垃圾。
大猪头-
发表评论于 2025-01-27 08:39:19
DeepSeek 不值得信任的,你问它中共敏感问题,它就漏出劣质产品的尾巴了,完全带有预先制定的答案,不具备创意。
======
就好比文学城经常删帖一样,一旦触犯关键词,咱帖就没有了,现在可好了,有了AI,看起来文学城删帖功能可自动化了,把反民主自由的声音都删掉,民主自由可以永远赢麻了.
JohnZhangxj
发表评论于 2025-01-27 08:36:03
说的好,黑影. 3分钱一片的阿司匹林和3美元一片的都降压. 你就是用三分一片的命,你自己选的.
西岸-影 发表评论于 2025-01-27 06:26:15这件事不在于deepseek究竟有多厉害,而是开源这一项摧毁了美国AI发展环境,可以预期美国不论什么AI模型和英伟达都会因为资金投入降低而走向萎缩。
因为对比十几亿与几百万的成本差别,如果美国AI不能把成本降低到deepseek的水平,干嘛投资?
大猪头-
发表评论于 2025-01-27 08:25:47
有一点儿可以肯定,文学城群众兼专家对DeepSeek的打压一定算前无古人, 横空出世.
后无来者不敢说,因为在批评中国这块, 高手的确层出不穷,
true?
发表评论于 2025-01-27 08:21:55
HALS 发表评论于 2025-01-27 07:18:38 西方言论自由给中共带来巨大的空子。DeepSeek 不值得信任的,你问它中共敏感问题,它就漏出劣质产品的尾巴了,完全带有预先制定的答案,不具备创意。
一一一
如果它还会避开中共的言论管制,那岂不是又厉害了一点点。
在河边
发表评论于 2025-01-27 08:14:53
@shakuras2000 发表评论于 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好
------------
你是说DS参考了GPT的计算模型进行了改进,是这个意思吗?
所有新模型都是参考历史模型进行改进的,这是很普通与正常的科学方法。GPT也是参考历史模型基础上得到的。GPT等最大的成就是建立在硬件计算速度叠加不断进步基础上的,随之的模型与训练并不比之前难度大。
白雾
发表评论于 2025-01-27 08:06:45
点个赞。戳破了许多科技骗子的牛皮。不过道路仍是曲折的
弯刀月
发表评论于 2025-01-27 08:06:00
外行说一句,大家是否太看低国内做奥数的天才了?
一支鞋飞了
发表评论于 2025-01-27 08:05:33
反正离人类自我淘汰又近了一步,最后在家都在家里领最低工资就好了。。。剩下的钱会集中在更少数的人手里。
西门雪
发表评论于 2025-01-27 08:04:00
新四大發明,是中國大陸的新聞媒體在2018年以前反覆政治宣傳的一個概念,主要是指高速鐵路(簡稱高鐵)、網購、行動支付、共享單車。[1][2][3][4][5]當中有各大學研究所六百多項重要專利,致專業改善系統運作。然而,英國媒體BBC News及其中文網撰文報導稱:「新四大發明」並非中國大陸所發明,部分數十年前已有類似產物,中國只是對這四種技術吸收和應用方面超過了其他地區。[6][7]2018年美國封殺中興事件之後,這個概念已經甚少提起,並遭到中國政府體制內和社會人士批判,[8][9][10]騰訊創始人之一馬化騰稱:「這些都是表面的輝煌,仿佛海灘上建樓,一推就倒」
chinesegod3
发表评论于 2025-01-27 07:42:50
现在大模型基本上就是一个工程问题。理论基本上也就这样了。中国在工程方面有优势的。主要是两个,一个是迭代快,另外是成本低。大模型输入数据的质量蛮关键的,说deepseek大概率用了gpt的数据做了distill是大概率,但并不一定是全部。去年就注意到国内有些公司用deepseek做类似copilot的功能,这是从github等数据训练出来的。归根到底,高质量的数据都是国外的数据是肯定的,只有国外能提供绝大部分高质量的数据,包括用gpt的distill了的数据。
balsam_pear_k
发表评论于 2025-01-27 07:36:10
基本认同。看机会入一些NVD,TSM。
shakuras2000 发表评论于 2025-01-27 07:14:291. deepseek确实很强
2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好
3. 550万是训练成本,实际成本可能高几倍,但是还是很低。
4. 有人说其实deepseek用了10000张A卡,只是因为众说周知的原因不能说,不过没证据我暂时当成谣言。
5. 这家公司是做量化的,就算deepseek不赚钱,发布配合沽空美股也能赚翻,汗
骂人不好
发表评论于 2025-01-27 07:35:45
让子弹再飞一会是对的。不过工程应用落地是中国的强项。方向确定了,把它搞出来,并且找到好的途径,这应该是华人的强项。拭目以待。
西门雪
发表评论于 2025-01-27 07:22:19
冷眼旁观,拭目以待,时间是检验真理的唯一方法。牛不牛一个月后见分晓。
HALS
发表评论于 2025-01-27 07:18:38
西方言论自由给中共带来巨大的空子。DeepSeek 不值得信任的,你问它中共敏感问题,它就漏出劣质产品的尾巴了,完全带有预先制定的答案,不具备创意。
shakuras2000
发表评论于 2025-01-27 07:14:29
1. deepseek确实很强
2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好
3. 550万是训练成本,实际成本可能高几倍,但是还是很低。
4. 有人说其实deepseek用了10000张A卡,只是因为众说周知的原因不能说,不过没证据我暂时当成谣言。
5. 这家公司是做量化的,就算deepseek不赚钱,发布配合沽空美股也能赚翻,汗
西门雪
发表评论于 2025-01-27 07:03:11
令胡冲
发表评论于 2025-01-27 06:41:04
这有些苛求过度了。GPT也不是横空出世的。它借用了谷歌Transformer和Bert半个架构,Vectorization等等全是照抄别人NLP的东西,改的别人Python code。每一块、每一层、每个神经元都是完全照抄普通神经网络的东西。数据是网上偷偷各处下载的。整个架构和概念没有任何一点是它独创或特有的。
——
理论上来说,宇宙中已经具备现在或未来所有的技术的材料和工具,问题是如何把它们混合起来。比如电,电视,网络等。第一个把这些已经存在的东西联合起来就叫创新。
GuoLuke2
发表评论于 2025-01-27 07:02:54
Deepseek app 本身就很破,你还指望它能AI?
骂人不好
发表评论于 2025-01-27 07:00:00
DeepSeek影响巨大,这个和那个芯片造假显然不是一回事,是真的震动了整个美国科技界的事情。现在几乎所有的人都在讨论DeepSeek。按照DeepSeek的训练方法,星际之门根本不需要5000亿,500亿可能都不需要。
心无所住
发表评论于 2025-01-27 06:54:00
凡是中国搞出来的东西,不可能是横空出世。创新都算不上,顶多是个小改进。问题是这小改进,把整个美国股市打出翔,哈哈哈
时不时来看看
发表评论于 2025-01-27 06:42:43
还答应了外星人开源?
页次:
1
/3
每页
50
条记录, 本页显示
1
到
50
, 共
106
分页: [
1
] [
2
] [
3
] [
下一页
] [
尾页
]
在河边 发表评论于 2025-01-27 08:14:53@shakuras2000 发表评论于 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好
------------
你是说DS参考了GPT的计算模型进行了改进,是这个意思吗?
所有新模型都是参考历史模型进行改进的,这是很普通与正常的科学方法。GPT也是参考历史模型基础上得到的。GPT等最大的成就是建立在硬件计算速度叠加不断进步基础上的,随之的模型与训练并不比之前难度大。