评论: 美国AI公司试图破解DeepSeek破坏性创新技术
只有登录用户才能发表评论,
点击此处
登录
返回新闻帖
心无所住
发表评论于 2025-01-28 18:59:00
美国公司再怎么破解,也只能偷到一点皮毛。关键是脑子,他们脑子不够用,永远落后于中国
TitaniumAtlas
发表评论于 2025-01-28 12:41:44
最搞笑的是DS回答自己是 chat gpt, 这明显是用了人家的数据,所谓数据蒸馏,原始数据的钱人家帮你出了,呵呵
TitaniumAtlas
发表评论于 2025-01-28 11:49:48
DS肯定是有水分的,训练数据也没公开,极有可能是利用了其它AI的成果,而且芯片上也撒了谎,这对兲朝不是啥难事。
BigP
发表评论于 2025-01-28 11:48:41
luting 发表评论于 2025-01-28 08:55:44难听点就是美国AI公司试图山寨DeepSeek破坏性创新技术
+1
哈哈哈哈
资本是最诚实的,五分的观点一文不值,就是一帮臭虫
TitaniumAtlas
发表评论于 2025-01-28 11:46:35
作为追赶者开源是一步妙棋,这样可以吸引更多的其他国家的智力来参与发展,加快追赶进度。
令胡冲
发表评论于 2025-01-28 11:42:48
你可能学习了傅聪的帖子,精神可嘉,总结不错。:)。MLA中文是多头潜注意力,不是多层注意力,确实是DeepSeek人家自己创新。注意力机制一直在创新进化,成功的不多。难说每项创新起多大作用,但这些研究或工程创新每项平均值10M,在每次训练中。巨大创新价值难以估量。
—————
theriver1 发表评论于 2025-01-28 10:36:17 昨晚仔细研究了一下DeepSeek-R1,终于冷静下来了。现在基本上倾向于DeepSeek是AI拼多多的说法。因为DeepSeek算法根本就没有什么自己的革命性的创新!它只不过是集成了以下一系列美国人发明(都是美国公司公开发表的论文和技术)的成熟或不太成熟的优化算法的架构模型和创新,最终达到靠压缩整体工作量和压榨每个任务(不让任务闲下来)的路径来最大限度地降低算力资源的成本:
1.MLA多层注意力架构
2.FP8混合精度训练框架
3.DualPipe跨节点通信
4.无辅助损失的负载均衡策略
5.跨节点全对全通信内核
6.MTP技术
7.数据精筛
8.DeepSeek-R1蒸馏
其中最重要的是前两个架构,它们都是为了压缩工作量的,也是其与ChatGpt等美国公司大模型的最主要区别。
pcboy888
发表评论于 2025-01-28 11:42:20
“破坏性技术创新”?
城头散仙
发表评论于 2025-01-28 11:05:42
DeepSeek 的創新是絕對真實,有意義的。很多美國AI公司的管理層拿的工資都比這家中國公司AI模型的訓練費用高出幾十倍,搞出的東西還不如中國產品,這在投資人眼裡是絕對說不過去的。。還有就是很多出來矇騙的所謂AI工程師的日子不好混了。DeepSeek 讓所有人使用AI開發,免費使用自己的AI產品的門檻一下子降到最低,動了很多很多人的奶酪,有幾個臭蟲出來酸一下,也算正常。
theriver1
发表评论于 2025-01-28 10:36:28
各种优化算法都有自己的优缺点,不同的公司采取不同的优化思路,说白了就是在性能、价格和结果上达到“符合本公司目标”的平衡。比如Deepseek-R1不同于ChatGPT的架构-FP8混合精度训练框架,这里的FP8就是二进制里8个比特位,位数越多代表精度越高,ChatGPT是32位和16位,Deepseek-R1是8位,这就比ChatGPT少了一半的计算量和内存,由此带来的精度误差用“混合精度”来弥补(对于精度要求高的数据,先用类似四舍五入的方法快速计算,再每128个数的结果交给32位的会计程序精算),最终大大压缩了计算量,但是精度肯定远远不如ChatGPT。这种方法就是DS在平衡了性价比和结果后选择的偏向性价比的优化思路。
theriver1
发表评论于 2025-01-28 10:36:17
昨晚仔细研究了一下DeepSeek-R1,终于冷静下来了。现在基本上倾向于DeepSeek是AI拼多多的说法。因为DeepSeek算法根本就没有什么自己的革命性的创新!它只不过是集成了以下一系列美国人发明(都是美国公司公开发表的论文和技术)的成熟或不太成熟的优化算法的架构模型和创新,最终达到靠压缩整体工作量和压榨每个任务(不让任务闲下来)的路径来最大限度地降低算力资源的成本:
1.MLA多层注意力架构
2.FP8混合精度训练框架
3.DualPipe跨节点通信
4.无辅助损失的负载均衡策略
5.跨节点全对全通信内核
6.MTP技术
7.数据精筛
8.DeepSeek-R1蒸馏
其中最重要的是前两个架构,它们都是为了压缩工作量的,也是其与ChatGpt等美国公司大模型的最主要区别。
theriver1
发表评论于 2025-01-28 10:35:38
对Deepseek-R1和ChatGPT4进行初步比较后感觉其对中文理解力还是满强的。在某些方面甚至超过ChatGPT4。在解数学题和编程能力上也很强大,已经接近ChatGPT4。但是创意生成和ChatGPT4还有很大差距,毕竟靠做题进行优化培训的强化学习思路必然带来“结构化思维大大高于发散型思维”这个致命缺陷!
另外,Deepseek-R1相比ChatGPT4还有个缺点-没有多模态,也就是无法通过整合来自不同模态的数据(图像、文字、音频、视频等)从而增强模型的理解能力和推理能力。其官网上之所以可以上传有文字的图,是因为它在传给大模型之前就做了文字的OCR处理,直接调用API是没有的。
还有就是Deepseek-R1对AGI(通用人工智能)基本没啥贡献,所以其未来对于ChatGPT5不会带来任何威胁。
个人觉得Deepseek最大的意义在于倒逼各家把大模型的服务价格压下来,面对OpenAI每月200美元的服务费,Deepseek-R1简直就是白菜价(I/O各1元人民币/每百万Token)
绝望小狗
发表评论于 2025-01-28 10:35:00
城里有这么些痛恨自己黄皮的畜生
Dwclys
发表评论于 2025-01-28 10:34:00
酸憋的偷窥
ln2020
发表评论于 2025-01-28 10:31:48
反正过段就能看到有没有第二、三家出来?
ln2020
发表评论于 2025-01-28 10:30:25
相比傻呵呵的硬算,这个算法如果能够验证,是个伟大的进步,至少也打开了思路。希望老黄的卡能够因此更亲民一些。
tw1234
发表评论于 2025-01-28 10:09:04
其实还是0到1,还是1到9 那个更厉害,更困难!
令胡冲
发表评论于 2025-01-28 10:03:14
Deepseek并不知道GPT o1或o3内部数据Softmax准确分布,它不可能distill别人的大模型知识或推理过程。它只能蒸馏自己的大模型,来微调其它小模型。
它用GPT来生成训练数据,但直接distill不大可能。
——————-
chinesegod3 发表评论于 2025-01-28 09:37:14 没必要瞎吹,DeepSeek用的蒸馏技术在硅谷很多小公司也都有做,只是这些小公司专注于某个专门领域,而且在这些专门领域非常强了。
baijiazhuang
发表评论于 2025-01-28 09:59:17
美国AI成本估计得包括每位高管的起码8个figureUSD薪酬, :)
技术员
发表评论于 2025-01-28 09:42:09
不愧是VOA。就不想想DeepSeek也能破解美国AI的破坏性创新技术吗?
chinesegod3
发表评论于 2025-01-28 09:37:14
没必要瞎吹,DeepSeek用的蒸馏技术在硅谷很多小公司也都有做,只是这些小公司专注于某个专门领域,而且在这些专门领域非常强了。DeepSeek做成了一个MOE LLM,而且低成本。不算啥革命性的,transformer,chatgpt刚出来才是革命性的创新,现在只是整个时间线的插曲而已。还是谦虚一点。但是大模型在中国是被隔离的,国内出头的大模型以后有市场是真的。
罗马军团
发表评论于 2025-01-28 09:34:17
我刚才说 “但是不管怎么说,对算力的要求是没有止境的。成本的降低,带来的从来都是索取更多的产出,而不是更少的投入,投入是不会减少的。”
这句话不完整,完整的逻辑是:产出多少跟不上不是投入决定的,而是需求决定的,只要有需求就会刺激产出。如果现在对AI的需求饱和了,那么算力成本的降低将会减少对硬件的投入。然而事实是需求还远远远远不能满足,所以算力成本的降低带来的反而会是投入的增长,因为产出的利润变大了。
DANIU_S
发表评论于 2025-01-28 09:30:00
本城痛恨中国人的,都是些什么人?如果是祖上真被共产党欺负了,还有情可原,如果只是单纯地反华,讨厌中国大陆人,那就没意思啦。
罗马军团
发表评论于 2025-01-28 09:27:21
用生物学的观点来看,原始的大模型是产生基因,这种子代模型在杂交的过程中可能会产生变异,从而产生新的基因,这是自我进化的基础。
生物学上的基因变异最终要靠自然选择来淘汰不适应的变异,保留适应性更强的基因,那么AI这里也必须有一个选择和淘汰机制,合乎逻辑的淘汰机制是用户的选择和反馈。这种方法的确是一条道路,但是产生的机制还需要更多探索。
但是不管怎么说,对算力的要求是没有止境的。成本的降低,带来的从来都是索取更多的产出,而不是更少的投入,投入是不会减少的。
DANIU_S
发表评论于 2025-01-28 09:26:00
科学领域主要有一点儿进步,就应该鼓励,起码比拍马屁、说得天花乱坠的印度人强。
弯刀月
发表评论于 2025-01-28 09:19:00
在真正技术面前,阿三嘴皮子不好使了?
罗马军团
发表评论于 2025-01-28 09:17:26
worley 发表评论于 2025-01-28 09:06:36
因为deepseek直接盗取(蒸馏)了chatgpt的数据进行学习。给出的答案往往跟chatgpt o1一样。
美国公司当然不能直接盗取chatgpt数据,但是现在可以直接使用deepseek,反正盗取数据的不是我。
-
倒不能说盗取,大模型产生的数据本身并没有版权,至少目前没有。
但是,用现有大模型产生的数据去训练自己的大模型,这本质上还是copy/paste,成本当然低。但它只能模仿和跟随,而不能超越。然而这种方法还是有意义的,就和生物学上的子代一样,现在deepseek做的是类似细胞克隆,或者说单性繁殖。最好的方式是杂交,也就是用几个大模型给的数据来产生子代,这样的后代更强壮,具有突破前代自我进化的可能。但是前提是需要许多独立的大模型做亲本,独立的大模型越多越好。原始的数据训练是基础,这不可能绕过。
闲聊几句
发表评论于 2025-01-28 09:14:00
source code 开源,training 模型的数据也开源?不会吧?
BDPLX
发表评论于 2025-01-28 09:09:10
到底有多少水分,还很难说,
不能全信花街的,
让子弹飞一会儿
worley
发表评论于 2025-01-28 09:06:36
因为deepseek直接盗取(蒸馏)了chatgpt的数据进行学习。给出的答案往往跟chatgpt o1一样。
美国公司当然不能直接盗取chatgpt数据,但是现在可以直接使用deepseek,反正盗取数据的不是我。
Yummy2000
发表评论于 2025-01-28 09:05:56
梁文峰是玩资本的,应该是为上市做准备。 有点技术,但不是颠覆性的。 年后上市,可以收割一把韭菜。
.....................................................
梦想天空 发表评论于 2025-01-28 09:01:55梁文峰的本职工作是做基金的,DeepSeek对他来说就是一个副业,所以他不可能投资几十个亿去搞这个。估计他自己也没想到一批刚毕业的博士硕士研究生竟然还真给做出来了。
不得不说,现在国内的这帮孩子是真聪明,而且国内的高等教育水平也越来越好。
梦想天空
发表评论于 2025-01-28 09:01:55
梁文峰的本职工作是做基金的,DeepSeek对他来说就是一个副业,所以他不可能投资几十个亿去搞这个。估计他自己也没想到一批刚毕业的博士硕士研究生竟然还真给做出来了。
不得不说,现在国内的这帮孩子是真聪明,而且国内的高等教育水平也越来越好。
luting
发表评论于 2025-01-28 08:55:44
难听点就是美国AI公司试图山寨DeepSeek破坏性创新技术
王猪猪
发表评论于 2025-01-28 08:51:56
软件产业做到弯道超车还是相对容易的。美国在软件方面不能押注太多。这东西一开源,字典上最美的词也不好使了。
goldeyeball1
发表评论于 2025-01-28 08:47:15
硅谷那些AI蠢材,花掉了上万亿,结果被一个100多人,仅仅用几百万美元就打得满地找牙,还有脸出来对人家评头论足,真是莫大的耻辱!
页次:
1
/1
每页
50
条记录, 本页显示
1
到
34
, 共
34
分页: [
1
]