评论:中国AI“刷屏”硅谷性能比肩OpenAI 成本仅1/30

心情夏秋 发表评论于 2025-01-27 07:10:19

有胆的该去做多

心情夏秋 发表评论于 2025-01-27 07:07:23

早上开盘英伟达暴跌，台基电也暴跌
谁在做空？

cfol2012 发表评论于 2025-01-27 05:40:00

这个开源将普惠全世界. 这些AI大厂们肯定会抄DS. 加上它们已有的硬件将迅速推进AI. 届时DS还能赶上或超越那就更历害了. 问题是对大规模的硬件投入会不会暂缓.比如说现在这个500丅的星门计划

ajaychen_2024 发表评论于 2025-01-27 01:43:10

开源的，欢迎作出自己的贡献
wjhwsh 发表评论于 2025-01-26 21:11:29美国公司抄袭DeepSeek算法和代码有问题吗？

wjhwsh 发表评论于 2025-01-26 21:11:29

美国公司抄袭DeepSeek算法和代码有问题吗？

ajaychen_2024 发表评论于 2025-01-26 20:41:25

现在那些美国大AI企业老板就会问，为什么你们弄得这么贵，中国人搞的这么便宜又好用？我们也要学他们，在美国搞不好，就搬到中国去搞，我们投的钱也是钱

骂人不好 发表评论于 2025-01-26 19:17:33

完全同意破棉袄网友的说法，其它的大型模型一定会借鉴Deepseek的思路的。这一次Deepseek在算力落后的情况下能做到这样的突破是非常了不起的。

大猪头- 发表评论于 2025-01-26 19:11:54

这年头，连敬仰一下文学城群众的无所不知的知识储备都给说成是显摆，呵呵，文字城群众的谦虚精神让人自愧不如啊

ajaychen_2024 发表评论于 2025-01-26 18:55:32

美国是在掐自己的脖子

futufutu 发表评论于 2025-01-26 14:02:02已经松手了？掐脖子就吹牛逼? 真正牛逼!
Earth_Rover 发表评论于 2025-01-26 10:53:33又自嗨了！一掐脖子就翻白眼，一松手就吹牛逼。

破棉袄 发表评论于 2025-01-26 18:55:01

这回DeepSeek应该算是一次重大算法改进，我觉得OpenAI，Google，X，Tesla如果借鉴这套改进算法（RL，多头注意力集中，蒸馏，浓缩），会导致大语言模型和自动驾驶更加突飞猛进的进展，因为这些大公司算力充沛，数据量大，积累了无数性能较低的各种各样的初级产品或次品模型，巧用DeepSeek的方法，能把以上资源利用起来，做出DeepSeek无法想象的工作。
========
骂人不好发表评论于 2025-01-26 18:10:45 Deepseek的确是一件很牛的事情。就是我说的，华人在现有的技术框架下，找到更好的途径，工程应用落地创新的能力是很牛的，甚至可以说是天下无敌的。不过在基础研究是上，比如新算法的提出，芯片和算力上的受限，和美国还有些差距。不过可以肯定的是，AI领域，中美两强比其它的国家的领先优势巨大，未来就是中美的竞争的局面了。

对不住了，又信口开河了一下。抱歉抱歉。

ajaychen_2024 发表评论于 2025-01-26 18:50:09

人类可以用AI帮忙做更多更复杂的工作，AI现在还没有办法完全取代人类，

小毛er 发表评论于 2025-01-26 11:56:56价格便宜主要好是不需要创新和用更便宜的人工。中国可以把什么都做成白菜价。然后大家一起没钱赚一起死。

ajaychen_2024 发表评论于 2025-01-26 18:47:20

你老板让你用AI做个APP，你竟然上班摸鱼用AI问习和彭的八卦？这可要扣钱的。

中国梦姑发表评论于 2025-01-26 11:42:46这种狗屁AI，问他习近平和彭丽媛的事，全部拒绝

骂人不好 发表评论于 2025-01-26 18:20:37

你如果是AI的大拿，不妨教大家点实际的东西。这里只是个中文论坛，不是什么AI专家的论坛。大家不过是聊聊天而已，你显摆个啥？无聊不无聊？浅薄不浅薄？

骂人不好 发表评论于 2025-01-26 18:13:23

本地运行要看是什么模型了。小型的当然可以。大型的GPT-4你给我本地运行一下看看？

骂人不好 发表评论于 2025-01-26 18:10:45

Deepseek的确是一件很牛的事情。就是我说的，华人在现有的技术框架下，找到更好的途径，工程应用落地创新的能力是很牛的，甚至可以说是天下无敌的。不过在基础研究是上，比如新算法的提出，芯片和算力上的受限，和美国还有些差距。不过可以肯定的是，AI领域，中美两强比其它的国家的领先优势巨大，未来就是中美的竞争的局面了。

对不住了，又信口开河了一下。抱歉抱歉。

大猪头- 发表评论于 2025-01-26 17:58:01

大型模型会不会收集用户在使用模型是的数据，这个我存疑，因为如果不是公开的数据，AI公司悄悄地使用在模型训练中，估计会有大麻烦的。如果是那样，企业估计是不敢用的。
===
没听说过模型可以在本地运行？还要啥例子，自己报上来我可以帮你来认定啥是信口开河

破棉袄 发表评论于 2025-01-26 16:57:04

ypb001 发表评论于 2025-01-26 14:22:36
原来AI的泡沫只值600万美元,却忽悠投资者几百上千亿美元
===========================================
此言差也，DeepSeek这套RL训练，蒸馏，浓缩的方法也可以被资源雄厚的大公司利用，把手头的大量的效率比较低的模型通过RL训练，蒸馏，浓缩的方法，搞成性能优异的新模型。换句话说，你600万搞出来跟人家差不多的东西，人家砸600亿，借用你的方法，能搞出来性能高一千倍的新模型。当然这是一个循环学习和竞争的过程。

破棉袄 发表评论于 2025-01-26 15:53:42

试用一下，感觉DeepSeek很不错，
问了一下Grok：
DeepSeek是蒸馏，提取，浓缩其他现成的模型实现的吗？

回答：
DeepSeek模型的开发确实涉及到蒸馏技术，但需要澄清的是，蒸馏并不是简单地提取或浓缩其他人的模型。以下是对DeepSeek模型蒸馏过程的解释：

1. 蒸馏技术：在机器学习中，模型蒸馏是一种从大型、复杂的“教师”模型中转移知识到较小、更简单的“学生”模型中的技术。DeepSeek使用这种方法，通过将来自更大、更复杂的DeepSeek-R1模型的知识转移到基于Qwen和Llama等开源模型的较小模型中，来创建高效且性能优异的模型。
2. 创新和应用：DeepSeek开创性地应用了强化学习（RL）来直接训练基础模型，而不仅仅依赖于监督微调（SFT）。然后，通过蒸馏技术，利用DeepSeek-R1生成的80万个样本来微调这些较小的开源模型，显著提升了这些小模型的推理能力。
3. 开源与创新：DeepSeek-R1及其蒸馏版本都是开源的，这意味着它们基于开源模型进行的改进和创新也是为了推动整个AI社区的发展，而不是简单地“提取”他人的工作。

因此，DeepSeek模型的开发是通过结合创新的训练方法和蒸馏技术来实现的，它不仅利用了其他模型的知识，还推进了这些模型在特定任务上的表现。然而，这个过程是基于对知识的转移和优化，而不是直接的提取或复制其他人的工作成果。

杀猪小哥 发表评论于 2025-01-26 15:34:00

中国有大量闲置劳动力，参与了幕后大量的计算工作，光草纸就用了帝国大厦那么高

骂人不好 发表评论于 2025-01-26 15:23:40

什么叫做信口开河，您定义一下？别人说的我不评价，我说的那一句是信口开河的？这里是人工智能的专家研讨会吗？有人规定学到多少，学到什么程度才能发言，才不算是不信口开河吗 ?

字母有大小写之分 发表评论于 2025-01-26 15:08:42

又放一颗卫星，又一个水稻亩产三万六千斤；天上有头牛在飞，那是共产党在地上吹

大猪头- 发表评论于 2025-01-26 15:08:09

所以还是文学城群众厉害，现在随着科技发展学习成本是很低，但是刚学就敢于信口开河指点江山也只有睿智的文学城群众能做到。

骂人不好 发表评论于 2025-01-26 14:49:42

哈哈哈，这就很搞笑了。任何人都可以发表自己的观点。现在的学习新知识的门槛是很低。只要你愿意学，几乎没有什么不是零成本就能学的。没有必要爹了娘的恶言相向。有不同的观点你就好好说，注意点素质。

ypb001 发表评论于 2025-01-26 14:22:36

原来AI的泡沫只值600万美元,却忽悠投资者几百上千亿美元

亚洲食肉动物 发表评论于 2025-01-26 14:18:00

等待党委入驻，一切模型跟党走

大猪头- 发表评论于 2025-01-26 14:16:13

文学城群众厉害的就是哪怕刚学了一点也不妨碍他们直接积极的以专家姿态批评中国，这种把咱爹当亲爹的坚定的立场，值得我们新移民好好学习。

novtim2 发表评论于 2025-01-26 14:02:50

现在所有人的模型都有改进空间。DEEPSEEK对已有模型的改进引入多专家模式，现在反过来看确实有其道理，因为一个精通政治的和一个精通化学的在根本上有其区别，这种多专家模式使得在精细化化学知识的时候不会损害模型的政治经济学能力。但是这显然还不是语言模型的终点，语言模型还在进化，DEEPSEEK的贡献显然是非同小可的。说实话如何从语言模型中获利任然是一个问题，一个能说会道的系统到底如何转换成服务换成钱？？？但是自动驾驶这些是显而易见的，你如果能做到，钱就在不远处。人形机器人也是，你能做到，钱就在哪里等你--

futufutu 发表评论于 2025-01-26 14:02:02

已经松手了？掐脖子就吹牛逼? 真正牛逼!
Earth_Rover 发表评论于 2025-01-26 10:53:33又自嗨了！一掐脖子就翻白眼，一松手就吹牛逼。

骂人不好 发表评论于 2025-01-26 13:51:49

我首先声明我不是做AI的，只是在油管和B站上看了一点点东西，有兴趣学，但是还完全不入门。

大猪头- 发表评论于 2025-01-26 13:38:06

跟据文学城专家的专业分析，好像只有deepseek能拿咱爹家的开源模型回家练习，咱爹家公司不能拿deepseek的开源模型回去同等处理一样。专家们对开源的理解的确站在了新的高度，是我从未达到的，不得不佩服。

supernova13 发表评论于 2025-01-26 13:37:00

关于DeepSeek，可以看这个视频 youtu.be/OC2J-0vlhy8

alextelltale 发表评论于 2025-01-26 13:34:00

李开复老师还是保守了一点，半年前说中国AI落后美国半年，难道美国这半年AI没进步？只是老黄芯片赚翻了。

大猪头- 发表评论于 2025-01-26 13:29:11

文学城论坛群众的学习能力又一次让我钦佩，这一下都成为AI专家指点江山了。

骂人不好 发表评论于 2025-01-26 13:05:17

现阶段使用ASIC的确有点早了。算法更新太快。现在的主流应该还是GPU和FPGA。

long10 发表评论于 2025-01-26 13:03:12

刚才用这两个平台对我现在的一个程序问题做了测试，给出的答案相互很像，让我惊讶的是，连错误地方的逻辑都一模一样。所以我觉得deepseek 大概就是个好的模仿，至于怎么做到的模仿，倒是人们可以关注的，而不是什么超越的问题。

ljcn 发表评论于 2025-01-26 12:57:13

"虽然可自由重複使用，但R1的开源开放程度仍受限，因为训练数据尚未公开" ---> 就这，意思是，别人无法重复你的工作，那基本只剩下炒作了。

wxcbug 发表评论于 2025-01-26 12:53:41

这也警示那些想用ASIC定制ＡＩ芯片的厂商，很可能花大价钱定制芯片后，一但模型发生变化，ASIC芯片就需要重新设计，在现阶段算法尚未成熟的情况下用ASIC会面临很大风险。

骂人不好 发表评论于 2025-01-26 12:52:44

大型模型会不会收集用户在使用模型是的数据，这个我存疑，因为如果不是公开的数据，AI公司悄悄地使用在模型训练中，估计会有大麻烦的。如果是那样，企业估计是不敢用的。

骂人不好 发表评论于 2025-01-26 12:46:37

中国强项在于工程项目落地，不在基础研究。中国理工科人才储备雄厚，所以估计也不打算超越，跟在后面超作业就挺好了。对于追求短期变现的思路是非常合适的。

换句话说就是让我先搞出来，可能不行。但是您先请，然后我来抄作业，搞出来个差不多的，甚至在个别方向上比你强一点的，那个我在行。如果我彻底掌握了，对不起，我就要走自己的路，让别人无路可走，除非你又走出了别的路。这一套都是在国家补贴和压榨劳动力的基础上卷出来的。真的值的提倡吗？

大头鱼001 发表评论于 2025-01-26 12:43:17

美国的大模型公司把模型公开或者是开源的给你用，是为了获取更多的训练数据。等他训练出更高级的就不给你用了。然后再怎么模仿? 现在走deepseek这种捷径只会让中美之间的大模型开发距离越来越大，一旦形成降维打击的优势，连翻身的机会都没有。

viBravo5 发表评论于 2025-01-26 12:35:26

DeepSeek类似文学城新闻取自各大新闻媒体，省去实地采访新闻的费用，可以做到“白菜价”。

以后如果各大新闻媒体不让文学城转载，法律规范齐全了，那怎办？

souledgeii 发表评论于 2025-01-26 12:32:15

将来区别是，用openai只能拿到世界知识库的一部分，毕竟压缩过的，美国大公司掌握的原始数据要多很多。对于大多数普通老百姓用AI应该足够了。推理部分跟数据关系不大，中国可能最大

没事逛逛88 发表评论于 2025-01-26 12:31:57

大头鱼001 发表评论于 2025-01-26 10:57:00通过蒸馏来获取的模型，想赶上应该不是很困难，但想超越几乎不可能
----------------------------------------------------------------------------------
为啥要超越？中国人最擅长的就是你开发出正版，而我用极小的代价仿出山寨版，然后大家一起卷死。

wd01702 发表评论于 2025-01-26 12:28:48

拿open ai 的模型，然后在特定领域做改良。所以有和open ai 相当，甚至某些测试领域超越的测试结果。有人曾问deepseek她的模型是什么，结果她直接回答是open AI。和open AI的回答一模一样。这个纰漏估计已经改了，但是已经漏了馅。不过能利用open AI，甚至在其上改良似乎也是本事，CNBC采访的专家确实表示震惊。

souledgeii 发表评论于 2025-01-26 12:28:01

总统都炒冥币了，赦免杀人犯，还有啥事儿美国干不出来？美国已经不是原来的美国，两党也不会纠错，尤其涉及到庄家利益的那部分

蓬莱阁21 发表评论于 2025-01-26 12:26:15

可以问包含敏感词的问题吗？

时不时来看看 发表评论于 2025-01-26 12:25:18

政企分开是中共改革开放初期经历的阵痛，现在美国毫不犹豫拿过来了，国会老爷不能过分干涉私有企业的发展

ca_lowhand 发表评论于 2025-01-26 12:25:00

ds在模型性能上估计只有GPT的八九十。但不重要，重点是低成本低算力。就像特斯拉成本四万售价五万，仿制车成本四千售价三万，能有特斯拉百分之九十性能，哪个更有商业前途。

时不时来看看 发表评论于 2025-01-26 12:24:05

Nvidia好东西得多卖，不然利润上不去，研发得落后，领先差距得缩小，本来那东西就是人+AI设计做出来的

FreeEnergy95 发表评论于 2025-01-26 12:22:34

“ChatGPT据报需要一万台英伟达（Nvidia）的图像处理器处理训练数据，DeepSeek工程师称他们仅用2000台图像处理器就取得相同结果。”

如果这是真的，硬件只有1/5，而总的成本只有1/30，工程师的差异还是蛮大的

--------------------------------------------

成本除了 GPU 数量外，不应该还有时间么

评论: 中国AI“刷屏”硅谷 性能比肩OpenAI 成本仅1/30

评论: 中国AI“刷屏”硅谷性能比肩OpenAI 成本仅1/30