评论:中国用“蒸馏术”构建OpenAI竞争模型？专家:难制止

TXZS 发表评论于 2025-01-31 06:42:47

“有证据表明DeepSeek使用OpenAI专有模型来训练自己的模型，并暗示这可能违反了OpenAI服务条款。美商务部长提名人卢特尼克指责DeepSeek似乎盗用了美国的人工智能技术。新闻可靠性评级机构NewsGuard 称，Deepseek-V3识别假新闻只有17%的准确率。”

不矛盾吗？前面说DS偷了OpenAI的技术，后面又说准确率差，到底偷了没有？还是OpenAI也很差，造成了DS差？

真环发表评论于 2025-01-31 06:35:46

中国就是美国的蒸馏器，哪止AI。

xiaoxiao雨 发表评论于 2025-01-31 06:34:28

nobody wants to be a rat.

橡皮潜艇 发表评论于 2025-01-31 06:30:43

DS这几天这么“轰动”，可以想象对它的处理也会很轰动。出来混要还。

橡皮潜艇 发表评论于 2025-01-31 06:24:14

openai哪怕有100个官司等着它，也丝毫不减DS的guilty，该怎么样还是会怎么样。

ajaychen_2024 发表评论于 2025-01-31 06:23:00

这个是有联系的类似案例，OPEN AI 不敢将DS告上法庭，否则这些案例会被他的其他官司的原告反过来告他，那这赔款可多得多。

橡皮潜艇发表评论于 2025-01-31 06:16:11一码归一码，别捣浆糊

橡皮潜艇 发表评论于 2025-01-31 06:16:11

一码归一码，别捣浆糊

ajaychen_2024 发表评论于 2025-01-31 06:12:16

那open AI 的六个官司正在等着它呢，谁先吃瘪还不一定呢

橡皮潜艇发表评论于 2025-01-31 05:54:58ln2020 发表评论于 2025-01-31 05:49:03 天下AI一大抄，如果来源都付版税，连OpenAI也早破产百遍不止了:)
DS贡献主要在算法。
…
DS的所作所为明显违反了openai关于共享的T@C，等着吃告

橡皮潜艇 发表评论于 2025-01-31 05:57:28

别把普通用户的共享和商业竞争混为一谈

橡皮潜艇 发表评论于 2025-01-31 05:55:36

terms@conditions

橡皮潜艇 发表评论于 2025-01-31 05:54:58

ln2020 发表评论于 2025-01-31 05:49:03 天下AI一大抄，如果来源都付版税，连OpenAI也早破产百遍不止了:)
DS贡献主要在算法。
…
DS的所作所为明显违反了openai关于共享的T@C，等着吃告

ajaychen_2024 发表评论于 2025-01-31 05:49:06

行了行了，你说是就是了，ok

橡皮潜艇发表评论于 2025-01-31 05:46:04你一人一家，别扯别人

ln2020 发表评论于 2025-01-31 05:49:03

天下AI一大抄，如果来源都付版税，连OpenAI也早破产百遍不止了:)
DS贡献主要在算法。

橡皮潜艇 发表评论于 2025-01-31 05:46:04

你一人一家，别扯别人

ajaychen_2024 发表评论于 2025-01-31 05:40:23

是是是，你说是就是，咱们是一家的，高兴了吧？

橡皮潜艇发表评论于 2025-01-31 04:55:55ajaychen_2024 发表评论于 2025-01-31 04:51:12 哈哈哈，虽然我比较倾向认同他们观点，但是，你猜错了。

橡皮潜艇发表评论于 2025-01-31 04:47:28ajaychen_2024 发表评论于 2025-01-31 02:55:36
…

广而告之：这个就是“相信事实”，更前也叫“八戒”的另一个马甲。
大家应心中有数。
…
你就是。烧成灰也跑不了

亚洲食肉动物 发表评论于 2025-01-31 05:28:00

想起很多年前一个神人搞的bi Google du。输入搜索词后，屏幕一分两块，一边Google，一边百度。这个网站大概活了一年多，被封了

橡皮潜艇 发表评论于 2025-01-31 05:21:28

意大利数据保护局1月30日宣布立即封锁deepseek在意应用

smart321 发表评论于 2025-01-31 05:12:44

中国总是研究别人的技术和数据库想从中快速的获得自己需要的东西，这就是模仿，模仿有可能接近但永远无法超越，这种投资和发展在很多国家看来是没有意义的，因为你无法得到广泛市场的认同无法获得利益，而且还有法律诉讼。但是中国有意义，因为中国是一个封闭市场，国外AI 应有无法在中国使用，而中国这些山寨的东西就能获得市场和利益，他们并不想到国际上发展

橡皮潜艇 发表评论于 2025-01-31 04:55:55

ajaychen_2024 发表评论于 2025-01-31 04:51:12 哈哈哈，虽然我比较倾向认同他们观点，但是，你猜错了。

橡皮潜艇发表评论于 2025-01-31 04:47:28ajaychen_2024 发表评论于 2025-01-31 02:55:36
…

广而告之：这个就是“相信事实”，更前也叫“八戒”的另一个马甲。
大家应心中有数。
…
你就是。烧成灰也跑不了

ajaychen_2024 发表评论于 2025-01-31 04:52:47

英伟达(NVDA)今天(31日)早上发表最新消息，表示NVIDIANIM已经可以使用DeepSeek-R1。
英伟达官网发文表示，DeepSeek-R1是一个具备最先进推理能力的开放模型。与其直接提供回应，像DeepSeek-R1这样的推理模型会对查询进行多次推理处理，使用连锁思维、共识和搜寻方法来生成最佳答案。
文章中指出，为了帮助开发者安全地试验这些功能并构建他们自己的专门代理，
DeepSeek-R1模型现在可作为NVIDIANIM微服务预览版上使用。开发者可以测试和试验应用程序介面(API),该介面预计将很快作为可下载的NIM微服务提供，这是NVIDIAAI Enterprise软件平台的一部分。

ajaychen_2024 发表评论于 2025-01-31 04:51:12

哈哈哈，虽然我比较倾向认同他们观点，但是，你猜错了。

橡皮潜艇发表评论于 2025-01-31 04:47:28ajaychen_2024 发表评论于 2025-01-31 02:55:36
…

广而告之：这个就是“相信事实”，更前也叫“八戒”的另一个马甲。
大家应心中有数。

橡皮潜艇 发表评论于 2025-01-31 04:47:28

ajaychen_2024 发表评论于 2025-01-31 02:55:36
…

广而告之：这个就是“相信事实”，更前也叫“八戒”的另一个马甲。
大家应心中有数。

ajaychen_2024 发表评论于 2025-01-31 02:55:36

楼下的表明美国的远程养殖业还是遥遥领先啊，中国果然是永远也赶不上。在美国网上各平台，大部分英文的评论都是比较客观的，大部分肯定DEEPSEEK的实力和真实性，而一边倒抹黑逢中必反的大部分来自中文用户，尤其是公知高华恨国党和1450团体。说一个开源的模型是抄袭是有多低的智商。

deepseek比其他模型更高效的其中一个主要原因是因为用中文语言作为大模型训练底层结构，中文比英文的信息量高出一个数量级，这也是DS高效的原因之一

会当凌绝顶1 发表评论于 2025-01-31 01:55:00

网友评论、网友文字如下。

问题的关键是，在如此短的时间里，如此低成本，DeepSeek是怎么做到的？

业内普遍认为：DeepSeek的迅速崛起，皆因不光彩地违规非法蒸馏、偷窃数据、盗用、“山寨”、“整合”他人的模型所致。

彭博社28日报道，微软和OpenAI正在调查与DeepSeek有关的人，他们在2024年秋天就发现，有人用不正当的手段通过OpenAI的API输出了大量数据，他们或与DeepSeek有关。

英国的金融时报也于28日报道，OpenAI表示，他们已掌握了证据，证明DeepSeek涉嫌利用所谓的“蒸馏”（distillation）技术盗用其数据进行开发。

对此，业外人士不免感到困惑，因为开发人员是可以通过付费购买许可证的方式，来使用API将OpenAI的专有AI模型集成进自己的应用程序中，这难道不合法？

况且，OpenAI不是鼓励用户大量使用它的模型和数据吗？

既如此，何来不正当、非法、违规和盗用一说呢？

问题的核心在于：你是怎么利用这些资源的。

OpenAI在开放自己的数据和应用时，并不是无条件开源的，它是有明确的限制条款的。

换句话说，OpenAI的开放前提是说：你可以使用我的训练数据，在我的训练模型基础上，来开发完成你所需要的各类应用，而非是以构建自己的训练模型为目的，达到未来与我竞争的目的。

而所谓的“蒸馏”技术，正是利用像OpenAI这样的功能强大的大模型，以及通过长期投入所积累而成的大数据，来训练属于自己的较小模型，通过“蒸馏”浓缩的方式，在自己的模型上，以更低的成本、更短的时间取得更好的效能。

这在OpenAI的开放限制条款中，明显是违法的。

这，或许才是DeepSeek之所以能够在短时间内，以极低的成本达到可与OpenAI比肩的真正原因。

更进一步，美国人认为，有关中国实体企业在通过“蒸馏”技术训练自己模型的同时，还窃取了大量数据，而这些数据有可能对美国的安全构成威胁。所以不少人对于这种潜在的侵权行为，以及所带来的安全问题深表担忧。

也许有人会争辩，你凭什么说DeepSeek是盗用、抄袭？有证据吗？有！大量证据！

DeepSeek的很多回答，与人们向OpenAI提问所得到的回答一模一样！也就是说，DeepSeek真正的原始数据来源，就是OpenAI的数据库。

仅仅改变提问方式就使得抄袭者原形毕现，可不可以抄袭得高明一点，不要这么赤裸裸！

据说胡锡进也看不下去了，不惜站出来洗地，意思是孔乙己的那句话：窃书者不能算是偷。

结果成了越描越黑，这等于承认了偷的行为。

说到这种行为，美国人有治吗？

答案是：好像没有。

如果像类似DeepSeek这样的事发生在美国或英国，如此高调的宣传，以及如此有影响的公司和事件，这足以将你送上法庭，不罚你个底儿掉就不算完。

但是在别国，情形可能完全不同。不但不会感到耻辱，而且会被视为一种爱国行为，能够获得亿万个点赞！

这分明就是两个平行世界！

从小在学校就被告知：天下文章一大抄！只要你抄的，水平高，抄的艺术，不但不会影响到你的信用，而且会成为人人羡慕的英雄！

看看某些人甚至很多人，诡辩，狡辩，小偷逻辑，不以为耻，反以为荣！

京西观察使 发表评论于 2025-01-31 01:32:30

对，支持用大棒揍它
—//—
TitaniumAtlas 发表评论于 2025-01-30 23:29:31
违反用户协议，这就是盗窃行为，美国政府不可能袖手旁观，大棒落下只是时间问题

ajaychen_2024 发表评论于 2025-01-31 00:49:42

微软一边说ds偷数据，一边又将ds加入自己的客户的AI资源库中，是几个意思啊？

微软 CEO Nadella 称赞 DeepSeek，并将其提供给客户在 Azure AI Foundry 上使用
微软公司 CEO Satya Nadella 对中国人工智能初创公司 DeepSeek 表示了积极评价。该公司最近推出的开源人工智能模型 R1 引起了美国科技界的广泛关注，令微软的股价大跌。

***view.inews.qq***/k/20250131A00SB800?web_channel=wap&openApp=false

TitaniumAtlas 发表评论于 2025-01-30 23:29:31

违反用户协议，这就是盗窃行为，美国政府不可能袖手旁观，大棒落下只是时间问题

TitaniumAtlas 发表评论于 2025-01-30 23:27:53

楼下的就别胡搅蛮缠了，数据蒸馏是一个技术术语，不是你理解的大箩筐，open ai蒸馏哪一家ai的数据了？

size0 发表评论于 2025-01-30 22:32:59

这种大语言模型训练出来的AI不都是靠相互蒸馏成就的吗？我们用AI搜索难道不是一种数据蒸馏？！凭什么给中国公司扣帽子？人家技术行就是行！DeepSeek的最大不问题不是技术以及如何通过学习Open AI发展自己技术的问题，而是它的产品会不会被中国以外市场，特别是外国科技公司以及政府部门信任的问题。华为在欧美市场份额的迅速消失难道不是信任问题造成的？跟技术以及华为技术怎么来的有关系吗？！

竞选发表评论于 2025-01-30 22:02:41

喜欢折腾发表评论于 2025-01-30 21:38:31奇怪，如果中国的什么“蒸馏术”是偷用你的，那你为什么不早点用中国的这个“蒸馏术”呢？你也是承认这个术管用了？
---------
OpenAI一直在用，他们的chatGPT就是这样从低版本一步一步更新到了现在的版本。他们可以这样做，因为他们有权利这样做，都是自己的模型，不存在侵犯版权问题，他们有比“蒸馏法”更直接、快速、低成本的做法。但其它公司这样做构造自己的产品，就违法了。

虽然OpenAI更新其chatGPT版本的成本很低，但他们不能像DS那样低价向用户提供服务，因为OpenAI在初始开发chatGPT低版本时投入巨大。DS则没有这个初期成本，所以他们可以以低价向用户提供服务，从而以低价打败chatGPT.

tudoutudou99 发表评论于 2025-01-30 21:53:28

很快就有另外一家公司花50万元建成模型，怎么做到的？
直接花钱买通 DeepSeek 的工程师，最省钱，最快捷

喜欢折腾 发表评论于 2025-01-30 21:38:31

奇怪，如果中国的什么“蒸馏术”是偷用你的，那你为什么不早点用中国的这个“蒸馏术”呢？你也是承认这个术管用了？

真想发言 发表评论于 2025-01-30 21:05:02

地球人都呼吸了美国人呼吸的空气，大家把美国空气给“隔离”了吧，免得地球人都盗窃了美国的空气

Maui2021 发表评论于 2025-01-30 20:44:03

你估计还支持200斤，人类命运共同体。

luting 发表评论于 2025-01-30 20:27:04应该鼓励各个模型之间的互相学习比较，谈不上盗窃数据，如果这也算盗窃，OpenAI从各大网站和书本上学习就更算了。我支持开源，不相信被有钱人大公司操纵的AI，尤其是OpenAI。建议改名CloseAI,把OpenAI商标送给Deepseek, 不用挂羊头卖狗肉。

tony0101 发表评论于 2025-01-30 20:38:00

类似于一个搜索引擎其实是跑去google搜索

天乙贵人 发表评论于 2025-01-30 20:32:10

这个很简单，如果一个ip address连续调用openAI的api3个小时以上，就把它列入黑名单，把它断开。

luting 发表评论于 2025-01-30 20:27:04

应该鼓励各个模型之间的互相学习比较，谈不上盗窃数据，如果这也算盗窃，OpenAI从各大网站和书本上学习就更算了。我支持开源，不相信被有钱人大公司操纵的AI，尤其是OpenAI。建议改名CloseAI,把OpenAI商标送给Deepseek, 不用挂羊头卖狗肉。

TitaniumAtlas 发表评论于 2025-01-30 19:47:33

要是墙国产生了这种路径依赖那长期影响会是灾难性的。
至于防范方法，应该是非常困难，类似于防病毒。

小毛er 发表评论于 2025-01-30 19:36:22

竞选发表评论于 2025-01-30 19:16:39只要供人用，就可能被利用。

是否可以限定使用次数，每天20次。
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
没有用的。他们可以用１百万个假用户。每个假用户每天问２０个问题。那就是每天２千万条训练数据了。

llq中美18 发表评论于 2025-01-30 19:26:00

似乎怀疑可能

竞选发表评论于 2025-01-30 19:16:39

只要供人用，就可能被利用。

是否可以限定使用次数，每天20次。

评论: 中国用“蒸馏术”构建OpenAI竞争模型？专家:难制止