评论:OpenAI称有证据显示DeepSeek存在侵权行为

旁观者XWY 发表评论于 2025-01-29 18:50:00

model distillation 是一种模型训练方式。它需要一个更多参数的大模型作为输入，训练一个参数少的小模型。就像老师教学生，学生青出于蓝而胜于蓝也是有的。

旁观者XWY 发表评论于 2025-01-29 18:35:00

衡山老道话说的太满，文学城里众人皆知。边上等得抓耳挠腮，发言又被人嘲笑。

蓝天大地 发表评论于 2025-01-29 17:55:51

哈哈哈哈哈，是，正在学。以后的打算是米国住大半年，日本住小半年。

------------------------------------------------

驻日评论员发表评论于 2025-01-29 17:25:35好奇问一下，蓝天大地网友也会日文么？
大统领是日语中对美国（还有韩国）总统的称呼，
其权限比总统这个称呼的要大（比如台湾的总统）。。

你来我往 发表评论于 2025-01-29 17:41:38

既然有证据证明偷窃，那就出示证据走法律程序，还等什么？人家开源免费下载，又说是为了获取个人数据。那其它开源的模型或应用程序又是为了什么？似曾相识的套路已在路上。反正你不能比我好，否则要么是偷，要么是心怀不轨。偷笑不止！

驻日评论员 发表评论于 2025-01-29 17:25:35

好奇问一下，蓝天大地网友也会日文么？
大统领是日语中对美国（还有韩国）总统的称呼，
其权限比总统这个称呼的要大（比如台湾的总统）。。

硅谷工匠 发表评论于 2025-01-29 16:29:34

In USA a lawyer trumps the president at any time. This is crazy.

麦迪拉 发表评论于 2025-01-29 16:10:46

查一下，哪家美国AI 公司现在没有侵权官司

Maui2021 发表评论于 2025-01-29 15:28:03

用不着拍华人马匹。小偷就是小偷。你们干的事情，大家不背锅。

山老道发表评论于 2025-01-29 10:54:12若按种族划分，华人在AI领域远超其他种族，无论是在在顶级会议的论文数，还是在主要玩家中核心科技人员数。
国内的AI水平和美国差别不大，在顶级会议上的论文也仅次于美国，若把美国华人除外，美国毫无优势。

骂人不好 发表评论于 2025-01-29 14:29:39

刚才查了一下，在意大利下架好像还是收集个人数据的数据安全的原因。

骂人不好 发表评论于 2025-01-29 14:22:58

哈哈哈，这事打成了一锅粥。前两天还说让子弹飞一会，这么快就破防了？

这里肯定有真懂AI的，不过多数应该都是初学者。不过还是让子弹再飞一飞。如果这么快就破防，人就丢大了。

会当凌绝顶1 发表评论于 2025-01-29 13:19:43

楼下“衡山老道”骂街，证明他自己才是一个AI盲、GPT盲，顶多一知半解！
+100

搞笑蓝天大地发表评论于 2025-01-29 12:39:19
衡山老道，这就是你的不对了。你没看伯克利计算机博士专家们的分析吗。您也是这方面的专家？那就拿出您的专业知识反驳呗，别啥都没说的瞎逼逼了。

不过呢，您在城里的名声是太差了，几乎没有人相信您的话。这个是因为您的嘴巴比鸭子还硬，输了或说错话了也坚决不承认。您说您还有啥信用。

我是川黑，还是个深度川黑。但这并不妨碍我接受他做总统，也不妨碍我承认我被那个狗屁Selzer民调误导了，更不妨碍我赞同川普的一些政策，比如所反变性和同性恋法案，反非移法案（我只是反对大规模抓捕而已）等等。大家都知道我对大加州和华盛顿州的态度，但并不妨碍我骂加州大小官员是狗官啊。现在我还是看大统领极为不顺眼呀，一样的想骂就骂。这又没有什么关系的。

您当初误测了博洛西的事情，说了个重誓。出来跟道个歉，说您错了，很难吗？要不您换个马甲也行啊。这样至少在这里您说的话好歹也值个五毛钱，您说是不？

啊哈哈哈哈哈哈哈。

会当凌绝顶1 发表评论于 2025-01-29 13:15:48

最新：突发！Deepseek已经从意大利的苹果商店和谷歌商店下架

破棉袄 发表评论于 2025-01-29 12:58:05

隐含的完整故事应该是这样的：一个中国大厂（可能是抖音），订阅企业版的ChatGPT，用其API没日没夜的问问题，记录答案，用这些问题和答案训练“自己的”大模型。去年这种方法被OpenAI发现了，终结了其使用ChatGPT账户。大厂自己不敢发表如此搞出来的大模型，害怕吃官司，被索赔，但是抱在怀里又心有不甘，就找个十分失败的小公司（幻方，开发AI炒股软件，让他的客户亏掉裤子）当壳，去发表这个模型，看看外界的反应。如果反应好，以后自己就放手干。如果招致诉讼，制裁，索赔等糟心事，就由幻方这个破公司扛着，大不了倒闭关门。

蛋蛋88 发表评论于 2025-01-29 12:57:11

这不是废话吗，互相用对方结果早就是LLM最常见的操作，早些时间你问Bard/Gemini 问题Google的模型照样说自己是OpenAI, baidu最开始也一样，行业标准操作没什么奇怪的。CloseAI在这里指认侵权有些搞笑

蓝天大地 发表评论于 2025-01-29 12:39:19

衡山老道，这就是你的不对了。你没看伯克利计算机博士专家们的分析吗。您也是这方面的专家？那就拿出您的专业知识反驳呗，别啥都没说的瞎逼逼了。

不过呢，您在城里的名声是太差了，几乎没有人相信您的话。这个是因为您的嘴巴比鸭子还硬，输了或说错话了也坚决不承认。您说您还有啥信用。

我是川黑，还是个深度川黑。但这并不妨碍我接受他做总统，也不妨碍我承认我被那个狗屁Selzer民调误导了，更不妨碍我赞同川普的一些政策，比如所反变性和同性恋法案，反非移法案（我只是反对大规模抓捕而已）等等。大家都知道我对大加州和华盛顿州的态度，但并不妨碍我骂加州大小官员是狗官啊。现在我还是看大统领极为不顺眼呀，一样的想骂就骂。这又没有什么关系的。

您当初误测了博洛西的事情，说了个重誓。出来跟道个歉，说您错了，很难吗？要不您换个马甲也行啊。这样至少在这里您说的话好歹也值个五毛钱，您说是不？

啊哈哈哈哈哈哈哈。
------------------------------------------------
衡山老道发表评论于 2025-01-29 12:12:02一帮SB科盲，还班门弄斧，充当专家。

衡山老道 发表评论于 2025-01-29 12:16:18

BMC：这个更可笑。有很多专门做性能测试和比较的专家，DS在数学等方面略超OAI，这是能抄的？

衡山老道 发表评论于 2025-01-29 12:12:02

一帮SB科盲，还班门弄斧，充当专家。

衡山老道 发表评论于 2025-01-29 12:10:54

TitaniumAtlas ：
你是典型的不懂装懂。没有原来的知识库，怎么提取好的数据集？怎么保证提取的数据集不丢失主要特征？

小毛er 发表评论于 2025-01-29 12:09:39

是不是蒸馏OpenAI看下他的模型代码就知道了。不是开源的吗？应该很容易看得出来。

会当凌绝顶1 发表评论于 2025-01-29 11:59:20

+100
TitaniumAtlas 发表评论于 2025-01-29 11:49:40
数据集蒸馏旨在从大规模数据集中提取关键信息，生成一个小型合成数据集，使得在该小型数据集上训练的模型能达到与原始大数据集相当的性能。这种方法不仅降低了存储需求，还提高了训练效率。
这需要开源模型？
xx就是借用了openai的第一步，也是耗资最大最复杂的一步。

BMC 发表评论于 2025-01-29 11:54:21

衡山老道发表评论于 2025-01-29 10:40:45
ChatGPT4不开源，DeepSeek 如何拿到模型？没模型如何蒸馏？
===================
DeepSeek 并不是直接取用OpenAI 的原始数据库，而是直接取用ChatGPT回答用户的答案。例如，如果你问ChatGPT 一加一等于多少，它会从它的数据库先取第一个”1”, 再取一个”+”, 再取第二个”1”, 再取一个”=“, 然后根据小学数学书教的方法计算出结果是”2”. 最后它给出用户答案是 1+1 = 2。有一个网站 ShareGPT专门收集ChatGPT回答用户的答案，它是公开的。DeepSeek 就是从这个网站还有其它来来源收集ChatGPT答案作为自己的数据库来训练。如果你问它一加一等于多少，它不会跟你算，而是直接使用ChatGPT已经算好了的1+1 =2 回答用户。它本身并不需要象ChatGPT那样计算，而是直接用它的计算结果。

cacu 发表评论于 2025-01-29 11:47:00

集体诉讼Open AI侵权。免费无节操抓取互联网内容聊天室内容

衡山老道 发表评论于 2025-01-29 11:45:11

TitaniumAtlas：你这SB做我的学生都不够格。

衡山老道 发表评论于 2025-01-29 11:24:44

赢家—》硬件

衡山老道 发表评论于 2025-01-29 11:24:03

国内由于赢家的原因，就把注意力放在如何减少训练时间上，搞出各种优化不奇怪。现在的大模型太原始，必须要有更好的模型。但短期内提出更好的模型不现实，在现有模型上做各种优化，减少参数个数，减少训练时间，是可行的。

衡山老道 发表评论于 2025-01-29 11:15:43

蓝天大地: 你不懂就不要瞎BB，即使用OpenAI最新模型蒸馏，也不可能蒸馏出性能还略胜原模型的小模型。

TXZS 发表评论于 2025-01-29 11:11:18

楼下有人说

有人问deepseek：你叫什么名字?
deepseek回答：我叫chatgpt。

自己试试不就知道了吗？

整天人云亦云，散播谣言，有意思吗？

蓝天大地 发表评论于 2025-01-29 11:10:45

你急什么。事情太反常了就必有妖。你忘记当初汉芯刚发布时的全面皆嗨的时候了？汉芯当时可是遥遥领先的。。。。。。

啊哈哈哈哈哈哈。

TXZS 发表评论于 2025-01-29 11:06:09

“消息人士称，微软安全研究人员在2024年底发现大量数据通过OpenAI开发者账户被泄露，微软公司认为这个账户与DeepSeek存在关联。”

2024年底发现，现在才披露？！等什么呢？

证据在哪儿呢？晒出来让大家开开眼？

蓝天大地 发表评论于 2025-01-29 11:04:26

傻逼毛毛都看不懂英文吗？不知道不开源的东西也可以偷吗？不知道拿数据是合法的但是要签协议的吗？不知道OpenAI和MSFT说已经有证据了吗？

你们用你们的脚趾头想一下，6百万不用大型数据模型能够打败几百亿的利用数据模型的ChatGpt吗？你们不读世界排名第一的伯克利大学软件工程博士的分析吗？

就问一个问题，你们为什么那。么。蠢。？

衡山老道 发表评论于 2025-01-29 10:54:12

若按种族划分，华人在AI领域远超其他种族，无论是在在顶级会议的论文数，还是在主要玩家中核心科技人员数。
国内的AI水平和美国差别不大，在顶级会议上的论文也仅次于美国，若把美国华人除外，美国毫无优势。

衡山老道 发表评论于 2025-01-29 10:45:08

以前开源的，原模型的性能都不行，能蒸馏出性能还超过OpenAI的最新模型？
一帮反共反华的NC不学无术，只知道喷粪。

luting 发表评论于 2025-01-29 10:40:59

竞选发表评论于 2025-01-29 09:38:19我初步理解，deepseek就是在chatgpt的基础之上再做些修改（进一步学习）而得到的模型。模型迭代是一种改进模型的常用手段，chatgpt4就是openai多次迭代chatgpt初始版本后的结果

##################################3
第一，你可以对deepseek修改提高，公司也允许你这么做，但是对不起，ChatGPT没有开源，除非有证据显示他们盗取了ChatGPT源代码和Weight；
第二，两个模型完全不同，CHATGPT比DEEPSEEK大很多
第三，你让CHATGPT自己再训练一遍，看看需要花费多少算力，你自己都做不到。当然，你可以从犄角旮旯找出侵权不分，这对任何两个竞争产品都不难

衡山老道 发表评论于 2025-01-29 10:40:45

竞选发表评论于 2025-01-29 09:48:11 硅谷工匠发表评论于 2025-01-29 09:27:52有一点道理，但是没有任何证据。
-----------
证据是：

有人问deepseek：你叫什么名字?
deepseek回答：我叫chatgpt。
～～～～～～～～～～～～～～～
只有你这种科盲才会相信这种低级谣言。
说DeepSeek用蒸馏技术把OpenAI的模型缩小，是典型的无知言论。ChatGPT4不开源，DeepSeek 如何拿到模型？没模型如何蒸馏？

TMD，一帮科盲瞎BB。

luting 发表评论于 2025-01-29 10:33:41

可以理解，干不过，只能用法律手段了给你设绊脚石。

groogle 发表评论于 2025-01-29 10:28:27

除了偷就是骗哈哈哈老一套了所谓的不吃那一套

爱阅读的人 发表评论于 2025-01-29 10:26:00

只能用这个方式来打对方了

硅谷工匠 发表评论于 2025-01-29 10:22:50

天下文章一大抄，现在有了律师。

Maui2021 发表评论于 2025-01-29 10:17:10

deepseek崩塌的有点快。哈哈。

benzihex 发表评论于 2025-01-29 10:06:29

现在业内专家都在做分析。论文，模型都是公开的。OpenAI说管屁用。他用偷来的数据，做出闭源的模型。大家都想看他出糗呢。

竞选发表评论于 2025-01-29 10:04:55

有人在YouTube上发表演讲，题目为“Deepseek錯報家門: 我是chatGPT4?! 揭秘Deepseek身世: 官方論文有真相! 低廉成本是騙局?!”：

youtu.be/1O0_lrqtVCY?si=WYJG6JuW56m6jq0o&t=150

演讲者本人亲自出面，那就是敢于为她演讲的内容负法律责任的意思。

竞选发表评论于 2025-01-29 09:48:11

硅谷工匠发表评论于 2025-01-29 09:27:52有一点道理，但是没有任何证据。
-----------
证据是：

有人问deepseek：你叫什么名字?
deepseek回答：我叫chatgpt。

会当凌绝顶1 发表评论于 2025-01-29 09:46:33

新闻1: OpenAI称有证据显示DeepSeek存在侵权行为。OpenAI在最新声明中表示，“我们知道（中国）的公司以及其他公司正在不断尝试从美国领先人工智能公司的模型中提炼（它们需要的东西）。”
新闻2: DeepSeek窃取OpenAI数据？微软正展开调查。

假设，如果，我说的是“如果”，个别人模仿抄袭、偷偷摸摸，难免遭到大家质疑！
依靠“不明不白”数据、非国际原创算法、非革命性优化、后发AI开源、修、补、“不明不白”数据、白菜价，等等，并不能说明实质和关键问题！
塞克斯说：「很多证据显示，DeepSeek从OpenAI的模型中进行知识蒸馏。OpenAI应该不太高兴。」
AI独角兽Scale AI 执行长 Alexandr Wang日前受访时踢爆，Deepseek拥有大约5万个辉达最先进的H100 GPU，且拥有的数量比外界想像的更多。
　　美国AI新创公司Scale AI 执行长 Alexandr Wang 日前接受CNBC采访接爆料，Deepseek拥有大约5万个英伟达最先进的H100 GPU。
　　米尔斯说，这是一场打地鼠游戏。
　　耶鲁大学管理学院副院长索南菲尔德（Jeffrey Sonnenfeld）也告诉CNN， DeepSeek崛起要嘛是“史普尼克时刻”（Sputnik Moment）时，要嘛是波坦金时刻（Potemkin Moment）。亦即，DeepSeek可能带来真正的破坏性，也可能是欺骗性的，依赖于出口制裁之前囤积的辉达芯片和其他芯片。

硅谷工匠 发表评论于 2025-01-29 09:46:10

蓝天和大地丝毫不反对你的意见。只是，那些画画的软件都是偷原作然后篡改。没人全干净

湾区范儿 发表评论于 2025-01-29 09:43:52

别忘了中国十多年前还研制成最先进的汉芯芯片,结果却揭露出来是骗局。

蓝天大地 发表评论于 2025-01-29 09:43:28

这不就是拿着我幸幸苦苦做出来的3D地球模型，然后在澳洲上面多加点森林，让整个球变得更好看一些吗？没有老子的球，你能做出这个让澳洲更绿的球吗？（哈哈哈，怎么觉得这么拗口）

啊哈哈哈哈哈哈哈。

蓝天大地 发表评论于 2025-01-29 09:39:27

兄弟，知道用OpenAI的数据是要签协议的不？协议上明确规定不能用来做某事而你还是做了，不就是偷吗？chapgpt从垃圾掩埋场所去全部数据，您是怎么知道的？再退一步说，您知道哪个垃圾掩埋场有这种协议要签的吗？大家都偷，不表示偷就是对的呀。更何况还远远不是大家都偷呢。

洗这种地没有意思哈。

------------------------------------------------
硅谷工匠发表评论于 2025-01-29 09:27:52

竞选发表评论于 2025-01-29 09:38:19

我初步理解，deepseek就是在chatgpt的基础之上再做些修改（进一步学习）而得到的模型。模型迭代是一种改进模型的常用手段，chatgpt4就是openai多次迭代chatgpt初始版本后的结果。这种迭代由openai自己做没有问题，但是别的公司利用openai的模型去做迭代获得的模型，就是剽窃行为，相当于拿别人的论文做些修改后当作自己的论文送去发表。

ca_lowhand 发表评论于 2025-01-29 09:37:00

ds也知道自己是偷数据行为所以直接开源了。但他也给商业用户收费来盈利，所以的确是有侵权行为。

硅谷工匠 发表评论于 2025-01-29 09:27:52

有一点道理，但是没有任何证据。chapgpt从垃圾掩埋场所去全部数据，别人用精炼的数据训练模型。没毛病。大家都会这样干。

评论: OpenAI称有证据显示DeepSeek存在侵权行为