评论:DeepSeek窃取OpenAI数据？微软正展开调查

真环发表评论于 2025-01-29 16:48:48

DeepSeek可以承认成本比openAI 高1/30. 哈哈

硅谷工匠 发表评论于 2025-01-29 16:36:42

现在应该很像村村大炼钢铁的时代，每个村都互相藏着掖着。其实最后都是扯淡。只有律师最忙。

泥川发表评论于 2025-01-29 15:06:08

DeepSeek R1 是 Deepseek 套件中更大、更智能的模型，它被提炼到 Llama 70B 架构中，基于基准和人工评估，它比原来的 Llama 70B 更智能，并且在需要数学和事实精度的任务上表现尤为出色。

泥川发表评论于 2025-01-29 15:03:43

Llama 3.3 70B 是一款Meta（FaceBook）开发的AI大模型。

泥川发表评论于 2025-01-29 14:56:37

有样学样，大家正在向deepseek学习。

使用 DeepSeek-R1 生成的样本对 Llama 3.3 70B 进行微调的版本，现已在 GroqCloud™ 上线，用于即时推理，已为该模型启用了完整的 128k上下文窗口。您可以在console.groq***上试用。

硅谷工匠 发表评论于 2025-01-29 14:02:28

西屋是西屋自己建的。GE是爱迪生拿摩根的钱造的但是爱迪生被出局。这个历史很详细。

Bluelight涨停突击队 发表评论于 2025-01-29 13:53:58

木秀于林，“疯"必摧之？

北美小镇 发表评论于 2025-01-29 13:43:02

一个常识：Westinghouse和GE都是从同一家爱迪生的公司分拆的，所以那个灯泡还是爱迪生的。

硅谷工匠发表评论于 2025-01-29 11:37:05所有技术就是一层窗户纸。懂行的一看就懂。剩下就是律师的工作了。即使芝加哥1893世界博览会上的灯泡也不是爱迪生公司的而是西屋的。中国队能打到季后赛，对美国队只有好处。起码印度MBA每天都要说China.

会当凌绝顶1 发表评论于 2025-01-29 13:14:39

最新：突发！Deepseek已经从意大利的苹果商店和谷歌商店下架

破棉袄 发表评论于 2025-01-29 13:14:21

隐含的完整故事应该是这样的：一个中国大厂（可能是抖音），订阅企业版的ChatGPT，用其API没日没夜的问问题，记录答案，用这些问题和答案训练“自己的”大模型。去年这种方法被OpenAI发现了，终结了其使用ChatGPT账户，大厂就转战微软，从微软那里继续吊用ChatGPT API。大厂自己不敢发表如此搞出来的大模型，害怕吃官司，被索赔，但是抱在怀里又心有不甘，就找个十分失败的小公司（幻方，开发AI炒股软件，让他的客户亏掉裤子）当壳，去发表这个模型，看看外界的反应。如果反应好，以后自己就放手干。如果招致诉讼，制裁，索赔等糟心事，就由幻方这个破公司扛着，大不了倒闭关门。

破棉袄 发表评论于 2025-01-29 13:13:22

隐含的完整故事应该是这样的：一个中国大厂（可能是抖音），订阅企业版的ChatGPT，用其API没日没夜的问问题，记录答案，用这些问题和答案训练“自己的”大模型。去年这种方法被OpenAI发现了，终结了其使用ChatGPT账户。大厂自己不敢发表如此搞出来的大模型，害怕吃官司，被索赔，但是抱在怀里又心有不甘，就找个十分失败的小公司（幻方，开发AI炒股软件，让他的客户亏掉裤子）当壳，去发表这个模型，看看外界的反应。如果反应好，以后自己就放手干。如果招致诉讼，制裁，索赔等糟心事，就由幻方这个破公司扛着，大不了倒闭关门。

xyz18 发表评论于 2025-01-29 13:03:36

弯道超车的名声不是白给的

supernova13 发表评论于 2025-01-29 12:51:00

训练所有模型的数据来自主要互联网，人类的知识也就这么些，已经被模型学完了。还保密个鬼！

supernova13 发表评论于 2025-01-29 12:47:00

AI感兴趣的是知识和逻辑，不是个人隐私，意大利人胡扯八道。

菲斯普的里尔克 发表评论于 2025-01-29 12:05:44

考虑到DeepSeek可能对意大利数百万用户的数据构成较高风险，已要求相关公司及其附属企业确认所收集的个人数据类型、数据来源、使用目的、数据处理的法律依据，以及这些数据是否存储在中国的服务器上。

此外，该机构还要求企业说明用于训练人工智能系统的信息类型，并在涉及通过网络爬取（web scraping）方式收集个人数据的情况下，澄清已注册用户和未注册用户是否以及如何被告知其数据的处理方式。

相关企业须在20天内向监管机构提供上述信息。

该机构主席帕斯夸莱·斯坦齐奥内（Pasquale Stanzione）解释称，监管机构已要求DeepSeek提供“关于源代码的信息，即应用程序的来源”。此外，监管机构还询问该公司是否采取了措施避免算法偏见，是否为未成年人访问提供了相应的保护工具，以及该应用程序是否避免在例如选举等情况下干涉个人的基本权利。

斯坦齐奥内补充道，对DeepSeek的担忧“与我们两年前对ChatGPT/OpenAI的担忧相同”。此前，意大利隐私监管机构曾对OpenAI展开调查，并最终裁定其违反个人数据处理规定，对其处以1500万欧元的罚款。

会当凌绝顶1 发表评论于 2025-01-29 12:04:03

Redcliff 发表评论于 2025-01-29 11:46:47
网上有一个漫画诠释了一切：OpenAI在池塘钓鱼放在鱼盆里，DeepSeek在那个鱼盆里钓鱼。

chinesegod3 发表评论于 2025-01-29 11:50:49

DeepSeek只要不说数据来源，OpenAI也调查不来啥。被微软这么一搞，国外的企业不敢用了，但是在国内用绝对没问题的，国内至少需要两三家头部大模型公司。

Redcliff 发表评论于 2025-01-29 11:46:47

网上有一个漫画诠释了一切：OpenAI在池塘钓鱼放在鱼盆里，DeepSeek在那个鱼盆里钓鱼。

chinesegod3 发表评论于 2025-01-29 11:38:14

不管怎么说，对于我这样的不想付费chatgpt o1的个人来说，用用还是挺好的。还可以下载本地。

硅谷工匠 发表评论于 2025-01-29 11:37:05

所有技术就是一层窗户纸。懂行的一看就懂。剩下就是律师的工作了。即使芝加哥1893世界博览会上的灯泡也不是爱迪生公司的而是西屋的。中国队能打到季后赛，对美国队只有好处。起码印度MBA每天都要说China.

speedingticket 发表评论于 2025-01-29 11:24:58

令胡冲发表评论于 2025-01-29 09:28:34

扯淡。OpenAI数据百分之百来自他人。哪家给过它授权？怎么就从良了，摇身一变，自封数据贞洁检查员了？

微软调查？中国可以调查ChatGPT里是否有来自中国的中文数据！
++++++
说的对。
现在阿里巴巴也做出了同样水平的东西，只能说中国人有足够的聪明才智做出非常优秀的东西。
就像电动车一样，外国人先做出来，但是，中国人能够让它很快低成本地快速普及使用

硅谷工匠 发表评论于 2025-01-29 11:18:12

有意思，可能是华尔街shorter整个做的局。人家钱已经赚完了。可能这个所谓中国公司就是美国的。

DANIU_S 发表评论于 2025-01-29 11:18:00

只要不同于商业用途，别收费，别上市。deepseek is safe.

GoldenTimes 发表评论于 2025-01-29 11:16:38

API是提供使用，不是让你去窃取数据的

荒野猎人 发表评论于 2025-01-29 10:55:00

投资仅仅500万？两个月完成训练？骗三岁小孩？

TXZS 发表评论于 2025-01-29 10:53:25

你的API不正是你提供的服务吗？你抱怨什么？

再说了，如果真是你的数据，别人的结果比你的好，你不觉得丢人吗？

天天撒泼耍赖，什么时候才能长大变成正常人啊？！

河西海龟 发表评论于 2025-01-29 10:46:00

故事是：B小偷偷了A小偷偷的东西，A小偷大喊抓贼，然后A小偷他爸C大偷正展开调查。

阿宽发表评论于 2025-01-29 10:41:13

很好，继续卡脖子，从当初原子弹、氢弹，空间站到后来的航母、5G、GPS，美国人就是不长记性，如果不卡脖子，中国也许成不了世界第一，如果卡脖子，无论卡啥，中国都必将成为世界第一，因为没有一个公司的产品可以和举国体制抗衡。

河西海龟 发表评论于 2025-01-29 10:38:00

B小偷偷了A小偷偷来的东西。A小偷ba jin

bluetag 发表评论于 2025-01-29 10:36:00

楼下太扯了，使用OpenAI 的接口，是白纸黑字签了协议的，明确说不能用来做竞争用途，否则就是偷，DS官司吃定了。

worley 发表评论于 2025-01-29 10:34:38

偷就是偷，中国人还偷得理直气壮。
OpenAI在Term of Service 明确禁止了这种行为。

如果允许偷数据，以后谁还会雇佣大量数据工程师去整理数据和答案？谁还会去购买数据和答案？大家都去偷其它人的数据免费用

泥川发表评论于 2025-01-29 10:30:37

Steve Jobs说，good artists copy, great artists steal。当年苹果得以成功的图形界面，鼠标都是借鉴他人，不是自己原创。

任何人使用AI，都是喂给AI问题，然后用AI给出答案。deepseek所做的也不过如此，不过是批量的，也付了该付的钱，当然不是偷。如看高手下棋，学了几招，这叫学习，不叫偷。

根据输入输出，破解黑匣子，是科技界常用的方法，叫Reverse Engineering,逆向工程。deepseek确实用了逆向工程方法。我可以用你的，你也可以用我的，公平合理。

当然这就是AI模型不可能垄断的原因，因为你必须让人用你的输出。不管出什么新模型，别人能逆向工程把你学个89不离十。

bluetag 发表评论于 2025-01-29 10:21:00

DS偷的可不是网上的原始数据，而是structured数据，OpenAI处理过带标注的训练数据, 不要刻意混淆。

groogle 发表评论于 2025-01-29 10:18:56

就知道有后续若想人不知除非己莫为

randomspot 发表评论于 2025-01-29 10:15:01

法律上这个问题需要解决

使用未经他人正式授权使用的数据训练出来的结果，本身也成了数据，这样的结果数据，是否可以受到法律的保护，即使自己已经声明不允许别人使用自己的训练结果。

有意思

我都推测是，未来的开源模型是大势所趋

蓝天大地 发表评论于 2025-01-29 10:12:27

这不就是拿着我幸幸苦苦做出来的3D地球模型，然后在澳洲上面多加点森林，让整个球变得更好看一些吗？没有老子的球，你能做出这个让澳洲更绿的球吗？（哈哈哈，怎么觉得这么拗口）

啊哈哈哈哈哈哈哈。

bluetag 发表评论于 2025-01-29 10:10:00

DS在对话时多次声称自己是GPT，来自Open AI，网上到处都是截图，这个很难抵赖了，大模型的成本本来主要就是数据和训练，不是源代码，DS这样搞成本低一点也不奇怪，虽然实际成本很可能还是比他们公布的高很多，但Open AI到时候很依照他们公布的成本来计算损失，DS肯定惨到有苦说不出。

randomspot 发表评论于 2025-01-29 10:08:09

很有可能，闭源模型发展道路会越走越窄，这对人工智能的发展，是很有利的

一支鞋飞了 发表评论于 2025-01-29 10:05:34

只要你比他先进就一定有问题，其实就这样了，就跟晚年的爱迪生四处为专利打官司一样，旧这么回事儿吧

randomspot 发表评论于 2025-01-29 10:04:29

AI领域使用数据训练模型， copyright目前是棘手的问题

OpenAI / Microsoft目前都被诉讼，使用他人的数据为自己盈利；有很多潜在的问题尚需法律解决，比如，使用他人数据训练出来的结果，本身也成了数据。使用权怎么定义。

xihuahua 发表评论于 2025-01-29 10:02:40

deep seek是大陆实力最强的量化对冲基金

莫言无语 发表评论于 2025-01-29 09:57:54

原来花钱只是买了些盗窃用的工具。

xihuahua 发表评论于 2025-01-29 09:56:26

Deep seek 并非初创公司、公开新闻显示他们2021年就拥有数以万计的英伟达最新显卡

注册怎么这么难 发表评论于 2025-01-29 09:55:00

令胡冲发表评论于 2025-01-29 09:28:34
扯淡。OpenAI数据百分之百来自他人。哪家给过它授权？怎么就从良了，摇身一变，自封数据贞洁检查员了？

微软调查？中国可以调查ChatGPT里是否有来自中国的中文数据！
-------------------------------------------
扯淡的是你吧。OpenAI数据也存在侵权问题所以现在也在官司中、到目前为止还没解决完，但OpenAI大部分数据是买或被授权，比如与版权商的合作数据或标明引用出处的特定数据及公共开放的数据.
都存在剽窃数据行为、微软也在调查OpenAI，怎么着微软调查DeepSeek不可以吗？

xihuahua 发表评论于 2025-01-29 09:54:34

Deepseek 根本不是不是出场公司、是一家实力雄厚的对冲基金、他们二一年前就已是英伟达显卡亚洲区最大客户之一、在这次股灾中应该获利非常巨大

令胡冲 发表评论于 2025-01-29 09:51:47

哪条OpenAI的协议写得很清楚？

会当凌绝顶1 发表评论于 2025-01-29 09:48:01

新闻1: OpenAI称有证据显示DeepSeek存在侵权行为。OpenAI在最新声明中表示，“我们知道（中国）的公司以及其他公司正在不断尝试从美国领先人工智能公司的模型中提炼（它们需要的东西）。”
新闻2: DeepSeek窃取OpenAI数据？微软正展开调查。

假设，如果，我说的是“如果”，个别人模仿抄袭、偷偷摸摸，难免遭到大家质疑！
依靠“不明不白”数据、非国际原创算法、非革命性优化、后发AI开源、修、补、“不明不白”数据、白菜价，等等，并不能说明实质和关键问题！
塞克斯说：「很多证据显示，DeepSeek从OpenAI的模型中进行知识蒸馏。OpenAI应该不太高兴。」
AI独角兽Scale AI 执行长 Alexandr Wang日前受访时踢爆，Deepseek拥有大约5万个辉达最先进的H100 GPU，且拥有的数量比外界想像的更多。
　　美国AI新创公司Scale AI 执行长 Alexandr Wang 日前接受CNBC采访接爆料，Deepseek拥有大约5万个英伟达最先进的H100 GPU。
　　米尔斯说，这是一场打地鼠游戏。
　　耶鲁大学管理学院副院长索南菲尔德（Jeffrey Sonnenfeld）也告诉CNN， DeepSeek崛起要嘛是“史普尼克时刻”（Sputnik Moment）时，要嘛是波坦金时刻（Potemkin Moment）。亦即，DeepSeek可能带来真正的破坏性，也可能是欺骗性的，依赖于出口制裁之前囤积的辉达芯片和其他芯片。

ca_lowhand 发表评论于 2025-01-29 09:44:00

openai现在是花钱买数据，成本巨大。ds的未授权蒸馏肯定是侵权了。但ds的技术思路的确是巨大创新，而且开源了。从这方面来说对整个ai行业是巨大贡献。

worley 发表评论于 2025-01-29 09:39:07

还是咱们本城最高效，第一时间就指出了DeepSeeK如何克隆ChatGPT的技术细节。
美国人反应太慢，还调查了啥啊。连DeepSeek都诚实地回答自己就是ChatGPT。

还是华人了解中国人啊。

当年，华为号称研发出七纳米芯片，然后美股和台积电也大跌。然后华为就没有下文了。

XM25 发表评论于 2025-01-29 09:37:00

我做的试验支持了这个假设：对两个物理问题给出了一模一样的回答。

评论: DeepSeek窃取OpenAI数据？微软正展开调查