聊几句关于AI的八卦吧

先说，我是先看新闻听到分析DEEPSEEK然后才见到的中文网讨论。本身对这件事没有特别在意，只是在家里我们孩子爸爸问我我多白活了两句。

他是我一起长大的小玩伴，屁大点事都汇报——有时候他乱喷，我会哼哼哈哈敷衍，你说的对，是，其实思路早不知道跑到哪里——但是我的建议和我对一些问题的理解，他一般会听。

听完好去卖。

话题从一个谣言开始。

据说啊，OpenAI(ChatGPT)的CEO，Sam Altman和Elon Musk （下属），伙同政府要员schdule了一个30号（明天）的close-door meeting，主题是讨论一个Ph.D.-Level 的super-agent。

想起来年轻时候清华那波孩子开玩笑说，这个世界可以分为三类人，男人，女人，女博士，不知道这个Ph.D.-Level的super-agent是男Ph.D.-Level还是女Ph.D.-Level？

那篇文章的标题是，Behind the curtain-Coming soon: Ph. D.-level super-agents。

吓死我。

一般来说，AI+ agent的意思是，在给定一个命令的情况下，AI就像一堆人，可以完成那件事。也就是说，你不用一步一步交待，只要说你想干什么，然后等结果就好了。

再解释一下，不知道大家有没有用过travel agent?我自己用过很多，特别是10几20年前孩子小的时候，只要说我想去哪里，或者想找个什么样的度假地，交代清楚，等人家给答案。

那时候一是没什么经验，二是网上信息没有这么发达，不是特别信任自己（好吧，怕被骗）。

当然要交钱，但是我认为这种钱应该花的，这些我更信任专业人士。

Introducing Gemini 2.0: Our new AI model for the agentic era——这是google发布会的标题。现在大家已经不那么AI了得玩点花样出来，那么只好agent。比如？上星期OpenAI release了他的关于自己的agent Operator的 research preview 。给的例子是，你说你想做Pasta，要求它把各种材料凑齐放到购物车下单快递到你家。

就用最简单的browser。我没试我看的介绍。我没试一是没什么兴趣二是要交钱（好像200欧？）然后你就算top tier才有权限。

话说我最近一直跟各种tier较劲，所以更不想试。我自己又不只是不会做Pasta闭着眼也知道该选什么料，我们孩子说那是“世界上最好吃的Pasta”——我稀罕AI帮我选？

那为什么Ph. D.-level super-agents？它通过Ph.D的答辩了？，那不瞎扯嘛，我这个5票全优的Ausgezeichnet都不敢这么吹（我没说我是super-agent吧）。

多8一句，好像说两年前，ChatGPT能答对本科生和硕士生物理考试的50%题目（看来的，不负责对错），那今天超过80%也没什么稀奇吧。美国不知道，欧洲的规矩是你答对2/3以上的题目肯定就过了。或者任何一个选拔比赛，你只要比同期的1/3好就稳拿了。

也就是说，不看别人，就看跟你站一排的，你只要挤到2/3队伍里，便稳当过关。如果你们那一年都特别好，那就难一点，如果都特别差，那你稍微好一点就显出来。

是不是合理？我觉得挺合理的。不服你下一次考呗。

再说个小新闻。上星期有一个关于AI的测试叫，Humanity’s Last Exam，各路专家出题（真专家），当然测试很多次（老键来讲一下物理实验的原则），AI的最好成绩也没到10%。

我可不是说ChatGPT不好，我最喜欢他了，天天帮我改英语。

但是怎么说呢，你是可以让他帮你写，总结，summary别人的预测。但是问题是，那些别人的可靠性有多大呢。仅就科技文章来说。我自己做过类似的工作，当然知道怎么攒怎么唬人（别的不敢瞎吹，这个还是可以的）。不是说没有质量高的，当然有，但是太少太少了。全世界每年毕业那么多博士，真值的看的文章，能超过5%就不错。

所以啊，如果想你的AI是Ph.D.-Level，那要先保证参加training的那些人是真的专家，不然结果就是从nonsense到nonsense，永远到不了non-nonsense。

至于这个close-door meeting？等结果，看看喂给public什么信息好了。

今日热点

一周热点