聊几句关于AI的八卦吧

先说,我是先看新闻听到分析DEEPSEEK然后才见到的中文网讨论。本身对这件事没有特别在意,只是在家里我们孩子爸爸问我我多白活了两句。

他是我一起长大的小玩伴,屁大点事都汇报——有时候他乱喷,我会哼哼哈哈敷衍,你说的对,是,其实思路早不知道跑到哪里——但是我的建议和我对一些问题的理解,他一般会听。

听完好去卖。

话题从一个谣言开始。

据说啊,OpenAI(ChatGPT)的CEO,Sam Altman和Elon Musk (下属),伙同政府要员schdule了一个30号(明天)的close-door meeting, 主题是讨论一个Ph.D.-Level 的super-agent。

想起来年轻时候清华那波孩子开玩笑说,这个世界可以分为三类人,男人,女人,女博士,不知道这个Ph.D.-Level的super-agent是男Ph.D.-Level还是女Ph.D.-Level?

那篇文章的标题是,Behind the curtain-Coming soon: Ph. D.-level super-agents。

吓死我。

一般来说,AI+ agent的意思是,在给定一个命令的情况下,AI就像一堆人,可以完成那件事。也就是说,你不用一步一步交待,只要说你想干什么,然后等结果就好了。

再解释一下,不知道大家有没有用过travel agent?我自己用过很多,特别是10几20年前孩子小的时候,只要说我想去哪里,或者想找个什么样的度假地,交代清楚,等人家给答案。

那时候一是没什么经验,二是网上信息没有这么发达,不是特别信任自己(好吧,怕被骗)。

当然要交钱,但是我认为这种钱应该花的,这些我更信任专业人士。

Introducing Gemini 2.0: Our new AI model for the agentic era——这是google发布会的标题。现在大家已经不那么AI了得玩点花样出来,那么只好agent。比如?上星期OpenAI release了他的关于自己的agent Operator的 research preview 。给的例子是,你说你想做Pasta,要求它把各种材料凑齐放到购物车下单快递到你家。

就用最简单的browser。我没试我看的介绍。我没试一是没什么兴趣二是要交钱(好像200欧?)然后你就算top tier才有权限。

话说我最近一直跟各种tier较劲,所以更不想试。我自己又不只是不会做Pasta闭着眼也知道该选什么料,我们孩子说那是“世界上最好吃的Pasta”——我稀罕AI帮我选?

那为什么Ph. D.-level super-agents?它通过Ph.D的答辩了?,那不瞎扯嘛,我这个5票全优的Ausgezeichnet都不敢这么吹(我没说我是super-agent吧)。

多8一句,好像说两年前,ChatGPT能答对本科生和硕士生物理考试的50%题目(看来的,不负责对错),那今天超过80%也没什么稀奇吧。美国不知道,欧洲的规矩是你答对2/3以上的题目肯定就过了。或者任何一个选拔比赛,你只要比同期的1/3好就稳拿了。

也就是说,不看别人,就看跟你站一排的,你只要挤到2/3队伍里,便稳当过关。如果你们那一年都特别好,那就难一点,如果都特别差,那你稍微好一点就显出来。

是不是合理?我觉得挺合理的。不服你下一次考呗。

再说个小新闻。上星期有一个关于AI的测试叫,Humanity’s Last Exam,各路专家出题(真专家),当然测试很多次(老键来讲一下物理实验的原则),AI的最好成绩也没到10%。

我可不是说ChatGPT不好,我最喜欢他了,天天帮我改英语。

但是怎么说呢,你是可以让他帮你写,总结,summary别人的预测。但是问题是,那些别人的可靠性有多大呢。仅就科技文章来说。我自己做过类似的工作,当然知道怎么攒怎么唬人(别的不敢瞎吹,这个还是可以的)。不是说没有质量高的,当然有,但是太少太少了。全世界每年毕业那么多博士,真值的看的文章,能超过5%就不错。

所以啊,如果想你的AI是Ph.D.-Level,那要先保证参加training的那些人是真的专家,不然结果就是从nonsense到nonsense,永远到不了non-nonsense。

至于这个close-door meeting?等结果,看看喂给public什么信息好了。

格利 发表评论于
真是内行人讲内行话。最好有系列续文给我们科普一下AI知识。
登录后才可评论.