OpenAI 年末的12天连续Devday更新终于落幕,每天蹲守观看发布会都像在开巧克力盲盒,不知道下一个是什么口味。 在前11天的发布会中,大部分属实非常寡淡,只有三个产品还有些精彩的“滋味”。 总结起来,能称得上重磅的更新包括:o1正式版、Sora、Canvas,它们主要集中在前4天发布。 其中,o1正式版确实提升很大,Sora则是增加了不少对AI生成视频进行更改的产品模式,Canvas可以被视为OpenAI第一次挑战AI工作台的产品尝试。 其次,相对还有些看点的是:和苹果的深度合作,视频通话功能,以及o1-mini的强化微调。 o1-mini的强化微调在专业领域潜力很大,微调简单提升明显。视频通话功能则是那个让人惊艳的“HER”正式上线。和苹果的深度合作对OpenAI来讲也是件大事,更站稳了在AI行业的一哥地位。 另外一些小的产品更新则是让人觉得——“这也值得开发布会?” 这些产品包括“Projects”项目功能、o1 图像输入和4o高级语音API正式开放、ChatGPT Search 升级和给GPT打电话 的功能。它们都是相对比较小,也都和竞争对手没什么差异的更新。 到了最后一天,OpenAI终于甩出一个王炸:GPT-o3。一举打破AI发展陷入瓶颈的怀疑,各项性能直奔AGI而去。 我们根据发布产品的重要性做了一个表格,梳理这过山车似的十二天发布日。 下面,我们来稍微详细的讲述一下这些更新的核心点。 重要产品更新 o1完全版(Day1) 从能力上看,o1确实比Preview版本有了比较大的进步。它在国际数学奥林匹克预选赛题目(AIME 2024)、编程能力测试(CodeForces)方面都比o1- preview提升了50%。在处理复杂问题时的重大错误率降低了34%。 它还能根据题目的难易程度调节处理时间,这使得用户等待时间下降超过50%。 更重要的是o1也能支持多模态识别了。这让它的实用性暴增。医生可以用它分析医学影像,工程师能让它帮忙看图纸,设计师还能让它提供创意建议。 但它的价格也相当贵,只有200美金的ChatGPT Pro版订阅用户才能享受无限使用,其他普通20美元订阅用户仅能享受每日20次使用权限。 作为第一天登场的产品,o1确实能让人眼前一亮。 Sora(Day3) 等了10个月后,Sora终于姗姗来迟。 但这不是个模型版本升级,而更像是一个产品打磨。正式版的Sora能生成最长20秒,最高1080p的视频。生成效果和2月份刚放出的差异不大。 但产品上OpenAI确实下了点心思,故事板是此次发布中最具创新性的功能,也是Sora最具野心的尝试。它为用户提供了类似专业视频编辑软件的时间轴界面。用户可以在时间轴上添加多个场景卡片。用户可以将多个提示词串联起来,系统会自动处理场景之间的过渡效果。 除此之外,OpenAI还提供了Remix、Blend和Loop三个专业工具。换掉视频中的元素,或者混合两个视频,还能自动补全做无限循环视频。 产品是挺不错的,但没升级过的模型不太给力。在发布后的评测中,Sora频频翻车,运动、交互和物理经常处理的一塌糊涂。还会有凭空出现的人和鬼影。 OpenAI 给的可用量也很小气,20美元的Plus用户每月可用50次。只有支付每月200美元的Pro用户则能享受无限次数的"慢速"生成权限。 Sora总算来了,但是挺让人失望的。 Canvas(Day4) 一句话形容,Canvas就是OpenAI 打造的AI版Google Docs。 因为Canvas已经进化成了集智能写作、代码协作和AI智能体为一体的一套完整工作台。它显示出了OpenAI超越Chatbot的产品野心。 作为写作助手,可以提供编辑意见。 编程功能上,Canvas则通过内置的WebAssembly Python模拟器,创造了一个几乎无延迟的编程环境。它还展现出了理解代码意图的能力。 与近期更新的Cursor和Devin一样,它上线了定制化AI智能体的能力。它可以完成一系列操作,帮你给朋友们发圣诞信。 Canvas的这三个维度并不是孤立运作的。在实际使用中,它们往往会相互配合,这种无缝的集成使Canvas成了一个多功能AI驱动的创作工作室原型。 但单纯从前端展示的角度看,它不如Claude 的 Artifacts。编程的便利性也不如Cursor。因此融合才是它的亮点吧。 一般产品更新 o1-mini强化微调(Day2) 这一产品如果不是实用性较窄,也算是一个重磅发布。 它改变了过去微调只是通过增加专业数据的逻辑,而是对具有推理能力的模型进行强化学习方向的微调。引导模型在面对复杂问题时有更深刻的思考能力。 现在,仅需“几十个例子”甚至12个例子,就能够让模型有效学会特定领域的推理。根据OpenAI的研究数据,经过强化微调的o1mini模型,其测试通过率比传统的o1模型高出24%,相比未经过强化微调的o1mini则提升了整整82%。 可惜只能微调o1-mini,适用上也都是那些复杂领域任务,比如医疗、法律或金融和保险。泛用性较差。 高级视频语音模式(Day6) 这又是个老饼上桌。5月13日,在GPT-4o的演示中,OpenAI的工作人员就能和4o视频通话,可以看到我们实时的手机屏幕内容,或者根据相机里的实时画面和我们聊天或解答问题。 这次就是真正实装了,没有什么升级。但这个功能本身还是非常重要的。 不过因为这个饼烙的时间有点长,前两天微软推出的Vision和谷歌还在烙的Astra也已经跟上了。OpenAI的领先正在一点点被蚕食。 与苹果的合作(Day5、Day11) ChatGPT和Apple Intelligence的,更像是个官宣深度结果。苹果搞不定的只能让贤OpenAI了。 整合主要包含三个方面:首先是与Siri的协同。当Siri判断某个任务可能需要ChatGPT的协助时,它可以将任务移交给ChatGPT处理; 其次是写作工具的增强,用户现在可以使用ChatGPT从头开始撰写文档,还能进行文档细化和总结; 第三是iPhone 16的相机控制功能,它能够通过视觉智能让用户更深入地了解拍摄对象。 后面第十一天的Mac整合,则是给了GPT更多Mac工具的调用权限。 我唯一不理解的就是这俩为什么不能同一天宣布,还非分两天? 能力补齐和小功能更新(Day 7,8,9,10) 剩下的几个更新最多只能算是凑数。简单一句话就能说清。 “Projects”项目功能:它允许用户创建特定项目,上传相关文件,设置自定义指令,并将所有与该项目相关的对话集中在一个地方。基本和Claude的没差别。 ChatGPT搜索升级:能在对话中搜索,支持多模态输出。Perplexity的Pro模式早支持了。 4o热点:美国用户能打电话用4o了!挺尊老爱老的,我看也算是给他们过重阳了。 o1 图像输入和4o高级语音API正式开放:我建议这个放在o1发布当天最后一句话说完。 这几天真的是有点进入拖时间的循环了。 最终王炸:GPT-o3(Day 12) 如果不是最后一天GPT-o3压轴登场,我真的觉得OpenAI纯粹是为了搅浑水才连开12天发布会。 因为在这期间,Google发布了Gemini 2 Flash,超快超强;Astra,看起来是真的Agent模样; Voe2,碾压Sora ;Gemini 2 Flash Thinking,o1人家也有了。就发了三篇公告几个视频,把OpenAI前11天的发布全都掀了桌。 但在Day 12,OpenAI还是找回了雄风。用o3向业界证明:Scaling Law未死,OpenAI为王。 o3 是 o1的下一个版本。在9月份o1发布后仅3个月后,这一新版本在编码、数学以及 ARC-AGI 基准测试等多个基准上就大幅超过了 OpenAI 此前的 o1 模型。 看几个数据对比 Codeforces 评分:2727——相当于全球人类程序员编码竞赛中,排名第 175 位。超过99%的人类程序员。 博士水平的科学问题(GPQA):87.7%——博士生一般得分70% 最难的前沿数学测试:25.2%——其他模型没有超过2%,数学天才陶哲轩说该测试“可能难住AI好几年” 证明是否达到AGI的题目ARC-AGI:87.5%——o1的得分25% 最值得注意的就是这最后一项测试ARC-AGI,它展示的是模型新型任务适应能力。作为对比,之前ARC-AGI-1从2020年GPT-3的0%仅提升到2024年GPT-4o的5%。这意味着模型不是死记硬背,而是真正在解决问题的能力。 虽然ARC-AGI测试中表现出色,但这并不意味着o3已达到了AGI水平,因为它仍会在一些非常简单的任务中失败,和人类智能有根本性的差别。 但不论如何,这都证明OpenAI选择强化推理这个范式转变成功了。人工智能的发展没有任何放缓的迹象。Scaling Law依然有效。 那些对AI停滞不前的担忧,被OpenAI年末的圣诞礼物一扫而空。 虽然o3进行一次低算力计算的成本高达20美元,高算力甚至可能高达3000美元,要使用在现阶段几乎是不可能的。但算力会降低,Scaling Law会延续。 3个月,两个顶尖模型,OpenAI在这12天的最后一天又让我们感受到了2022年末到2023年初从ChatGPT到GPT4那段时间AI扑面而来的速度。 也许正如之前参与开发了o1的 OpenAI科学家Noam Brown在采访中说的一样,“2024年,OpenAI是在实验,而2025年就是全速前进的一年。” OpenAI 12天的发布会,过程波折,完美收工。为2025年的AI埋下了希望。