CW: Body Horror?
— Cheshire Cat ᓚᘏᗢ, (@autismsupsoc) June 29, 2024
This AI video attempt to show gymnastics is one of the best examples I have seen that AI doesn’t actually understand the human body and it’s motion but is just regurgitating available data. (Which appears to be minimal for gymnastics) pic.twitter.com/8dD2q30e4G
西风 发自 凹非寺Really annoyed to see multiple senior figures of our field jump on that clunky gymnastics AI video to make their point that human body physics is oh so complicated.
— Lucas Beyer (bl16) (@giffmana) June 30, 2024
Do they realize it’s like showing a dalle-mini generation and saying current way of doing image generation is… pic.twitter.com/BbKCmzww8R
量子位 | 公众号 QbitAI
一段AI生成的体操视频,引发近百万网友围观,LeCun等一众大佬还因为它吵起来了。
体操表演,emmmm怎么不算呢?
通过视频右上角的水印,此段视频正是由那个一度被认为是“下一代”文生视频的Dream Machine(来自Luma AI)生成的。
大伙儿看后纷纷坐不住,围绕此讨论的,是AI视频领域的一个熟悉的话题:AI是否理解物理规律。
LeCun直接开麦:
视频生成模型不理解基本物理知识。更不用说人体了。
华盛顿大学计算机科学教授Pedro Domingos看后也“摇了摇头”:
AGI可能并不会像一些人预期的那样即将到来。
畸变雀食离谱
自Sora问世以来,“AI是否理解物理规律”这个话题就被越来越多人关注。
下面这段Sora生成的“寄居蟹用灯泡当外壳的夜间场面”是个经典的例子,海浪与沙滩的互动非常细腻,寄居蟹腿上的纤毛也活灵活现。
对比真实拍摄的类似场景照片,也就灯泡没有电源不应该亮这一个明显破绽了。
最近Luma AI的Dream Machine也一样,生成的第一视角探废弃房子真实感拉满:
由此,不少人认为Sora、LUMA等的视频生成模型已经理解了简单的物理规律。
然鹅,这次被放出的视频着实有点太离谱。
不仅腿脚乱飞,频频上演大变活人:
就这高难度的空中悬浮翻跟头,也是牛顿都要被气活了的节奏:
以至于网友看后还表示,说恐怖大可不必,说搞笑还差不多。
如此抽象,LeCun直接评论视频生成模型不会懂物理。
他还进一步解释,Sora或者其它视频生成模型都有类似的问题,视频生成技术无疑也肯定会随时间推移而进步。
但:
真正理解物理的学习系统并不会具有生成性。就像鸟类、哺乳动物等比任何视频生成系统更了解物理。然而,它们都不能生成详细的视频。
类似还有另一种思考:
即使AI视频生成模型之后会进化的很好,生成的视频质量“完美”,那么就意味着它理解物理了?
LeCun等的观点,立马引起网友的质疑:
鸟和哺乳动物也会生成详细的视频,只不过是在大脑中生成无法将其具像化。
然鹅,这种反驳并未说服LeCun。
此外,还有不少人持反对意见。
例如,谷歌DeepMind/Brain团队研究员Lucas Beyer就指出:
这就像是展示一个由几年前的Dall·E mini生成的图像,然后称当前的图像生成方式注定失败一样。
毕竟,之前生图模型生成的图像be like:
至于模型会生成如此离谱的视频?
有网友认为是缺乏体操表演数据,还有网友认为是身体部位的模糊处理,使得模型无法理解人体结构,继而不能保证肢体动作的连贯性。
视频生成在计算上更为复杂,并且具有高度的上下文相关性,对详细标注的训练数据有更大的需求,这些需求现在还未得到充分满足。
前段时间SD 3翻车,同样对人体生成效果不好,网友也讨论过这一问题,过于严格的数据审核,可能误删了一些无害的成人图像,影响了模型对人体结构的理解。
One More Thing
除了Luma AI的Dream Machine生成体操视频大翻车,Runway的Gen-3也……
同款三头六臂:
同款空中悬浮绝活: