最近,本猫迷上了AI绘画。
所谓“AI 绘画”,指的是基于深度学习(deep learning)模型来进行自动作图的计算机程序。深度学习模型的训练简单说来就是利用外部大量标注好的训练数据输入, 根据输入和所对应的预期输出,反复调整模型内部参数加以匹配的过程。
让 AI 学会绘画的过程,就是构建已有画作的训练数据, 输入 AI 模型进行参数迭代调整的过程。 那么,一幅画带有多少信息呢? 首先就是长 x 宽个 RGB 像素点.。让计算机学绘画,最简单的出发点是得到一个输出有规律像素组合的 AI 模型。
但 RGB 像素组合一起的并非都是画作,也可能只是对人类大脑来说是毫无“意义”噪点而已。一副纹理丰富,笔触自然的画作有很多笔画完成,涉及绘画中每一笔的位置,形状,颜色等多个方面的参数,这里涉及到的参数组合是非常庞大的。而深度模型训练的计算复杂度随着参数输入组合的增长而急剧增长, 从算法角度来看“AI绘画”是相当不简单的。
早在 2012 年 Google 就进行了一场空前的试验。 使用 1万6千个 CPU 训练了一个当时世界上最大的深度学习网络,使用了来自 You 的 1000 万个猫脸图片用来指导计算机画出猫脸图片。1.6 万个 CPU 整整训练了 3 天, 最终得到的模型, 令人振奋的可以生成一个非常模糊的猫脸。
在今天看起来,这个模型的训练效率和输出结果都不值一提。在 2014 年,AI 学术界提出了一个非常重要的深度学习模型,这就是所谓的“生成对抗网络”(Generative Adverserial Network,GAN)。这个深度学习模型的核心理念是让两个内部程序 "生成器 (generator)" 和 "判别器 (discriminator)" 互相 平衡之后得到结果。
CAN 模型生成作品里所体现的创造性让当时的开发研究人员都感到震惊,因为这些作品看起来和艺术圈子流行的抽象画非常类似。于是研究人员组织了一场图灵测试,请观众们去猜这些作品是人类艺术家的作品,还是人工智能的创作。结果,53% 的观众认为 CAN 模型的 AI 艺术作品出自人类之手, 这在历史上类似的图灵测试里首次突破半数。
近来,AI 绘画的水平突然大涨,和之前的作品质量相比有本质的飞跃,,竟然有种一日不见如隔三秋的感觉。AI 绘画何以突飞猛进?这里的核心能力是,人类用语言输入, 然后电脑 AI 理解人类的表达, 生成一个符合要求的图形图像, 展示给人类。
在 2021 年 1 月OpenAI团队开源了新的深度学习模型 CLIP(Contrastive Language-Image Pre-Training),一个当今最先进的图像分类人工智能。CLIP 训练 AI 同时做了两个事情,一个是自然语言理解, 一个是计算机视觉分析。它被设计成一个有特定用途的能力强大的工具,那就是做通用的图像分类,CLIP 可以决定图像和文字提示的对应程度, 比如把猫的图像和 "猫" 这个词完全匹配起来。
CLIP 模型的训练过程,简单的说, 就是使用已经标注好的 "文字-图像" 训练数据, 一方面对文字进行模型训练, 一方面对图像进行另一个模型的训练, 不断调整两个模型内部参数, 使得模型分别输出的文字特征值和图像特征值能让对应的 "文字-图像" 经过简单验证确认匹配。之前也有人尝试过训练 "文字-图像" 匹配的模型,但 CLIP 最大的不同是, 它搜刮了广泛散布在互联网上的图片40 亿个 "文本-图像" 训练数据!通过这天量的数据, 再砸入令人咂舌的训练时间,CLIP 模型终于修成正果。
AI 绘画GAN 模型的工作原理,其图像输出是内部生成器和判断器的 平衡妥协结果。但还有另外一种思路,那就是 Diffusion 模型 (扩散化模型)。Diffusion 这个词读起来有点高大上,但基本原理说出来大家都能理解,其实就是 “去噪点”。如果把这个去噪点的计算过程反复进行,在极端的情况下,有可能把一个完全是噪声的图片还原为一个清晰的图片呢? 靠人当然不行,但是基于 AI 能力去一边 “猜” 一边“去噪点”, 也许是可行的。这就是 Diffusion 扩散化模型的基本思路。
目前,世界最强大的 AI 绘画模型 Stable Diffusion 终于闪亮登场了,今年 7 月开始测试。最最最重要的是,Stable Diffusion 按照承诺, 已经在 8 月完全开源!这个重要的开源让全世界的 AI 学者和 AI 技术爱好者感动得痛哭流涕。Stable Diffusion 一经开源, 就始终霸占着 GitHub 热榜第一。
Stable Diffusion 和之前的 Diffusion 扩散化模型相比,重点就是把模型的计算空间,从像素空间经过数学变换,在尽可能保留细节信息的情况下降维到一个称之为潜空间 (Latent Space) 的低维空间里,然后再进行繁重的模型训练和图像生成计算。这样就大大降低了内存和计算要求。Stable Diffusion 能快速 (以秒计算) 生成一张饱含细节的 512x512 图像,只需要一张消费级的 8GB 2060 显卡即可!所以,而对所有普通用户来说,最开心的,当然是享受到了利用 Stable Diffusion 这样的当今顶级作画 AI 去生成专业级别画作的巨大乐趣。
AI绘画最迷人的地方,就是 仅靠文字描述,没有任何参考图片,AI 就能理解并自动把对应内容给画出来了,而且画得越来越好!这在昨天还感觉有点远的事情,现在已真真切切出现在所有人的面前。
接下来,让我们来看看在AI是怎样理解毕加索风格的。本猫在家用计算机(Windows 11, 12代8核i7-CPU,12G RTX2060 GPU,Python 3.10.8)上运行 Stable Diffusion得到的毕加索风格的绘画。蛮惊艳的。
1. 九宫格绘画提示词:毕加索风格的女人特写肖像,生动,抽象艺术,色彩缤纷,充满活力(a close-up portrait of a woman by Pablo Picasso, vivid, abstract art, colorful, vibrant)
2. 九宫格绘画提示词:毕加索风格的男人特写肖像,生动,抽象艺术,色彩缤纷,充满活力(a close-up portrait of a man by Pablo Picasso, vivid, abstract art, colorful, vibrant)
3. 九宫格绘画提示词:毕加索风格的狗特写肖像,生动,抽象艺术,色彩缤纷,充满活力(a close-up portrait of a dog by Pablo Picasso, vivid, abstract art, colorful, vibrant)
4. 绘画提示词:毕加索风格的猫特写肖像,生动,抽象艺术,色彩缤纷,充满活力(a close-up portrait of a cat by Pablo Picasso, vivid, abstract art, colorful, vibrant)