AI以图生图！Google新工具玩创意免输入文字

Google推出新的AI生成图片工具Whisk。（示意图：shutterstock／达志）

万能的Google（谷歌）再推新的人工智能好帮手！美国有线电视新闻网周二（17日）报导，谷歌推出图片生成工具Whisk，这个新的工具抛弃了传统的文字描述输入模式，只要上传图片或照片就能揉合出新的图像，有如“以图生图”。不过目前这个新功能仅开放美国用户测试。

谷歌在部落格文章说明，Whisk是能迅速激发灵感的创意工具，而非“传统的图像编辑程式”，从本质而言， Whisk是以有趣的AI功能为主要诉求，而非细緻的专业美术作业。

使用Whisk时，用户经由上传多张不同元素的图片、同时混合类别，藉此生成新的图片，例如同时上传绒毛玩具、别针与贴纸的图片，谷歌的介绍文字以音乐产业常见的“混音”（remix）形容这种过程。如果用户想要描述细节，可以输入文字，但文字描述并非Whisk生成图片的必要元素。

Whisk是Google推出的AI生成图片工具。

谷歌实验室产品管理主任伊吉克（Thomas Iljic）说明，Whisk设计目的在于让用户以新奇、有创意的方式重新混和图片的主题、场景、风格，为用户提供了快速的视觉探索过程，而非像素精美的图片编辑功能。这项新的工具仍处于开发初期阶段，暂时仅限美国用户使用。

Whisk是由谷歌2014年併购的人工智能（AI）公司DeepMind开发的生成式人工智能为基础研发而成，使用以谷歌去年12月首度问世的核心Gemini系统，并与DeepMind最新推出的文本转图像生成器Imagen 3配对。使用者上传图片到Whisk时，Gemini会产生标题并输入Imagen 3，上传图片并非精确複制，而是重新揉合成为最终的图片结果。

最终画面有可能偏离最初上传的图片提示，例如生成的人物图案有可能在身高、发型、肤色等环节出现与上传图片不同的结果。需要细微调整时，可利用文字描述辅助。