Imagen,是Google推出的一款AI设计作图网站,仅仅给出一个场景的描述,Imagen就能生成高质量、高分辨率的图像,无论这种场景在现实世界中是否合乎逻辑。
Imagen的简介
Imagen是一款文本-图像的扩散(CLIP)模型,由Google Research和Google Brain团队研发,打出的标语是“前所未有的写实感×深层次的语言理解”,即可以根据给定的提示词,生成高度契合文本含义及具有照片般真实感的图像。
据Imagen官网介绍,为了比较Imagen与其他文本-图像模型(如DALL-E 2)在图像生成方面的性能,Google设立一个名为DrawBench的文本-图像模型评估基准。这是一个具有200个提示文本的列表,将这些提示文本分别输入不同的模型中输出图像,再由人类参与测评。Google表示在此基准下,参与测试的人员普遍认为“在并排比较中,无论是在图像生成的样本质量还是在图像与文本的一致性方面,Imagen都优于其他模型”。
Imagen的使用
Imagen主要依赖的是大型transformer语言模型在理解文本方面的强大能力和扩散模型在高保真图像生成方面的优势。
在用户输入文本后,Imagen首先使用T5-XXL编码器训练并嵌入文本,然后通过一系列扩散模型,将文本映射到64×64像素的低分辨率图像中,再采用文本条件超分辨率扩散模型对图像进行2次升采样,最终将图像升级为1024 x 1024像素的高分辨率图像。
另外,相比以往出现的图像生成器,谷歌在Imagen中做了一项重要的改变,使其工作效率和质量得到了进一步提升。此前,图像生成器多是通过CLIP来把文本映射图像中,再指导一个生成对抗网络 (Generative Adversarial Network,GAN) 或者扩散模型来输出最终的图像;而在Imagen中,文本编码的训练任务仅由纯语言模型来完成,文本映射图像的生成任务则全部交给了图像生成模型。