1. 主页 > AI展台 > AI大模型

谷歌图像生成AI掌握多模态指令,可以实现多图合并

谷歌最近设计了一种图像生成模型,通过引入指令微调技术,可以根据文本指令描述的目标和多张参考图像准确生成新图像。这种效果堪比专业的图像处理软件(如Photoshop)的辅助下进行图像编辑。

谷歌图像生成AI掌握多模态指令.jpg

在使用大型语言模型(LLM)时,我们已经见证了指令微调的重要性。如果应用得当,通过指令微调,我们能让 LLM 帮助我们完成各种不同的任务,让其变成诗人、程序员、剧作家、科研助理甚至投资经理。

现在,大模型已经进入了多模态时代,指令微调是否依然有效呢?比如我们能否通过多模态指令微调控制图像生成?不同于语言生成,图像生成一开始就涉及到多模态。我们可否有效地让模型掌握多模态的复杂性?

为了解决这一难题,Google DeepMind 和 Google Research 提出,可将多模态指令方法用于图像生成。该方法可将不同模态的信息交织在一起来表达图像生成的条件。具体来说,多模态指令可以增强语言指令,比如用户可以让生成模型按照指定参照图像的风格对所生成的图像进行渲染。这样一来,就能以对人类而言很直观的交互界面有效地为图像生成任务设定多模态条件。

基于这一思路,该团队打造了一个多模态指令图像生成模型:Instruct-Imagen。该模型使用了一种两阶段训练方法:首先增强模型处理多模态指令的能力,然后忠实地遵循多模态的用户意图。

在第一阶段,该团队采用了一个预训练的文本到图像模型,其任务是处理额外的多模态输入;之后再对其进行微调,使其能准确地响应多模态指令。具体而言,他们采用的预训练模型是一个扩散模型(diffusion model),并使用相似的(图像,文本)上下文对其进行了增强,这些上下文取自一个网络规模级的(图像,文本)语料库。

在第二阶段,该团队在多种图像生成任务上对模型进行了微调,其中每个任务都搭配了对应的多模态指令——这些指令中囊括了各自任务的关键要素。经过以上步骤,所得到的模型 Instruct-Imagen 可以非常娴熟地处理多种模态的融合输入(比如草图加用文本指示描述的视觉样式),从而可以生成准确符合上下文且足够亮眼的图像。

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/aimodel/2627.html