1. 主页 > AI行业 > 行业快讯

谷歌生成式图像动力学:可让静态图动起来

近期,谷歌AI团队最新提出“生成图像动力学”(Generative Image Dynamics),这项研究提出了一种基于图像空间的场景动力学先验模型

该模型简要过程如下:

(1)从视频中提取自然运动轨迹,训练获得图像动力学先验模型;

(2)对静态图片预测像素级长期运动表示,即神经随机运动纹理;

(3)将运动纹理转换为密集运动轨迹,合成动态视频;

(4)支持用户与图片中的对象交互;

(5)调整运动纹理振幅来控制运动效果;

(6)通过插值产生慢动作视频。

我们对以上过程作一下详细的说明。

从自然振荡运动的真实视频中,研究人员提取了运动轨迹。这些数据被用来训练一个模型,学习图像动力学的知识。通过这个模型,可以预测输入图片中每个像素的长期运动,这被称为神经随机运动纹理。这些表示转换成运动轨迹后,就可以生成完整的视频。配合图像渲染模块,这些轨迹可以用于各种下游各类应用,如将静态图片转换成无缝循环视频,或者让用户与图片中的对象进行交互。

GOOGLE静态图变动态图模型示意.gif

利用神经随机运动纹理,系统还可以模拟对象对用户交互的响应。比如,用户可以在图片中拖动一个点并释放手指,场景会根据点的位置和方向产生相应运动。用户还可以点击选择不同的图片进行交互。

谷歌生成式图像动力学:可让静态图动起来(图2)

通过理论,可以实现通过调整运动纹理的振幅来放大或缩小物体的运动效果,这样就可以通过插值预测的运动纹理来生成慢动作视频。

该方法可以将单张静态图片自动转换成无缝循环视频,具有广阔的应用前景。它为创作更加逼真的数字内容提供了可能,例如将电影片段的单帧转换为可交互的动态场景。

这项研究为基于单张图片合成视频开辟了新的思路。

附论文相关说明:

技术介绍

基于单张图片

谷歌生成式图像动力学:可让静态图动起来(图3)

,研究人员的目标是生成长度为T的视频

谷歌生成式图像动力学:可让静态图动起来(图4)

,这段视频能够呈现动态的树木、花朵,或者是在微风中摇曳的蜡烛火焰等。


研究人员的构架的的系统由两个模块组成:「动作预测模块」和「基于图像的渲染模块」。

首先,研究人员使用「潜在扩散模型」为输入图片

谷歌生成式图像动力学:可让静态图动起来(图3)

预测一个神经随机运动纹理

谷歌生成式图像动力学:可让静态图动起来(图6)


它是输入图像中每个像素运动轨迹的频率表示。

第二步,使用逆离散傅立叶变换将预测出的随机运动纹理转化为一系列运动位移场(motion displacement fields)

这些运动位移场将用于确定每个输入像素在每一个未来时间步长的位置。

有了这些预测的运动场,研究人员的渲染模块使用基于图像的渲染技术,从输入的RGB图像中拾取编码特征,并通过图像合成网络将这些拾取的特征解码为输出帧。

神经随机运动纹理

运动纹理

之前的研究中,运动纹理定义了一系列时变的2D位移映射( displacement map)

谷歌生成式图像动力学:可让静态图动起来(图7)

其中,每个像素坐标p,从输入图像

谷歌生成式图像动力学:可让静态图动起来(图3)

中的2D位移向量定义了该像素在未来时间t的位置。


为了在时间t生成一个未来帧,可以使用相应的位移映射,从

谷歌生成式图像动力学:可让静态图动起来(图3)

中拾取像素,从而得到一个前向变形的图像:


谷歌生成式图像动力学:可让静态图动起来(图10)

随机运动纹理

正如之前在计算机图形研究中所证明的,许多自然运动,特别是振荡运动,可以描述为一小组谐振子(harmonic oscillators)的叠加,这些谐振子用不同的频率、振幅和相位表示。

一种引入运动的随机性的方法是整合噪声场。但正如之前研究结果表明的,直接在预测的运动场的空间和时间域内添加随机噪声通常会导致不现实或不稳定的动画。

更进一步,采用上面定义的时间域内的运动纹理意味着需要预测T个2D位移场,才能生成一个包含T帧的视频片段。为了避免预测如此大的输出表示,许多先前的动画方法要么自回归地生成视频帧,要么通过额外的时间嵌入独立预测每个未来的输出帧。

然而,这两种策略都不能确保生成的视频帧在长期内具有时间上的一致性,而且都可能产生随时间漂移或发散的视频。

为了解决上述问题,研究人员在频率域中表示输入场景的每像素运动纹理(即所有像素的完整运动轨迹),并将运动预测问题表述为一种多模态的图像到图像的转换任务。

研究人员采用潜在扩散模型(LDM)生成由一个4K通道的2D运动光谱图组成的随机运动纹理,其中K << T是建模的频率数,而在每个频率上,研究人员需要四个标量来表示x和y维度的复傅立叶系数。

下图展示了这些神经随机运动纹理。

谷歌生成式图像动力学:可让静态图动起来(图11)

那么,应该如何选择研究人员表示的 K 输出频率呢?实时动画之前的研究说明,大多数自然振荡运动主要由低频分量(low-frequency component)组成。

为了验证这一假设,研究人员计算了从1000个随机抽样的5秒真实视频剪辑中提取出来的运动的平均功率谱。如下图左图所示,功率主要集中在低频分量上。

谷歌生成式图像动力学:可让静态图动起来(图12)

动作的频谱随着频率的增加呈指数下降。这表明大多数自然振动动作确实可以由低频项很好地表示。

在实践中,研究人员发现前K=16个傅里叶系数足以在一系列真实视频和场景中真实地重现原始的自然动作。

使用扩散模型预测动作

研究人员选择潜在扩散模型(LDM)作为研究人员的动作预测模块的核心,因为LDM在保持生成质量的同时,比像素空间扩散模型更加计算高效。

一个标准的LDM主要包括两个模块:

1.一个变分自编码器(VAE)通过编码器z = E(I)将输入图像压缩到潜在空间,然后通过解码器I = D(z)从潜在特征中重构输入。

2.一个基于U-Net的扩散模型,这个模型学会从高斯随机噪声开始迭代地去噪潜在特征。

研究人员的训练不是应用于输入图像,而是应用于来自真实视频序列的随机动作纹理,这些纹理被编码然后在预定义的方差时间表中扩散n步以产生噪声潜在变量zn。

频率自适应归一化(Frequency adaptive normalization)

研究人员观察到一个问题,随机动作纹理在频率上具有特定的分布特性。上图的左侧图所示,研究人员的动作纹理的幅度范围从0到100,并且随着频率的增加大致呈指数衰减。

由于扩散模型需要输出值位于0和1之间以实现稳定的训练和去噪,因此研究人员必须在用它们进行训练之前归一化从真实视频中提取的S系数。

如果研究人员根据图像宽度和高度将S系数的幅度缩放到[0,1],那么在较高频率处几乎所有的系数都会接近于零,上图(右侧)所示。

在这样的数据上训练出的模型可能会产生不准确的动作,因为在推理过程中,即使是很小的预测误差也可能在反归一化后导致很大的相对误差,当归一化的S系数的幅度非常接近于零时。

为了解决这个问题,研究人员采用了一种简单但有效的频率自适应归一化技术。具体而言,研究人员首先根据从训练集中计算的统计数据独立地对每个频率处的傅里叶系数进行归一化。

频率协调去噪(Frequency-coordinated denoising)

预测具有K个频率带的随机动作纹理S的直接方法是从标准扩散U-Net输出一个具有4K通道的张量。

然而,训练一个模型以产生如此大量的通道往往会产生过度平滑和不准确的输出。

另一种方法是通过向LDM注入额外的频率嵌入来独立预测每个单独频率处的动作光谱图,但这会导致频率域中的不相关预测,从而产生不真实的动作。

因此,研究人员提出了下图中所示的频率协调去噪策略。具体来说,给定一个输入图像I0,研究人员首先训练一个LDM来预测具有四个通道的每个单独频率的随机动作纹理图,其中研究人员将额外的频率嵌入和时间步嵌入一起注入到LDM网络中。

谷歌生成式图像动力学:可让静态图动起来(图13)

基于图像的渲染

研究人员进一步描述如何利用为给定输入图像I0预测的随机运动纹理S来渲染未来时刻t的帧ˆIt。首先,研究人员使用逆时域FFT(快速傅里叶变换)在每个像素点p处计算运动轨迹场

谷歌生成式图像动力学:可让静态图动起来(图14)

这些运动轨迹场决定了每一个输入像素在未来每一个时间步长的位置。为了生成未来的帧It,研究人员采用深度图像基渲染技术,并执行使用预测的运动场的前向扭曲(splatting)来扭曲编码的I0,如下图所示。

谷歌生成式图像动力学:可让静态图动起来(图15)

由于前向扭曲可能导致图像出现空洞,以及多个源像素可能映射到相同的输出2D位置,研究人员采用了先前在帧插值研究中提出的特征金字塔Softmax扭曲策略。

研究人员共同训练特征提取器和合成网络,用从真实视频中随机抽取的起始和目标帧,其中研究人员使用从I0到It的估计流场来扭曲I0的编码特征,并用VGG感知损失对预测的ˆIt进行监督。

谷歌生成式图像动力学:可让静态图动起来(图16)

如上图所示,与直接平均扭曲和基线深度扭曲方法相比,研究人员的运动感知特征扭曲生成了一个没有空洞或者人工痕迹的帧。

进一步的扩展应用

研究人员进一步展示了利用研究人员提出的运动表示和动画流程,为单张静态图像添加动态效果的应用。

图像到视频

研究人员的系统通过首先从输入图像预测出一个神经随机运动纹理,并通过应用研究人员基于图像的渲染模块到从随机运动纹理派生出的运动位移场,实现了单张静态图片的动画生成。

由于研究人员明确地对场景运动进行了建模,这允许研究人员通过线性插值运动位移场来生成慢动作视频,并通过调整预测的随机运动纹理系数的振幅来放大(或缩小)动画运动。

无缝循环

有时生成具有无缝循环运动的视频是非常有用的,意味着视频开始和结束之间没有外观或运动的不连续性。

不幸的是,很难找到一个大量的无缝循环视频的训练集。因此,研究人员设计了一种方法,使用研究人员的运动扩散模型,该模型训练在常规的非循环视频片段上,以产生无缝循环的视频。

受近期有关图像编辑指导研究的启发,研究人员的方法是一种运动自引导技术,该技术使用明确的循环约束来引导运动去噪采样过程。

具体来说,在推断阶段的每个迭代去噪步骤中,研究人员在标准的无分类器引导旁边加入了一个额外的运动引导信号,其中研究人员强制每个像素在开始和结束帧的位置和速度尽可能相似。

从单一图像生成可交互的动画

振荡物体的观察视频中的图像空间运动谱近似于该物体的物理振动模态基础。

模态形状捕获了物体在不同频率下的振荡动态,因此物体振动模式的图像空间投影可以用于模拟物体对用户定义的力(如戳或拉)的反应。

因此,研究人员采用了之前研究的模态分析技术,该技术假设物体的运动可以由一组谐振子的叠加来解释。

这使得研究人员将物体的物理响应的图像空间二维运动位移场写为傅里叶谱系数与每个模拟时间步骤t的复模态坐标,以及时间t的加权和。

实验评估

研究团队对最新方法,与基线方法在未见视频片段测试集上进行了定量比较。

结果发现,谷歌的方法在图像和视频合成质量方面都显著优于先前的单图像动画基线。

具体来说,谷歌的FVD和DT-FVD距离要低得多,这表明这一方法生成的视频更加真实且时间上更加连贯。

谷歌生成式图像动力学:可让静态图动起来(图17)

更进一步地,图6显示了不同方法生成的视频的滑动窗口 FID 和滑动窗口 DT-FVD 距离。

由于谷歌采用了全局随机运动纹理表示,其方法生成的视频在时间上更加一致,并且不会随着时间的推移而发生漂移或退化。

谷歌生成式图像动力学:可让静态图动起来(图18)

另外,谷歌团队通过2种方式,对自己的方法和基线生成的视频进行可视化定性比较。

首先,展示了生成视频的X-t时空切片,如图7所示。

谷歌生成的视频动态,与相应真实参考视频(第二列)中观察到的运动模式更为相似。随机I2V和MCVD等基线无法随着时间的推移真实地模拟外观和运动。

谷歌生成式图像动力学:可让静态图动起来(图19)

我们还通过可视化预测图像

谷歌生成式图像动力学:可让静态图动起来(图20)

及其在时间t =128时相应的运动位移场,定性比较不同方法中各个生成的帧和运动的质量。


与其他方法相比,谷歌生成的方法生成的帧表现出较少的伪影和失真,相应的二维运动场与从相应的真实视频中估算出的参考位移场最为相似。

谷歌生成式图像动力学:可让静态图动起来(图21)

消融研究:从表2中观察到,与完整模型相比,所有更简单或替代的配置都会导致性能更差。

谷歌生成式图像动力学:可让静态图动起来(图22)


本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/info/678.html