AI文生视频的三条技术路线介绍
随着多领域技术的融合,文生视频的技术复杂性也在不断提升。文生视频涉及到自然语言处理、视觉处理和画面合成等多个领域,这使得跨学科多领域的技术难点增加。为了应对这些挑战,研究人员不断探索更高效且效果更佳的基础模型。目前,主流的文生视频模型主要依托于Transformer模型和扩散模型。
AI文生视频画面(图片来来自百度)
在文生视频的发展过程中,出现了多种技术路线。
第一阶段:基于GAN和VAE,以Text2Filter为代表
这一阶段的模型主要应用于静态、单一画面的生成,分辨率较低。
文生视频发展早期主要基于 GAN(Generative Adversarial Nets,生成式对 抗网络)和 VAE(Variational autoencoder,变分自编码器)进行视频生成。 GAN 由生成器和判别器构成,生成器类似于小偷,生成器生成图片;判别器 类似于警察,负责判断是生成器生成图片还是真实图片。 VAE由编码器及解码器构成,其使得图片能够编码成易于表示的形态,并且这 一形态能够尽可能无损地解码回原真实图像。
生成过程分为两步:首先,利用条件 VAE 模型从文本中提取出要点,即静态 和通用的特征,生成视频的基本背景;再借助 GAN 框架中的神经网络生成视 频细节。
该阶段的问题:应用范围窄;仅适用静态、单一画面;分辨率低。
第二阶段:基于Transformer,以Phenaki为代表
这一阶段的模型突破了文生视频的时间限制,可以进行任意时长的视频生成。
Transformer 模型在文本及图像生成中均得到了广泛应用,因此也成为文生 视频使用较多的框架之一,但各模型在具体应用上仍有差别。主要思路即输入文本后利用 Transformer 模型编码,将文本转化为视频令牌,进行特征融合后输出视 频。
该模式的问题在于:训练成本高;对配对数据集需求大。 代表:Phenaki、Cog Video、VideoGPT。 Phenaki 是基于 Transformer 框架进行文生视频的代表之一,其突破了文生视频的时 长限制进行任意时长视频生成。Phenaki 模型基于 1.4s 左右的短视频进行训练,通过连续的文字指令生成连续的较短时长的视频并串联成 1 分钟左右的长视频。例如,通过输 入一段类似故事的文字指令,从而实现逐个短视频的衔接成为长视频。
第三阶段:基于扩散模型,以Make-A-Video和阿里通义为代表
这一阶段的模型在语义理解、内容丰富性上具有优势,但生成时间较长。
当前扩散模型是文生视频领域使用更广的架构之一。通过预训练模型进行 文本特征提取后,再进行文本到图片,图片到视频的生成,过程中需基于扩散模 型进行。简单来说,扩散模型即在图片上逐渐添加高斯噪声再进行反向操作。以 扩散模型为基础的文生视频模型,一般是在文生图基础上增加时间维度实现视频 生成。扩散模型在语义理解、内容丰富性上更有优势。
问题罗列:耗时长。产品代表有:Make-A-Video、Video LDM、Text2Video-Zero、Runway-Gen1、RunwayGen2 以及 NUWA-XL。
实测结果显示,当前的文生视频模型在风格、质量、定制化生成等方面存在差异。例如,RunwayGen-2在画面质感、功能多样性方面表现较好,但其生成结果中可能出现身体器官重叠等问题;PikaLabs在真实感、动作连续性方面表现优秀,但对文字指令的理解存在问题;ZeroScope虽然在人物模糊度方面表现一般,但其后续潜力较大。
总体来看,当前的文生视频模型在不同场景下的表现各有优劣。在未来的技术迭代优化过程中,有望进一步提高文生视频的生成质量和用户体验。
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/2101.html