AI文生视频的困难点在哪里?
实事求是地说,文生视频是目前AIGC领域一个热门的应用方向,相应的,AI文生视频赛道难度和价值都很大。而其中最大的难点,莫过于让画面变得“抽风”的抖动问题。
关于这一点,任何使用过Gen-2Runway等文生视频AI的人,都会深有体会。抖动、闪现,以及不时出现的画面突变,让人们很难获得一个稳定的生成效果。而这种“鬼畜”现象的背后,其实是帧与帧之间联系不紧密导致的。
具体来说,目前AI生成视频技术,与早期的手绘动画很相似,都是先绘制很多帧静止的图像,之后将这些图像连接起来,并通过一帧帧图像的渐变,实现画面的运动。
但无论是手绘动画还是AI生成的视频,首先都需要确定关键帧。因为关键帧定义了角色或物体在特定时刻的位置和状态。之后,为了让画面看起来更流畅,人们需要在这些关键帧之间添加一些过渡画面(也称为“过渡帧”或“内插帧”)。可问题就在于,在生成这些“过渡帧”时,AI生成的几十帧图像,看起来虽然风格差不多,但连起来细节差异却非常大,视频也就容易出现闪烁现象。
AI文生视频的画面过渡不自然
这样的缺陷,也成了AI生成视频最大的瓶颈之一。而背后的根本原因,仍旧是所谓的“泛化”问题导致的。
用大白话说,AI对视频的学习,依赖于大量的训练数据。如果训练数据中没有涵盖某种特定的过渡效果或动作,AI就很难学会如何在生成视频时应用这些效果。这种情况,在处理某些复杂场景和动作时,就显得尤为突出。
除了关键帧的问题外,AI生成视频还面临着诸多挑战,而这些挑战,与AI生图这种静态的任务相比,难度根本不在一个层面。例如:
1)动作的连贯性:为了让视频看起来自然,AI需要理解动作的内在规律,预测物体和角色在时间线上的运动轨迹。
2)长期依赖和短期依赖:在生成视频时,一些变化可能在较长的时间范围内发生(如角色的长期动作),而另一些变化可能在较短的时间范围内发生(如物体的瞬时运动)。
为了解决这些难点,研究人员采用了各种方法,如使用循环神经网络(RNN)、长短时记忆网络(LSTM)和门控循环单元(GRU)来捕捉时间上的依赖关系等等。
目前,问题的关键在于,目前的AI文生视频并没有形成像LLM那样统一的、明确的技术范式,关于怎样生成稳定的视频,业界其实都还处于探索阶段。相信,随着AI进行的进步,以后的文生视频将更加自然而流畅!
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/QA/2095.html