Meta AI发布新技术：从音频生成逼真虚拟人物

Meta AI近日推出了一项创新技术，该技术能够根据音频生成逼真的虚拟人物形象。这一突破性成果标志着虚拟人物生成领域迈出了重要的一步。

audio2photoreal 可将音频生成全身逼真的虚拟人物形象.jpg

该系统能够精准地根据多人对话中的语音内容，生成与对话内容相匹配的面部表情、全身动作以及手势。这些虚拟人物不仅在外表上做到了高度逼真，而且能够细致入微地展现出手势、表情等微妙的变化，如指点、耸肩和微笑等。

为了实现这一技术，Meta AI团队首先构建了一个庞大的双人对话数据集，确保数据来源的真实性和多样性。随后，他们研发了一种复合运动模型，该模型由面部运动模型、引导姿势预测器和身体运动模型组成。

在生成面部运动时，系统运用预训练的唇部回归器对音频进行处理，从中提取与面部运动相关的特征。然后，这些特征被送入条件扩散模型，进而生成面部运动。

对于身体运动的生成，系统基于音频内容自回归地输出每秒1帧的向量量化（VQ）引导姿势。这些引导姿势随后与音频一同输入到扩散模型中，以每秒30帧的速度生成高精度的身体运动。

最后，通过将生成的面部和身体运动数据输入到预先训练好的虚拟人物渲染器中，系统最终生成了高度逼真的虚拟人物。

这一技术的发布无疑将对虚拟人物的创作和应用产生深远影响。无论是游戏设计、虚拟现实体验还是电影制作，这种从音频生成逼真虚拟人物的技术都将发挥关键作用。Meta AI的这项成果再次彰显了其在人工智能领域的领先地位，并为未来的虚拟人物创作提供了无限可能。

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/info/2593.html