AI大模型DiffPortrait3D:通过一张肖像图就能创作3D表情
近期,大型语言模型(LLMs)在人工智能领域掀起了一股热潮,凭借其卓越的能力和性能,这些模型几乎在所有基于AI的子领域中都展现出了非凡的应用潜力,涵盖自然语言处理、自然语言生成以及计算机视觉等多个方面。尽管计算机视觉,尤其是扩散模型已经备受瞩目,但如何利用有限的输入生成高保真度且连贯的新视角仍然是一个亟待解决的难题。
为了攻克这一难题,字节跳动的研究团队近期推出了名为DiffPortrait3D的创新条件扩散模型。该模型旨在从单张野外拍摄的肖像中创建出逼真且3D一致的视图。借助DiffPortrait3D,可以将二维(2D)的非受限肖像转化为人脸的三维(3D)表征。
DiffPortrait3D实现原理
简而言之,该项目的目标是利用彩色照片作为输入,合成具有合理且一致的面部细节的新视角图像,其中包括保持身份和面部表情。与耗时的优化和微调方法不同,这种零样本方法能够出色地推广到任意人脸肖像,无需指定相机视角,即可应对极端面部表情和多样的艺术描绘。其核心思想是利用在大规模图像数据集上预训练的2D扩散模型作为渲染基础,同时结合解耦的关注机制来控制外观和相机姿势的去噪引导。
为了实现这一目标,首先将参考图像的外观上下文注入到冻结的UNets的自注意层中。随后,采用新颖的条件控制模块来解释相机姿势,该模块通过观察来自相同视角的不同主体的条件图像来实现。此外,为了增强视图一致性,研究人员引入了一个可训练的跨视图注意力模块,并通过推理过程中的创新3D感知噪声生成过程来进一步加强其效果。
DiffPortrait3D使用专门设计的条件控制模块来改变渲染视图。该模块通过分析从相同角度拍摄的另一个主体的条件图像来解释相机的姿态。这使得模型能够从不同视角中整合一致的面部特征。同时,为了提高视觉一致性,研究团队还引入了一个可训练的交叉视图注意力模块。这一模块在面对由于极端面部表情或不确定的相机姿态导致的困难时特别有帮助。
为了确保推理过程的灵活性,研究团队还开发了一种独特的3D感知噪声生成机制。这一环节增强了合成图像的整体稳定性和逼真度。通过对DiffPortrait3D在严格的多视角和野外基准测试上的评估,该团队展示了在各种艺术风格和环境设置下生成逼真高质量面部重建的最新成果。
DiffPortrait3D技术的主要特点
引入了一种独特的零样本方法,通过扩展2D稳定扩散技术,能够从单一肖像中创建出3D一致的新视角。该方法在各种独特视图合成方面取得了令人瞩目的成就,支持外观、表情、姿态各异的肖像,无需繁琐的微调过程。通过明确分离的外观和相机视图控制系统,实现了高效的相机操作,同时不影响主体的表情或身份特征。结合交叉视图注意力模块和3D感知噪声生成技术,该方法提供了出色的3D视图长程一致性。
字节多模态大模型PixelLM:无需依赖SAM,实现高效像素级推理
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/aimodel/2499.html