开源AI工具ChatAnything：通过文本描述生成虚拟角色

南开大学与字节跳动研究人员联手推出一项杰出研究，全新AI框架ChatAnything问世。该框架专注于通过在线方式生成基于大型语言模型（LLM）角色的拟人化形象，由此打造具有定制视觉外观、个性和语调的人物。

简而言之，ChatAnything是一款创新的产品，运用语言模型技术为LLM角色创建具有视觉外观、个性和语调的拟人化角色。通过融合语音和外观生成概念，用户只需几个文本输入即可定制角色。这款产品借助面部标志控制和评估数据集，以像素级引导实现更高的人类面部特征生成率。ChatAnything支持文本和图像输入，赋予用户创造独特虚拟角色的自由度。

研究团队充分利用LLMs的上下文学习能力，通过精心设计的系统提示生成具有个性的拟人化形象。他们提出了两个创新概念：混合声音（MoV）和扩散混合(MoD)，实现声音和外观的多样生成。MoV使用文本到语音(TTS)算法生成预定义音调，根据用户提供的文本描述选择最匹配的音调。而MoD则结合了文本到图像生成技术和说话头算法，简化了生成交互式对象的过程。

然而，研究人员在使用当前模型生成拟人化对象时遇到挑战。这些对象通常无法被预先训练的面部关键点检测器检测到，导致面部运动生成失败。为解决这一问题，他们在图像生成过程中引入像素级的引导，注入人脸关键点，显著提高面部关键点检测率，从而基于生成的语音内容自动生成面部动画。

基于生成的语音内容的自动面部动画.jpg

基于生成的语音内容的自动面部动画

研究人员在论文中详细讨论了大型语言模型（LLMs）的最新进展及其在上下文学习方面的能力，将它们置于学术讨论的前沿。他们强调需要一个能够生成具有定制个性、语音和视觉外观的LLM增强人物的框架的重要性。对于个性生成，他们利用LLMs的上下文学习能力，使用文本到语音(TTS)API创建了一个声音模块池，MoV模块根据用户文本输入选择音调。

研究人员进一步介绍了ChatAnything框架的四个主要模块：LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。他们通过引入扩散模型、语音变换器和结构控制，创建了一个模块化和灵活的系统。为验证引导扩散的有效性，研究人员创建了一个包含不同类别提示的验证数据集，并使用预训练的面部关键点检测器评估了面部关键点检测率，展示了他们提出的方法的影响。

ChatAnything框架为生成具有拟人特征的LLM增强人物提供了全面的解决方案。研究人员在解决面部关键点检测方面提出了创新性的解决方案，并在验证数据集中取得了令人鼓舞的结果。这项工作为将生成模型与说话头算法相结合以及改善数据分布的对齐提供了未来研究的可能性。

北大团队开源视觉语言大模型Video-LLaVA

140亿参数模型！阿里云通义千问开源

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/aimodel/1703.html

开源AI工具ChatAnything：通过文本描述生成虚拟角色

相关推荐