聚焦文本生成高精准3D模型,北京智源AI推出3D-GPT
北京智源AI研究院、牛津大学和澳大利亚国立大学联合发布了一项研究,名为3D-GPT。这项研究通过文本问答方式,创建高精准的3D模型。
随着Meta提出元宇宙概念后,全球对高保真的3D内容需求激增。然而,传统的3D建模流程效率低下,设计师需要从基本形状逐步打造模型,再进行着色、细节处理等工作十分繁琐。而3D-GPT技术框架可有效解决这一痛点。
3D-GPT使用了大语言模型的多任务推理能力,通过任务调度代理、概念化代理和建模代理三大模块,简化了3D建模的开发流程实现技术民主化。与现有的文本生成3D模型方法不同,3D-GPT生成过程可以操控函数进行3D建模,而不是常规的3D神经元表征,同时可与Blender(开源三维软件)实现无缝集成。这极大地提升了模型的灵活性和准确性。
3D-GPT
3D-GPT主要由任务调度代理、概念化代理和建模代理三大块组成。
1、任务调度代理:根据用户指令选择所需的建模函数,概念化代理用于丰富语言描述的细节,为后续建模做准备。建模代理则解析概念化代理输出的语言描述,转换为具体的代码和参数,调用相应函数实现建模。
2、3D-GPT使用了InfiniGen作为基于Python-Blender的过程化生成器。研究人员为每个函数Fj提供了提示,包括函数文档Dj、易读代码Cj、所需信息Ij和使用示例Ej。这些资源使大语言模型可以利用其规划、推理和工具使用的核心能力,根据语言指令高效地利用InfiniGen进行3D生成。
3、在建模工具搭建好之后,3D-GPT采用了一个多代理协作框架,来处理3D建模流程。任务调度代理在规划过程中发挥关键作用,概念化代理进行推理以丰富用户提供的文本描述,建模代理推断每个选定函数的参数,并生成Python代码,调用Blender API接口,促进相应3D内容的创建。
测试数据表明,3D-GPT可以根据不同语言描述生成符合要求的3D场景和对象。具体表现如下:
3D-GPT可以根据简要描述生成较大的3D场景,场景内容与描述基本一致。对于单一对象,3D-GPT可以准确捕捉其关键外观特征,实现精细的形状、曲线和属性控制。
3D-GPT能够正确理解工具的功能,获取必要知识,并将其用于精确控制。即使参数与视觉外观无直接关系,也能准确推理参数值。在多步语言指令的场景中,3D-GPT能够充分理解每一步指令,并对场景进行准确修改。
论文地址:https://arxiv.org/abs/2310.12945
Github(即将发布):https://github.com/Chuny1/3DGPT
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/aimodel/1439.html