聚焦文本生成高精准3D模型，北京智源AI推出3D-GPT

北京智源AI研究院、牛津大学和澳大利亚国立大学联合发布了一项研究，名为3D-GPT。这项研究通过文本问答方式，创建高精准的3D模型。

随着Meta提出元宇宙概念后，全球对高保真的3D内容需求激增。然而，传统的3D建模流程效率低下，设计师需要从基本形状逐步打造模型，再进行着色、细节处理等工作十分繁琐。而3D-GPT技术框架可有效解决这一痛点。

3D-GPT使用了大语言模型的多任务推理能力，通过任务调度代理、概念化代理和建模代理三大模块，简化了3D建模的开发流程实现技术民主化。与现有的文本生成3D模型方法不同，3D-GPT生成过程可以操控函数进行3D建模，而不是常规的3D神经元表征，同时可与Blender（开源三维软件）实现无缝集成。这极大地提升了模型的灵活性和准确性。

3D-GPT

3D-GPT

3D-GPT主要由任务调度代理、概念化代理和建模代理三大块组成。

1、任务调度代理：根据用户指令选择所需的建模函数，概念化代理用于丰富语言描述的细节，为后续建模做准备。建模代理则解析概念化代理输出的语言描述，转换为具体的代码和参数，调用相应函数实现建模。

2、3D-GPT使用了InfiniGen作为基于Python-Blender的过程化生成器。研究人员为每个函数Fj提供了提示，包括函数文档Dj、易读代码Cj、所需信息Ij和使用示例Ej。这些资源使大语言模型可以利用其规划、推理和工具使用的核心能力，根据语言指令高效地利用InfiniGen进行3D生成。

3、在建模工具搭建好之后，3D-GPT采用了一个多代理协作框架，来处理3D建模流程。任务调度代理在规划过程中发挥关键作用，概念化代理进行推理以丰富用户提供的文本描述，建模代理推断每个选定函数的参数，并生成Python代码，调用Blender API接口，促进相应3D内容的创建。

测试数据表明，3D-GPT可以根据不同语言描述生成符合要求的3D场景和对象。具体表现如下：

3D-GPT可以根据简要描述生成较大的3D场景，场景内容与描述基本一致。对于单一对象，3D-GPT可以准确捕捉其关键外观特征，实现精细的形状、曲线和属性控制。

3D-GPT能够正确理解工具的功能，获取必要知识，并将其用于精确控制。即使参数与视觉外观无直接关系，也能准确推理参数值。在多步语言指令的场景中，3D-GPT能够充分理解每一步指令，并对场景进行准确修改。

论文地址：https://arxiv.org/abs/2310.12945

Github（即将发布）：https://github.com/Chuny1/3DGPT

AIGC+3D引擎实现“一句话建模”

裸眼3D技术是什么，有什么用？

数字人技术中“2D拟合3D”是什么意思？

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/aimodel/1439.html

聚焦文本生成高精准3D模型，北京智源AI推出3D-GPT

相关推荐