1. 主页 > AI展台 > AI大模型

聚焦文本生成高精准3D模型,北京智源AI推出3D-GPT

北京智源AI研究院、牛津大学和澳大利亚国立大学联合发布了一项研究,名为3D-GPT。这项研究通过文本问答方式,创建高精准的3D模型。

随着Meta提出元宇宙概念后,全球对高保真的3D内容需求激增。然而,传统的3D建模流程效率低下,设计师需要从基本形状逐步打造模型,再进行着色、细节处理等工作十分繁琐。而3D-GPT技术框架可有效解决这一痛点。

3D-GPT使用了大语言模型的多任务推理能力,通过任务调度代理、概念化代理和建模代理三大模块,简化了3D建模的开发流程实现技术民主化。与现有的文本生成3D模型方法不同,3D-GPT生成过程可以操控函数进行3D建模,而不是常规的3D神经元表征,同时可与Blender(开源三维软件)实现无缝集成。这极大地提升了模型的灵活性和准确性。

3D-GPT

3D-GPT

3D-GPT主要由任务调度代理、概念化代理和建模代理三大块组成

1、任务调度代理:根据用户指令选择所需的建模函数,概念化代理用于丰富语言描述的细节,为后续建模做准备。建模代理则解析概念化代理输出的语言描述,转换为具体的代码和参数,调用相应函数实现建模。

2、3D-GPT使用了InfiniGen作为基于Python-Blender的过程化生成器。研究人员为每个函数Fj提供了提示,包括函数文档Dj、易读代码Cj、所需信息Ij和使用示例Ej。这些资源使大语言模型可以利用其规划、推理和工具使用的核心能力,根据语言指令高效地利用InfiniGen进行3D生成。

3、在建模工具搭建好之后,3D-GPT采用了一个多代理协作框架,来处理3D建模流程。任务调度代理在规划过程中发挥关键作用,概念化代理进行推理以丰富用户提供的文本描述,建模代理推断每个选定函数的参数,并生成Python代码,调用Blender API接口,促进相应3D内容的创建。

测试数据表明,3D-GPT可以根据不同语言描述生成符合要求的3D场景和对象。具体表现如下:

3D-GPT可以根据简要描述生成较大的3D场景,场景内容与描述基本一致。对于单一对象,3D-GPT可以准确捕捉其关键外观特征,实现精细的形状、曲线和属性控制。

3D-GPT能够正确理解工具的功能,获取必要知识,并将其用于精确控制。即使参数与视觉外观无直接关系,也能准确推理参数值。在多步语言指令的场景中,3D-GPT能够充分理解每一步指令,并对场景进行准确修改。

论文地址:https://arxiv.org/abs/2310.12945

Github(即将发布):https://github.com/Chuny1/3DGPT

AIGC+3D引擎 实现“一句话建模”

裸眼3D技术是什么,有什么用?

数字人技术中“2D拟合3D”是什么意思?

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/aimodel/1439.html