1. 主页 > AI展台 > AI大模型

【大模型巡展】高性能多模态大模型“Monkey”上线

Monkey是由华中科技大学与金山软件联合开发的一种高性能多模态大模型。该模型通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在处理复杂场景和视觉细节方面的挑战。Monkey可以直接基于现有的视觉编辑器进行构建,无需从零开始预训练,大大提高了研发效率。

高性能多模态大模型monkey.jpg

Monkey的多级描述生成方法可以为模型提供丰富的上下文信息,指导模型学习场景和对象之间的关联。经过在16个不同的数据集上的测试,Monkey在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey展现了超强的细微视觉信息感知和复杂场景理解能力,具有广泛的应用空间。

Monkey的训练数据集质量是其能力提升的关键。研究人员生成了数十万条高质量的图像描述数据,并利用多个模型自动生成文字描述,并将不同模型的输出融合起来,提升了大模型对图像细节的理解能力。

在模型选择方面,Monkey采用了开源模型Qwen-VL作为语言解码器,以及20亿参数的ViT-BigHuge作为视觉编码器,避免了重复预训练的资源浪费。为了提升Monkey的识别能力和输入分辨率,以及生成更丰富的图像描述和对复杂场景的理解能力,采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。

Monkey在16个不同的数据集上进行了全面验证,包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上,Monkey在多个数据集上都显示出明显的优势。在图像字幕任务上,Monkey在TextCaps数据集上也表现出色,证明了其对图片中文本元素的多模态理解能力。

在文档导向问答任务上,Monkey在多个文档图像理解数据集上取得了不错的成绩。研究人员表示,Monkey在医学影像、卫星图像等领域具有广泛的应用空间,并将继续优化Monkey模型的感知、联想、推理和泛化能力。

Monkey无需从零开始预训练,可以基于现有的视觉编辑器进行构建,具有高效率和广泛的应用空间。通过在多个数据集上进行测试,Monkey在多模态任务上取得了出色的成绩,展现了超强的视觉信息感知和场景理解能力。未来,Monkey将继续优化模型的感知、联想、推理和泛化能力,进一步提升其在各领域的应用价值。

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/aimodel/2179.html