“Monkey”的多模态大模型亮相，能理解高分辨率图像

华中科技大学近日推出了一个名为“Monkey”的多模态大模型，该模型为软件学院教授白翔领导的VLRLab团队所研发。这个模型具有出色的多模态处理能力，能在多种数据集上进行高效操作，尤其在图像描述和视觉问答任务方面表现优秀。

高性能多模态大模型monkey.jpg

“Monkey”不仅具有优秀的图像描述能力，即对图像的精细理解能力，而且在对高分辨率图像的处理上也有突破。据VLRLab团队介绍，“Monkey”可以处理分辨率高达1344×896像素的图像，这是目前其他多模态大模型处理能力的六倍。这种高分辨率处理能力使得“Monkey”可以对更大、更复杂的图像进行更深入、更细致的理解和描述。

实现这一突破的关键在于，“Monkey”采用了一种创新性的多层级描述生成方法。通过五个步骤，包括整体简述、空间定位、模块化识别、描述赋分选取和最终总结，“Monkey”可以充分利用各种工具的特性，大幅度提升描述的准确性和丰富程度。

此外，为了降低高分辨率图像处理的算力成本，VLRLab团队采用了“裁剪”策略。他们将原始的高分辨率图像分割成多个较小的图像块，然后使用一个类似“放大镜”的工具对每个图像块进行局部特征提取。这种方法可以在保持处理效率的同时，提高模型对图像的细节感知能力。

业界认为，随着ChatGPT等多模态大模型的升级迭代，以及Gemini等原生多模态模型的出现，AI大模型的发展已经进入了一个新阶段，即从单纯的大语言模型过渡到多模态模型。VLRLab团队的“Monkey”模型无疑为这一发展趋势注入了新的动力。

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/aimodel/2251.html

“Monkey”的多模态大模型亮相，能理解高分辨率图像

相关推荐