“Monkey”的多模态大模型亮相,能理解高分辨率图像
华中科技大学近日推出了一个名为“Monkey”的多模态大模型,该模型为软件学院教授白翔领导的VLRLab团队所研发。这个模型具有出色的多模态处理能力,能在多种数据集上进行高效操作,尤其在图像描述和视觉问答任务方面表现优秀。
“Monkey”不仅具有优秀的图像描述能力,即对图像的精细理解能力,而且在对高分辨率图像的处理上也有突破。据VLRLab团队介绍,“Monkey”可以处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型处理能力的六倍。这种高分辨率处理能力使得“Monkey”可以对更大、更复杂的图像进行更深入、更细致的理解和描述。
实现这一突破的关键在于,“Monkey”采用了一种创新性的多层级描述生成方法。通过五个步骤,包括整体简述、空间定位、模块化识别、描述赋分选取和最终总结,“Monkey”可以充分利用各种工具的特性,大幅度提升描述的准确性和丰富程度。
此外,为了降低高分辨率图像处理的算力成本,VLRLab团队采用了“裁剪”策略。他们将原始的高分辨率图像分割成多个较小的图像块,然后使用一个类似“放大镜”的工具对每个图像块进行局部特征提取。这种方法可以在保持处理效率的同时,提高模型对图像的细节感知能力。
业界认为,随着ChatGPT等多模态大模型的升级迭代,以及Gemini等原生多模态模型的出现,AI大模型的发展已经进入了一个新阶段,即从单纯的大语言模型过渡到多模态模型。VLRLab团队的“Monkey”模型无疑为这一发展趋势注入了新的动力。
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/aimodel/2251.html