清华&NUS发布成果：通过简单对话，让大模型自动标注图像

多模态大模型集成了检测分割模块后，抠图变得更加简单！只需用自然语言描述需求，模型就能快速标注出要寻找的物体，并给出文字解释。这一全新多模态大模型是由新加坡国立大学NExT++实验室与清华刘知远团队共同打造的。

大模型都会标注图像了，简单对话即可.jpg

随着GPT-4v的推出，多模态领域涌现出许多新模型，如LLaVA、BLIP-2等。为了进一步扩展多模态大模型的区域理解能力，研究团队开发了一个能够同时进行对话和检测、分割的多模态模型NExT-Chat。

NExT-Chat的最大亮点是在多模态模型中引入了位置输入和输出的能力。其中，位置输入能力指的是根据指定的区域回答问题；位置输出能力则是指定位对话中提及的物体。

大模型都会标注图像了，简单对话即可2.jpg

即使是复杂的定位问题，NExT-Chat也能迎刃而解。除了物体定位，NExT-Chat还可以对图片或其中的某个部分进行描述。分析完图像的内容之后，NExT-Chat可以利用得到的信息进行推理。

为了准确评估NExT-Chat的表现，研究团队在多个任务数据集上进行了测试，并在多个数据集上取得了SOTA（State-of-the-Art）结果。作者首先展示了NExT-Chat在指代表达式分割（RES）任务上的实验结果。尽管只使用了极少量的分割数据，NExT-Chat展现出了良好的指代分割能力，甚至超过了一系列的有监督模型（如MCN、VLT等）以及使用了5倍以上分割掩模标注的LISA方法。

接下来，研究团队展示了NExT-Chat在REC任务上的实验结果。如下表所示，相比于相当一系列的有监督方法（如UNITER），NExT-Chat都能够取得更优的效果。一个有趣的发现是，NExT-Chat比使用了类似框训练数据的Shikra效果稍差一些。作者猜测，这是由于pix2emb方法中LM loss和detection loss更难以平衡，以及Shikra更贴近现有的纯文本大模型的预训练形式所导致的。

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/software/2575.html

清华&NUS发布成果：通过简单对话，让大模型自动标注图像

相关推荐