字节多模态大模型PixelLM：无需依赖SAM，实现高效像素级推理

多模态大模型的爆发，是否已经准备好在图像编辑、自动驾驶和机器人技术等细粒度任务中实际应用呢？

目前，大多数模型的能力仍然局限于生成对整体图像或特定区域的文本描述，而在像素级理解方面的能力（例如物体分割）相对有限。

字节多模态大模型PixelLM.jpg

为了解决这个问题，一些工作开始探索借助多模态大模型来处理用户的分割指令（例如，“请分割出图片中富含维生素C的水果”）。

然而，市面上的方法存在两个主要缺点：

1）无法处理涉及多个目标对象的任务，这在现实世界场景中是不可或缺的；

2）依赖于像SAM这样的预训练图像分割模型，而SAM的一次前向传播需要的计算量已经足够 Llama-7B产生500多个token了。

为了解决这些问题，字节跳动智能创作团队联合北京交通大学、北京科技大学的研究人员提出了首个无需依赖SAM的高效像素级推理大模型PixelLM。

在具体介绍PixelLM之前，我们先来体验几组PixelLM实际分割的效果。

相比之前的工作，PixelLM具有以下优势：

1）能够熟练处理任意数量的开放域目标和多样化的复杂推理分割任务；

2）避免了额外的、成本高昂的分割模型，提升了效率和对不同应用的迁移能力。

进一步，为了支持这一研究领域的模型训练和评估，研究团队在LVIS数据集的基础上，借助GPT-4V构建了一个面向多目标推理分割场景的数据集MUSE。该数据集包含20万个以上的问题-答案对，涉及90万个以上的实例分割掩码。

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/aimodel/2497.html