1. 主页 > AI技术 > AI软件技术

走近APE:一种全开源的多模态分割模型

多模态分割模型是一种处理多种模态信息的深度学习模型,这里的“模态”可以理解为不同类型的数据,例如文本、图像、视频和音频等。这种模型不仅能够处理图像和文本形式的数据,还能够处理更为复杂的视觉语言问题,如图像和文字的分类、问答、匹配、排序、定位等问题。

在实际应用中,多模态分割模型可以发挥巨大的作用。例如,在医学领域,使用多模态数据做医学图像分割已经成为趋势,因为不同模态的图像会携带不同的信息。原生多模态模型则从一开始就采用了集成式设计,这些模型在架构上是为处理多种类型的数据而设计的,意味着它们在内部已经集成了处理不同模态数据的机制。来自不同模态的数据在模型内部被有效地融合,这样可以更好地理解数据间的关联和相互作用。

APE是一种全开源的多模态分割模型,其独特之处在于采用了独立建模每个类别名实例的方法。与传统方法将多个类别名联结成一个单独的Prompt不同,APE通过对每个类别名或描述短语进行独立建模,可以学习到不同实例之间的差异。此外,APE还通过压缩Word-Level Embeddings为Sentence-Level Embeddings来减少计算复杂度和内存消耗,从而有效地表达语义信息。

APE全开源的多模态分割模型技术.jpg

APE采用了不同的特征融合方式来处理不同类型的Prompt。对于纯类别名的文本特征,采用一种“zero”文本token作为替代,以避免过拟合问题。而对于语言描述的文本特征,采用特定的融合方式将其与视觉特征进行语义级的理解。此外,APE还通过矩阵乘法计算Object Embeddings和Prompt Embeddings之间的相似度,从而实现一次性检测和分割。

APE还通过统一前景和背景粒度来提高分割效果。在分割任务中,前景和背景的粒度是不同的,但传统方法往往面临前背景冲突的问题。为此,APE提出统一前景和背景的粒度,将背景的不同块视为独立的标签,从而使模型可以采用统一的架构训练前景和背景数据,并方便地融入大规模的Class-Agnostic数据。

APE在各个检测、分割和指向性检测数据集上都取得了强力结果。特别是在D3数据集上,APE的表现显著优于其他方法。在开集检测任务中,APE在常见数据集上的效果也明显优于其他方法。此外,APE还在开集分割任务和视觉定位任务上取得了竞争性的结果,在RoboFlow100和ODinW评测基准上取得了新的SOTA。

APE是一种非常有潜力的多模态分割模型,具有广泛的应用前景。通过独立建模每个类别名实例、压缩Word-Level Embeddings为Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行Object Embeddings和Prompt Embeddings之间的相似度计算以及统一前景和背景粒度,APE在多个常见数据集上取得了强力的分割效果,并展现出竞争力的结果。未来的研究可以进一步探索APE在其他视觉任务中的应用,以及对其方法进行优化和改进。

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/software/2186.html