Chat-UniVi视觉语言大模型,实现统一的视觉表征
近日,一种名为Chat-UniVi的视觉语言大模型被推出,实现了统一的视觉表征,可同时处理图片和视频任务。该大模型由北京大学和中山大学等机构的研究者共同研发。(什么是“视觉语言大模型”?)
这一框架的独特之处在于,它不仅在深度学习任务中表现卓越,而且仅需短短三天的训练时间,就能训练出具有130亿参数的通用视觉语言大模型。
Chat-UniVi的核心方法是采用动态视觉token,通过最近邻的密度峰聚类算法来获取这些动态token。这一方法极大地减少了视觉token的数量,降低了模型的训练和推理成本。研究人员通过实验证明,Chat-UniVi在图片理解、视频理解、问答等多个任务中都表现出色,甚至在较小的参数量下也能超越其他大型模型。
Chat-UniVi的训练过程分为两个阶段:多模态预训练和联合指令微调。这一两阶段的训练策略使得模型能够在混合数据集上进行训练,无需对模型结构进行修改,展现了其在多任务学习上的灵活性和高效性。
Chat-UniVi的成功实验结果包括在图片理解、视频理解、问答等多个任务中都超越了先进的方法。其在幻觉评估上的优越性更是引人注目,证明了采用动态视觉token和多尺度表征的有效性。
总体而言,Chat-UniVi的推出为视觉语言模型的研究领域带来了新的思路。通过统一的视觉表征实现了对多模态数据的高效处理,为深度学习模型的训练和推理提供了更加便捷和经济的解决方案。这一创新成果将为未来的视觉语言模型研究提供有益的参考。
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/aimodel/1884.html