1. 主页 > AI行业 > 行业观察

AI大模型面临数据之“困”,向量数据库解困有“道”

众所周知,在MaaS时代,数据的重要性不言而喻。市场的热度反映在企业行为上,表现为大量垂直模型的推出、数据库企业融资数量的增加以及数据库使用量的急剧增长等。

AI大模型的数据之“困”

然而,在大模型落地的过程中,仍然存在许多难题需要解决。

经过观察,我们发现数据局限对大模型的影响主要体现在以下三个方面:

首先,是对数据的管理和运维。随着文本、图片、视频等多模态非结构化数据使用需求的增加,许多企业产生的非结构化数据量级可高达80%。如果选择以预训练的方式将数据“喂”给模型,那么随之而来的将是难以承受的高成本。

以明星创业公司百川智能为例,在模型训练和调试过程中就曾遇到过类似问题。在使用向量数据库之前,百川智能一直使用的是开源方案,比如以向量索引为内核,相当于在训练时给模型准备一个库级别或算法级别的知识库。这些知识库使用简单,采用分布式系统的方式,具有扩展性。但其缺点也很明显,随着数量增长到一定规模时,这种分布式存储的方式会很快遇到瓶颈。

此外,由于市面上缺少成熟的管理工具,如何组织数据格式、安排数据的更新频率以及新旧数据的更迭等问题都需要额外交给工程师去处理,从而大大增加了人员成本。

其次,虽然大模型支持的token数量在持续增加,具备了“短暂记忆”的能力,但“一本正经地胡说八道”的问题仍然无法解决。这其中不乏有敏感内容的出现,稍不注意就可能带来严重的影响。因此,支撑模型训练的数据不仅要数量多,质量也必须足够高。

例如,大模型与教育行业的结合。虽然模型可以完成一定的推理和解题任务,但在实际应用中,好未来发现大模型在面对数学问题时的表现仍然不够好。要解决这个问题,必须基于庞大的高质量数据库进行尝试启发式内容生成。

最后一点是如何保障企业数据的安全性。数据在空间和时间上会有很大的限制。一方面,企业很难把自己具有核心竞争力的数据放到大模型中去训练;另一方面,企业的业务数据变化速度快且实时性强,因此私有化部署后的大模型在数据层上也难以做到秒或天级别的更新。

向量数据库解困有“道”

针对这些问题,学术界和工业界提出了两种解决方案:一是采用Fine-tuning的方式进行迭代演进,让大模型学到更多的知识;二是通过Vector search的方法将最新的私域知识存储在向量数据库中,并在需要时进行基于语义的向量检索。这两种方法都可以为大模型提供更加精准的答案。

然而从成本方面来看,行业人士指出向量数据库的成本仅为Fine-tuning的千分之一。向量数据库通过将数据向量化并进行存储和查询可以有效解决大模型预训练成本高、没有“长期记忆”、幻觉以及知识更新不及时等问题。

向量数据库是一种专门用于处理向量数据的数据库。向量数据是指以向量形式表示的数据,通常用于表示文本、图像、音频等多媒体数据。向量数据库通过将向量数据存储在数据库中,并提供高效的查询和检索功能,帮助用户快速检索和处理向量数据。

向量数据库通常采用向量索引和近似匹配算法来加速查询。向量索引可以有效地将数据库中的向量数据组织起来,并提供快速的检索功能。近似匹配算法则可以在相似度计算中提高查询效率,从而加快检索速度。

此外,向量数据库还支持各种向量运算,如向量相似度计算、距离计算、聚类等。这些运算可以帮助用户对向量数据进行更高级别的分析和处理,从而获得更丰富的信息。

据公开数据显示,2023 年 4 月以来,以向量数据库为代表的 AI 投资领域呈增长趋势,包括 Pinecone、Chroma 和 Weviate 等多家向量数据库初创企业均拿到了上亿级美元融资。

为了最大程度上帮助企业应对数据局限问题,更好地将大模型能力释放到行业和产业中,腾讯云走在国内云厂商前列,于今年 7 月便正式上线了向量数据库 Tencent Cloud VectorDB,并在 11 月 1 日全量开放公测。

腾讯云向量数据库.jpg

这也体现了腾讯云在大模型时代下的视角:大模型技术的创新只是第一步,如向量数据库这类数据存储、检索、分析等基础设施的搭建也同等重要,腾讯不仅提供直接的大模型服务,更重要的是向企业递“铲子”、提供有效趁手的平台工具。

认识一下向量数据库

支持向量机SVM是什么意思?

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/2063.html