长窗口模型 + 搜索增强,提升大模型的应用潜力
在上下文窗口过长的情况下,存在容量限制、成本、性能和效率等问题。首先,容量问题是一个问题,因为128K的窗口最多只能容纳23万汉字,相当于一个658KB左右的文本文档。这意味着如果上下文窗口过长,超过了这个容量限制,就无法有效地处理和存储信息。
其次,计算成本问题也是一个挑战。长窗口模型的推理过程需要消耗大量的token,这会导致成本的增加。这是因为每个token都需要进行计算和处理,而长窗口意味着更多的token需要被处理,从而增加了计算资源的消耗。
此外,从性能角度来看,由于模型的推理速度与文本长度正相关,即使使用了缓存技术,长文本仍然会导致性能下降。这是因为长文本需要更多的计算资源和时间来进行处理和推理,而缓存技术可能无法完全解决这种性能下降的问题。
长窗口模型 + 搜索增强,提升大模型的应用潜力
面对长窗口技术存在容量限制、成本、性能和效率等问题,在不改变底层模型的前提下,百川智能通过增加内存(即扩展上下文窗口)和借助搜索增强(即访问互联网实时信息和从专业领域知识库中获取专家知识)的方法,将大模型的内化知识与外部知识融会贯通。
搜索增强技术的加入,使得长上下文窗口的优势得以更好地发挥。大模型能够精准理解用户意图,在互联网和专业/企业知识库中寻找与用户意图最相关的知识,并将其加载到上下文窗口。借助长窗口模型对搜索结果进行进一步的总结和提炼,充分展现上下文窗口的能力,从而帮助模型生成最优结果。这种联动效应形成了一个闭环的强大能力网络。
两种方法的结合,将上下文窗口的容量拓展到了一个全新的高度。百川智能通过长窗口+搜索增强的方式,在192K长上下文窗口的基础上,将大模型能够获取的原本文本规模提升了两个数量级,达到5000万tokens。
为了验证长窗口+搜索增强的能力,我们采用了“大海捞针”(Needle in the Haystack)测试方法,这是由海外知名AI创业者兼开发者Greg Kamradt设计的,被业内公认为最权威的大模型长文本准确度测试方法。
我们采样了5000万tokens的数据集作为大海(Haystack),并使用多个领域的问答作为针(Needle)插入大海(Haystack)不同位置中,分别测试了纯embedding检索和稀疏检索+embedding检索的检索方式。
对于192K tokens以内的请求,百川智能可以实现100%回答精度。
而对于192K tokens以上的文档数据,百川智能结合搜索系统,将测试集上下文长度扩展到5000万个tokens,分别评测了纯向量检索和稀疏检索+向量检索的检索效果。
测试结果显示,稀疏检索+向量检索的方式可以实现95%的回答精度,即使在5000万tokens的数据集中也可以做到接近全域满分,而单纯的向量检索只能实现80%的回答精度。
同时,在博金大模型挑战赛-金融数据集(文档理解部分)、MultiFieldQA-zh和DuReader三个测试集上,百川智能搜索增强知识库的得分均领先GPT-3.5、GPT-4等行业头部模型。
通过长窗口和搜索增强的结合,百川智能的大模型实现了更高层次的融合能力,从而使其在处理复杂任务时更加高效和准确。
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/2403.html