1. 主页 > 大咖说AI

百川智能王小川:大模型的落地应用,“内存”和“硬盘”都不可或缺

在12月19日举办的Baichuan2Turbo系列API发布活动上,百川智能创始人兼CEO王小川做了一个十分贴切的比喻:大模型就如同计算机的CPU,通过预训练将知识内化在模型内部,然后根据用户的Prompt生成结果。而上下文窗口则可以被视为计算机的内存,存储了正在处理的文本。在这个大模型的时代,互联网实时信息与企业完整知识库则共同构成了“硬盘”。

王小川.jpg

这些最新的技术思考已经融入到了百川智能的大模型产品中。百川智能已经正式开放了基于搜索增强的Baichuan2-Turbo系列API,包括Baichuan2-Turbo-192K及Baichuan2-Turbo。这个系列的API不仅支持192K的超长上下文窗口,还增加了搜索增强知识库的能力。所有用户都可以上传特定的文本资料来构建自身的专属知识库,并根据自身业务需求构建更完整、高效的智能解决方案。

与此同时,百川智能也升级了官网模型体验,正式支持PDF文本上传以及URL网址输入。普通用户都可以通过官网入口体验长上下文窗口和搜索增强加持后的通用智能水平的提升。

大模型的落地应用,“内存”和“硬盘”都不可或缺。

对于企业来说,大模型应用的关键在于如何利用好企业数据。这些年来,随着数字化建设的推进,很多企业都在数据的收集、存储和分析方面做了大量工作,积累了大量的高价值数据和经验。这些数据和经验构成了企业的核心竞争力,也决定了大模型落地的深度和广度。

过去,很多有实力的企业选择在预训练阶段利用自身数据来训练大模型。但这种方式需要消耗大量的时间和算力,也需要有专业的技术团队来操作。还有一些企业选择引入业界领先的基础大模型,然后使用自身数据进行后训练(Post-Train)和有监督微调(SFT)。这种方式在一定程度上可以弥补大模型建设周期过长和领域知识匮乏的缺点,但仍无法解决大模型落地的幻觉和时效性问题。无论是预训练(Pre-Train)还是后训练(Post-Train)和有监督微调(SFT),每更新一次数据都需要重新训练或微调模型,无法保证训练的可靠性和应用的稳定性,多次训练后仍会出现问题。

因此,大模型落地需要一种更高效、精准、实时的数据利用方式。

近期,扩展上下文窗口和引入向量数据库的方法被寄予厚望。从技术层面来看,上下文窗口所能容纳的信息越多,模型在生成下一个字时可以参考的信息就越多,“幻觉”发生的可能性就越小,生成的信息就越准确,因此这项技术是大模型技术落地的必要条件之一。向量数据库则为大模型外接了一个“存储”。相对于单纯扩大模型规模而言,引入外挂数据库能够让大模型在更广泛的数据集上回答用户问题,以非常低的成本提高模型对各种环境和问题的适应能力。

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/record/2396.html