1. 主页 > AI行业 > 行业观察

大模型厂商竞争盯上了“长文本能力”

随着时间推移,大模型的长度似乎也在“肉眼可见”地增长。如今,长文本能力已成为大模型厂商的必备“标配”。

大模型长文本能力是指模型能够处理的上下文输入长度,即在给定输入的情况下,模型能够理解和生成的文本的最大长度。这种能力不仅代表着模型的技术水平,也反映了模型在实际应用中的适应能力和效果。

在国外,OpenAI的GPT-3.5从4千增长到1.6万token,GPT-4从8千增长到3.2万token。在竞争对手中,Anthropic的上下文长度达到了10万token;LongLLaMA更是将上下文的长度扩展到25.6万token以上。

而在国内,据了解,月之暗面发布的大模型产品Kimi Chat可支持输入20万汉字,按OpenAI的计算标准约为40万token。港中文贾佳亚团队联合MIT发布的新技术LongLoRA,可将7B模型的文本长度拓展到10万token,而70B模型的文本长度则拓展到3.2万token。

国内外关注度较高大模型长文本能力

国内外关注度较高大模型长文本能力

长文本技术的拓展已成为大模型厂商的升级重点

无论是文字、语音还是视频,对海量数据的无损压缩是实现高程度智能的关键之一。对于长文本的应用场景,比如虚拟角色、剧本杀游戏等,需要更高的技术门槛。因此,突破长文本技术的关键在于未来Agent和AI原生应用的道路上。

为了推动产业落地,长文本技术也是一大助力。在金融、司法、科研等领域中,长文档摘要总结、阅读理解、问答等能力是基本需求。长文本技术能够让大模型更好地适应这些领域的需求。

然而,虽然长文本技术能够让模型更好地适应更长的上下文输入,但并不是说越长的上下文输入就能带来更好的模型效果。有研究表明,大模型可以支持更长的上下文输入与模型效果更好之间并不能直接画上等号。关键在于模型对上下文内容的使用方式。

尽管如此,未来大模型的发展还将继续探索长文本技术的边界。对于国内外的大模型公司而言,40万token可能只是开始。他们将继续努力,不断探索新的突破点。

因此,“肉眼可见”地,我们能够看到大模型的快速发展和进步。未来,这些大模型将会为我们带来更多的惊喜和便利。

猜你喜欢:

AIGC文本分类是如何实现的?

语音合成中的文本预处理的实现步骤

将纯文本转化为虚拟人语音 TTS技术不可不知

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/1106.html