1. 主页 > AI行业 > 行业快讯

李开复发布大模型零一万物Yi,打破40万字上下文窗口纪录

零一万物(01.ai)是由李开复博士创办的一家人工智能公司,最近发布了两个版本的中英文大模型 Yi-6B 和 Yi-34B。这两个模型具有全球最长的200K上下文窗口,并且是开源的。在性能方面,Yi-34B 在各个基准测试中都取得了很好的成绩。

Yi-34B 模型版本具备更优越的知识容量、下游任务的容纳能力和多模态能力,也达到了大模型「涌现」的门槛。与更大的50B至70B相比,34B是单卡推理可接受的模型尺寸的上限,训练成本对开发者更友好。经过量化的模型可以在一张消费级显卡(如4090)上进行高效率的推理,对开发者操作服务部署有很大的优势。

李开复认为大模型一定会持续扩大参数规模,来探索模型技术和模型效果的极限。零一万物在持续进行千亿参数规模的模型训练,并为此准备好了未来18个月里所需要的算力。在多模态方面已经形成了十多人的技术团队,在未来一两个月内,也会有相关工作能够对外公开。

此次开源的 Yi-34B 模型,将发布全球最长、可支持200K超长上下文窗口版本,可以处理约40万汉字超长文本输入,也就是超过1000页PDF文档规模的内容。目前GPT-4-32k支持约2.5万字输入,Claude-100k目前支持8万字,国内大模型Moonshot、Baichuan也相继推出长上下文窗口的版本。

Yi-34B 在各个基准中的测试结果.jpg

Yi-34B 在各个基准中的测试结果

为了解决超长上下文这一重要技术限制,零一万物实施了一系列优化,包括计算通信重叠、序列并行、通信压缩等。通过这些能力增强,实现了在大规模模型训练中近100倍的能力提升。

在训练数据上,零一万物团队通过正规渠道购买和爬取的方式,获得了100T的中英文数据,并选取了其中3T的优质内容进行训练。

零一万物的技术团队由多位有丰富经验的专家组成,他们在人工智能领域有着深厚的研究和实践经验。他们的加入为公司的技术研发提供了强大的支持。

李开复博士认为AI2.0是有史以来最大的科技革命,它带来的改变世界的最大机会一定是平台和技术。他们将基于Yi系列大模型尝试应用创新,并欢迎开发者们携手打造更多ToC超级应用。

“长窗口”技术为何成为AI大模型的竞争关键点?

AI大模型的“长窗口”是什么意思?

Baichuan2-192K大模型:号称“全球最长的上下文窗口”

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/info/1382.html