1. 主页 > 大咖说AI

月之暗面创始人杨植麟:长文本将成为定制模型的关键技术

在2023年成立,名为月之暗面(Moonshot)的公司在大型模型领域中扮演着重要的角色。过去的五年里,月之暗面组建了一支精英AI团队,他们曾参与了Google Bard、Gemini、盘古、悟到等多个大型模型的研发工作。

今年十月,月之暗面发布了他们的首款对话类产品Kimi Chat,这款产品具备世界级的长文本处理能力。Kimi Chat支持约20万字的中文上下文长度,这使得它的整体表现令人惊叹。对此,杨植麟认为,基于Transformer架构的大型模型是“新时代的计算机”,参数的数量决定了计算的复杂度,上下文的长度决定了内存的大小——因此,上下文长度无疑是关键所在。

以下内容为月之暗面创始人杨植麟在36氪WISE2023 商业之王大会的分享:

大家好!今天非常高兴有机会来到这里,也感谢36氪的邀请,今天我分享的主题是《AGI需要真实的规模化》。

月之暗面创始人杨植麟作主题演讲.jpg

月之暗面创始人杨植麟作主题演讲

先从50年前的一个摇滚乐队开始讲起。1973年的时候,著名的摇滚乐队Pink Floyd发行了他们一张非常重要的专辑,叫《月之暗面》(The dark side of the moon)五十年后,我们成立了一家AGI公司,名字也叫“月之暗面”。 这个名字跟AGI其实是相关联的。因为月亮的背面我们其实平时是看不到的,平时我们能看到的可能是月亮发光的一面,但是它的背面非常引人入胜,非常的神秘。就跟AGI一样,我们不知道智能的极限到底在哪里,不知道我们AGI会用什么样的方式来实现,实现之后又会发生什么样的事情。所以,月之暗面也是表示了我们愿意,而且非常希望能够长期去探索月球的背面是什么样的。

在过去的五年的过程中,我们聚集了一支人才密度非常高的团队,我们主导和参与了国内外的非常多经典大模型的开发,包括Google Bard,google Gemini、盘古和悟道一系列的大模型。

我们也发明了历史上第一个全面超越了RNN的Transformer语言模型。我们团队的很多作为第一作者和核心贡献者发明了的技术,被许多主流的产品多采用,比如,LLaMA就用了我们很关键的Positional encoding技术,像Stable Diffusion网络架构里面的两个核心的架构,里面的Group Organization也是由我们团队发明的。

这是我们的产品Kimi Chat,它最主要的特点是具备世界级的长文本处理能力。这其中最主要的两个点是,一是到底能处理多少字,我们能支持高达20万甚至更长的上下文窗口的处理。

除此之外,我们采用了无损压缩技术,所以使得说在处理很长的上下文的同时,也能够保证信息处理的准确性,不会出现像lost in the middle(某些中间层数据没有学到有效的特征表示)的问题,就不管你的答案是出现在开头、中间、结尾,还是说需要融合不同的文档位置的问题进行回答,都可以给出准确的答案。

我们的用户和我们共创了很多新玩法。举一个非常有意思的例子,我们有一个做投资行业的朋友,他们暑期想招实习生,所以他在我们系统上传了50份简历,每份简历都是一个PDF文档,这时候就是需要系统有很强的上下文处理能力。

50个简历上传之后,朋友就给他提要求。比如实习生可能要具备一定的英语水平、有比较强的技术背景、要对AI和投资也有热情。我们的Kimi chat,在阅读完这50份简历之后,马上就给出来了Top 5推荐。最后Top2的两个人刚好就是他们最后实际被录用的实习生。

这只是其中一种,还有各种各样的例子。比如说,你可能平时打车有很多发票整理工作,现在就可以直接上传这50个发票,Kimi Chat就可以自动给整理你过去一个月的行程到底是什么样的,直接整理出来一个报销文档。

又或者有好几篇英文论文,你想对他做比较、分析,Kimi Chat都可以利用它的长文本能力,去很好的完成任务。 如果放到五年前,AI的这些技术突破——帮你筛选简历、去挑选实习生,我认为是完全不可想象的。如果我们看历史的发展,这里面其实有一些偶然性,也有一些必然性,我愿意称之为是偶然中的必然。

在2022到2023的时间点,我们刚好具备了一些非常重要的历史性因素。 第一个重要的因素是,发展了二十多年的互联网,这二十多年里,诞生了像google这样伟大的互联网公司。不过,我认为最大的价值很有可能互联网是为AI积累了二十多年的数据,这实际上是AI时代的一段引导程序。通过这些海量的数据,使得我们训练这种大规模的语言模型成为了可能。 第二,不管是芯片技术还是网络技术的突破,让我们有现在的计算中心规模,能够一下子在一个单一集群里训练25次方次浮点数的运算,可能少一个数量级都不行。

25次方次就是GPT-4的规模。如果只是10的24次方,那今天有可能什么事情都不会发生。但当到了10的25次方之后,GPT-4突然发生了涌现很多智能。以前是完全做不了的任务,那现在可以做了。

还有另外一个很重要的变量,就是Transformer架构的发明。如果回到六年前,这个世界上可能还没有Transformer架构,以前的学者研究过传统RNN网络结构的极限,有个论文标题就叫《ExpLoring the Limits of Language Modeling》,但是你会发现最终的结果就是一无所获。 因为当模型变大之后,你并不能得到一个更好的模型,训练损失不会更低,也不能得到更好的泛化的结果。而只有Transformer架构是能够被scale(扩大规模)的。所以本质上,我们是需要一个可被规模化的网络架构,就是Transformer。 本质上,正是因为这三个因素在这个时间点刚好汇聚起来,使得说AGI出现了一些苗头,以及未来的继续发展成为了可能。

并且,我们可以看到,规模化其实是AGI的核心——其实是架构、算力、数据三个要素的规模化。但是我们不光只是需要规模化,而是需要真实的规模化。

这里会有很多的维度,举个例子,假设我们今天训练了一个百万亿的模型参数的模型,但是如果只到这一步,那它可能就不是真实的规模化。

我会从两个例子来展开介绍,到底什么是真实的规模化。 我们认为,Transformer是新时代的计算机。这跟老的计算机不一样,老的计算机可能是你通过编码方式实现一个确定性的需求,但在Transformer上,你可能是通过Prompt作为编程语言,用数据作为桥梁去嫁接你的产品和研发。

在这种新的计算范式下面,它会产生新的计算,会产生新的内存。比如说参数数量可能就会决定计算复杂度,上下文的长度就会决定内存大小。有了很大的内存之后,你就可以去解锁很复杂的计算链路,比如训练一个很复杂的Agent完成各种任务,阅读不同的文件,去综合不同的分析,最后得到想要的结果。

同时,它也是降低幻觉非常好的手段。如果你平白无故的去问一个模型,那他可能会开始有Hallucination(幻觉)。但如果我们能够把搜索的结果,或者很多个人文档、公司文档作为上下文的话,它就可以极大程度的降低幻觉,因为所有的信息都可以从文档里面被提取和归纳。

现在很多大模型的开发者也面临这样的问题,你可能用了自己的专有数据,我也调了一个模型,但如果你的基座模型升级了,你可能所有的这些微调都白费了。

所以,我们认为长文本是接下来会取代微调的一种定制化的方式。 你可以把所有的指令数据、训练数据作为少量版本的prompt,作为模型的输入。当你的模型发生升级的时候,你并不需要再重新用你的训练数据再微调一遍,而是仅仅需要把Prompt适配,完全不需要做任何的调整。这是一个非常强大的定制化工具,也是未来所有人能产生个性化的模型的基础。

现在,有很多模型的上下文长度变得越来越长,但并不都是真实的规模化,里面有一些技术捷径。

比如说,有些模型可能是个金鱼模型,我可能是在一个很短的窗口上去训练,把它去泛化,比如说推到一个相对长的窗口,在泛化到很长的窗口的时候,他就可能会出现记忆损失,就像金鱼一样,可能是只有7秒钟的记忆。

它也有可能是一个蜜蜂模型,通过检索或者降采样的方式,只关注局部,比如其中的某一小段的内容。这样你就没有办法对全局得到一个很好的理解。

他也有可能是一个蝌蚪模型,也就是模型非常小。就像你的计算机一样,虽然你有一个非常大的内存,但是你的计算不足,你的CPU是很弱的。这种情况下,其实你也没有办法得到一个非常好的结果。

所以我们要的是不是金鱼模型,不是蜜蜂模型,也不是蝌蚪模型,这些都不是真实的规模化。真实的规模化应该是猎豹、狮子、老虎,应该是无损压缩。

GPT-4 压力测试结果

Kimi 压力测试结果

这是一个非常经典的关于长文本能力的测试:大海捞针。

什么意思呢?我会给模型非常多的文档,我会在随机在文档里面去插入一句话。比如说北京最好的事情是什么,北京最吸引人的点是什么?你在文档里面去插入这句话,然后他你这样你就可以得到一个实验,就是说你在不同的长度,在你不同的插入位置的情况,他的回答的准确率到底是什么样。

左边是GPT4的结果,这是在Twitter上非常火的一个测试。简单的说,就是你这个图里面红点越少越好。红点多就表示你在这种情况下回答可能是错误的,可以看到,上下文长度变长之后,它其实对文档前半部分的理解,它是会出现非常多误差的。

我们把一样的实验放在kimi chat里面。可以看到,除了左下角有一个红点之外,其他所有地方都是绿的,也其他所有地方的回答都是准确的,这个也是得益于我们的无损压缩技术。

我们认为这才是真实的规模化,而不是一个非真实的上下文长度规模化。

我们经常会提起“摩尔定律”,摩尔定律最早指的是,每N年晶体管数量可能会翻一倍。现在,AI时代也有不同的摩尔定律。可能每N个月,模型的参数数量翻一倍,那N个月后模型算力也要翻一倍,每N个月你的能实现可用的这个场景数量,它应该翻一倍。

我们认为其实现在最关键的其实应该是这个定律,这是通往AGI非常必要的路。它不应该是一个线性的增长,它应该是一个指数的增长。

它不应该是蛮力的用传统的AI方式实现,比如以前传统的AI系统,大家会做的事情就是把这个系统拆解成很多个小问题,比如1万个AI问题,每个AI问题是单独去收集数据。但这个是不可规模化的,很难实现指数增长。如果你没有办法实现指数增长,你就没有办法实现AGI。

另外一个很重要的问题是,AI时代去探索产品PMF(Product Market Fit)的过程,会和互联网时代、甚至更早前的软件时代完全不同。

以前探索PMF的过程是什么?以前,你在手机上去破解密码,假设现在是一个四位数的密码,你会有一万种不同的可能性。可能你有一个有神性的天才产品经理,他跟你说,你这个密码很有可能是1359。因为他非常天才,所以他一下就指出来说,这个密码是正确的概率非常大。 但在AI native时代,这样的规律可能完全不适用。我们并不是说不需要产品经理,而是产品经理做的事情会变成:他在这里面指出从1000-2000个可能性之间,这一千种可能性概率最大。但之后,我们会需要一个暴力机器,一下子把它全部试出来。

所以,我们并不是要一个一个一个场景去试,而是要将一批场景,一波一波的场景往模型输入。GPT不可能说只能完成一件事情,它必然是很多事情同时涌现的。

那我们在AI时代应该怎么去做PMF呢? 第一,很重要的还是要去利用模型的泛化能力。回到我们上面说用Kimi Chat筛简历的例子,其实在我们的产品上线之前,我们内部是从来没有做过测试,也没有做过任何专门的优化,它其实是模型涌现出来的一个能力。

当你的底层Instruction Following、多步推理、处理上下文,上下文一致性等底层能力得到提升的时候,它其实会带来上层的很多新场景的爆发。 我想引用我非常喜欢的设计师柳宗理的一句话:不是依据设计来制造,而是通过制造完成设计。

我觉得这是AGI非常或者做AI native非常重要的思想。你再也不是写一个需求,让这个程序员把这个需求用确定性的方式实现出来。而是可能会有多种不同的场景同时在涌现,产品经理做的事情不是说去种一棵树,而是去画出来一块地,让AGI机器能够在这片地上把所有树都种一遍。这才是可能真正AGI长期发展方向的、好的开发方式。

讲到这儿,我们如果再回顾一下这个领域过去半年到一年发生的事情——有很多人在做大模型,我们也是其中之一。

但是你会发现做大模型的人可能分成两种,一种是看风景,用AGI解锁了很多可能性,然后里面会有很好的风景,我可以去做一些应用,这波是看风景的人。

还有另外一波人,他其实是勇攀高峰,其实是爬楼梯,但不代表说我们不看风景,而是说在你看风景的同时,你可能要花更多的精力,花更多的时间去以周为始的思考:到底月球的背面是什么?

有一天你会发现,当你爬到了100层楼的时候,那些在一两层楼就开始看风景的人,其实有可能最后就被降维打击了。所以,“爬楼梯”其实才是我们最终真正想做的事情。 最后,我们还非常相信的一点就是:AGI不可能是闭门造车的产物,它必然是跟所有用户一起共创的过程。在这个过程中,才有可能形成数据飞轮,形成我刚刚说说的“场景的摩尔定律”。

我们也希望跟在座的所有人一起,能够通过我们的Kimi chat产品,一起去探索AGI之路,非常感谢大家!

【大模型巡展】Kimi Chat:支持输入超过20万汉字的长文本

Kimi Chat:你的AI智能聊天机器人助手

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/record/1926.html