一线人工智能专家谈大模型:当前大模型落地的难题不少!
在人工智能的浪潮中,大模型无疑是一个备受瞩目的焦点。无论我们能否预见它对社会产生的颠覆性改变,或者这种改变究竟有多大,我们都不能否认,大模型已经并将继续改变我们的生活和工作方式。
12月24日,在中国信通院的人工智能论坛上,智源研究院大模型行业应用负责人周华、中国移动研究院AI中心副总经理金镝、华为云产业发展高级专家翟传璞、硅动科技CEO袁俊辉、科大讯飞北京研究院院长助理李家琦以及国网智能电网研究院计算及应用研究所副所长石聪聪等业界翘楚齐聚一堂,共同探讨大模型的落地难题。
这些人士是大模型时代的先行者与实践者,他们的见解、经验和探索无疑为我们提供了宝贵的参考。在这次论坛上,他们分享了关于大模型在实际应用中的挑战与机遇,为我们揭示了大模型在未来发展中的无限可能。
问:这一年,大模型在落地过程中,遇到了哪些问题。
石聪聪:行业大模型在应用上有四方面挑战:
第一,大模型的行业知识不足。
我们对比了现在很多通用大模型,行业知识、语料不足,很难解决行业中遇到的复杂任务,所以通用大模型用于行业,需要做二次预训练。
第二,算力不足。
因为需要做二次预训练,对行业算力需求很迫切。尤其是在如今形势下,我们对国产算力需求尤为迫切,我们现在算力大概有几百P,甚至上千P的缺口。
第三,数据样本不足。
因为我们需要准备大量行业语料(需要几百B,甚至几百T),涉及到各个业务领域,尤其很多数据还涉及用户敏感信息,这些数据的融合、脱敏也有一定难度。
第四,应用经验不足。
传统小模型也能解决很多问题,现在大模型能否一统天下,还需要观察。
近几年,我们还是需要考虑大模型和小模型如何协同应用,这也是需要我们重点关注的问题。
李家琦:我简单谈一下我们大模型在科技文献领域落地遇到的问题。
我们当时主要遇到了两方面难题:
第一,数据处理难题。
我们当时从中国科学院文献情报中心拿到了千万级的PDF论文数据,这个量级的论文解析很困难。
如何对这些数据进行高质量清洗,并形成足够多数据对大模型进行二次训练,这个是比较有难度的。
我们当时使用了很多开源PDF解析工具,最后用我们自己的OCR解析软件才解决了这些问题。
第二,数据微调(SFD)难题。
因为数据构造时,例如面向一篇生物论文构造数据时,这篇论文的创新性是什么?肯定需要生物领域的专家才能给出一个较好的判断。
所以我们最后是从中科院文献中心协调了二三十人来帮助我们进行数据标注,这样才完成了数据标注任务。
此外,在大模型研发过程中,我们完全使用了华为昇腾910B。
早期,我们也是刚开始使用国产硬件进行大模型落地开发,在算子适配上遇到了一些问题,后来在华为的帮助下,解决了算子适配问题。
最终,我们从4月到10月,用了半年时间,完成了大模型在科技文献领域的行业落地。
袁进辉:我们认为大模型推理、部署的成本未来会成为一个主要问题。
我们都相信大模型未来会无处在,要想无处不自在,今天来看成本还是比较贵的,这个已经有很多证据。
国内现在大模型使用量还没有那么高,海外有的应用使用量很高,已经暴露出这个问题。
例如,微软GPT写代码的助手付费用户超过100万时,虽然每个月每位用户会交20美元服务费,但实际上微软还要亏几十美元。这就说明用户付的费用还是cover不了它的成本。
OpenAI前段时间发布GPTs时,用户量突然暴增,OpenAI因此停止注册了一段时间,因为它只有那么几万块GPU在工作,如果再增加用户,就会影响之前用户的使用体验。
这些问题都暴露出来,今天大模型推理成本还是太高了。
几年前,我们在手机上下载张图片、下载个视频,都要精打细算,要考虑这个月流量有多少。但今天我们在手机、微信上刷视频,其实不会再考虑成本的问题。
大模型要真正做到无处不在的话,一定要像今天我们使用带宽一样“不心疼”。
翟传璞:大模型要发展,无非就是算力、算法、数据几个层面。
从算力层面来看,我们认为应该有多种供给方式。
一种是单独通过算力购买的方式,另外,我们也在思考,我们能否采用一种新的方式——类似云服务租赁来租赁算力方式提供算力。
这样一来,我不仅能满足短时间大规模算力的需求,国产算力迁移和适配能力也可以考虑通过工具——在云服务上提供迁移、优化工具来实现。
从算法和模型层面来看,大模型与行业结合很重要。
华为大模型的重点是在To B领域,To B领域和行业经验结合非常重要。
例如我们在《Nature》上发表的气象大模型,仅仅靠算法工程师是完不成的,它一定是算法工程师和气象学专家一起努力才能完成。
从数据层面来看,大家都说数据获取、数据标注比较困难,我们是希望把我们内部这种算法使用、标注的能力贡献出来。
另外,我们希望有一些技术能够解决数据流通的问题。
例如现在欧洲喊得比较多的可信数据空间、可信数据交换的能力,能不能应用在AI数据获取和流通环节,将有限数据发挥出更大价值。
金镝:中国移动是从今年年初开始启动大模型研发工作的。
现在我们也推出了139亿参数的语言大模型,推出之后,我们在公司内部和客户中加快推进大模型落地。
在这个过程中,我也有一些自己的体会。
第一,现在面临较大挑战是,行业如何看待和拥抱大模型。
我们在集团内部,包括见一些行业客户,他们都会问我们,大模型到底能干什么?能带来什么价值?要先从哪些领域开始用?
这些都是很现实的问题。
这其中涉及一种思维方式的转变。包括我经常也会把思维限定在原来信息化和小模型思维体系中。在提解决方案时,想着想着又变成了IT化的竖井模式,变成了原来的「+AI」模式。
现在很多时候,用大模型去替代原来的小模型只是一种改良,没有把大模型真正的价值激发出来。
所以包括我们自己、我们的用户,都要思考到底想用大模型干什么?希望它能带来什么变化?
第二,大模型运营模式需要变化。
我们已经把大模型用在了中国移动客服领域、网络运维领域,用上后发现,它虽然提升了业务体验,但也需要企业改变后端业务运营方式。
例如,大模型里的数据是有时效性的,假如在服务客户时,我们发现了一个需要马上解决的问题,解决这个问题是用打补丁方式,还是基于大模型方式来快速响应,这是摆在我们面前一个现实的问题。
第三,成本问题。
大家都觉得大模型非常好,但一说到用大模型,需要买多少算力,投多少人做数据治理、训练模型,需要多少人做运维,用户就不敢用了,这是行业客户一个非常现实的问题。
周华:我今年接触了很多行业客户,一般来说,我们和行业客户沟通会先问两个问题:
第一,你的数据怎么样;第二,你有多少算力。
数据层面,大模型应用也就一年,时间并不长,很多行业客户对数据认识并不深刻。
那这其中有什么问题呢?
主要问题是,我们有大量客户对自身数据能不能用于大模型训练并不清楚,很多时候,大家一说数据,都是数据库里的数据,或者大数据平台中的数据。
其实这些数据是无法用于模型训练的。
另外,很多客户平时并不会积累行业相关的文本数据,例如领域里的论文、教科书等,但是这些恰恰对行业大模型训练来说非常重要。
客户自身的数据,有些放在数据库里,有些以PDF等文件形式存放在不同地方,要用这些未经整理的数据训练模型,成本往往非常高。
所以,我们往往都会建议客户,首先数据处理要有专人负责,要做大模型首先要把数据做好,甚至在规划大模型过程中,就要做好数据整理。
在行业层面,我们更推崇多家企业共同推动一个行业模型训练的模式。
行业模型的数据每家都去做的话,成本非常高,也很浪费资源,这项工作很适合通过行业协会来做。
算力层面,我们很多客户没有A100、H100、A800,这些企业手上一般是有消费级显卡,3090、4090,如果要做模型训练肯定存在很多问题。
我们研究院最近针对这一问题,在做很多研发工作,包括4比特量化、DPU等相关技术。
我们会和客户深入沟通,希望这些客户对低资源的模型训练可以有一定认识,这样训练出的模型能否满足他们的需求要有一定的认识。
这样,在大模型落地过程中就可以节省大量资源。
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/2513.html