1. 主页 > AI行业 > 行业观察

面向大模型进行云计算基础设施体系的重构,MaaS是趋势

由于大模型的参数规模和训练复杂度不断增加,显卡的故障率也随之上升。许多技术人员向雷峰网透露,英伟达显卡在训练大模型时经常会遇到“掉卡”的问题,即显卡在运行过程中突然失去连接或无法正常工作。由于大模型的训练周期较长,如果中途出现故障,原本已经进行了十几天的任务可能需要重新开始。

数智融合.jpg

因此,面向大模型进行云计算基础设施体系的重构是目前云厂商必须推进的工作。

大模型服务成为主流,MaaS是趋势

过去一年,围绕大模型技术重构上层产品和应用已成为行业共识。尽管目前中国的大模型原生应用数量远远没有达到大众预期,与人们设想的移动互联网时代app层出不穷的愿景还有一定距离,但自今年下半年以来,围绕大模型设想AI原住民时代的讨论越来越多。

以百度文心一言为例。百度曾公布一组数据,称百度文心一言自8月31日全面开放后,至今4个月里,百度千帆大模型平台上的大模型API日调用量增长了10倍,并且调用行业不仅局限于互联网、教育与电商场景,还包括营销、手机与汽车等传统行业。

随着企业对大模型应用的关注增加,大模型的商业模式也在发生变化。在MaaS(模型即服务)的趋势下,客户未来关注的重点将转向模型好不好、框架好不好等等,而不仅仅是看算力如何。MaaS将彻底改变云服务的商业模式和市场格局,并为各行各业的AI原生应用带来爆发式增长的机会。

未来大模型很可能不再仅仅基于API调用、按token字数推理收取计费。一些厂商正在研发围绕GPU提供的云计算服务,希望按照客户的实际使用量来收费。

百度集团副总裁侯震宇认为,MaaS的收入至少会分为两类:

一类是面向模型的研发收入,即基于某个通用的基座大模型来进行SFT(监督微调),这部分将逐步取代裸用算力来进行模型训练的部分收益。在追逐基座大模型的狂热中,企业倾向于购买算力来进行模型训练,但随着大模型的数量越来越多,更多企业也意识到,从头开始训练一个大模型的做法不可取,基于已有的通用大模型进行二次开发更实际。这一判断符合当前大模型领域“重复造轮子”现象泛滥的应对方案。

另一类是AI原生应用爆发后的推理收入。除了前期的训练,云厂商更大的盈利空间在于为开发者提供强大的基座大模型后,面向未来深入业务场景与用户的AI应用收取推理费用。在这一目标上,稳定的计算服务与推理体验自然成为云厂商竞争的关键。

应用开发范式被颠覆

在过去的十年中,深度学习算法的落地往往需要根据单一的特定场景进行模型的训练,从数据标注到算法训练、再到端到端部署落地,前后往往需要耗时几周甚至数月。然而,随着越来越多的泛化能力强的基座大模型的出现以及MaaS模式的成熟,大模型时代的AI模型不再需要从头开始训练,而是可以基于一个强大的通用大模型进行有监督微调而来。

在这种研发方式的改变下,企业的专注力集中在自家场景的数据上,加上通用大模型的泛化优势,行业用户研发大模型应用所需的算力规模和训练时间都会大幅缩短,从而带来更快的迭代速度。在这种模式下,计算资源的利用率也会大幅提升。

具体来说,大模型独特的理解、生成、逻辑和记忆能力还会带来整个技术栈、数据流和业务流的颠覆,催生出新场景(如个人助理、代码生成)、新架构(如检索增强生成RAG)、新开发生态。

为了适应新AI应用开发范式的准备,一套灵活、创新的云计算体系和云服务设施更能适应未来大模型商用和落地的发展走向。大模型诞生于大规模云计算集群,但随着行业需求的变化,云计算也需要改变姿态,反主为客,跟上大模型的发展步伐。

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/2464.html