1. 主页 > AI行业 > 行业观察

AI+5G叠加赋能,半导体大厂为终端AI大模型筑基

随着大模型逐渐进入终端设备,半导体厂商如高通等正在努力提升AI算力、降低功耗和成本,并利用5G技术为大模型部署提供支持。在高通的展台上,展示了一系列手机大模型的应用演示,包括通过手机键盘演奏音乐、评估电竞选手的情绪能量值等。这些功能无需云端参与,仅凭手机中的AI大模型即可实现。

此外,高通还展示了其在笔记本电脑领域的应用,如起草电子邮件、转写会议记录以及生成文本和图像等。这些原本只能在数据中心实现的功能,现在已经集成到个人电脑中,让每个用户都能拥有个人数字助理。

为了支持这些功能,高通推出了第三代骁龙8移动平台(骁龙8 Gen3)和面向AI PC的骁龙X Elite芯片平台。骁龙8 Gen3能够在手机端运行100亿参数的大模型,而骁龙X Elite则支持在PC端运行超过130亿参数的生成式AI模型。

高通面向AI PC推出骁龙X Elite芯片平台.jpg

高通面向AI PC推出骁龙X Elite芯片平台

然而,随着AI任务变得越来越复杂多样,如何在提升性能的同时降低功耗成为了一个挑战。特别是对于强调续航能力的移动终端设备,如手机和笔记本电脑,性能的提升必须与可接受的功耗并肩而行。因此,通用计算单元与专用计算单元的异构计算模式成为了终端芯片供应商的关注焦点。

具体来说,CPU、GPU等通用计算单元可以处理多样化的计算任务;而NPU等专用计算单元则专门用于加速AI工作负载。相较于通用计算架构,这种“通用+专用”的架构能够更好地平衡高性能、实时性和低功耗需求,为AI计算提供更优解。

这也是为什么骁龙8 Gen3和骁龙X Elite都采用了以“CPU+GPU+NPU”为主力单元的异构计算模式。其中,高通Hexagon NPU是AI引擎的核心,旨在加速AI负载的同时进一步释放CPU和GPU的算力,提升多任务运行的实时响应能力和能效表现。

为了解决业界关心的性能与功耗平衡问题,高通从骁龙Gen2开始就在Hexagon NPU中采用了业界首创的微切片推理技术。传统的神经网络推理过程是将整个神经网络加载到NPU中,逐层运行并写入内存。这种方法不仅会造成大量能耗,还会拖慢推理过程。而微切片推理技术将神经网络切割成大量切片,同时运行多个切片,从而消除了大部分的内存读写过程,使NPU能够以更低的功耗更快地完成推理。

全新的骁龙X Elite NPU进一步提升了处理能力,并引入了更多的降耗技术。新一代Hexagon NPU的张量加速器将矩阵处理速度提升了2.5倍,进一步提高了标量和矢量加速器的时钟速度,共享内存规模也增加一倍,能够容纳参数更为庞大的神经网络。同时,新一代NPU增加了全新的供电系统,能够按照工作负载适配功率,还为张量加速器增加了独立的电源传输轨道,以实现更加理想的能效表现。

此外,高通新一代处理器搭载的CPU和GPU也显著提升了AI推理性能和能效表现。以骁龙X Elite为例,其Oryon CPU将AI推理性能提升了5倍,并针对时延敏感型工作负载进行了优化;高通Adreno GPU的AI计算性能提升了50%。在能效方面,Oryon CPU的单线程性能超越了ARM架构竞品,且实现相同水平性能时可以减少30%的能耗;对比x86架构竞品,Oryon CPU实现相同性能时可以减少70%的能耗。Adreno GPU也在性能和功耗之间寻求平衡。在面向PC的热门3D图形基准测试中,Adreno GPU的性能达到x86架构集成GPU竞品的2倍多,且在实现竞品峰值性能同等水平时可以减少74%的功耗。

高通正在为端侧大模型筑基赋能,让AIGC更加触手可及。通过混合AI架构和5G+AI的协同工作,开发者可以在本地和云上无缝开发大模型相关应用。

什么是端侧大模型推理?

云侧AI大模型与端侧AI大模型的相同与不同

联想推出运行端侧大模型推理的手机和PC

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/1601.html