通用大模型是大厂的游戏？推理成本实在是高！

AI大模型推理成本较高，因为大模型需要大量的计算资源和存储空间，以及高级算法的支持。在模型推理过程中，需要将数据从存储设备中读取出来，并进行一系列复杂的计算和处理，包括矩阵乘法、激活函数、池化等操作，这些操作都需要大量的计算资源。此外，为了获得更好的效果，需要使用更高级的算法进行优化和支持，这也需要更多的计算资源和专业技术人员。因此，AI大模型推理成本较高，需要更多的投入和支持。

AI数字人（文心一言生成）

AI数字人（文心一言生成）

具体来讲，大模型推成本受到以下三个方面的影响：

1、模型的网络结构和参数规模。大模型神经网络结构越复杂成本越高，参数规模越大，需要的计算量越大，计算成本就越高。

这就好比人大脑中的神经元网络，神经元网络越复杂，需要学习和思考的东西就越多，也就需要更高的成本。

最近百度文心一言大模型将更新到文心4.0，4.0版基于飞桨平台在万卡集群训练出来，4.0参数规模将大于市面上所有已经公开发布参数规模的大语言模型，也有可能突破万亿级别。

根据之前行业媒体的测算，如果要在10天内训练1000亿参数规模、1PB训练数据集，大约需要10830个英伟达A100 GPU。

按照每个A100 GPU的成本约为10000美元，那么10830个GPU的总成本约为：10830*$10000=$108300000

为什么说通用大模型是大厂的游戏，原因就在这里，光门槛就超10亿美元。

2、模型的推理部署，如单机还是并行推理、量化、部署方式等。

优化成本”本身也是要付出代价的。这就好比我们用不同的方式来解决问题。如果一个方法需要更多的时间和精力，那么思考”成本就会更高。

如果一个模型在推理时需要大量的计算和存储资源，就像一个大人需要花费更多的时间和精力来解决问题一样，那么推理成本就会很高。

而如果采用一些技术手段，比如将推理任务并行处理或者使用量化技术来减少计算和存储需求，就相当于小孩子用更简单的方式来解决问题，可以节省推理成本。当然，这些技术手段本身也是成本。

3、芯片和集群，包括芯片型号、规模以及集群架构等。

芯片买来就能直接用吗？完全不可能！后面还需要一系列的重成本

这就好比不同的大脑的配置。如果一个芯片或集群的效率更高、速度更快，那么就可以更快地完成推理任务，从而降低推理成本。如果一个芯片或集群的性能不好、速度很慢，这就像一个学习不好的孩子需要花费更多的时间和精力来思考问题一样，推理成本就会很高。

单个芯片可以比喻成一块能发电的砖，如何通过合理配置，最终达到参数规模、推理部署方式以及使用的芯片和集群的性能最大化？这听着都不是一个简单的问题。

随着大语言模型的不断升级迭代，参数量突破万亿、模型能力越来越强、用户使用量激增，推理成本都会成倍增加。

通用大模型是大厂的游戏？推理成本实在是高！

相关推荐