大模型火爆，数据标注行业人才缺口将达百万级别

继“AI淘宝”之后，近日拼多多也宣布加入大模型领域，这显示了大模型对各行各业的影响，同时也为数据标注带来了新的机遇。根据量子位智库发布的《中国AIGC数据标注产业全景报告》（以下简称《报告》），在大模型时代，数据标注人才的高学历和多领域背景成为了硬性要求，预计人才缺口将达到百万级别。

SEED数据标注系统界面

数据标注是指人工对原始数据（如文本、图片、语音、视频等）进行分类、拉框、注释、标记等操作，以便机器能够识别这些信息。有网友戏称，数据标注就像是流水线工程。

《报告》认为，随着大模型时代的到来，数据标注行业将发生重大变革。数据标注行业将从劳动密集型向知识密集型转变，从业者的学历要求将从专科为主转变为本科及以上学历，同时需要具备多领域的专业知识。预计未来五年内，数据标注行业的人才缺口将达到百万级别。

这一趋势主要源于两个方面：首先，可靠的大模型需要高质量的训练数据作为支撑。数据的设计、改进和质量评估是实现可信人工智能的关键。数据标注的工作已经从简单的拉框、描点、转写转变为对数据进行排序、修正、生成和打分，标注的要求也从客观认知转变为主观理解，这对从业者的专业逻辑和核心价值观提出了较高的要求。例如，百度组建的数据标注团队中，拥有本科学历的人员比例达到了100%。其次，大模型通常具有千亿级别的参数量，因此需要大量的训练数据来支持。如果说以前至少需要使用10万条训练数据来保证模型的有效性和可靠性，那么大模型时代的数据量则以万亿为单位。以ChatGPT-3为例，Open AI使用了近1万亿个单词和45TB的数据量。

目前，数据标注产业仍处于高速发展阶段，预计未来五年的年复合增长率约为27%，产业规模有望达到百亿级别。目前我国高校众多，人才资源丰富，拥有良好的数据产业基础，但同时也缺乏专业的数据服务商。因此，鼓励更多的企业进入数据标注行业是非常必要的。

AI大模型训练中，人工数据标注是怎么一回事？

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/industry/1989.html

大模型火爆，数据标注行业人才缺口将达百万级别

相关推荐