大模型火爆,数据标注行业人才缺口将达百万级别
继“AI淘宝”之后,近日拼多多也宣布加入大模型领域,这显示了大模型对各行各业的影响,同时也为数据标注带来了新的机遇。根据量子位智库发布的《中国AIGC数据标注产业全景报告》(以下简称《报告》),在大模型时代,数据标注人才的高学历和多领域背景成为了硬性要求,预计人才缺口将达到百万级别。
数据标注是指人工对原始数据(如文本、图片、语音、视频等)进行分类、拉框、注释、标记等操作,以便机器能够识别这些信息。有网友戏称,数据标注就像是流水线工程。
《报告》认为,随着大模型时代的到来,数据标注行业将发生重大变革。数据标注行业将从劳动密集型向知识密集型转变,从业者的学历要求将从专科为主转变为本科及以上学历,同时需要具备多领域的专业知识。预计未来五年内,数据标注行业的人才缺口将达到百万级别。
这一趋势主要源于两个方面:首先,可靠的大模型需要高质量的训练数据作为支撑。数据的设计、改进和质量评估是实现可信人工智能的关键。数据标注的工作已经从简单的拉框、描点、转写转变为对数据进行排序、修正、生成和打分,标注的要求也从客观认知转变为主观理解,这对从业者的专业逻辑和核心价值观提出了较高的要求。例如,百度组建的数据标注团队中,拥有本科学历的人员比例达到了100%。其次,大模型通常具有千亿级别的参数量,因此需要大量的训练数据来支持。如果说以前至少需要使用10万条训练数据来保证模型的有效性和可靠性,那么大模型时代的数据量则以万亿为单位。以ChatGPT-3为例,Open AI使用了近1万亿个单词和45TB的数据量。
目前,数据标注产业仍处于高速发展阶段,预计未来五年的年复合增长率约为27%,产业规模有望达到百亿级别。目前我国高校众多,人才资源丰富,拥有良好的数据产业基础,但同时也缺乏专业的数据服务商。因此,鼓励更多的企业进入数据标注行业是非常必要的。
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/1989.html