《2023人工智能大模型基准测试白皮书》发布,搭建OpenEval平台
12月28日,以“大模型·大未来”为主题的“2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会”在成都市高新区成功举办。作为大模型的行业盛会,本次大会发布《2023人工智能大模型基准测试白皮书》等三大成果,助力大模型向好发展。
大会由成都传媒集团主办,成都商报社承办,红星新闻、红星资本局、四川省大数据发展联盟、四川省人工智能学会协办,驰星创投战略合作。来自中国科学院、清华大学、北京大学、天津大学、澳门大学等的专家学者,中国信通院人工智能研究中心、中国软件评测中心等权威机构,以及80余家人工智能大模型领域的头部企业,齐聚一堂,共同探讨大模型时代下数实融合的新业态、新模式、新路径。
本次大会作为大模型的行业盛会,不仅邀请到多位行业大咖、专家学者分享经验和前沿思考,汇聚了头部企业、专家学者和权威机构,还凝聚了行业集体智慧,形成三大成果:搭建OpenEval平台、成立大模型应用创新协同中心、发布《2023人工智能大模型基准测试白皮书》。
成果1:OpenEval平台助推中文大模型能力与安全协同发展
大会举办前夕邀请到中国信息通信研究院人工智能研究中心、中国软件评测中心两大权威研究机构,以及来自各大高校的专家学者组成大模型基准评测专家委员会(下称“专委会”),对国内大模型进行多元化评测。
其中,大模型基准评测专家委员会的成员包括中国信息通信研究院人工智能研究中心魏凯、中国软件评测中心(工业和信息化部软件与集成电路促进中心)梁斌、天津大学智能与计算学部熊德意、郑州大学计算机与人工智能学院昝红英、上海交通大学约翰·霍普克罗夫特计算机科学中心林洲汉、香港中文大学(深圳)数据科学学院王本友、香港科技大学计算机系何俊贤、澳门大学科技学院黄辉。
在对大模型进行评测前,专委会成员专门为大模型评测研制开发了自动测试平台,并取名为“OpenEval”,意为开放评测以及对大模型发展无穷无尽的展望。
作为本次大会的成果,OpenEval平台致力于成为中文大模型评估多维度、全面、开放的评测平台,探索前沿模型评测方法,建立大模型评测标准与协议,建设高质量大模型评测基准数据,综合评估大模型知识、能力、对齐及安全级别,发布详细评测报告,助推中文大模型能力与安全协同发展。
目前,OpenEval平台从四大维度出发,包括知识能力、价值对齐、安全可控和专业领域,每一个维度下又分多个子维度,且收录了若干数据集。
在大会结束后,OpenEval平台将持续运营,并不断地更新评测数据、创新大模型评测方法、组织线上与线下评测活动,第三方评测机构和企业等均可通过该平台申请和组织新型评测任务。
成果2:《2023人工智能大模型基准测试白皮书》为行业构建全景视图
基于前述的评测结果,OpenEval平台、中国软件评测中心、天津大学自然语言处理实验室、郑州大学自然语言处理实验室、红星新闻和长三角数据要素流通服务平台在此次大会上联合发布《2023人工智能大模型基准测试白皮书》(下称“《白皮书》”)。
天津大学智能与计算学部教授、天津大学“语言智能与技术”中外联合研究中心主任熊德意告诉红星资本局,《白皮书》的发布标志着对国内开源和闭源大模型首次大范围综合评测圆满完成。
《白皮书》指出,在过去的一年中,中文大模型在学科知识和数学推理等方面的能力有了显著的提升,这展现了大模型在学科知识掌握、处理复杂问题和推理方面的潜力。
“基于前述评测结果,白皮书深度洞察了国内大模型的发展态势,度量了中文大模型能力边界,探明了潜在的安全风险点,建构了中文大模型能力与安全全景图,为国内大模型未来技术与产业发展提出了明确建议和方向。”熊德意对红星资本局说。
同时,《白皮书》复盘了2023年全世界人工智能的发展概况,以专业视角解析大模型在应用领域的面临的机遇与挑战,为行业构建全景视图,探索人工智能领域专业技术的进步及突破。
《白皮书》还提出建议称,大模型提供方在追求知识和能力提升的同时,应关注价值对齐。随着大模型能力的不断进化,这一问题的重要性将日益凸显。
成果3:成立大模型应用创新协同中心
在此次大会上,大模型应用创新协同中心(下称“中心”)正式成立。
该中心将通过创新联合体形式建立大模型产业社群,协同引导大模型企业与实体产业进行交流互动;组建大模型创新服务体系,通过资本对接、成长跟踪和业务交流等多种形式,助力大模型企业成长;搭建数据资产服务基座,打通数据要素流通和数据资产价值化。
目前,首批参与该中心的成员有:天津大学自然语言处理实验室、红星新闻、驰星创投、元禾辰坤、左手医生、联合数据、360集团、科大讯飞、云从科技、达观数据、极睿科技、晓多科技、中科闻歌、得理科技、上海财经大学金融大模型实验室团队、香港中文大学(深圳)数据科学学院、澳门大学科技学院以及郑州大学计算机与人工智能学院。
大模型应用创新协同中心致力于汇聚业内高校、科研机构、相关企业,共同推动大模型在各垂直领域的深度应用与创新,促进产业升级和经济发展,包括但不限于趋势研究、技术 交流、跨界合作、成果孵化等工作任务。
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/2502.html