面向DevOps领域，蚂蚁集团发布大语言模型评测基准“DevOps-Eval”

近日，蚂蚁集团联合北京大学，发布了面向DevOps领域的大语言模型评测基准——DevOps-Eval。

蚂蚁集团

该基准包含8个类别的选择题，共计4850道题目，涵盖了计划、编码、构建、测试、发布、部署、运维和监控等方面。此外，还针对AIOps任务进行了细分，并添加了日志解析、时序异常检测、时序分类和根因分析等任务。

目前，DevOps-Eval已发布了第一期的评测榜单，评测了OpsGpt、Qwen、Baichuan和Internlm等开源大语言模型。评测方式包括Zero-shot和Few-shot，结果显示各模型得分相差不大。未来，DevOps-Eval将持续优化，丰富评测数据集，重点关注AIOps领域，并增加更多的评测模型。

GitHub地址：https://github.com/codefuse-ai/codefuse-devops-eval

HuggingFace地址：https://huggingface.co/datasets/codefuse-admin/devopseval-exam

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/info/1345.html

面向DevOps领域，蚂蚁集团发布大语言模型评测基准“DevOps-Eval”

相关推荐