1. 主页 > AI展台 > AI大模型

【大模型巡展】商汤科技“商汤商量”大模型

最近,新华社研究院中国企业发展研究中心发布了《人工智能大模型体验报告3.0》。根据该报告的定量实测结果,商汤商量SenseChat在情商维度上排名第一,成为10款大模型中的佼佼者。此外,在定性评估中,商汤商量SenseChat还被选为大模型市场未来领袖象限的代表。这一成绩为商汤科技的未来发展增添了信心。尽管最近美国做空机构灰熊发布了一份针对商汤科技的做空报告,但目前股市市场稳定,并未受到该报告的影响。同时,商汤今年以来展现出的技术实力和成长性也受到了业内人士的看好。

在今年年中,商汤科技最近公布了他们自主研发的中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测结果显示,“商量”在这三个测试集中的表现均领先于ChatGPT,实现了我国语言大模型研究的突破。

目前,已有近千家企业客户通过申请,应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量SenseChat 2.0”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。

三大评测基准结果:“商量”综合能力超ChatGPT

商汤科技公布的评测结果中,选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval,结果显示“商量SenseChat 2.0”在三个测试集中表现均领先于ChatGPT,部分已十分接近GPT4的水平。

MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。

在该评测中,“商量SenseChat 2.0”综合得分为68.6,远超GLM-130B(45.7分)的得分,同时还超过了ChatGPT(67.3分)、LLaMA-65B(63.5分)仅落后GPT-4(86.4分),位居第二。

AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20 种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。

在该评测中,“商量SenseChat 2.0”测出49.91的分数,遥遥领先GLM-130B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分。在其中的AGIEval(GK)评测子集中,“商量SenseChat 2.0”以58.5分全面领先,仅微弱差距落后GPT-4(58.8分)。细分科目评测结果如下,其中带GK的是中国高考科目:

图中粗体表示结果最佳,下划线表示结果第二

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。

面对C-Eval评测基准,“商量SenseChat 2.0”拿到了66.1的分数,在参评的18个大模型中,仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一众海内外大模型。其中,C-Eval(Hard)子评测集,是选择了8个具有挑战性的数据、物理和化学科目,进一步考核大语言模型的推理能力,“商量SenseChat 2.0”也表现居于前列。

C-Eval 排行榜

最新C-Eval 排行榜

技术创新+客户落地,推动“商量”能力快速持续提升

今年4月,商汤正式发布“商汤日日新SenseNova”大模型体系,以及自研中文语言大模型“商量SenseChat”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

在“百花齐放”的市场格局中,通过对比成绩与表现,我们可以了解各大预言模型的特点与差异,并且直观地了解每个大语言模型当前的智能水平。目前“商量SenseChat 2.0”实现了对GPT-3.5超越,并且随着商业化落地的推进,在众多行业、场景中发挥令人满意的作用。

例如在需要大量文案工作的场景中,“商量SenseChat 2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等,进行编辑、重写、总结、分类、提取信息、制作Q&A等,有效提高企业员工的生产效率。在客户服务场景中,“商量SenseChat 2.0”还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等等,并进行顺畅的交流和互动,提升客户体验。

商汤日日新SenseNova大模型是做什么用?

“AI大模型+大算力”助力汽车智能化——访商汤科技联合创始人王晓刚

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/aimodel/2084.html