以“对战”助评测，司南评测体系联合魔搭社区推出大模型竞技场Compass Arena

来源：上海人工智能实验室｜2024-05-27

大模型持续迭代，怎样科学评测？

新版本层出不穷，用户如何选择？

近日，司南开源评测体系OpenCompass联合魔搭社区（ModelScope）推出国内独家大语言模型评测竞技场Compass Arena。通过对比不同大模型在相同任务场景下的“竞技”表现，获取真实用户感受与反馈，为大模型能力提升提供客观评测指标。

Compass Arena的出现，拓宽了用户反馈搜集渠道，以全新开放的方式，使大模型评测“更人性”“更具象”。

Compass Arena同时设置“匿名随机”和“自选对战”双重竞技环境，旨在通过调动大模型用户参与开放评测，为用户打造直接、简洁的大模型选择工具。借助Compass Arena，司南与魔搭社区将携手产业、开发社区与用户，共同构建开放、公平、透明的大模型评估体系，进一步促进大模型技术健康发展与持续创新。

Compass Arena体验链接

司南开源评测体系：https://opencompass.org.cn/arena

魔搭社区：https://modelscope.cn/studios/opencompass/CompassArena/summary

| 模型能力几何，需要拉出来练练

作为工具属性的大模型，其能力究竟如何，不仅需要评测得分的“纸面数据”，更需要“拉出来练练”。

在Compass Arena中，联合团队以本地部署或API接入形式，汇集了当前主流的大语言模型向用户免费开放，并以创新竞技模式，让用户直观体验并比较不同模型性能。

竞技模式下，用户作为“命题人”和“裁判员”，参与对战的大模型就相同问题进行内容生成，用户则可根据自己对生成内容质量的主观判断，自由评判哪个大模型的表现更为出色。用户的反馈将由司南评测体系搜集，并作为公开评测榜单的重要原始数据，为综合评分提供依据。

目前，Compass Arena汇聚了23个商业及社区模型，包括Qwen-Max、ERNIE-4.0-8K、abab 6.5、GLM-4、Llama-3系列、Mixtral等国内外主流模型。更多模型及厂商将陆续加入。

用户输入经典的“鸡兔同笼”问题，两个模型均给出了正确答案，但分析思路和解题方式呈现出直观差异，用户可根据个人感受进行评判

| 避免“刻板印象”，杜绝偏见性结果

为了避免“先入为主”带来的偏见性感受，Compass Arena提供“全随机”“全匿名”的竞技环境。

在该模式下，用户不知晓受测模型名称，仅根据大模型生成内容质量本身做出感受判断。用户还可进行多轮对话，直至提交判断结果，才获知对战模型名称。力图消除主观印象，获取最真实的用户感受。

对于经典的“鸡兔同笼”问题，两个受测模型给出了不同答案，显而易见模型B的回答错误，当用户作出“A更好”的选择后，系统揭示了受测模型的真实名称

Compass Arena的“自选对战”模式则赋予了用户自主选择权，从而为用户提供模型辅助选择工具。在此模式下，用户可以根据自己的喜好或需求，从模型库中选择两个初步意向模型进行对战，更直观地比较不同模型在特定任务或场景下的表现，最终选择最适合自身使用场景的大模型。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

以“对战”助评测，司南评测体系联合魔搭社区推出大模型竞技场Compass Arena

来源：上海人工智能实验室｜2024-05-27

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

以“对战”助评测，司南评测体系联合魔搭社区推出大模型竞技场Compass Arena

来源： 上海人工智能实验室｜2024-05-27

来源：上海人工智能实验室｜2024-05-27