科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

以“对战”助评测,司南评测体系联合魔搭社区推出大模型竞技场Compass Arena

大模型持续迭代,怎样科学评测?

新版本层出不穷,用户如何选择?

 

近日,司南开源评测体系OpenCompass联合魔搭社区(ModelScope)推出国内独家大语言模型评测竞技场Compass Arena。通过对比不同大模型在相同任务场景下的“竞技”表现,获取真实用户感受与反馈,为大模型能力提升提供客观评测指标。

 

Compass Arena的出现,拓宽了用户反馈搜集渠道,以全新开放的方式,使大模型评测“更人性”“更具象”。

 

Compass Arena同时设置“匿名随机”和“自选对战”双重竞技环境,旨在通过调动大模型用户参与开放评测,为用户打造直接、简洁的大模型选择工具。借助Compass Arena,司南与魔搭社区将携手产业、开发社区与用户,共同构建开放、公平、透明的大模型评估体系,进一步促进大模型技术健康发展与持续创新。

 

Compass Arena体验链接

司南开源评测体系https://opencompass.org.cn/arena

魔搭社区https://modelscope.cn/studios/opencompass/CompassArena/summary

 

| 模型能力几何,需要拉出来练练

 

作为工具属性的大模型,其能力究竟如何,不仅需要评测得分的“纸面数据”,更需要“拉出来练练”。

 

在Compass Arena中,联合团队以本地部署或API接入形式,汇集了当前主流的大语言模型向用户免费开放,并以创新竞技模式,让用户直观体验并比较不同模型性能。

 

竞技模式下,用户作为“命题人”和“裁判员”,参与对战的大模型就相同问题进行内容生成,用户则可根据自己对生成内容质量的主观判断,自由评判哪个大模型的表现更为出色。用户的反馈将由司南评测体系搜集,并作为公开评测榜单的重要原始数据,为综合评分提供依据。

 

目前,Compass Arena汇聚了23个商业及社区模型,包括Qwen-Max、ERNIE-4.0-8K、abab 6.5、GLM-4、Llama-3系列、Mixtral等国内外主流模型。更多模型及厂商将陆续加入。

638525073911610000.jpg

用户输入经典的“鸡兔同笼”问题,两个模型均给出了正确答案,但分析思路和解题方式呈现出直观差异,用户可根据个人感受进行评判

 

| 避免“刻板印象”,杜绝偏见性结果

 

为了避免“先入为主”带来的偏见性感受,Compass Arena提供“全随机”“全匿名”的竞技环境。

 

在该模式下,用户不知晓受测模型名称,仅根据大模型生成内容质量本身做出感受判断。用户还可进行多轮对话,直至提交判断结果,才获知对战模型名称。力图消除主观印象,获取最真实的用户感受。

638525074244290000.jpg

对于经典的“鸡兔同笼”问题,两个受测模型给出了不同答案,显而易见模型B的回答错误,当用户作出“A更好”的选择后,系统揭示了受测模型的真实名称

Compass Arena的“自选对战”模式则赋予了用户自主选择权,从而为用户提供模型辅助选择工具。在此模式下,用户可以根据自己的喜好或需求,从模型库中选择两个初步意向模型进行对战,更直观地比较不同模型在特定任务或场景下的表现,最终选择最适合自身使用场景的大模型。


comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1