用户输入经典的“鸡兔同笼”问题,两个模型均给出了正确答案,但分析思路和解题方式呈现出直观差异,用户可根据个人感受进行评判
| 避免“刻板印象”,杜绝偏见性结果
为了避免“先入为主”带来的偏见性感受,Compass Arena提供“全随机”“全匿名”的竞技环境。
在该模式下,用户不知晓受测模型名称,仅根据大模型生成内容质量本身做出感受判断。用户还可进行多轮对话,直至提交判断结果,才获知对战模型名称。力图消除主观印象,获取最真实的用户感受。
对于经典的“鸡兔同笼”问题,两个受测模型给出了不同答案,显而易见模型B的回答错误,当用户作出“A更好”的选择后,系统揭示了受测模型的真实名称
Compass Arena的“自选对战”模式则赋予了用户自主选择权,从而为用户提供模型辅助选择工具。在此模式下,用户可以根据自己的喜好或需求,从模型库中选择两个初步意向模型进行对战,更直观地比较不同模型在特定任务或场景下的表现,最终选择最适合自身使用场景的大模型。