30万题，覆盖57个科室，MedBench开放评测平台支撑共建医疗大模型

来源：上海人工智能实验室｜2024-01-25

医疗行业因其独有的专业度和严谨性，对医疗大模型的能力提出了极高要求；如何对医疗大模型进行评测？探索方向是：与行业领先机构及权威专家共建，用“题海战术”把模型“拉出来练练”。

在近日举行的在健康中国思南峰会上，上海人工智能实验室（上海AI实验室）与多家机构联合推出医疗多模态基础模型群“浦医2.0”（OpenMEDLab2.0），为“跨领域、跨疾病、跨模态”的AI医疗应用提供全方位的能力支持。作为浦医2.0的重要组成部分，面向中文医疗大语言模型的开放评测平台MedBench同时发布。基于OpenCompass大模型开放评测体系，上海AI实验室和上海市数字医学创新中心推出MedBench，依托顶级医疗机构的专家经验和知识储备，设置了医学语言理解、医学语言生成、医学知识问答、复杂医学推理和医疗安全和伦理等5大维度，共包含15项任务、20个数据集及30万道题目，为中文医疗大模型提供客观科学的性能评测参考。

MedBench面向全球开放，上海AI实验室诚邀全球相关机构参与线上评测，共同推进医疗大语言模型全面、专业、互认的评测体系建设。

目前，上海交通大学医学院附属瑞金医院、上海交通大学医学院附属新华医院、四川大学华西医院、广州实验室、上海交通大学、复旦大学、华东理工大学、同济大学、飞利浦中国创新中心、香港中文大学（深圳）以及阿里云天池等行业顶级机构已陆续加入平台共建序列，以汇聚行业经验，助力医疗智慧化转型。

MedBench链接：https://medbench.opencompass.org.cn

| 五大维度全方位评测

为了全方面的评估医疗大语言模型的能力与表现，MedBench设置了医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理五大评测维度，实现从理解生成“基础”能力，到复杂推理“进阶”能力，再到伦理把控“高级”能力的模型性能测试全覆盖。

针对医疗相关语言理解能力，MedBench通过信息抽取、术语标准化以及临床试验分类等测试进行评估；针对医疗相关语言生成能力，MedBench主要通过电子病历生成质量来进行评估，并且为了评测大模型的长上下文能力，进一步自建了基于长医患对话生成病例的数据集。为了评估大语言模型对医疗知识的掌握，MedBench建立了包括医学考试、医学咨询、专科问答、导诊、轻问诊等测试集合；为了评估大语言模型的推理能力，MedBench设立了包含临床问诊、医学诊断、治疗方案推荐等复杂医学推理任务。此外，MedBench还为大模型应用中的医疗安全和伦理能力设置了相应测试，包含医学伦理与药物禁忌等模块，通过评估模型专业性，牢牢把握安全“红线”。

MedBench评测维度及评测数据集概述

| 权威医师构建的专业评测数据集

医疗行业因其独有的专业度和严谨性对模型评测数据集提出了极高的要求。

基于五大维度评测框架，MedBench的评测数据集融合了海量医学知识库和顶尖医院医学专家经验。在MedBench目前的8个公开数据集和12个自建数据集中，集纳了约30万道中文医疗专业测评题目，囊括医学考试、医学问答、患者服务、医学问诊、病历分析、病历生成和辅助诊断等场景数据，覆盖57个临床科室。

部分评测题目来源于真实的临床病历，经专业医师收集、筛选、改写、编制、审核后纳入评测体系。其中，医学安全和伦理维度的评测集由研究团队联合专业医师共同构建，从医疗人际关系、临床诊疗伦理、公共卫生伦理、医务人员医学伦理素质的养成，到老人、儿童、孕妇、配伍等药物禁忌内容，评测集均进行了细致的搜集和考察。

未来，MedBench研究团队将与更多权威医疗领域专业组织、机构合作，一同扩展、更新专业医疗评测数据集，并通过严谨专业的数据集构建及审核机制，推动医疗大语言模型全面且深入的评估。

MedBench评测数据覆盖57个主要科室

由专业医师编写的评测病历用于进行复杂逻辑推理

|“一站式”自动化在线评测

MedBench在医疗大语言模型的评分计算方面采用了更具鲁棒性的评估方式，为了降低大语言模型因提示词的敏感性对评测结果带来的影响，使用了多样化的测试提示，并对每一个测试提示实施独立评估，从而能更科学、客观地评估中文医疗大语言模型的能力。

为了更好地评估医疗领域中生成的自由文本，如大模型通过医患对话生成“一诉五史”、进行专业医学知识问答等任务，除MedBench中包含的BLEU、ROUGE-L、Micro-F1等评价指标以外，此前开源的浦医2.0还引入了以大模型作为裁判的评测方案PULSE-EVAL，MedBench后续也将定期采用该方案进行集中评测（https://github.com/openmedlab/PULSE-EVAL）。

MedBench的整体评测流程实现了从数据集下载到“跑分”的全面自动化。研究人员拥有更智能的评测体验。自动评测的整体流程包括：下载评测数据集、采用大语言模型进行本地推理、将模型结果上传至MedBench后在线查看评测榜单。

MedBench评测流程

未来，上海AI实验室及合作机构将进一步推动评测内容多样化、专业化、规范化，并积极组织开展医疗大模型专科赛事、大模型医疗能力资格考核等活动。

针对行业开源的多个通用大模型及医疗垂类大模型

MedBench进行了试验性测试并公布评测榜单

相关评测结果通过了专业临床医师一致性评估论证，为行业大模型研发提供参考

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

30万题，覆盖57个科室，MedBench开放评测平台支撑共建医疗大模型

来源：上海人工智能实验室｜2024-01-25

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

30万题，覆盖57个科室，MedBench开放评测平台支撑共建医疗大模型

来源： 上海人工智能实验室｜2024-01-25

来源：上海人工智能实验室｜2024-01-25