金融大模型应用评测报告出炉，安全对齐表现优异，专业认知、多模态处理能力亟待提升

来源：上海人工智能实验室｜ 2024-12-13

2024年12月13日，上海人工智能实验室联合上海财经大学、上海库帕思科技有限公司发布《金融大模型应用评测报告（2024）》（以下简称《报告》）。评测围绕金融行业的核心业务需求及大模型在金融场景中的适配性，结合银行、证券、保险、基金等重点应用场景，对14家机构的20个主流大模型的金融专业能力进行了评测。

结果显示，参评模型在金融安全与价值对齐方面表现优异，体现出行业对关键合规性和伦理问题普遍高度重视；而在模型基础能力、金融专业认知，特别是多模态处理能力等方面，参评模型存在一定短板，尤其是在复杂金融业务场景中的表现亟待提升。按综合总分排名，Anthropic、阶跃星辰/财跃星辰和阿里巴巴的参评模型位列前三。

未来，金融领域评测报告将以每年一至两次的频率发布，旨在为行业提供客观评测结果与方向指引参考，助力金融科技在智能化、专业化、精细化方向上进一步突破与发展。

访问链接或扫描二维码可下载摘要版《报告》：

https://img.shlab.org.cn/pjlab/files/2024/12/638695925361130000.pdf

微信图片_20241217104307.png

报告摘要

参评模型在金融安全与价值观对齐方面表现优异，体现出行业对关键合规性和伦理问题高度重视。
在模型基础能力、金融专业认知能力，特别是多模态处理能力等方面，参评模型存在一定短板，尤其是在复杂金融业务场景中的表现亟待提升。
在金融业务辅助拓展能力维度，模型在智能投资顾问方面的整体表现尤为亮眼，这既反映了大模型的应用潜力，也揭示了评测数据集在构建业务方向的丰富性和复杂程度方面仍有较大提升空间。
随着大模型在金融业务场景应用的深入和扩展，安全问题或以更隐蔽和多变的形式显现。因此，持续迭代更新安全评测方法，强化相关数据集建设将是未来的重点任务。
高质量金融语料数据集的可持续供给对提升模型能力具有决定性意义。特别是在多模态金融数据集方面，当前的供给不足已成为业界共同面临的瓶颈。

微信图片_20241217105313.png

《报告》显示，参评模型综合平均得分为71.9。在5大评测维度中，参评模型在金融安全与价值对齐能力维度表现最为出色，平均得分达92.8。在模型基础能力和金融专业认知能力（含多模态任务）维度得分较低，分别为59.8和52.0，且各模型表现差异较大。综合总分排名前三的模型依次为：

Anthropic Claude-3.5-Sonnet-20240620， 79.8分
阶跃星辰/财跃星辰 Step-2-16k/Finstep，79.7分
阿里巴巴 Qwen2.5-72b-Instruct/Qwen2-VL-72B，77.6分

本次测评一定程度上展示了大模型在金融应用方向的能力现状，各模型整体表现基本满足当下场景需求，其中金融安全与价值对齐表现优异，但仍存在较大提升空间，如金融专业认知和多模态处理能力。本次评测是依据《金融大模型应用评测指南》（T/SAIAS 019—2024）团体标准，使用《库帕思金融大模型评测数据集（2024版）》，通过司南大模型开源开放评测体系对部分通用大模型和金融垂类大模型的一次抽样测试。评测并未涵盖所有的金融场景和模型，评测数据集的部分样例已在OpenDataLab社区公开。本次评测是相关工作的第一步，通过选取部分模型进行评估来对方法进行验证。未来，还将每年开展至少1-2次评测，并逐步扩大测试范围，开放和共建评测工具、评测数据集和评测方法体系。同时，将与金融行业各方协同，进一步强化以金融业务为中心的模型评测体系建设，加强高质量金融语料建设，结合相关标准；加强对大模型应用实践的引导与规范，并与实践紧密结合，以更好推动大模型技术在金融领域的落地应用。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

金融大模型应用评测报告出炉，安全对齐表现优异，专业认知、多模态处理能力亟待提升

来源：上海人工智能实验室｜ 2024-12-13