访问链接或扫描二维码可下载摘要版《报告》:
https://img.shlab.org.cn/pjlab/files/2024/12/638695925361130000.pdf
报告摘要
参评模型在金融安全与价值观对齐方面表现优异,体现出行业对关键合规性和伦理问题高度重视。
在模型基础能力、金融专业认知能力,特别是多模态处理能力等方面,参评模型存在一定短板,尤其是在复杂金融业务场景中的表现亟待提升。
在金融业务辅助拓展能力维度,模型在智能投资顾问方面的整体表现尤为亮眼,这既反映了大模型的应用潜力,也揭示了评测数据集在构建业务方向的丰富性和复杂程度方面仍有较大提升空间。
随着大模型在金融业务场景应用的深入和扩展,安全问题或以更隐蔽和多变的形式显现。因此,持续迭代更新安全评测方法,强化相关数据集建设将是未来的重点任务。
高质量金融语料数据集的可持续供给对提升模型能力具有决定性意义。特别是在多模态金融数据集方面,当前的供给不足已成为业界共同面临的瓶颈。
《报告》显示,参评模型综合平均得分为71.9。在5大评测维度中,参评模型在金融安全与价值对齐能力维度表现最为出色,平均得分达92.8。在模型基础能力和金融专业认知能力(含多模态任务)维度得分较低,分别为59.8和52.0,且各模型表现差异较大。综合总分排名前三的模型依次为:
Anthropic Claude-3.5-Sonnet-20240620, 79.8分
阶跃星辰/财跃星辰 Step-2-16k/Finstep,79.7分
阿里巴巴 Qwen2.5-72b-Instruct/Qwen2-VL-72B,77.6分
本次测评一定程度上展示了大模型在金融应用方向的能力现状,各模型整体表现基本满足当下场景需求,其中金融安全与价值对齐表现优异,但仍存在较大提升空间,如金融专业认知和多模态处理能力。本次评测是依据《金融大模型应用评测指南》(T/SAIAS 019—2024)团体标准,使用《库帕思金融大模型评测数据集(2024版)》,通过司南大模型开源开放评测体系对部分通用大模型和金融垂类大模型的一次抽样测试。评测并未涵盖所有的金融场景和模型,评测数据集的部分样例已在OpenDataLab社区公开。本次评测是相关工作的第一步,通过选取部分模型进行评估来对方法进行验证。未来,还将每年开展至少1-2次评测,并逐步扩大测试范围,开放和共建评测工具、评测数据集和评测方法体系。同时,将与金融行业各方协同,进一步强化以金融业务为中心的模型评测体系建设,加强高质量金融语料建设,结合相关标准;加强对大模型应用实践的引导与规范,并与实践紧密结合,以更好推动大模型技术在金融领域的落地应用。