书生·浦语2.5发布，支持百万长文，推理能力开源领先

首页科研动态新闻动态

书生·浦语2.5发布，支持百万长文，推理能力开源领先 | WAIC 2024

来源：上海人工智能实验室｜2024-07-08

在7月4日举行的WAIC 2024科学前沿主论坛上，上海人工智能实验室（上海AI实验室）发布通专融合系列成果。

作为书生·浦语系列大语言模型的最新版本，书生·浦语2.5具备一百万词元（Token）的超长文本窗口及开源模型中领先的推理能力，并支持自主规划和在线信息整合，成为助力复杂问题高效解决的得力AI助手。

秉持“以高质量开源赋能创新”理念，书生·浦语2.5及全链条工具体系将持续开源，提供免费商用。书生·浦语系列大模型首次开源以来，已衍生出超1000个创新项目，与产学研各界共同构建更广阔的AI生态。

书生·浦语系列大模型主页：https://internlm.intern-ai.org.cn

InternLM2.5-7B开源链接：https://github.com/InternLM/InternLM

合成数据+模型飞轮，助推基础性能提升

随着大模型的快速发展，人类积累的数据正加速用于预训练消耗。在高质量数据不足的情况下，高效地提升模型性能，成为当前大模型研究的主要挑战之一。由上海AI实验室与商汤科技组成的联合团队，提出“合成数据+模型飞轮”双重驱动技术，为书生·浦语系列模型打造性能加速器。

针对不同的数据特点，联合团队制定了多样化数据合成方案，分别基于规则数据构造及模型数据扩充、反馈数据生成，确保合成数据的正确性与质量。

同时，在研发过程中，模型本身也被持续不断地应用于自身的进步，能够随着训练过程对发现自身问题并进行自我修复，成为“飞轮式”的滚动迭代模式。

在“双重驱动”的作用下，全新升级的书生·浦语2.5获得了增强型推理能力及1M词元的超长文本窗口，为在更复杂场景下的应用落地提供良好模型基础。

复杂推理：超越自身，更领先同量级

强大的推理能力是通向通用人工智能的重要基础，联合团队将推理能力作为模型性能提升重点，书生·浦语2.5的推理能力再次取得进步。

基于OpenCompass司南评测体系，联合团队对书生·浦语2.5在多个推理能力评测集上进行了测试。相较自身的上一代，书生·浦语2.5的推理能力实现了大幅提升，尤其在数学能力方面，性能提升高达一倍。

与国内外最新的主流开源模型相比，书生·浦语2.5在大部分推理评测集上综合领先于Llama3和Gemma2等同量级模型。

针对实际落地应用场景，书生·浦语2.5的多步骤复杂推理能力也得到了精进。在一项涉及2020年东京奥运会奖牌榜数据的复杂多步推理问题中，书生·浦语2.5准确给出了答案，并给出了解答原因及步骤。

超长文本窗口：百万长文输入，支持个性化部署

在长文档理解、复杂的智能体交互等应用场景中，对模型支持的文本窗口长度提出更高要求。书生·浦语2.5的文本窗口词元由上一代200K提升至1M（约120万汉字），进一步释放了模型在超长文本应用上的潜力。在模型的预训练中，为了避免语料类型过于单一而导致的域偏移，研究人员通过合成数据进行了补充，使得模型在扩展上下文的同时可以尽量保留其语言处理能力。

采用“大海捞针”评估方式的结果显示，书生·浦语2.5在1M词元长度超长文本中，依然可以准确找到信息。研究人员同时使用长文理解能力评测集LongBench对同量级主流开源模型进行评估，书生·浦语2.5同样取得了优异性能表现。

研究人员向书生·浦语2.5输入约35万字版本的《新唐书节选》，通篇皆为文言文版本，并要求描述“唐代文学的三次风格变化”的具体问题。书生·浦语2.5均做出了准确回答，体现出强大长文本处理能力的同时，也展现了深厚的国学基础。

与此同时，依托书生·浦语2.5的长文本能力，联合团队开发了文档对话应用，并全链路开源，支持用户个性化本地部署。

网络接入+多智能体协作，助力高效信息处理

针对需要大规模复杂信息搜索和整合的问题场景，书生·浦语2.5研究团队提出了“规划器”模式，调动内部多智能体协作，在模仿“人的解决思路”前提下，更高效准确进行全网信息检索及整合。

联合团队创造性地提出了MindSearch多智能体框架，模拟人的思维过程，引入了任务规划、任务拆解、大规模网页搜索、多源信息归纳总结等步骤。如图多人同时为查找统一信息而合作。规划器专注于任务的规划、拆解和信息归纳，采用图结构编程的方式进行规划，并根据任务状态进行动态拓展；搜索器负责发散式搜索并总结网络搜索结果，使得整个框架能够基于上百个网页的信息进行筛选和浏览和整合。

向书生·浦语2.5提问嫦娥6号探月相关问题，模型能够分析用户需求，并联网搜索嫦娥6号的技术难点、再针对每一个技术难点搜索对应的解决方案，再从任务目标、技术手段、科学成果、国际合作4个方面对比阿波罗11号登月计划，最后总结我国探月成功的贡献。体现了面对复杂问题及海量网络信息检索的高效整合能力。

拥抱更广阔的开源生态

以持续的高质量开源赋能创新，书生·浦语系列模型延续开源和免费商用授权，面向实际应用场景提供更好的模型和工具链，与各界携手，共同拥抱更广阔的开源生态，

2023年WAIC期间，书生·浦语及面向大模型研发与应用的全链条工具体系正式开源。一年来，书生·浦语系列模型陆续开源多个迭代升级版本，不断拉低大模型使用及研究门槛。伴随本次书生·浦语2.5发布，全链条工具体系面向应用环节同时迎来升级，开源了领域知识助手及数据提取工具等多项应用，并兼容了技术社区内常用的大模型工具，为用户“玩转”大模型提供便利。

据统计，书生·浦语系列模型首次开源以来，开发者社区及产学研界利用基础模型和工具体系已开发出近1000个创新项目，覆盖从垂类模型到智能体应用、从软件到硬件的多个领域。同时，基于书生·浦语2.5，上海AI实验室将持续发起公益学术培训及创新竞赛。

由上海AI实验室发起的浦源大模型挑战赛，已成功举办两季，吸引全球超过300支开发者队伍参与，由挑战赛中产生了300余个创新项目，其中，“基于浦语大模型的离线具身智能导盲犬”、新闻报道创作大模型、多模态中医问诊大模型、卖货主播大模型等项目，在学术及产业界产生了积极影响。书生大模型实战营提供“手把手”教学及免费算力支持，已吸引超过15万人次线上学习，引导越来越多兴趣人士共同加入大模型创新开发队伍，共促大模型生态繁荣。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

书生·浦语2.5发布，支持百万长文，推理能力开源领先 | WAIC 2024

来源：上海人工智能实验室｜2024-07-08

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

书生·浦语2.5发布，支持百万长文，推理能力开源领先 | WAIC 2024

来源： 上海人工智能实验室｜2024-07-08

来源：上海人工智能实验室｜2024-07-08