大模型评测算法工程师
安全可信AI中心|全职|工程通道|上海
2026-03-27
岗位职责
1. 评测基础设施与工具链建设:
1.1 负责大模型评测工具链与中台系统的整体架构与研发,覆盖大语言模型、多模态模型及智能体等;
1.2 主导评测体系的工程技术演进,持续集成前沿评测方法与社区最新成果,构建高效、可扩展、自动化的评测基础设施。
2. 高质量评测能力集成支持
2.1 针对内部研发需求持续支持各类评测基准,保障评测能力上线的质量与时效性;
2.2 探索用户自定义评测能力的研发,研发快速敏捷的评测能力更新集成方案。
3. 模型研发牵引与评测影响力建设
3.1 深度参与内部大模型研发流程,通过量化分析诊断模型短板,与算法团队紧密协作推动模型能力持续提升;
3.2 负责维护和拓展 OpenCompass 等开源评测平台的行业影响力,定期发布权威评测报告,输出技术洞察;
3.3 跟踪全球大模型技术进展,建立内外部模型能力对标体系,为产品与技术决策提供数据支撑。
1.1 负责大模型评测工具链与中台系统的整体架构与研发,覆盖大语言模型、多模态模型及智能体等;
1.2 主导评测体系的工程技术演进,持续集成前沿评测方法与社区最新成果,构建高效、可扩展、自动化的评测基础设施。
2. 高质量评测能力集成支持
2.1 针对内部研发需求持续支持各类评测基准,保障评测能力上线的质量与时效性;
2.2 探索用户自定义评测能力的研发,研发快速敏捷的评测能力更新集成方案。
3. 模型研发牵引与评测影响力建设
3.1 深度参与内部大模型研发流程,通过量化分析诊断模型短板,与算法团队紧密协作推动模型能力持续提升;
3.2 负责维护和拓展 OpenCompass 等开源评测平台的行业影响力,定期发布权威评测报告,输出技术洞察;
3.3 跟踪全球大模型技术进展,建立内外部模型能力对标体系,为产品与技术决策提供数据支撑。
岗位要求
1. 计算机、人工智能、数学或相关专业硕士及以上学历;
2. 扎实的算法基础与工程实现能力,熟悉 Python,具备大规模系统开发经验;
3. 深入理解大模型原理与评测方法,有 LLM / 多模态模型 / 智能体相关评测或研发经验者优先;
4. 熟悉主流评测框架(如OpenCompass 等)或参与过相关开源项目者优先;
5. 具备良好的技术前瞻性、系统思维与跨团队协作能力,对构建科学、公平、可解释的AI评测体系有强烈热情。
2. 扎实的算法基础与工程实现能力,熟悉 Python,具备大规模系统开发经验;
3. 深入理解大模型原理与评测方法,有 LLM / 多模态模型 / 智能体相关评测或研发经验者优先;
4. 熟悉主流评测框架(如OpenCompass 等)或参与过相关开源项目者优先;
5. 具备良好的技术前瞻性、系统思维与跨团队协作能力,对构建科学、公平、可解释的AI评测体系有强烈热情。


