【26届校招】-大模型强化学习算法青年研究员/工程师-大模型中心

大模型中心｜正式｜上海

2025-09-26

岗位职责

参与实验室书生大模型后训练阶段的强化学习及其规模化定律（scaling law）研究。工作内容包括：
1. 参与实验室书生大模型后训练阶段的强化学习算法研究，主要包括：基于 AI 和环境反馈的强化学习（RLXF）算法研究和以大模型为核心的多智能体强化学习算法研究，覆盖文本、图文多模态场景下指令遵循、复杂推理、代码、网页浏览等复杂任务；
2. 参与奖励和反思评价模型的相关研究，研究可泛化的细粒度过程监督和奖励建模，并探索基于细粒度反馈的强化学习算法，覆盖文本、图文多模态场景下指令遵循、复杂推理、代码、网页浏览等复杂任务；
3. 参与后训练和推理阶段的规模化定律研究，包括：奖励和反思评价模型训练、强化学习阶段、推理阶段的规模化定律研究；
4. 参与世界模型相关研究，面向文本、图文多模态场景下的复杂推理与规划场景，研究基于世界模型的推理规划和强化学习训练算法；
5. 参与推动最新的强化学习后训练方案的规模化工程实践与落地应用。

岗位要求

1. 硕士/博士研究生学历，人工智能等相关专业优先（如计算机科学、数学、统计、电子工程等），有强化学习研究经验优先；
2. 熟悉大模型领域尤其是强化学习相关研究工作和算法，有大模型强化学习的研发基础，拥有高影响力顶会论文、知名竞赛获奖、顶级研究机构工作经验者优先；
3. 熟练使用 Python、PyTorch、Ray 等语言和代码库，能够研判领域内最新的研究趋势，能够系统性对比研究领域相关成果并制定探索计划，有强化学习训练系统、大模型训练系统及相关底层代码库的工程开发优化经验者优先；
4. 目标导向，有优秀的学术视野和判断力，具备优秀的问题提出、分析和解决能力，良好的团队协作精神和沟通意识。

热招职位

${ v.title }

${ v.other_info }${ (v.other_info && v.other_info.length ? '｜' : '') + v.updatedAtShow }

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

【26届校招】-大模型强化学习算法青年研究员/工程师-大模型中心

${ v.title }