【26届校招】-大模型强化学习算法青年研究员/工程师-大模型中心

大模型中心|正式|上海

2025-09-26

岗位职责
参与实验室书生大模型后训练阶段的强化学习及其规模化定律(scaling law)研究。工作内容包括:
1. 参与实验室书生大模型后训练阶段的强化学习算法研究,主要包括:基于 AI 和环境反馈的强化学习(RLXF)算法研究和以大模型为核心的多智能体强化学习算法研究,覆盖文本、图文多模态场景下指令遵循、复杂推理、代码、网页浏览等复杂任务;
2. 参与奖励和反思评价模型的相关研究,研究可泛化的细粒度过程监督和奖励建模,并探索基于细粒度反馈的强化学习算法,覆盖文本、图文多模态场景下指令遵循、复杂推理、代码、网页浏览等复杂任务;
3. 参与后训练和推理阶段的规模化定律研究,包括:奖励和反思评价模型训练、强化学习阶段、推理阶段的规模化定律研究;
4. 参与世界模型相关研究,面向文本、图文多模态场景下的复杂推理与规划场景,研究基于世界模型的推理规划和强化学习训练算法;
5. 参与推动最新的强化学习后训练方案的规模化工程实践与落地应用。
岗位要求
1. 硕士/博士研究生学历,人工智能等相关专业优先(如计算机科学、数学、统计、电子工程等),有强化学习研究经验优先;
2. 熟悉大模型领域尤其是强化学习相关研究工作和算法,有大模型强化学习的研发基础,拥有高影响力顶会论文、知名竞赛获奖、顶级研究机构工作经验者优先;
3. 熟练使用 Python、PyTorch、Ray 等语言和代码库,能够研判领域内最新的研究趋势,能够系统性对比研究领域相关成果并制定探索计划,有强化学习训练系统、大模型训练系统及相关底层代码库的工程开发优化经验者优先;
4. 目标导向,有优秀的学术视野和判断力,具备优秀的问题提出、分析和解决能力,良好的团队协作精神和沟通意识。

上海市徐汇区龙文路129号
国际传媒港L1楼

联系我们
comm@pjlab.org.cn