【实习】大模型强化学习算法实习生

安全可信AI中心｜实习｜上海｜北京

2025-11-24

岗位职责

开展大语言模型和多模态大模型在复杂推理（Complex Reasoning）、因果推理（Causal Reasoning）和世界模型（World Model）等方面的基础研究工作。通过前沿研究和技术创新，提升大模型在复杂任务中的推理能力，提高模型的可信性，并探索其在多个领域的应用潜力。
1. 开展大语言模型和多模态大模型复杂推理能力和可信性研究，包括但不限于自然语言处理、视觉理解、多模态等；
2. 参与多模态大模型后训练阶段的强化学习算法研发迭代，包括：基于人类、AI、环境反馈的强化学习算法的优化升级，覆盖规则遵循、复杂推理等多个任务的多目标强化学习训练算法研发和调优，设计并实施实验；
3. 关注和学习最新前沿研究，参与学术讨论和技术交流，撰写研究报告、技术文档或论文，鼓励在国际顶级期刊或会议上发表研究成果。

任职要求：
1. 本科及以上学历，计算机科学、软件工程、数学、统计学或相关专业。
2. 熟悉常用的机器学习框架，如 TensorFlow、PyTorch 等，熟悉 Python 编程语言，有强化学习训练系统、大模型训练系统及相关底层代码库的工程开发优化经验者优先。
3. 熟悉大语言模型或多模态大模型基本知识，对GPT、Claude等闭源模型以及InternLM、LLaMA、Mixtral、Qwen等开源模型和相关多模态大模型有基础了解和上手经验；有相关竞赛、论文或实习经验者优先。对推理模型研究和有强化学习方向相关的工作经验者优先。
4. 具备良好的沟通能力和团队合作精神，拥有较强的自主学习能力和执行能力，能够迅速设计实验并验证新的想法。

热招职位

${ v.title }

${ v.other_info }${ (v.other_info && v.other_info.length ? '｜' : '') + v.updatedAtShow }

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

【实习】大模型强化学习算法实习生

${ v.title }