大模型强化学习算法实习生

安全可信AI中心

发布时间:2025-02-24

上海 北京

职位描述

开展大语言模型和多模态大模型在复杂推理(Complex Reasoning)、因果推理(Causal Reasoning)和世界模型(World Model)等方面的基础研究工作。通过前沿研究和技术创新,提升大模型在复杂任务中的推理能力,提高模型的可信性,并探索其在多个领域的应用潜力。
1. 开展大语言模型和多模态大模型复杂推理能力和可信性研究,包括但不限于自然语言处理、视觉理解、多模态等;
2. 参与多模态大模型后训练阶段的强化学习算法研发迭代,包括:基于人类、AI、环境反馈的强化学习算法的优化升级,覆盖规则遵循、复杂推理等多个任务的多目标强化学习训练算法研发和调优,设计并实施实验;
3. 关注和学习最新前沿研究,参与学术讨论和技术交流,撰写研究报告、技术文档或论文,鼓励在国际顶级期刊或会议上发表研究成果。

任职要求:
1. 本科及以上学历,计算机科学、软件工程、数学、统计学或相关专业。
2. 熟悉常用的机器学习框架,如 TensorFlow、PyTorch 等,熟悉 Python 编程语言,有强化学习训练系统、大模型训练系统及相关底层代码库的工程开发优化经验者优先。
3. 熟悉大语言模型或多模态大模型基本知识,对GPT、Claude等闭源模型以及InternLM、LLaMA、Mixtral、Qwen等开源模型和相关多模态大模型有基础了解和上手经验;有相关竞赛、论文或实习经验者优先。对推理模型研究和有强化学习方向相关的工作经验者优先。
4. 具备良好的沟通能力和团队合作精神,拥有较强的自主学习能力和执行能力,能够迅速设计实验并验证新的想法。

校招最新职位