参与实验室书生大模型后训练阶段多模态、多任务强化学习技术研发迭代与工程规模化。具体工作内容包括:
1. 骨干参与超大/超稀疏、多模态混合专家模型的大规模多任务强化学习训练系统的研发与优化,提升系统整体效率
2. 骨干参与实验室书生大模型后训练阶段的强化学习算法研发迭代,包括:基于多类型反馈的强化学习(RLXF)算法的优化升级,覆盖文本和多模态场景下长思维链推理、指令遵循、智能体等多个任务的通用多目标强化学习训练算法研发和调优
3. 参与构建高质量大规模的强化学习偏好与反馈和强化学习训练数据集,研发迭代可泛化的奖励模型,目标任务包括但不限于:文本、图片、视频等数据,覆盖主观对话、指令遵循、复杂推理、代码、幻觉抑制等任务;
职位要求
1. 本科及以上学历,人工智能等相关专业优先(如计算机科学、电子工程等),有大模型训练系统研发和强化学习研究经验优先,博士学历优先;
2. 熟练使用 Python、PyTorch、Ray 等语言和代码库,具备快速阅读和复现论文的能力,能够系统性对比研究领域相关成果并制定改进计划,有强化学习训练系统、大模型训练系统及相关底层代码库的工程开发优化经验者优先;
3. 熟悉强化学习领域的相关研究工作和算法,熟悉大模型领域相关研究工作,有强化学习方向相关的工作经验者优先,
4. 目标导向,具备优秀的问题提出、分析和解决能力,良好的团队协作精神和沟通意识;
5. 拥有发表顶会论文、知名竞赛获奖、顶级研究机构工作经验者优先。