1. 开展大语言模型和多模态大模型复杂推理能力和可信性研究,包括但不限于自然语言处理、视觉理解、多模态等;
2. 参与多模态大模型后训练阶段的强化学习算法研发迭代,包括:基于人类、AI、环境反馈的强化学习算法的优化升级,覆盖规则遵循、复杂推理等多个任务的多目标强化学习训练算法研发和调优,设计并实施实验;
3. 关注和学习最新前沿研究,参与学术讨论和技术交流,撰写研究报告、技术文档或论文,鼓励在国际顶级期刊或会议上发表研究成果。
任职要求:
1. 本科及以上学历,计算机科学、软件工程、数学、统计学或相关专业。
2. 熟悉常用的机器学习框架,如 TensorFlow、PyTorch 等,熟悉 Python 编程语言,有强化学习训练系统、大模型训练系统及相关底层代码库的工程开发优化经验者优先。
3. 熟悉大语言模型或多模态大模型基本知识,对GPT、Claude等闭源模型以及InternLM、LLaMA、Mixtral、Qwen等开源模型和相关多模态大模型有基础了解和上手经验;有相关竞赛、论文或实习经验者优先。对推理模型研究和有强化学习方向相关的工作经验者优先。
4. 具备良好的沟通能力和团队合作精神,拥有较强的自主学习能力和执行能力,能够迅速设计实验并验证新的想法。