大模型训练算法工程师
解决方案与产品中心|全职|工程通道|上海
2026-03-09
岗位职责
1.负责垂直领域大模型的全流程训练工作,独立执行增量预训练(CPT)、监督微调(SFT)及强化学习对齐(RLHF/DPO)任务
2.负责高质量训练数据的构建与清洗,包括预训练语料的清洗过滤、SFT指令数据的构造与配比、偏好数据的生成
3.基于Ascend NPU/NV GPU平台,使用Megatron-LM、veRL、LLaMA-Factory等框架进行模型训练与性能调优
4.监控训练过程,及时发现并解决Loss异常、梯度爆炸等常见训练问题,产出实验分析报告
5.参与模型评测工作,根据评测结果调整数据配比与超参数,持续提升模型在垂域的效果
6.跟踪大模型训练领域前沿进展,复现SFT/RLHF相关论文算法,并尝试应用到业务场景中
2.负责高质量训练数据的构建与清洗,包括预训练语料的清洗过滤、SFT指令数据的构造与配比、偏好数据的生成
3.基于Ascend NPU/NV GPU平台,使用Megatron-LM、veRL、LLaMA-Factory等框架进行模型训练与性能调优
4.监控训练过程,及时发现并解决Loss异常、梯度爆炸等常见训练问题,产出实验分析报告
5.参与模型评测工作,根据评测结果调整数据配比与超参数,持续提升模型在垂域的效果
6.跟踪大模型训练领域前沿进展,复现SFT/RLHF相关论文算法,并尝试应用到业务场景中
岗位要求
1.计算机、人工智能、数学等相关专业硕士及以上学历,具备1~2年NLP或大模型算法工作经验
2.熟悉Python、PyTorch,对Transformer架构原理(Attention、RoPE等)和主流开源LLM(Qwen、LLaMA、InternLM等)有深入了解
3.具备大模型(7B及以上)微调实战经验,并具备以下任一方向的技术积累:
-预训练/CPT方向:熟悉分布式训练基础(DP/TP/PP),有使用Megatron-LM或DeepSpeed进行多机多卡训练的经验
-后训练方向:熟悉SFT、RLHF、DPO等算法流程,有过完整的模型精调与对齐实践,了解PPO算法细节
4.具备良好的实验习惯,能够独立设计对比实验,对数据质量和超参敏感,能通过Badcase分析定位问题
5.有大模型相关的开源项目贡献、顶会论文发表或知名比赛(Kaggle、天池等)获奖经历者优先
6.具备团队协作意识,能够快速适应业务迭代节奏
2.熟悉Python、PyTorch,对Transformer架构原理(Attention、RoPE等)和主流开源LLM(Qwen、LLaMA、InternLM等)有深入了解
3.具备大模型(7B及以上)微调实战经验,并具备以下任一方向的技术积累:
-预训练/CPT方向:熟悉分布式训练基础(DP/TP/PP),有使用Megatron-LM或DeepSpeed进行多机多卡训练的经验
-后训练方向:熟悉SFT、RLHF、DPO等算法流程,有过完整的模型精调与对齐实践,了解PPO算法细节
4.具备良好的实验习惯,能够独立设计对比实验,对数据质量和超参敏感,能通过Badcase分析定位问题
5.有大模型相关的开源项目贡献、顶会论文发表或知名比赛(Kaggle、天池等)获奖经历者优先
6.具备团队协作意识,能够快速适应业务迭代节奏


