GPU平台研发工程师

系统平台中心｜全职｜工程通道｜上海

2026-01-12

岗位职责

1. 参与 AI 算力云原生平台整体架构设计与核心模块研发，负责训练调度、资源管理等关键子系统的设计与实现，支撑万卡级 GPU/NPU 集群的稳定运行与资源效率持续优化；
2. 深度参与 Kubernetes 调度器的定制化开发，负责 AI 训练场景下的优先级调度、资源抢占、Gang 调度及弹性伸缩能力建设，满足大规模分布式训练与推理需求；
3. 深度参与 AI 训练任务运行稳定性与可观测性能力建设，设计并实现基于硬件、通信及调度事件的监控、告警与故障诊断机制，提升任务异常发现效率与根因定位能力；
4. 持续跟进云原生 AI 领域前沿技术方向（如异构算力编排、Serverless 训练等），推动技术方案的工程化验证与落地，并参与 CNCF 等开源社区的技术交流与贡献。

岗位要求

核心能力：
1. 计算机相关专业本科及以上学历，3–6 年云原生或分布式系统研发经验，参与过至少一个中大型容器平台或基础设施系统的建设；
2. 精通 Golang 系统编程，熟悉 Kubernetes 核心组件原理，具备调度器扩展、调度插件或设备插件开发经验；
3. 熟悉 Kubernetes 调度与资源管理机制，有 Volcano / Kubeflow / Argo 等 AI 云原生框架使用或开发经验者优先；
4. 熟练使用 Prometheus + Grafana 构建监控与告警体系，具备性能瓶颈分析与告警规则设计经验；
5. 具备较强的问题分析与系统定位能力，能够独立完成复杂调度异常、资源争用或性能问题的根因分析与修复。
加分项：
1. 有 AI 训练平台或大模型训练系统建设经验，熟悉 PyTorch 分布式训练原理；
2. 参与过 Kubernetes 或云原生相关开源项目贡献（如 SIG-Scheduling / SIG-Node）；
3. 熟悉 eBPF、内核调度或系统级监控技术，具备复杂系统深度诊断能力。

热招职位

${ v.title }

${ v.other_info }${ (v.other_info && v.other_info.length ? '｜' : '') + v.updatedAtShow }

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

GPU平台研发工程师

${ v.title }