GPU平台研发工程师
系统平台中心|全职|工程通道|上海
2026-01-12
岗位职责
1. 参与 AI 算力云原生平台整体架构设计与核心模块研发,负责训练调度、资源管理等关键子系统的设计与实现,支撑万卡级 GPU/NPU 集群的稳定运行与资源效率持续优化;
2. 深度参与 Kubernetes 调度器的定制化开发,负责 AI 训练场景下的优先级调度、资源抢占、Gang 调度及弹性伸缩能力建设,满足大规模分布式训练与推理需求;
3. 深度参与 AI 训练任务运行稳定性与可观测性能力建设,设计并实现基于硬件、通信及调度事件的监控、告警与故障诊断机制,提升任务异常发现效率与根因定位能力;
4. 持续跟进云原生 AI 领域前沿技术方向(如异构算力编排、Serverless 训练等),推动技术方案的工程化验证与落地,并参与 CNCF 等开源社区的技术交流与贡献。
2. 深度参与 Kubernetes 调度器的定制化开发,负责 AI 训练场景下的优先级调度、资源抢占、Gang 调度及弹性伸缩能力建设,满足大规模分布式训练与推理需求;
3. 深度参与 AI 训练任务运行稳定性与可观测性能力建设,设计并实现基于硬件、通信及调度事件的监控、告警与故障诊断机制,提升任务异常发现效率与根因定位能力;
4. 持续跟进云原生 AI 领域前沿技术方向(如异构算力编排、Serverless 训练等),推动技术方案的工程化验证与落地,并参与 CNCF 等开源社区的技术交流与贡献。
岗位要求
核心能力:
1. 计算机相关专业本科及以上学历,3–6 年云原生或分布式系统研发经验,参与过至少一个中大型容器平台或基础设施系统的建设;
2. 精通 Golang 系统编程,熟悉 Kubernetes 核心组件原理,具备调度器扩展、调度插件或设备插件开发经验;
3. 熟悉 Kubernetes 调度与资源管理机制,有 Volcano / Kubeflow / Argo 等 AI 云原生框架使用或开发经验者优先;
4. 熟练使用 Prometheus + Grafana 构建监控与告警体系,具备性能瓶颈分析与告警规则设计经验;
5. 具备较强的问题分析与系统定位能力,能够独立完成复杂调度异常、资源争用或性能问题的根因分析与修复。
加分项:
1. 有 AI 训练平台或大模型训练系统建设经验,熟悉 PyTorch 分布式训练原理;
2. 参与过 Kubernetes 或云原生相关开源项目贡献(如 SIG-Scheduling / SIG-Node);
3. 熟悉 eBPF、内核调度或系统级监控技术,具备复杂系统深度诊断能力。
1. 计算机相关专业本科及以上学历,3–6 年云原生或分布式系统研发经验,参与过至少一个中大型容器平台或基础设施系统的建设;
2. 精通 Golang 系统编程,熟悉 Kubernetes 核心组件原理,具备调度器扩展、调度插件或设备插件开发经验;
3. 熟悉 Kubernetes 调度与资源管理机制,有 Volcano / Kubeflow / Argo 等 AI 云原生框架使用或开发经验者优先;
4. 熟练使用 Prometheus + Grafana 构建监控与告警体系,具备性能瓶颈分析与告警规则设计经验;
5. 具备较强的问题分析与系统定位能力,能够独立完成复杂调度异常、资源争用或性能问题的根因分析与修复。
加分项:
1. 有 AI 训练平台或大模型训练系统建设经验,熟悉 PyTorch 分布式训练原理;
2. 参与过 Kubernetes 或云原生相关开源项目贡献(如 SIG-Scheduling / SIG-Node);
3. 熟悉 eBPF、内核调度或系统级监控技术,具备复杂系统深度诊断能力。


