算力集群运维工程师

信息技术中心|全职|工程通道|上海

2026-06-10

岗位职责
1. 集群全生命周期运维:
负责大规模AI GPU集群的日常巡检、实时监控与故障闭环处理,覆盖服务器、GPU加速卡、分布式网络及存储等全链路基础设施,确保大模型训练、AI推理等核心业务7×24小时高可用。
2. 算力资源调度与效能优化:
主导Slurm、K8s等主流算力调度平台的运维与策略管控。深度监控集群资源利用率与作业运行状态,通过优化调度算法、队列规则及资源配额,系统性提升GPU集群的整体算力效率与业务吞吐量。
3. 复杂故障应急与根因分析:
快速响应并主导集群软硬件故障及业务突发问题的应急处理。建立标准化故障分级响应机制,沉淀根因分析与处理经验,构建并持续完善风险预防体系,保障业务连续性。
4. 可观测性与自动化运维体系构建:
设计并落地覆盖算力、硬件、网络、存储等维度的全栈监控告警体系。主导运维自动化工具与脚本的开发,实现运维操作、异常告警、数据统计报表的自动化,显著提升运维人效与集群的可观测、可管控水平。
5. 知识沉淀与内部技术赋能:
6. 主导运维知识库建设,持续迭代标准化SOP、故障处理手册及环境配置规范。面向内部研发用户提供算力使用最佳实践与技术支持,推动集群使用规范化,加速研发迭代效率。
岗位要求
1. 全日制本科及以上学历,计算机、网络工程、电子信息、自动化等相关专业。具备大规模GPU算力集群或同等规模服务器集群的实战运维经验。
2. 精通Linux操作系统原理与运维,熟练掌握K8s集群架构及日常管理。具备扎实的系统性能调优、权限管控、日志分析与故障排查能力。
3. 深入理解GPU硬件体系结构,精通GPU驱动及配套计算加速库的安装部署、版本管理及多版本环境兼容性调试。具备独立诊断和处理服务器硬件及固件级故障的能力。
4. 熟练掌握Shell、Python或Go至少一种编程语言,具备工程化的脚本与工具开发能力。能独立构建自动化运维、日志分析、算力计量与数据可视化等工具链。
5. 具备项目全生命周期管理经验,自驱力强,能主动识别并闭环解决集群潜在风险。责任心强,具备出色的跨团队沟通协作能力和复杂项目的落地推动能力。

加分项
1. 深度参与过K8s容器化环境下的AI算力业务部署与运维,对GPU Operator、Volcano等云原生调度方案有实操经验,精通资源配额、队列策略与任务优先级管控;
2. 熟悉分布式训练与多机多卡组网原理,掌握高性能通信协议栈,具备实战解决分布式训练中通信异常、训练效率不达预期、负载不均衡等复杂性能问题的经验;
3. 具备大规模分布式对象/文件存储集群的规划、性能调优与运维经验,能针对性解决AI训练场景下的高吞吐、低延迟存储瓶颈;
4. 精通服务器硬件参数调优(固件配置、NUMA拓扑、PCIe带宽分配等),能通过基准测试定位并消除硬件性能瓶颈,实现算力最大化释放。

上海市徐汇区龙文路129号
国际传媒港L1楼

联系我们
comm@pjlab.org.cn