算力集群运维工程师

信息技术中心｜全职｜工程通道｜上海

2026-06-10

岗位职责

1. 集群全生命周期运维：
负责大规模AI GPU集群的日常巡检、实时监控与故障闭环处理，覆盖服务器、GPU加速卡、分布式网络及存储等全链路基础设施，确保大模型训练、AI推理等核心业务7×24小时高可用。
2. 算力资源调度与效能优化：
主导Slurm、K8s等主流算力调度平台的运维与策略管控。深度监控集群资源利用率与作业运行状态，通过优化调度算法、队列规则及资源配额，系统性提升GPU集群的整体算力效率与业务吞吐量。
3. 复杂故障应急与根因分析：
快速响应并主导集群软硬件故障及业务突发问题的应急处理。建立标准化故障分级响应机制，沉淀根因分析与处理经验，构建并持续完善风险预防体系，保障业务连续性。
4. 可观测性与自动化运维体系构建：
设计并落地覆盖算力、硬件、网络、存储等维度的全栈监控告警体系。主导运维自动化工具与脚本的开发，实现运维操作、异常告警、数据统计报表的自动化，显著提升运维人效与集群的可观测、可管控水平。
5. 知识沉淀与内部技术赋能：
6. 主导运维知识库建设，持续迭代标准化SOP、故障处理手册及环境配置规范。面向内部研发用户提供算力使用最佳实践与技术支持，推动集群使用规范化，加速研发迭代效率。

岗位要求

1. 全日制本科及以上学历，计算机、网络工程、电子信息、自动化等相关专业。具备大规模GPU算力集群或同等规模服务器集群的实战运维经验。
2. 精通Linux操作系统原理与运维，熟练掌握K8s集群架构及日常管理。具备扎实的系统性能调优、权限管控、日志分析与故障排查能力。
3. 深入理解GPU硬件体系结构，精通GPU驱动及配套计算加速库的安装部署、版本管理及多版本环境兼容性调试。具备独立诊断和处理服务器硬件及固件级故障的能力。
4. 熟练掌握Shell、Python或Go至少一种编程语言，具备工程化的脚本与工具开发能力。能独立构建自动化运维、日志分析、算力计量与数据可视化等工具链。
5. 具备项目全生命周期管理经验，自驱力强，能主动识别并闭环解决集群潜在风险。责任心强，具备出色的跨团队沟通协作能力和复杂项目的落地推动能力。

加分项
1. 深度参与过K8s容器化环境下的AI算力业务部署与运维，对GPU Operator、Volcano等云原生调度方案有实操经验，精通资源配额、队列策略与任务优先级管控；
2. 熟悉分布式训练与多机多卡组网原理，掌握高性能通信协议栈，具备实战解决分布式训练中通信异常、训练效率不达预期、负载不均衡等复杂性能问题的经验；
3. 具备大规模分布式对象/文件存储集群的规划、性能调优与运维经验，能针对性解决AI训练场景下的高吞吐、低延迟存储瓶颈；
4. 精通服务器硬件参数调优（固件配置、NUMA拓扑、PCIe带宽分配等），能通过基准测试定位并消除硬件性能瓶颈，实现算力最大化释放。

热招职位

${ v.title }

${ v.other_info }${ (v.other_info && v.other_info.length ? '｜' : '') + v.updatedAtShow }

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

算力集群运维工程师

${ v.title }