GPU平台研发工程师/架构师

系统平台中心

发布时间:2025-02-18

上海

职位描述

【岗位职责】
1.负责实验室GPU统一云平台系统的设计与开发,GPU资源高效分配调度,确保平台高可用与稳定性
2.负责设计和制定GPU IaaS产品功能和性能准入标准和要求,并负责管理和优化多云异构平台产品易用性和可用性
3.研究和落地大规模分布式异构计算集群编排调度,持续资源治理,提升GPU资源使用率
4.与科研和数据团队协作,制定资源优化策略,支持平台对大模型和多模态模型任务的高效处理;

【任职要求】
1.本科及以上学历,至少3年以上千台CPU或千卡GPU以上的分布式系统、资源调度或大规模计算相关经验;
2.精通Python/Go/Java/C++至少一种主流编程语言,具有良好的代码风格和开发习惯;
3.精通GPU云原生技术栈, 了解 K8S 原理或常用 MLOps 组件;
4.熟悉各大云厂商的计算、存储产品使用和设计,能够快速对不同产品形态进行统一抽象;
4.熟悉Kubeflow/Argo/Volcano 等开源云原生项目,有二次开发经验;
5.清楚异构计算集群网络、存储等上下游拓扑架构,了解训练或者推理加速方案原理、工程实现;
6.具备优秀的沟通能力和团队协作精神,能够有效地与跨职能团队合作,推动项目顺利进行。

社招最新职位