大模型推理部署工程师/高级工程师
大模型中心|全职|工程通道|上海
2026-01-12
岗位职责
1.深入研究大模型推理的核心挑战,如模型并行、GPU通信、投机解码(Speculative Decoding)、量化技术、MoE推理等,突破现有算力与内存瓶颈,推动推理效率的极限;
2.构建高可用、低延迟的分布式推理系统,优化多设备协同计算,打造可扩展、高性能的服务化框架;
3.设计并实现高性能CUDA Kernel,深入GPU底层优化;
4.推动研究成果落地,提升团队技术影响力。
2.构建高可用、低延迟的分布式推理系统,优化多设备协同计算,打造可扩展、高性能的服务化框架;
3.设计并实现高性能CUDA Kernel,深入GPU底层优化;
4.推动研究成果落地,提升团队技术影响力。
岗位要求
1. 具有计算机科学、机器学习和人工智能等相关行业从业经历或具有相关专业硕士及以上学历;
2. 扎实的机器学习基础和优秀的编程能力,精通 PyTorch,熟练 C/C++ 或者 Python;
3. 精通CUDA编程,有手写高性能算子(如FlashAttention、Gemm优化)经验;掌握计算性能分析工具(Nsight、PyTorch Profiler);
4. 熟悉大模型推理技术栈,如 vLLM、SGLang、LMDeploy、TensorRT-LLM等;
5. 热爱技术,追求卓越,具备强大的自我驱动力和严谨的逻辑思维能力;善于解决问题并能在团队协作中发挥积极作用。
2. 扎实的机器学习基础和优秀的编程能力,精通 PyTorch,熟练 C/C++ 或者 Python;
3. 精通CUDA编程,有手写高性能算子(如FlashAttention、Gemm优化)经验;掌握计算性能分析工具(Nsight、PyTorch Profiler);
4. 熟悉大模型推理技术栈,如 vLLM、SGLang、LMDeploy、TensorRT-LLM等;
5. 热爱技术,追求卓越,具备强大的自我驱动力和严谨的逻辑思维能力;善于解决问题并能在团队协作中发挥积极作用。


