存储研究团队隶属于上海人工智能实验室AI操作系统研究中心,致力于研究针对AI场景的原生存储体系架构,针对深度学习和强化学习等多类算法、PyTorch等业界主流以及国产训练框架、GPU和国产自研AI芯片等算力,探索基于SCM/NVMe SSD/RoCE等新介质/新网络的最优存储架构方案。
研究方向包括但不限于:
· 海量多模态Datasets存储——AI时代的GFS;
· 海量数据集特征管理KVDB——AI时代的 Bigtable;
· 数据集训练加速——直通算力芯片。
现针对以下岗位招募人才(校招、社招):
· 高性能KVDB研究员
· 超大规模分布式系统研究员
· 强化学习存储研究员
· AI原生分布式文件系统研究员
(工作地点:上海)
高性能KVDB研究员
岗位职责:研究高性能超大容量KVDB,解决千亿级超大规模数据集元数据的存储、管理和多维检索。
任职条件:
1. 熟悉计算机体系架构和分布式系统原理;
2. 熟练掌握C/C++/Go/Python等语言,常用算法和数据结构;
3.熟悉LSM tree、RocksDB、NoSQL KV数据库;
4. 有DPDK/SPDK/NVMe开发经验优先。
超大规模分布式系统研究员
岗位职责:为AI场景及数字化转型提供先进数据基础设施,重点解决超大规模分布式系统中的疑难问题,并提供扩展性灵活、容错能力强、超高稳定性、极致性价比的系统架构。
任职条件:
1.熟悉计算机体系架构和分布式系统原理;
2.熟练掌握C/C++/Go/Python等语言,常用算法和数据结构;
3.熟悉分布式系统相关知识,熟悉以下一个或者多个系统:分布式数据库、分布式存储、分布式文件系统;
4.有较强的分析问题、解决问题的能力。
超大规模分布式系统研究员
岗位职责:针对Multi Agent、超大模型深度强化学习场景,研究和设计高性能分布式共享存储,并加速强化学习IO性能,提高网络传输效率,缩短训练时间。
任职条件:
1. 熟悉计算机体系架构和分布式系统原理;
2. 熟练掌握C/C++/Go/Python等语言、常用算法和数据结构;
3. 熟悉Memcached等分布式内存数据库;
4. 熟悉计算机网络,对TCP/IP/HTTP/gRPC等有一定了解;
5. 对PyTorch/Ray等深度学习、强化学习框架有一定了解。
AI原生分布式文件系统研究员
岗位职责:研究和开发基于SCM/NVMe SSD/RoCE的大规模、低延时、海量小文件优化的分布式文件系统。
任职条件:
1. 熟悉计算机体系架构和分布式系统原理;
2. 熟练掌握C/C++、Python等语言,常用算法和数据结构;
3. 精通Linux操作系统,熟悉Linux Kernel;
4. 熟悉Linux文件系统,有ZFS/EXT4/XFS开发/问题定位经验者优先;
5. 熟悉Lustre/DAOS等开源分布式文件系统,有分布式文件系统开发经验者优先。
投递方式:hr@pjlab.org.cn
邮件及简历命名格式:姓名-申请岗位-(校招/社招)