1. 参与大模型预训练数据相关的提取、清洗工具和模型开发
2. 利用AI技术,解决数据提取中关于提取、数据质量、数据筛选、人效等问题
3. 带领团队利用自研、开源数据提取工具提取和加工PB级数据集
4. 不断提升流水线自动化、标准化、可观测性水平
岗位要求:
1. 强烈的责任心和自驱力,具备精品意识和创新思维
2. 计算机及相关专业统招本科及以上学历,工作经验5年及以上
3. 有LLM预训练、微调、RAG等方面经验
4. 熟练使用shell、python、spark,思维严密,注重质量
5. 希望候选人有带团队经验