大模型数据算法工程师

安全可信AI中心|全职|工程通道|上海

2025-12-18

岗位职责
1. 负责大模型预训练与微调数据的构建,包括数据采集、清洗、去重、过滤、打标、质量评估等全流程;
2. 构建高效的数据处理与分发管道,支持 TB–PB 级数据量的处理与管理;
3. 开发数据质量监控体系,识别低质量、有害、重复、偏见数据并进行修复;
4. 与训练团队协作,通过数据实验发现提升路径,持续优化数据方案。
岗位要求
1. 熟练掌握 Python / SQL / Spark / Ray 等数据处理工具;
2. 熟悉互联网文本数据、数据过滤策略、语言模型数据构建规范;
3. 有自动化数据清洗、文本分类、质量检测等经验者优先;
4. 具备团队协作和文档能力,能维护清晰的数据版本和数据血缘。

上海市徐汇区龙文路129号
国际传媒港L1楼

联系我们
comm@pjlab.org.cn