【2025校招】大语言模型数据青年研究员/博士后

平台设施研究部|正式|上海

2024-10-29

岗位职责
岗位职责:
负责参与实验室语言大模型InternLM的数据准备、模型训练、模型评测等工作,重点构建新一代质量高,安全性好,内容全面的十万亿Token数据集,工作内容包括:
1. 面向大规模,多来源,多领域的数据数据处理,复现相关大模型数据相关论文,并在此基础上设计更先进的数据质量标准与更高效的数据处理方法,对训练数据进行分析和分类并评估数据质量,解决数据多样性,内容质量,反毒性,反偏见等问题。
2. 深入了解并调研与预训练数据集相关的最新文献或资料,为构建更优质的数据集提供理论支撑,构建data-centric数据闭环,研究在固定模型和评测的情况下提高大模型数据语料质量,包括持续优化数据质量,研究数据和模型的scaling law,研究数据配比,数据混入策略与混入时机。
3. 围绕更具体细分类数据(如网页、代码、论文、书籍等等)构建相应大模型的数据-训练-评测链条,并针对细分类数据建立数据质量评估与优化体系,使得细分类数据质量超越已公开的数据集。
任职要求:
1. 计算机、软件工程、信息科学等相关专业,硕士学历及以上者优先;
2. 三年以上NLP相关方向研究经验 ,有发表顶会论文、大模型相关经验、一线互联网公司NLP算法开发经验优先;
3. 具备能够快速阅读论文和复现论文的能力,能够系统性对比研究领域的相关成果,并制定改进计划。
4. 熟练掌握Python/C++等语言,熟悉pytorch、tensorflow等常用深度学习工具,熟悉常用数据结构及算法;熟练掌握大模型预训练,SFT等流程。
5. 具有大规模数据集处理相关的工程经验,熟悉Hadoop,Spark等分布式框架的使用。
6. 有强烈的上进心和求知欲,善于学习新事物,渴望用技术改变未来;有优秀的分析问题和解决问题的能力,对解决具有挑战性问题充满激情;具备良好的团队合作精神和沟通意识。

上海市徐汇区龙文路129号
国际传媒港L1楼

联系我们
comm@pjlab.org.cn