1、负责构建并完善大模型评测体系,包括评测标准制定,评测工具链开发和评测数据集建设;
2、基于业务需求设计评测方案,开展多维度模型评估,输出专业评测报告;
3、参与Agent /RAG技术在垂直领域的算法工程化实现及性能评估研究;
4、负责评测系统后端功能开发及DevOps实施,维护数据库及前后端架构。
岗位要求:
1、计算机科学/人工智能等相关专业硕士及以上学历;
2、精通Python编程,熟练掌握PyTorch/TensorFlow等深度学习框架;
3、熟悉主流语言大模型技术架构和性能分析,具备实际项目开发经验;
4、掌握大模型评测方法论,具备构建Benchmark或评测平台的实践,了解各类主流评测指标及其局限;
5、具备优秀的问题分析与解决能力,责任心强,具有良好的团队协作精神。