大模型安全对齐工程师
安全可信AI中心|全职|工程通道|上海
2025-12-18
岗位职责
1. 研究并实现大模型的安全对齐技术,包括拒绝有害指令、安全输出控制、价值对齐、伦理约束等;
2. 设计防护机制(如安全奖励模型、安全过滤器、结构化输出约束)并实现工程部署;
3. 分析模型幻觉、有害生成、偏见等问题的根因,并推动训练与数据层面的改进。
2. 设计防护机制(如安全奖励模型、安全过滤器、结构化输出约束)并实现工程部署;
3. 分析模型幻觉、有害生成、偏见等问题的根因,并推动训练与数据层面的改进。
岗位要求
1. 熟悉 LLM 安全、对齐、偏好建模、内容过滤等相关方向;
2. 理解强化学习、偏好学习、规则约束等方法在模型对齐中的应用;
3. 熟练掌握 PyTorch / Transformers 框架,有安全评测或安全模型构建经验者优先;
4. 良好的协作能力,可与模型、数据、平台等多团队协作落地安全机制。
2. 理解强化学习、偏好学习、规则约束等方法在模型对齐中的应用;
3. 熟练掌握 PyTorch / Transformers 框架,有安全评测或安全模型构建经验者优先;
4. 良好的协作能力,可与模型、数据、平台等多团队协作落地安全机制。


