“星启Talk”第11期:大模型的安全测评与治理 by 杜浩星|活动预告
来源: 上海人工智能实验室|2023-10-13
10月16日,“上海人工智能实验室学术论坛”将举办第11期“星启Talk”暨第3期“AI安全与对齐”系列学术报告。邀请对齐研究中心(Alignment Research Center)研究工程师杜浩星,带来主题报告《大模型的安全测评与治理》。
“星启Talk”不定期邀请全球杰出青年学者,分享在人工智能相关领域的代表性工作。“AI安全与对齐”是上海人工智能实验室AI治理研究中心联合安远AI共同组织的系列学术报告,探讨大模型安全与对齐领域的最新进展及关键突破。
“星启Talk”第11期
活动详情
主题:《大模型的安全测评与治理》
嘉宾:杜浩星 对齐研究中心研究工程师
主持人:方亮 安远AI资深研究经理
时间:北京时间 10月16日 上午10:00-11:00
参与方式:视频号线上直播
讲座简介
充分的安全测评对保证模型系统安全至关重要:假设AI系统没能成功对齐,它们有能力造成什么样的危害?当“涌现”来临时,大模型自主体的能力该如何预料?
对齐研究中心(Alignment Research Center)的安全测评(Evaluations)团队针对大模型自主体的能力进行测评,尤其是针对其自主复制能力(Autonomous Replication and Adaptation)。本次讲座,主讲人将介绍构建大模型自主体的方法,并测评它们自主完成任务的能力。与此同时,讲座中还将介绍Anthropic近期发布的“负责扩展原则”(Responsible Scaling Policy)等基于安全测评的治理方案。
本期嘉宾

杜浩星 对齐研究中心 研究工程师
对齐研究中心(Alignment Research Center)安全测评(Evaluations)团队研究工程师。曾在Redwood Research从事可解释性研究,并拥有两个理论物理硕士学位。
主持人

方亮 安远AI资深研究经理

上海人工智能实验室学术论坛
“上海人工智能实验室学术论坛”分设“星河Talk”与“星启Talk”两个主题系列活动,将分别邀请全球顶尖教授和杰出青年学者作为嘉宾,线上线下分享学术成果、探讨科技前沿。更多精彩内容,敬请期待。
 
