科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

“星启Talk”第11期:大模型的安全测评与治理 by 杜浩星|活动预告

      10月16日,“上海人工智能实验室学术论坛”将举办第11期“星启Talk”暨第3期“AI安全与对齐”系列学术报告。邀请对齐研究中心(Alignment Research Center)研究工程师杜浩星,带来主题报告《大模型的安全测评与治理》。

    “星启Talk”不定期邀请全球杰出青年学者,分享在人工智能相关领域的代表性工作。“AI安全与对齐”是上海人工智能实验室AI治理研究中心联合安远AI共同组织的系列学术报告,探讨大模型安全与对齐领域的最新进展及关键突破。

星启Talk”第11期

活动详情

主题:《大模型的安全测评与治理》

嘉宾:杜浩星 对齐研究中心研究工程师

主持人:方亮 安远AI资深研究经理

时间:北京时间 10月16日 上午10:00-11:00

参与方式:视频号线上直播

讲座简介

充分的安全测评对保证模型系统安全至关重要:假设AI系统没能成功对齐,它们有能力造成什么样的危害?当“涌现”来临时,大模型自主体的能力该如何预料?

对齐研究中心(Alignment Research Center)的安全测评(Evaluations)团队针对大模型自主体的能力进行测评,尤其是针对其自主复制能力(Autonomous    Replication and Adaptation)。本次讲座,主讲人将介绍构建大模型自主体的方法,并测评它们自主完成任务的能力。与此同时,讲座中还将介绍Anthropic近期发布的“负责扩展原则”(Responsible Scaling Policy)等基于安全测评的治理方案。

本期嘉宾

638328289551680000.jpg

杜浩星 对齐研究中心 研究工程师

对齐研究中心(Alignment Research Center)安全测评(Evaluations)团队研究工程师。曾在Redwood Research从事可解释性研究,并拥有两个理论物理硕士学位。

主持人

638328291199730000.jpg

方亮 安远AI资深研究经理

638328277267120000.png

上海人工智能实验室学术论坛

“上海人工智能实验室学术论坛”分设“星河Talk”与“星启Talk”两个主题系列活动,将分别邀请全球顶尖教授和杰出青年学者作为嘉宾,线上线下分享学术成果、探讨科技前沿。更多精彩内容,敬请期待。

comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1