“星启Talk”第11期：大模型的安全测评与治理 by 杜浩星｜活动预告

来源：上海人工智能实验室｜2023-10-13

10月16日，“上海人工智能实验室学术论坛”将举办第11期“星启Talk”暨第3期“AI安全与对齐”系列学术报告。邀请对齐研究中心（Alignment Research Center）研究工程师杜浩星，带来主题报告《大模型的安全测评与治理》。

“星启Talk”不定期邀请全球杰出青年学者，分享在人工智能相关领域的代表性工作。“AI安全与对齐”是上海人工智能实验室AI治理研究中心联合安远AI共同组织的系列学术报告，探讨大模型安全与对齐领域的最新进展及关键突破。

“星启Talk”第11期

活动详情

主题：《大模型的安全测评与治理》

嘉宾：杜浩星对齐研究中心研究工程师

主持人：方亮安远AI资深研究经理

时间：北京时间 10月16日上午10:00-11:00

参与方式：视频号线上直播

讲座简介

充分的安全测评对保证模型系统安全至关重要：假设AI系统没能成功对齐，它们有能力造成什么样的危害？当“涌现”来临时，大模型自主体的能力该如何预料？

对齐研究中心（Alignment Research Center）的安全测评（Evaluations）团队针对大模型自主体的能力进行测评，尤其是针对其自主复制能力（Autonomous Replication and Adaptation）。本次讲座，主讲人将介绍构建大模型自主体的方法，并测评它们自主完成任务的能力。与此同时，讲座中还将介绍Anthropic近期发布的“负责扩展原则”（Responsible Scaling Policy）等基于安全测评的治理方案。

本期嘉宾

杜浩星 对齐研究中心研究工程师

对齐研究中心（Alignment Research Center）安全测评（Evaluations）团队研究工程师。曾在Redwood Research从事可解释性研究，并拥有两个理论物理硕士学位。

主持人

方亮安远AI资深研究经理

上海人工智能实验室学术论坛

“上海人工智能实验室学术论坛”分设“星河Talk”与“星启Talk”两个主题系列活动，将分别邀请全球顶尖教授和杰出青年学者作为嘉宾，线上线下分享学术成果、探讨科技前沿。更多精彩内容，敬请期待。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

“星启Talk”第11期：大模型的安全测评与治理 by 杜浩星｜活动预告

来源：上海人工智能实验室｜2023-10-13

“星启Talk”第11期

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

“星启Talk”第11期：大模型的安全测评与治理 by 杜浩星｜活动预告

来源： 上海人工智能实验室｜2023-10-13

“星启Talk”第11期

来源：上海人工智能实验室｜2023-10-13