安全与性能兼顾，技术与伦理并行，国际AI安全前沿技术论坛举行 | WAIC 2024

7月4日-6日，2024世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）圆满举行。在“以共商促共享以善治促善智”的主题下，本届大会以全球宏观视角共同探讨如何推动“AI向善”，为各国搭建起多边对话、深化沟通、凝聚共识、携手合作的桥梁。

6日，由上海人工智能实验室（上海AI实验室）与Center for AI Safety（CAIS）共同承办的2024 WAIC国际AI安全前沿技术论坛（International Forum on Frontier Technologies in Al Safety）成功举办。来自全球的顶尖AI安全专家聚焦人工智能安全领域关键技术问题，共同探讨了防御策略，并从伦理角度展望构建具有社会责任感通用智能的未来。

| 45°平衡律：安全与性能并重

随着以大模型为代表的生成式人工智能的快速发展，由AI带来的数据泄漏、信息造假、隐私侵权以及版权争议等方面风险渐露端倪。在WAIC 2024全体会议上，上海AI实验室主任、首席科学家，清华大学惠妍讲席教授，衔远科技创始人周伯文提出了兼顾人工智能安全与性能的“45°平衡律”技术主张。

周伯文认为，实现AI-45°平衡律应以可信AGI的“因果之梯”为路径，依次达到泛对齐、可干预、能反思三个递进阶段。其中“泛对齐”聚焦人类偏好对齐技术；“可干预”指通过对AI系统进行干预，探究其因果机制的安全技术；“能反思”则要求AI系统不仅追求高效执行任务，还能审视自身行为的影响和潜在风险，从而在追求性能的同时，确保安全和道德边界不被突破。“沿着可信AGI的‘因果之梯’拾级而上，我们相信可以构建真正可信AGI，实现人工智能的安全与卓越性能的完美平衡。”

在7月6日举行的AI安全前沿技术论坛上，上海AI实验室主任助理、领军科学家乔宇教授在致辞中呼吁，在通用人工智能高速发展的背景下要重视安全的投入，多维度探索构建AI安全的Scaling Law，加强国际交流与合作，实现AI技术与安全协同发展，服务全人类福祉。

上海AI实验室主任助理、领军科学家乔宇教授

| 直面AI安全挑战，探索有效防御策略

当前，AI安全面临的挑战表现在模型易受攻击、对抗性攻击威胁、以及安全防御技术滞后等方面。与会专家为当前挑战提出了一系列应对策略，包括增强模型的韧性、监控模型行为，以及从反应式防御向主动防御转变等思路和建议。

上海AI实验室青年科学家邵婧以《风险导航：确保AI全生命周期安全》（Navigating the Hazards: Ensuring Safety Throughout the AI Life Cycle）为题，聚焦探索AI安全全流程管控的重要性，她认为：“仅依靠微调环节无法消除所有风险，必须通过多方参与和全流程风险控制来实现系统性的安全解决方案”。为此，上海AI实验室已开展一系列工作，包括在预训练阶段即从表征层面提升模型安全性，多智能体安全互动进行研究，以及引入“警察”“医生”等新角色对模型进行风险评估和干预。

上海AI实验室青年科学家邵婧

在题为《以“去学习”测试并减少恶意使用》（Measuring and Reducing Malicious Use with Unlearning）的视频演讲中，CAIS主任Dan Hendrycks认为，可通过消除有害武器相关知识以降低模型的危害性。人工智能的强大能力极大降低了设计制造化学、生物、核武器及网络攻击等工具的门槛。随着模型能力的增强，恶意使用的风险也相应增大。因此，需要通过专家设计的数据集来评估这些风险，在不影响性能的前提下，有效防止模型对危险知识的学习，并提升其抵御对抗性攻击的能力，以提高模型的安全性。

对于当前可信AI面对的诸多挑战，加州大学伯克利分校教授Dawn Song在《构建可信人工智能：挑战与未来方向》（Towards Building Responsible AI: Challenges and Future Directions）的演讲中提出，“AI安全需要在机制上具备足够的韧性，以防御对抗式的攻击（AI safety mechanism need to be resilient against adversary attacks）”，在推断期间监控模型的行为，通过主动改变模型的激活从而控制模型的行为，从专注于反应防御逐步转向主动防御。

加州大学伯克利分校教授Dawn Song

针对大语言模型（LLM）面临的安全挑战和应对策略，卡内基梅隆大学教授Zico Kolter与北京大学AI安全与治理中心执行主任杨耀东分别进行了探讨。Zico Kolter认为，大模型的对抗攻击揭示了现有大模型系统的安全缺陷，而解决这些缺陷正是大模型从聊天机器人走向更大系统的关键因素。

卡内基梅隆大学教授Zico Kolter发表线上演讲

杨耀东在《大语言模型可被对齐吗？》的演讲中详尽探讨了AI对齐的多个层面，指出大模型表现出类似胡克定律的“模型弹性”，容易“抗拒”现有对齐方法，所以需开发新的对齐范式。

北京大学AI安全与治理中心执行主任杨耀东

为推进AI安全风险进一步量化，复旦大学系统软件与安全实验室构建了“白泽指数”用于监测大模型安全合规能力。该实验室专任副研究员潘旭东介绍，基于语言学的转换生成语法，指数可自动生成核心语义不变、对抗强度迭代增强的风险诱导问题，用于测试大模型安全能力，进而避免静态数据集老化导致的安全假象出现。

复旦大学系统软件与安全实验室专任副研究员潘旭东

| 技术与伦理并行

AI安全发展方向不仅需要技术创新驱动，也面临伦理和哲学的指导。与会专家提出，对于大模型的安全性评估和伦理考量应为下一步发展的关键。为此，需要开发新的对齐范式，以适应大模型存在的“模型弹性”，同时应从国际合作、制定标准及跨学科合作等多维度并举，推动AI安全领域的健康发展。

多伦多大学助理教授Jimmy Ba讨论了与人工智能相关的伦理考虑因素和威胁模型，认为应充分了解人工智能的能力和局限性以防止意外后果。在《扩展大模型的有趣特性》演讲中，Jimmy Ba进一步阐述了当前大模型仍然存在严重的幻觉问题，随着模型规模增大及对文本的理解逐渐加深，基于模型表现的评测手段将渐渐不再可靠。

多伦多大学助理教授Jimmy Ba发表线上演讲

加州大学伯克利分校教授Stuart Russell反对仅仅依靠试错的方法来保障AI的安全。为此，他进一步提出了创新的设计，包括基于数学框架的 “博弈论” 模型，旨在与人类利益保持一致而非保证完成任务。Stuart Russel同时呼吁制定明确的国际规则和标准，以促进全球合作和AI安全标准化工作。

面对AI技术进步带来的道德困境和伦理挑战，密西根大学安娜堡分校教授Peter Railton认为，人类可以通过创造鼓励合作的有益环境，使智能体在交互和合作中习得社交技能，与人类伦理价值对齐。

作为AI安全国际交流合作的重要平台，本次论坛邀请北京大学AI安全与治理中心执行主任杨耀东、上海交通大学副教授陈思衡、中国信通院华东分院人工智能事业部主任常永波、复旦大学副研究员潘旭东、卡内基梅隆大学教授Zico Kolter以圆桌对话形式，共同探讨了推动AI安全的突出问题和国际合作路径。

圆桌讨论环节。左起：上海AI实验室青年研究员尹榛菲（主持人）、杨耀东、陈思衡、常永波、潘旭东、Zico Kolter（线上）

研讨嘉宾认为，AI安全领域的发展目前面临模型安全风险被低估、对齐方法的研究滞后于性能研究、监控机制尚不健全、年轻群体安全意识不足、企业重视程度不够等多方面的挑战。多模态、智能体、群体智能等新技术趋势，带来了表征空间宏大难以对齐、模型本身的内部属性抗拒对齐、安全评测标准建立困难等问题。国际各界应携手合作，增强AI安全治理国际交流，构建人工智能产品国际安全标准，共同促进AI向善。

comm@pjlab.org.cn

上海市徐汇区龙文路129号国际传媒港L1楼

沪ICP备2021009351号-1

科研动态

安全与性能兼顾，技术与伦理并行，国际AI安全前沿技术论坛举行 | WAIC 2024

网站地图