科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

安全与性能兼顾,技术与伦理并行,国际AI安全前沿技术论坛举行 | WAIC 2024

7月4日-6日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)圆满举行。在“以共商促共享 以善治促善智”的主题下,本届大会以全球宏观视角共同探讨如何推动“AI向善”,为各国搭建起多边对话、深化沟通、凝聚共识、携手合作的桥梁。

 

6日,由上海人工智能实验室(上海AI实验室)与Center for AI Safety(CAIS)共同承办的2024 WAIC国际AI安全前沿技术论坛(International Forum on Frontier Technologies in Al Safety)成功举办。来自全球的顶尖AI安全专家聚焦人工智能安全领域关键技术问题,共同探讨了防御策略,并从伦理角度展望构建具有社会责任感通用智能的未来。

 

| 45°平衡律:安全与性能并重

 

随着以大模型为代表的生成式人工智能的快速发展,由AI带来的数据泄漏、信息造假、隐私侵权以及版权争议等方面风险渐露端倪。在WAIC 2024全体会议上,上海AI实验室主任、首席科学家,清华大学惠妍讲席教授,衔远科技创始人周伯文提出了兼顾人工智能安全与性能的“45°平衡律”技术主张。

 

周伯文认为,实现AI-45°平衡律应以可信AGI的“因果之梯”为路径,依次达到泛对齐、可干预、能反思三个递进阶段。其中“泛对齐”聚焦人类偏好对齐技术;“可干预”指通过对AI系统进行干预,探究其因果机制的安全技术;“能反思”则要求AI系统不仅追求高效执行任务,还能审视自身行为的影响和潜在风险,从而在追求性能的同时,确保安全和道德边界不被突破。“沿着可信AGI的‘因果之梯’拾级而上,我们相信可以构建真正可信AGI,实现人工智能的安全与卓越性能的完美平衡。”


7月6日举行的AI安全前沿技术论坛上,上海AI实验室主任助理、领军科学家乔宇教授在致辞中呼吁,在通用人工智能高速发展的背景下要重视安全的投入,多维度探索构建AI安全的Scaling Law,加强国际交流与合作,实现AI技术与安全协同发展,服务全人类福祉。

638562026176120000.jpg

上海AI实验室主任助理、领军科学家乔宇教授

 

 

| 直面AI安全挑战,探索有效防御策略

 

当前,AI安全面临的挑战表现在模型易受攻击、对抗性攻击威胁、以及安全防御技术滞后等方面。与会专家为当前挑战提出了一系列应对策略,包括增强模型的韧性、监控模型行为,以及从反应式防御向主动防御转变等思路和建议。

 

上海AI实验室青年科学家邵婧以《风险导航:确保AI全生命周期安全》(Navigating the Hazards: Ensuring Safety Throughout the AI Life Cycle)为题,聚焦探索AI安全全流程管控的重要性,她认为:“仅依靠微调环节无法消除所有风险,必须通过多方参与和全流程风险控制来实现系统性的安全解决方案”。为此,上海AI实验室已开展一系列工作,包括在预训练阶段即从表征层面提升模型安全性,多智能体安全互动进行研究,以及引入“警察”“医生”等新角色对模型进行风险评估和干预。

638562026516450000.jpg

上海AI实验室青年科学家邵婧

在题为《以“去学习”测试并减少恶意使用》(Measuring and Reducing Malicious Use with Unlearning)的视频演讲中,CAIS主任Dan Hendrycks认为,可通过消除有害武器相关知识以降低模型的危害性。人工智能的强大能力极大降低了设计制造化学、生物、核武器及网络攻击等工具的门槛。随着模型能力的增强,恶意使用的风险也相应增大。因此,需要通过专家设计的数据集来评估这些风险,在不影响性能的前提下,有效防止模型对危险知识的学习,并提升其抵御对抗性攻击的能力,以提高模型的安全性。

 

对于当前可信AI面对的诸多挑战,加州大学伯克利分校教授Dawn Song在《构建可信人工智能:挑战与未来方向》(Towards Building Responsible AI: Challenges and Future Directions)的演讲中提出,“AI安全需要在机制上具备足够的韧性,以防御对抗式的攻击(AI safety mechanism need to be resilient against adversary attacks)”,在推断期间监控模型的行为,通过主动改变模型的激活从而控制模型的行为,从专注于反应防御逐步转向主动防御。

638562026817800000.jpg

加州大学伯克利分校教授Dawn Song

针对大语言模型(LLM)面临的安全挑战和应对策略,卡内基梅隆大学教授Zico Kolter与北京大学AI安全与治理中心执行主任杨耀东分别进行了探讨。Zico Kolter认为,大模型的对抗攻击揭示了现有大模型系统的安全缺陷,而解决这些缺陷正是大模型从聊天机器人走向更大系统的关键因素。

638562027100750000.jpg

卡内基梅隆大学教授Zico Kolter发表线上演讲

杨耀东在《大语言模型可被对齐吗?》的演讲中详尽探讨了AI对齐的多个层面,指出大模型表现出类似胡克定律的“模型弹性”,容易“抗拒”现有对齐方法,所以需开发新的对齐范式。638562027368190000.jpg

北京大学AI安全与治理中心执行主任杨耀东

为推进AI安全风险进一步量化,复旦大学系统软件与安全实验室构建了“白泽指数”用于监测大模型安全合规能力。该实验室专任副研究员潘旭东介绍,基于语言学的转换生成语法,指数可自动生成核心语义不变、对抗强度迭代增强的风险诱导问题,用于测试大模型安全能力,进而避免静态数据集老化导致的安全假象出现。

638562027599920000.jpg

复旦大学系统软件与安全实验室专任副研究员潘旭东

 

| 技术与伦理并行

 

AI安全发展方向不仅需要技术创新驱动,也面临伦理和哲学的指导。与会专家提出,对于大模型的安全性评估和伦理考量应为下一步发展的关键。为此,需要开发新的对齐范式,以适应大模型存在的“模型弹性”,同时应从国际合作、制定标准及跨学科合作等多维度并举,推动AI安全领域的健康发展。

 

多伦多大学助理教授Jimmy Ba讨论了与人工智能相关的伦理考虑因素和威胁模型,认为应充分了解人工智能的能力和局限性以防止意外后果。在《扩展大模型的有趣特性》演讲中,Jimmy Ba进一步阐述了当前大模型仍然存在严重的幻觉问题,随着模型规模增大及对文本的理解逐渐加深,基于模型表现的评测手段将渐渐不再可靠。

638562027904680000.jpg

多伦多大学助理教授Jimmy Ba发表线上演讲

加州大学伯克利分校教授Stuart Russell反对仅仅依靠试错的方法来保障AI的安全。为此,他进一步提出了创新的设计,包括基于数学框架的 “博弈论” 模型,旨在与人类利益保持一致而非保证完成任务。Stuart Russel同时呼吁制定明确的国际规则和标准,以促进全球合作和AI安全标准化工作。

 

面对AI技术进步带来的道德困境和伦理挑战,密西根大学安娜堡分校教授Peter Railton认为,人类可以通过创造鼓励合作的有益环境,使智能体在交互和合作中习得社交技能,与人类伦理价值对齐。


作为AI安全国际交流合作的重要平台,本次论坛邀请北京大学AI安全与治理中心执行主任杨耀东、上海交通大学副教授陈思衡、中国信通院华东分院人工智能事业部主任常永波、复旦大学副研究员潘旭东、卡内基梅隆大学教授Zico Kolter以圆桌对话形式,共同探讨了推动AI安全的突出问题和国际合作路径。

 638562028553030000.jpg

圆桌讨论环节。左起:上海AI实验室青年研究员尹榛菲(主持人)、杨耀东、陈思衡、常永波、潘旭东、Zico Kolter(线上)

 

研讨嘉宾认为,AI安全领域的发展目前面临模型安全风险被低估、对齐方法的研究滞后于性能研究、监控机制尚不健全、年轻群体安全意识不足、企业重视程度不够等多方面的挑战。多模态、智能体、群体智能等新技术趋势,带来了表征空间宏大难以对齐、模型本身的内部属性抗拒对齐、安全评测标准建立困难等问题。国际各界应携手合作,增强AI安全治理国际交流,构建人工智能产品国际安全标准,共同促进AI向善。