NeurIPS 2024期间,上海AI实验室在温哥华会议现场举办人才交流会
在浦江AI学术年会现场展出了实验室NeurIPS 2024论文海报,吸引观众驻足研读
入选Oral部分论文
《E2E-MFD:面向端到端同步多模态融合检测》
(E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection)
论文链接:https://arxiv.org/abs/2403.09323
项目链接:https://github.com/icey-zhang/E2E-MFD
多模态图像融合和物体检测对自动驾驶至关重要。尽管现有方法在纹理细节和语义信息的融合上取得了进展,但复杂的训练过程限制了其更广泛的应用。为了解决这一挑战,研究团队提出了E2E-MFD,一种新颖的端到端多模态融合检测算法。E2E-MFD简化了流程,以单一训练阶段实现了高性能。它通过组件间的同步联合优化,避免了与单个任务相关的次优解。此外,E2E-MFD在共享参数的梯度矩阵中实施了全面的优化策略,确保收敛到最优的融合检测配置。经多个公开数据集上的广泛测试表明,E2E-MFD在图像融合及检测中均表现优异。例如,在水平物体检测数据集M3FD和定向物体检测数据集DroneVehicle上,分别较当前最优方法提升了3.9%和2.0%的mAP50。
入选Spotlight部分论文
《参数倒置图像金字塔网络》
(Parameter-Inverted Image Pyramid Networks)
论文链接:https://arxiv.org/abs/2406.04330
项目链接:https://github.com/OpenGVLab/PIIP
图像金字塔在现代计算机视觉任务中被广泛用于获取多尺度特征,从而更精确地理解图像。然而,图像金字塔方法需要使用同一大型模型处理多种分辨率的图像,这导致了计算成本居高不下。为了解决这一问题,研究团队提出了一种新颖的网络架构,称为参数反转图像金字塔网络(Parameter-Inverted Image Pyramid Networks,简称 PIIP)。其核心思想是:采用具有不同参数规模的模型来处理图像金字塔中不同分辨率的图像,从而在计算效率和性能之间找到平衡。具体而言,PIIP 的输入是一组多尺度图像,其中高分辨率图像由较小的网络处理。团队进一步提出了一种特征交互机制,使得不同分辨率的特征可以互为补充,从而有效整合来自不同空间尺度的信息。广泛的实验表明,PIIP 在目标检测、分割和图像分类等任务中相比传统的图像金字塔方法和单分支网络表现出更优异的性能,同时显著降低了计算成本。值得注意的是,在应用于大规模视觉基础模型 InternViT-6B 时,该方法仅使用原始计算量的40%-60%,即在检测和分割任务上分别提升了1%-2%的性能。
《ConvBench:针对视觉大语言模型的多轮对话评测基准与能力解耦评测方式》
(ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Capability for Large Vision-Language Models)
论文链接:https://openreview.net/pdf?id=PyTf2jj0SH
项目链接:https://github.com/shirlyliu64/ConvBench
多轮视觉对话是现实世界中人工智能助手必不可少的重要能力。然而,目前缺乏相关的多轮对话评测基准。本文提出了ConvBench,一个针对视觉大语言模型(Large Vision-Language Models,LVLMs)的多轮对话评测基准,并支持三级能力(感知、推理与创造)解耦的评测方式。ConvBench 包含 577 个精心设计的多轮对话,涵盖 215 项任务。这些任务具备多样性的特点,并且均为开放式问答,模拟了真实世界用户与AI交互的行为。ConvBench 标注了每轮对话中准确的人类参考答案,并在多轮对话中逐步评测 LVLMs 的感知、推理和创造能力,同时基于参考答案能够在评测中解耦这些能力的评测,从而实现可靠的错误归因。此外,鉴于开放式问题的答案多样性,研究团队引入了一种基于裁判模型的高效且可靠的自动评估框架。实验结果表明,ConvBench 对当前 LVLMs 具有有大的挑战性,即使是 GPT4V 也仅取得了 39.51% 的分数。此外,研究还发现了一些有意义的结论,例如,较弱的感知能力将对 LVLMs 在推理和创造中的真正优势造成显著限制。通过分层能力设计、能力解耦评测以及多轮对话测试,ConvBench 为LVLMs 评测开辟了一条新路径,有助于性能瓶颈的挖掘,模型迭代的指导和能力边界的探索。
《CooHOI:通过被操作对象的动态信息学习人物协作交互技能》
(CooHOI: Learning Cooperative Human-Object Interaction with Manipulated Object Dynamics)
论文链接:https://arxiv.org/pdf/2406.14558
项目链接:https://gao-jiawei.com/Research/CooHOI
赋予机器人协作完成复杂任务的能力是迈向通用具身智能体的重要环节。在这篇文章中,研究团队提出了一个简介高效的技能学习框架,用于训练人型角色获取这项重要的能力。以搬运物体为例,基于人类运动数据,首先训练单智能体的Policy Network使其获取这项基本能力。基于此预训练策略,团队通过引入物体的局部观测和动态信息,隐式地为每一个智能体提供其合作对象的状态,使得智能体可以高效地获取协作技能。该方法极大地提升了获取协作技能的效率,并可泛化到多种类型和形状的物体。
《EMR-Merging: 零微调高性能模型融合》
(EMR-Merging: Tuning-Free High-Performance Model Merging》)
论文链接: https://arxiv.org/pdf/2405.17461
项目链接: https://github.com/harveyhuang18/EMR_Merging
预训练-微调范式的成功带来了大量预训练和各种微调模型权重。在权重容易获得而训练数据集和训练代价高昂的背景下,融合在不同任务上微调的模型权重可以使单个模型具有多任务能力,其实用性正在逐渐超过传统的多任务学习。现有的模型合并方法通常会遇到 (1) 性能显著下降以及(2) 需要通过数据、训练进行额外微调或者调参的问题,这阻碍了模型融合的实际应用。在本文中,研究团队重新思考和分析了现有的模型合并范式,把模型融合从融合为一个模型权重解耦为一个统一模型权重和一些任务专用的模块。提出了EMR-Merging的方法:(a) 从所有模型权重中选出一个统一的模型,然后 (b) 生成轻量的任务专用调制模块,包括Mask和Rescaler,以对齐统一模型和不同任务之间的方向和幅度。EMR-Merging无需任何数据、训练、调参,并表现出优异的性能。目前,EMR-Merging的性能在已有的视觉、语言模型融合benchmark,新建立的多达30个模型融合,以及多模态模型融合的benchmark上均已得到验证。
其他部分入围论文
《通过物理-AI混合建模实现细粒度时间尺度的天气预报》
(Generalizing Weather Forecast to Fine-grained Temporal Scales via Physics-AI Hybrid Modeling)
论文链接: https://arxiv.org/pdf/2405.13796
项目链接:https://github.com/black-yt/WeatherGFT
近年来,数据驱动的人工智能(AI)模型在天气预报领域取得了显著进展,尤其是中期预报和短临降水预报。然而,大多数数据驱动的天气预报模型都是黑箱系统,它们侧重于学习数据之间的映射关系,而不是时间维度上的细粒度的物理演变。因此,受限于数据集有限的时间分辨率(例如1小时),这些黑箱模型无法进行更细时间尺度的预报(例如30分钟)。本文提出了一种物理-AI混合模型(WeatherGFT),它可以将天气预报推广到比训练数据集更精细的时间尺度。具体而言,研究团队采用特殊设计的偏微分方程(PDE)核在较小的时间尺度(例如300秒)上模拟天气变量的物理演变过程,并通过带有可学习路由器(Router)的并行神经网络进行偏差校正。此外,通过引入一个考虑预报前置时间(lead time)的训练框架,促进了模型在不同前置时间下的预测泛化。通过可视化物理-AI的权重,团队发现物理模块发挥了主要作用,而AI模块自适应地进行偏差订正。充分的实验表明,基于逐小时间隔的数据集训练的WeatherGFT在多个前置时间上展现出优秀的预报性能,并且具备推广到更细粒度(30分钟)预报的能力。
《4Diffusion:基于多视角视频扩散模型的4D内容生成技术》
(4Diffusion: Multi-view video diffusion model for 4D generation)
论文链接:https://arxiv.org/abs/2405.20674
项目链接:https://aejion.github.io/4diffusion
当前,4D内容生成方法大多需要多个扩散模型同时对4D表示进行优化,其所使用的多个扩散模型不仅难以整合,还难以同时建模多视角时空信息,导致最终生成的4D内容出现时空不一致,表观模糊等问题。研究团队提出了4Diffusion,一种新颖的4D内容生成框架。其中的关键创新是提出了一个多视角视频扩散模型4DM,能够高效地捕捉时空信息,最终达到提升4D内容生成质量的目的。该方法还能拓展到文本生成4D内容等任务中。
《基于目标引导强化学习的图像处理管线参数调优》
(Goal Conditioned Reinforcement Learning for Photo Finishing Tuning)
论文链接:https://openreview.net/pdf?id=4kVHI2uXRE
项目链接:https://openimaginglab.github.io/RLPixTuner
通过调整图像管线(例如Adobe Lightroom)的参数,可以实现可控的自动修图。由于商业图像处理管线是黑箱,现有的方法通常采用零阶或一阶优化解决参数的自动调优:零阶优化方法参数搜索速度慢且耗时较长,而一阶优化方法所依赖的可微分代理难以有效近似复杂管线。为此,研究团队提出一种高效的图像处理管线参数调优算法,利用目标引导的强化学习(Goal Conditioned Reinforcement Learning),无需可微代理,且效率提高了两个数量级以上。通过训练强化学习策略,该方法可以更准确、高效地预测参数搜索的方向,并且,通过设计状态表征,强化学习策略能够有效泛化到分布外样本。实验表明,该方法在不同图像分辨率下均较此前方法加速100倍以上,同时图像调优质量显著提升,并实现了有效的跨数据集泛化。
《弱到强搜索:通过小型语言模型搜索对齐大型语言模型》
(Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models)
论文链接:https://arxiv.org/abs/2405.19262
项目链接:https://github.com/ZHZisZZ/weak-to-strong-search
大语言模型通常需要通过微调来符合人类的偏好,但直接微调往往需要调用大量资源。在本研究中,研究团队提出“弱到强搜索”(weak-to-strong search)方法,将大模型的对齐过程转变为推理阶段的一种贪婪搜索方式:首先微调一个小模型,然后在大模型解码过程中,引导大模型去最大化微调前后小模型的输出对数概率差,从而实现类似于微调大模型的效果。
这种方法具有以下两大作用:(1) 作为一种计算高效的模型扩展策略,通过微调小模型来对大模型进行推理阶段的引导,避免直接对大型模型进行微调;(2) 作为一种弱到强的泛化(weak-to-strong generalization)实现方式,通过弱推理时引导来提高强模型的性能。在实验中,“弱到强搜索”(weak-to-strong search)在不同任务中的有效性得到了展示。此方法适用于提升白盒以及黑盒大模型的性能(如 gpt3.5),而无需额外训练;且此方法在情感控制生成、摘要生成以及对话任务上效果出色。
《探索深度状态空间模型的对抗鲁棒性》
(Exploring Adversarial Robustness of Deep State Space Models)
论文链接:https://arxiv.org/pdf/2406.05532
项目链接:https://github.com/Biqing-Qi/Exploring-Adversarial-Robustness-of-Deep-State-Space-Models
深度状态空间模型(SSM)已受到广泛关注,但其面对对抗攻击时的鲁棒性尚未得到探究。为此,团队评估了对抗训练后SSM及其变体架构(例如结合SSM与注意力机制的混合架构)的对抗鲁棒性。实验观察到,纯SSM架构很难从对抗训练中受益,而SSM与注意力机制的混合架构设计在对抗训练后取得了更好的鲁棒-泛化权衡,然而这样的混合设计也带来了鲁棒过拟合问题。为了理解这些现象,团队从理论和经验上分析了对抗扰动后SSM的输出误差,发现固定参数化的SSM(如S4)具有与其参数严格相关的输出误差界限,从而限制了它们在对抗训练受益,而数据依赖的SSM(如Mamba)可能面临误差爆炸的问题;而注意力组件的引入作为一种自适应缩放机制,使得SSM能够从对抗训练中受益,但由于其过高的复杂度引入了鲁棒过拟合问题。受此启发,团队提出了一种简单有效的自适应缩放机制,据此构建了一种配备输入自适应缩放的SSM混合架构,使对抗训练性能接近混合注意力机制的SSM,而不会引入鲁棒过拟合问题。文章的结论不仅为SSM的鲁棒性研究提供启发,也能够为类注意力的SSM混合架构设计提供指导。
《ANAH-v2: 拓展大语言模型细粒度幻觉注释的规模》
(ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models)
论文链接:https://arxiv.org/abs/2407.04693
项目链接:https://github.com/open-compass/ANAH
为了解决大语言模型幻觉注释语料稀缺和标注器能力不足的问题,研究团队提出了一种迭代式的幻觉标注器自训练框架。该框架能够在扩展幻觉注释数据集的同时,提高标注器的能力。在每次迭代中,现有幻觉语料会被用于训练得到当前最优的标注器。训练后的标注器通过自我一致性投票推理等方法对新的无标签语料进行注释,生成新的数据被用于下一轮迭代。最终得到了一个涵盖 3K 个话题、拥有 822K 条句子级别注释的大规模幻觉注释数据集,比现有的幻觉标注数据集规模提升一个数量级。使用该数据训练得到的幻觉注释器仅以 7B 的参数规模就取得了超越 GPT-4 的细粒度幻觉注释能力。
《MLLMGuard:一个针对多模态大语言模型的多维度安全评估套件》
(MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models)
论文链接:https://arxiv.org/abs/2406.07594
项目链接:https://github.com/AIFlames/MLLMGuard
随着大语言模型技术的快速发展,多模态大语言模型(MLLMs)在众多任务中展现出卓越的性能。然而,随着 MLLMs 应用场景的日益广泛,其潜在的安全隐患也逐渐显现,因此,对 MLLMs 的安全性进行全面评估显得尤为重要。现有的 MLLMs 安全评测基准仍存在以下问题:1. 评估维度单一:多数评测集中于幻觉生成或对抗攻击的鲁棒性等少数方面,未能全面覆盖多维度的安全性指标。2. 评分标准缺乏公平性与稳定性:例如,使用 GPT-4V 等闭源模型对评估结果进行评分,可能导致对自身模型的偏向、评估成本过高以及结果的不可复现性。为解决上述问题,本文提出了一套针对多模态大语言模型的全面安全评估框架——MLLMGuard。该框架包括一个双语(英语和中文)的图文评估数据集、推理套件,以及一个轻量级自动化评估器 GuardRank。MLLMGuard 的评估覆盖了 隐私、偏见、有害性、真实性和合法性 五大核心安全维度,每个维度均包含丰富的子任务。评估数据集主要来源于社交媒体等实际应用场景,并结合文本和图像的红队攻击技术,由人工专家精心标注,从而有效避免开源数据集可能带来的数据泄漏问题,同时确保了数据集的高质量与挑战性。此外,GuardRank 是一种完全自动化的轻量化评估器,其评估准确率显著高于 GPT-4,并极大地降低了评估成本。基于 MLLMGuard 对 13 个先进模型的评估结果表明,当前的 MLLMs 在实现安全性与可信性方面仍有较长的路要走。
《GSDF:3DGS与SDF结合以提升神经渲染与重建》
(GSDF: 3DGS Meets SDF for Improved Neural Rendering and Reconstruction)
论文链接:https://arxiv.org/abs/2403.16964
项目链接:https://city-super.github.io/GSDF
从多视图图像重建三维场景仍然是计算机视觉和图形学中的核心挑战,它需要同时具备的高保真的渲染质量和高精度的重建质量,但这两者往往存在冲突。尽管SDF和3DGS在神经渲染技术的推动下取得了进展,但当前方法对密度场或高斯球形状施加了严格的约束,这在增强几何重建的同时牺牲了渲染质量。为了解决这一困境,研究团队提出了GSDF,一种结合了3D高斯溅射(3DGS)和神经符号距离场(SDF)的双分支架构。该方法在训练过程中利用相互指导和联合监督来共同增强重建和渲染。具体来说,该方法引导高斯球靠近潜在表面并加速SDF的收敛。这个隐式的相互指导确保了在合成和现实世界场景中的鲁棒性和准确性。
《LucidAction:基于课程学习的多模态多视角动作质量评估数据集》
(LucidAction: A Hierarchical and Multi-modal Dataset for Comprehensive Action Quality Assessment)
论文链接:https://openreview.net/pdf?id=ji5isUwL3r
为了突破当前动作质量评估(AQA)领域在数据集多样性与泛化能力上的瓶颈,研究团队提出了LucidAction,首个基于课程学习框架构建的多模态多视角AQA数据集。该数据集通过精心设计的分层结构,涵盖了8种体育项目及4个难度级别,力求更精准地模拟运动员技能的渐进学习过程。LucidAction结合了多模态数据,包括多视角RGB视频、2D与3D姿态序列,采用高精度运动捕捉技术进行数据采集,并通过专业体操运动员对动作的精准评分提供详细的判罚信息,确保了评估的高质量与可靠性。
本研究进一步通过对比回归基准实验,系统评估了多模态数据与细粒度标注在提升AQA模型表现中的关键作用,并通过实验探索了如何利用该数据集改善动作质量评估的精度与鲁棒性。所有数据与代码将开放发布,为体育人工智能研究提供强有力的支持。