以下带来实验室部分入选论文导读。
《预测性逆动力学模型是可扩展的机器人操控算法》
(Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation)
论文链接:https://arxiv.org/pdf/2412.15109
项目链接:https://nimolty.github.io/Seer/
本文提出了“视觉预测引导动作执行”的核心框架,并构建了端到端操作模型Seer,实现了机器人视觉预测与动作执行的高度协同,并可在多种复杂场景下适用。实验结果显示,基于未来状态预测的逆动力学模型框架(Predictive Inverse Dynamics Model, PIDM),Seer模型在真实机器人任务中的操作成功率较当前Sota提升达43%,在处理未见物体、光照干扰和背景切换等复杂任务场景中,亦表现出优异的泛化能力。同时,在控制算法测试基准CALVIN ABC-D Benchmark中,Seer的平均任务完成长度达4.28,综合领先同类模型,具备广阔的应用潜力。
《通过多样化文件选择对抗LLM预训练数据中的维度坍缩》
(Combatting Dimensional Collapse in LLM Pre-training Data via Diversified File Selection)
论文链接:https://openreview.net/pdf?id=f4gF6AIHRy
项目链接:https://github.com/MediaBrain-SJTU/DiSF
为大型语言模型(LLMs)选择高质量预训练数据对于在有限计算预算下提升其整体性能至关重要,这能同时改善训练效率和样本效率。当前主要依靠现有或训练好的代理模型来评估样本与目标领域(如高质量数据源BookCorpus和Wikipedia)的相似性。然而,在重新审视这些方法时,基于领域相似度的选择标准展现出了多样性困境,即特征空间中的维度坍缩。这种方法虽然提升了领域相关任务的性能,但导致通用性能的严重退化。为防止坍缩并增强多样性,本文提出了一种多样化文件选择算法(DiSF),该算法在特征空间中选择最不相关的文本文件。通过采用经典贪心算法,实现了所选文本特征协方差矩阵中更均匀的特征值分布。在实验方面,通过建立基准并在从120M到1.1B参数的TinyLlama架构上进行了广泛实验。在Harness框架中的九项任务评估中,DiSF表现出整体性能显著改进,在SlimPajama中节省了5.9亿个训练文件(98.5%),在50B训练预算内超越了全数据预训练性能,实现了约1.5倍的训练效率和5倍的数据效率。
Caption: Feature distribution of selected files
《基于视觉-语言的动态多模态评测协议:支持灵活复杂度》
(Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping)
论文链接:https://arxiv.org/abs/2410.08695
项目链接:https://github.com/yangyue5114/DME
大型视觉-语言模型(LVLMs)在视觉感知和推理等多模态任务上展现出了卓越的能力,在各类多模态评测基准上取得了良好的表现。然而,这些评测基准具有静态性,并与预训练数据存在重叠,容易导致数据污染和固定复杂性问题,从而影响评测有效性。
为了解决上述挑战,本文提出了一种动态多模态评测协议——Vision-Language Bootstrapping (VLB)。通过提供稳健且全面的 LVLMs 评测方案,VLB 能够减少数据污染并支持灵活的复杂性调整。具体而言,VLB 以Multimodal Bootstrapping 模块动态生成新的视觉问答样本,该模块可同时修改图片样本和问题样本,并由 Judge 模块确保样本一致性。
通过组合不同的 Multimodal Bootstrapping 策略,VLB 可生成具有不同复杂度的动态变体,从而使评测随着 LVLMs 的不断发展而同步演进。大量实验结果表明,VLB 在 SEEDBench、MMBench 和 MME 等多个基准测试集上的评估中展现出显著优势,不仅有效降低了数据污染问题,同时揭示了当前 LVLMs 在性能上存在的局限性。
《REEF:大语言模型的表征编码指纹》
(REEF: Representation Encoding Fingerprints for Large Language Models)
论文链接: https://arxiv.org/abs/2410.14273
项目链接: https://github.com/AI45Lab/REEF
大语言模型(LLMs)训练过程所耗费的巨大计算资源和数据成本使得保护开源LLMs的知识产权尤为重要。在这一背景下,模型所有者和第三方亟需一种可靠的方法来验证可疑模型是否为基于受害者模型进行后续开发的衍生版本。为此,本文提出了一种创新的无需训练方法——REEF,从LLMs表征编码的角度来识别可疑模型与受害者模型之间的关系。具体来说,REEF通过计算并比较可疑模型与受害者模型在相同样本上的中心核对齐相似度来实现这一目标。REEF不仅不会损害模型的通用能力,并且对顺序微调、剪枝、模型合并和排列具有鲁棒性,从而为第三方和模型所有者保护LLMs知识产权提供了一种简单有效的方法。
《AgentsOS-ATLAS: 面向通用GUI智能体的基座动作模型》
(OS-ATLAS: A Foudation Action Model For Generalist GUI Agents )
论文链接:https://arxiv.org/pdf/2410.23218
项目链接:https://osatlas.github.io
随着大语言模型和多模态模型的发展,基于手机、电脑等设备的智能体研究迅速兴起,GUI Agent 逐渐成为核心方向。当前的 VLM-based GUI Agent 主要依赖屏幕截图和指令输入,但受限于缺乏GUI相关训练数据,在元素定位和任务理解上表现不足。为解决上述问题,本文提出了面向 GUI Agent 的基座动作模型OS-Atlas 。该模型具备强大的 GUI grounding 能力,并能在不同操作系统(Windows、Linux、MacOS、Android、Web)和应用场景中执行智能化操作。此外, OS-Atlas 构建了包含超 1300 万元素的大规模跨平台 GUI 语料库,使智能体在OOD任务上也能实现良好的泛化能力,并引入统一动作空间以解决操作定义不一致问题。在六大基准测试中,OS-Atlas 均超越现有 SOTA,具有卓越的多平台智能体性能。
《Vision-RWKV:高效可扩展的RWKV视觉感知架构》
(Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures)
论文链接:https://arxiv.org/abs/2403.02308
项目链接:https://github.com/OpenGVLab/Vision-RWKV
Transformers在计算机视觉和自然语言处理领域取得了革命性进展,但其高计算复杂度限制了在高分辨率图像和长上下文场景下的应用。本文提出了视觉感知架构Vision-RWKV (VRWKV),可基于自然语言处理中的RWKV针对视觉任务进行关键修改。与Vision Transformer (ViT)类似,VRWKV具有强大的全局处理能力,能有效处理稀疏输入,并适用于大规模参数和数据集训练。其独特优势在于降低了空间聚合复杂度,使得处理高分辨率图像时无需窗口操作。评估结果显示,VRWKV在图像分类任务中比ViT表现更好,处理高分辨率输入时速度更快、内存使用更少。在密集预测任务中,它超越了基于窗口的ViT模型,同时保持了相近的处理速度。这些结果表明,VRWKV在视觉感知任务中具有作为更高效替代方案的潜力。
《DynamicCity:面向动态场景的大规模四维Occupancy生成》
(DynamicCity: Large-Scale 4D Occupancy Generation from Dynamic Scenes)
论文链接:https://arxiv.org/abs/2410.18084
项目链接:https://dynamic-city.github.io
当前城市场景生成方法多聚焦于静态或单帧场景,忽略了自动驾驶环境的动态特性。本文提出 DynamicCity,一个面向动态场景的大规模高质量四维占据生成框架,具备语义建模能力。该方法包含两个核心模块:基于 VAE 的 HexPlane 表征学习模块,提出投影模块将 4D 特征压缩为六张 2D 特征图,并通过扩展-压缩策略实现高效、并行的 3D 重建,显著提升拟合精度与训练效率;基于 DiT 的扩散生成模型,借助 Padded Rollout 操作将 HexPlane 转化为统一的二维形式,支持轨迹驱动、指令控制、局部补全等多种 4D 生成任务。实验表明,DynamicCity 在 CarlaSC 与 Waymo 数据集上均显著优于现有主流方法。
《OmniCorpus:一个统一的多模态语料库,包含十亿级别的图像与文本交织而成》
(OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text)
论文链接:https://arxiv.org/pdf/2406.08418
项目链接:https://github.com/OpenGVLab/OmniCorpus
图像-文本交织数据符合互联网数据的展示范式,并与人类的阅读习惯高度契合。近期研究表明,该类数据有助于多模态上下文学习,并在多模态微调中保持大型语言模型的能力。然而,当前图像-文本交织数据的规模和多样性有限,限制了多模态大型语言模型的发展。本文介绍了OmniCorpus,一个包含十亿级别图像-文本交织数据集。通过高效的数据引擎,研究人员过滤并提取了大规模高质量文档,其中包含86亿张图像和1696亿个文本标记。与现有的数据集(例如MMC4、OBELICS)相比,OmniCorpus实现了多个优点:数据增广(规模约为原来的15倍),同时保持良好的质量;来源更多样化,涵盖了英语和非英语网站及视频网站; 更灵活,可轻松从图像-文本交织格式降级为纯文本语料库和图像-文本对。通过全面的分析和实验,该数据集的质量、可用性和有效性得到有效验证,有望为未来的多模态模型研究提供更坚实的数据基础。
《Lumina-T2X:开启统一多模态生成新时代的Flow-based大模型》
(Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation)
论文链接:https://arxiv.org/abs/2405.05945
项目主页:https://github.com/Alpha-VLLM/Lumina-T2X
本文介绍了Lumina-T2X,一套基于Flow Matching的Diffusion Transformer架构,可统一支持文本生成图像(T2I)、视频(T2V)、多视图(T2MV)、语音(T2Speech)等任务。该系列模型具备灵活的分辨率支持、训练高效、推理稳定等多项优势。其核心模块 Flag-DiT 通过结合位置编码优化、归一化技术和 token-wise conditioning,大幅提升训练稳定性与生成可控性,使其在可扩展性和训练稳定性方面远超传统DiT。实验表明,Lumina-T2I(图像生成子模型)在主流 benchmark 上超越同尺寸 PixArt-α,且训练成本更低;在 T2V、T2MV 等任务中亦具备零样本泛化能力。更难得的是,它支持跨分辨率训练与推理、风格一致扩图与编辑,为通用多模态生成模型探索出更高效、更轻量的路径,是当前唯一全面覆盖多模态生成的Flow-based开源大模型之一。