LLM Jigsaw: 在VLMs中衡量空间推理能力 - 前沿模型在5x5拼图中遇到瓶颈
分析
“”
“”
“它旨在为可靠的设备端代理应用程序提供动力:在约10亿参数类别中实现更高的质量、更低的延迟和更广泛的模态支持。”
“DarkEQA通过评估在受控退化下的以自我为中心的观察结果的问答,隔离了感知瓶颈,从而实现了可归因的鲁棒性分析。”
“CPJ显著提高了性能:使用GPT-5-mini标题,GPT-5-Nano在疾病分类方面提高了+22.7个百分点,在QA评分方面提高了+19.5分,超过了无标题基线。”
“我们的算法使在2D视觉输入上训练的现成跨模态系统能够在线适应对象遮挡并区分特征。”
“LSRE 实现了与大型 VLM 基线相当的语义风险检测精度,同时提供了显着更早的危险预判并保持了较低的计算延迟。”
“VLA-RAIL 显著减少了运动抖动,提高了执行速度,并提高了任务成功率。”
“HUMOR 采用分层的、多路径的Chain-of-Thought (CoT) 来增强推理多样性,并使用成对奖励模型来捕捉主观幽默。”
“本文介绍了“Semantic Lookout”,这是一个仅使用摄像头的、候选受限的视觉-语言模型(VLM)回退操作选择器,它在持续的人工授权下,从水上有效、世界锚定的轨迹中选择一个谨慎的动作(或保持静止)。”
“皮肤病学评估方案(DAS)是一个由专家开发的新型框架,它以结构化和标准化的形式系统地捕获临床上有意义的皮肤病学特征。”
“LVLDrive在场景理解、度量空间感知和可靠的驾驶决策方面,实现了优于仅视觉对应物的性能。”
“SenseNova-MARS 在开源搜索和细粒度图像理解基准测试中取得了最先进的性能。具体来说,在面向搜索的基准测试中,SenseNova-MARS-8B 在 MMSearch 上得分为 67.84,在 HR-MMSearch 上得分为 41.64,超越了 Gemini-3-Flash 和 GPT-5 等专有模型。”
“GR-Dexter 在域内实现了强大的性能,并提高了对未见过的物体和未见过的指令的鲁棒性。”
“该模型使用少于专用专家模型所需的 5% 的特定任务数据即可实现可比的性能。”
“本文介绍了具身推理智商(ERIQ),这是一个用于机器人操作的大规模具身推理基准,以及基于流匹配的动作标记器FACT。”
“关键发现表明,子目标分解和无关前提过滤会严重影响最终的问题解决准确性,而 Chain-of-Thought 提示在某些任务中出乎意料地降低了性能。”
“MF-RSVLM在遥感分类、图像字幕和VQA任务中取得了最先进或极具竞争力的性能。”
“DreamTacVLA 优于最先进的 VLA 基线,成功率高达 95%,突出了理解物理接触对于稳健、触觉感知机器人代理的重要性。”
“在TWIN上微调VLM,即使在艺术、动物、植物和地标等未见过的领域,也能在细粒度识别方面取得显著的提升。”
“ProGuard 提供了强大的主动审核能力,将 OOD 风险检测提高了 52.6%,OOD 风险描述提高了 64.8%。”
“使用包含输出格式指令的数据集训练的LVLM,比未使用此类数据集的模型的指令遵循能力更准确。”
“评估协议共同衡量平均准确度、平均成本和吞吐量,并从归一化成本和准确度的调和平均值构建排名分数,以便在路由器配置和成本预算之间进行比较。”
“PathFound 集成了病理视觉基础模型、视觉语言模型和通过强化学习训练的推理模型,以执行主动的信息获取和诊断细化。”
“生成仅在语义级别操作时才能提高理解,即当模型学习在LLM内部自回归高级视觉表示时。”
“CoFi-Dec 显著减少了实体级和语义级幻觉,优于现有的解码策略。”
“ViLaCD-R1显著提高了真实的语义变化识别和定位,稳健地抑制了非语义变化,并在复杂的现实世界场景中实现了最先进的精度。”
“本文给出了在提示嵌入方面具有利普希茨稳定性的 VLM 诱导分类器的准确性和校准泛函的有限样本均匀收敛界限。”
“GRPO 恢复了分布内性能,但降低了跨数据集的可迁移性。”
“MoVLR通过控制优化和VLM反馈之间的迭代交互来迭代探索奖励空间,将控制策略与物理协调行为对齐。”
“MFT 始终优于 LoRA 变体,甚至完全微调,在不改变冻结的骨干网络的情况下实现高性能。”
“Co2S,一个稳定的半监督遥感分割框架,协同融合了视觉-语言模型和自监督模型的先验知识。”
“结构化输出在句法上可能有效,但在语义上可能不正确,模式验证是结构性的(不是几何正确性),人物标识符在当前的提示合同中是帧局部的,交互式单帧分析返回自由文本而不是模式强制的 JSON。”
“ColaVLA 在开环和闭环设置中均实现了最先进的性能,并具有良好的效率和鲁棒性。”
“论文强调,VPTracker“在具有挑战性的场景下显著增强了跟踪稳定性和目标消歧,为将MLLM集成到视觉跟踪中开辟了一条新途径。””
“CritiFusion 在人类偏好评分和美学评估方面持续提升性能,取得了与最先进的奖励优化方法相当的结果。”
“由/u/sci_guy0提交”
“Dream-VLA在LIBERO上实现了97.2%的平均成功率,在SimplerEnv-Bridge上实现了71.4%的总体平均水平,在SimplerEnv-Fractal上实现了60.5%的总体平均水平,超越了$π_0$和GR00T-N1等领先模型。”
“本文揭示了最先进的VLA模型的关键局限性,包括倾向于记忆而非泛化、不对称的鲁棒性、缺乏对安全约束的考虑,以及无法组合学习到的技能来完成长程任务。”
“OBEYED-VLA 在四个具有挑战性的场景和多个难度级别上,相对于强大的 VLA 基线,显著提高了鲁棒性:干扰对象、目标缺失拒绝、背景外观变化以及对未见对象的杂乱操作。”
“论文发现,一旦 VLA 在足够的场景、任务和具体化上进行了预训练,就会出现人类到机器人的转移。”
“BiPS使Qwen2.5-VL-7B平均提升8.2%,并在未见数据集和图像类型上表现出强大的域外泛化能力。”
“ALEAHallu框架遵循“激活-定位-对抗性编辑”范式,使用对抗性调整的前缀微调容易产生幻觉的参数簇,以最大程度地忽略视觉信息。”
“”
“即使是最先进的闭源LVLM,即使在呈现版权声明的情况下,在识别和尊重受版权保护的内容方面也表现出明显的不足。”
“DIOR 优于现有的无训练基线,包括 CLIP。”
“通过将对抗性扰动集中在这些位置,我们实现了与全局方法相当的语义退化,同时使用了更少的预算。更重要的是,在多个代表性的VLM中,这种选择性攻击将35-49%的良性输出转化为有害输出,暴露了更严重的安全性风险。”
“在MovieNet上,Scene-VLM比之前的领先方法提高了+6 AP和+13.7 F1。”
“双向约束使视觉预测可执行,并使决策基于物理上一致的、与任务相关的未来,从而减轻了在解耦的“envision-then-plan”管道中常见的累积误差。”
“NOAM显著提高了预测准确性,并接近人类水平的结果,突出了在家庭环境中部署认知能力强的代理的最佳实践。”
“”