LLM Jigsaw: 在VLMs中衡量空间推理能力 - 前沿模型在5x5拼图中遇到瓶颈
分析
“”
“”
“我知道深度学习模型剪枝的基础知识。但是,我不知道如何对更大的模型进行剪枝。分享您的知识和资源将指导我,谢谢”
“DarkEQA通过评估在受控退化下的以自我为中心的观察结果的问答,隔离了感知瓶颈,从而实现了可归因的鲁棒性分析。”
“RAIR即使对表现最佳的GPT-5也提出了足够的挑战。”
“LSRE 实现了与大型 VLM 基线相当的语义风险检测精度,同时提供了显着更早的危险预判并保持了较低的计算延迟。”
“SliceLens实现了最先进的性能,在FeSD上将Precision@10提高了0.42(0.73 vs. 0.31),并识别出可解释的切片,从而促进了可操作的模型改进。”
“HUMOR 采用分层的、多路径的Chain-of-Thought (CoT) 来增强推理多样性,并使用成对奖励模型来捕捉主观幽默。”
“本文介绍了“Semantic Lookout”,这是一个仅使用摄像头的、候选受限的视觉-语言模型(VLM)回退操作选择器,它在持续的人工授权下,从水上有效、世界锚定的轨迹中选择一个谨慎的动作(或保持静止)。”
“LVLDrive在场景理解、度量空间感知和可靠的驾驶决策方面,实现了优于仅视觉对应物的性能。”
“SenseNova-MARS 在开源搜索和细粒度图像理解基准测试中取得了最先进的性能。具体来说,在面向搜索的基准测试中,SenseNova-MARS-8B 在 MMSearch 上得分为 67.84,在 HR-MMSearch 上得分为 41.64,超越了 Gemini-3-Flash 和 GPT-5 等专有模型。”
“本文介绍了具身推理智商(ERIQ),这是一个用于机器人操作的大规模具身推理基准,以及基于流匹配的动作标记器FACT。”
“关键发现表明,子目标分解和无关前提过滤会严重影响最终的问题解决准确性,而 Chain-of-Thought 提示在某些任务中出乎意料地降低了性能。”
“本文引入了证据token用于证据定位,强调了事件级视觉语义捕获,而不仅仅是关注时间戳表示。”
“MF-RSVLM在遥感分类、图像字幕和VQA任务中取得了最先进或极具竞争力的性能。”
“Hilbert-VLM 模型在 BraTS2021 分割基准上实现了 82.35% 的 Dice 分数,诊断分类准确率 (ACC) 为 78.85%。”
“在TWIN上微调VLM,即使在艺术、动物、植物和地标等未见过的领域,也能在细粒度识别方面取得显著的提升。”
“使用包含输出格式指令的数据集训练的LVLM,比未使用此类数据集的模型的指令遵循能力更准确。”
“评估协议共同衡量平均准确度、平均成本和吞吐量,并从归一化成本和准确度的调和平均值构建排名分数,以便在路由器配置和成本预算之间进行比较。”
“TV-RAG 实现了一种双层推理程序,可以应用于任何 LVLM,无需重新训练或微调。”
“CoFi-Dec 显著减少了实体级和语义级幻觉,优于现有的解码策略。”
“本文介绍了 SpatialMosaic,一个包含 200 万个 QA 对的综合指令调整数据集,以及 SpatialMosaic-Bench,一个用于评估现实和具有挑战性场景下多视图空间推理的具有挑战性的基准,由 6 个任务中的 100 万个 QA 对组成。”
“ViLaCD-R1显著提高了真实的语义变化识别和定位,稳健地抑制了非语义变化,并在复杂的现实世界场景中实现了最先进的精度。”
“所提出的框架显着提高了图像字幕和跨模态检索等任务中语义理解的准确性和计算效率。”
“本文给出了在提示嵌入方面具有利普希茨稳定性的 VLM 诱导分类器的准确性和校准泛函的有限样本均匀收敛界限。”
“SID 使用结构化分析阶段分析输入,该阶段以 JSON 格式将内容(线框/骨架)与样式(视觉物理)分离。”
“MoVLR通过控制优化和VLM反馈之间的迭代交互来迭代探索奖励空间,将控制策略与物理协调行为对齐。”
“MFT 始终优于 LoRA 变体,甚至完全微调,在不改变冻结的骨干网络的情况下实现高性能。”
“结构化输出在句法上可能有效,但在语义上可能不正确,模式验证是结构性的(不是几何正确性),人物标识符在当前的提示合同中是帧局部的,交互式单帧分析返回自由文本而不是模式强制的 JSON。”
“基于主动认知的推理(ACR)模块通过认知任务链执行类似人类对目标的感知,并主动推理与上下文相关的对象,从而通过动态更新的OLT扩展VLM的认知。”
“ColaVLA 在开环和闭环设置中均实现了最先进的性能,并具有良好的效率和鲁棒性。”
“BiPS使Qwen2.5-VL-7B平均提升8.2%,并在未见数据集和图像类型上表现出强大的域外泛化能力。”
“ALEAHallu框架遵循“激活-定位-对抗性编辑”范式,使用对抗性调整的前缀微调容易产生幻觉的参数簇,以最大程度地忽略视觉信息。”
“LVLM辅助视觉对齐 (LVLM-VA) 方法提供了一个双向界面,该界面将模型行为转化为自然语言,并将人类的类级规范映射到图像级评论,从而实现领域专家与模型之间的有效交互。”
“即使是最先进的闭源LVLM,即使在呈现版权声明的情况下,在识别和尊重受版权保护的内容方面也表现出明显的不足。”
“中间隐藏状态始终优于基于标题的表示。”
“DIOR 优于现有的无训练基线,包括 CLIP。”
“通过将对抗性扰动集中在这些位置,我们实现了与全局方法相当的语义退化,同时使用了更少的预算。更重要的是,在多个代表性的VLM中,这种选择性攻击将35-49%的良性输出转化为有害输出,暴露了更严重的安全性风险。”
“在MovieNet上,Scene-VLM比之前的领先方法提高了+6 AP和+13.7 F1。”
“该架构使用异构LLM和VLM代理的联盟来生成候选输出,一个专门的推理代理用于整合,以及显式的跨模型比较以实现可解释性。”
“本文揭示了明显的跨模型差异,包括概念重叠度低,以及许多幻灯片中关系三元组的几乎零一致性。”
“论文重点关注了对视觉语言模型的微调。”
“...在VL4Gaze上的训练在所有任务中都带来了实质性和持续的改进,突出了针对性的多任务监督对于开发注视理解能力的重要性”
“adaptive preprocessing reduces per-image inference time by over 50\%”
“这篇论文来自 ArXiv,表明它是一篇研究出版物。”
“LookPlanGraph 利用了 VLM 图增强。”
“VisRes Bench 是一个用于评估 VLM 视觉推理能力的基准。”
“这篇论文来自 ArXiv,表明它是一篇预印本或研究出版物。”
““其核心是一个新颖的粗到细的自主数据生成流程,无需人工干预。””
“”
“”