分析
本文解决了使用视觉语言模型 (VLM) 进行医学诊断的挑战,特别是处理复杂的 3D 多模态医学图像。作者提出了一个新颖的两阶段融合框架 Hilbert-VLM,它将改进的 Segment Anything Model 2 (SAM2) 与 VLM 集成。关键创新在于在 Mamba 状态空间模型 (SSM) 中使用希尔伯特空间填充曲线来保留 3D 数据的空间局部性,以及一种新颖的交叉注意力机制和尺度感知解码器。这种方法旨在通过更好地整合补充信息和捕获精细细节来提高基于 VLM 的医学分析的准确性和可靠性。
要点
引用
“Hilbert-VLM 模型在 BraTS2021 分割基准上实现了 82.35% 的 Dice 分数,诊断分类准确率 (ACC) 为 78.85%。”