Hilbert-VLM 用于增强医学诊断
分析
本文解决了使用视觉语言模型 (VLM) 进行医学诊断的挑战,特别是处理复杂的 3D 多模态医学图像。作者提出了一个新颖的两阶段融合框架 Hilbert-VLM,它将改进的 Segment Anything Model 2 (SAM2) 与 VLM 集成。关键创新在于在 Mamba 状态空间模型 (SSM) 中使用希尔伯特空间填充曲线来保留 3D 数据的空间局部性,以及一种新颖的交叉注意力机制和尺度感知解码器。这种方法旨在通过更好地整合补充信息和捕获精细细节来提高基于 VLM 的医学分析的准确性和可靠性。