SwinTF3D:テキスト誘導3D医用画像セグメンテーション

公開:2025年12月28日 11:00
1分で読める
ArXiv

分析

本論文は、視覚情報とテキスト情報の両方を利用する3D医用画像セグメンテーションの新しいアプローチであるSwinTF3Dを紹介しています。主な革新は、Transformerベースの視覚エンコーダーとテキストエンコーダーの融合であり、モデルが自然言語プロンプトを理解し、テキスト誘導セグメンテーションを実行できるようにすることです。これは、視覚データのみに依存し、意味理解を欠いている既存のモデルの限界に対処し、新しいドメインや臨床タスクへの適応を可能にします。軽量設計と効率性の向上も注目に値します。

参照

SwinTF3Dは、そのコンパクトなアーキテクチャにもかかわらず、複数の臓器にわたって競争力のあるDiceスコアとIoUスコアを達成しています。