SGDiff：基于场景图引导的扩散模型，用于图像协同分割字幕

Research #llm 🔬 Research|分析: 2026年1月4日 12:03•

发布: 2025年12月1日 18:33

•

1分で読める

分析

这篇文章介绍了SGDiff，这是一种利用场景图引导扩散模型进行图像分割和字幕生成的新方法。这表明在将结构化知识（场景图）与生成模型（扩散）集成以改进图像理解和描述方面取得了进展。重点关注“协同分割字幕”意味着可能存在多模态交互或一个联合细化分割和字幕生成的系统。

引用 / 来源

"SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning"

ArXiv2025年12月1日 18:33

* 根据版权法第32条进行合法引用。

Show HN: MCP Defender – OSS AI Firewall for Protecting MCP in Cursor/Claude etc

LLM with Planning