增强VLM生成幽默模因的能力

发布:2025年12月31日 01:35
1分で読める
ArXiv

分析

本文介绍了HUMOR,一个旨在提高视觉语言模型(VLM)生成幽默模因能力的框架。它解决了超越简单图像到标题生成的挑战,通过结合分层推理(Chain-of-Thought)并通过奖励模型和强化学习与人类偏好对齐。该方法在多路径CoT和分组偏好学习方面具有创新性,旨在实现更多样化和更高质量的模因生成。

引用

HUMOR 采用分层的、多路径的Chain-of-Thought (CoT) 来增强推理多样性,并使用成对奖励模型来捕捉主观幽默。