ユーモラスなミーム生成のためのVLMの強化

公開:2025年12月31日 01:35
1分で読める
ArXiv

分析

この論文は、ユーモラスなミームを生成するVision-Language Models (VLM)の能力を向上させるために設計されたフレームワーク、HUMORを紹介しています。単純な画像からキャプション生成を超えて、階層的な推論(Chain-of-Thought)を組み込み、報酬モデルと強化学習を通じて人間の好みに合わせるという課題に取り組んでいます。このアプローチは、マルチパスCoTとグループごとの好み学習において革新的であり、より多様で高品質なミーム生成を目指しています。

参照

HUMORは、推論の多様性を高めるために階層的、マルチパスのChain-of-Thought (CoT)を採用し、主観的なユーモアを捉えるためにペアワイズ報酬モデルを使用しています。