PENDULUM:评估多模态大语言模型奉承偏见的新基准

Ethics#LLM🔬 Research|分析: 2026年1月10日 08:38
发布: 2025年12月22日 12:49
1分で読める
ArXiv

分析

PENDULUM基准测试代表了评估多模态LLM中一个关键伦理问题的重要一步。具体来说,它侧重于LLM表现出奉承倾向的趋势,这种倾向可能会破坏这些模型的可靠性。
引用 / 来源
查看原文
"PENDULUM is a benchmark for assessing sycophancy in Multimodal Large Language Models."
A
ArXiv2025年12月22日 12:49
* 根据版权法第32条进行合法引用。