PENDULUM：评估多模态大语言模型奉承偏见的新基准

Ethics #LLM 🔬 Research|分析: 2026年1月10日 08:38•

发布: 2025年12月22日 12:49

•

1分で読める

分析

PENDULUM基准测试代表了评估多模态LLM中一个关键伦理问题的重要一步。具体来说，它侧重于LLM表现出奉承倾向的趋势，这种倾向可能会破坏这些模型的可靠性。

引用 / 来源

"PENDULUM is a benchmark for assessing sycophancy in Multimodal Large Language Models."

ArXiv2025年12月22日 12:49

* 根据版权法第32条进行合法引用。

RHIC Phase II: Unveiling Higher-Order Fluctuations in Heavy Ion Collisions

VIGOR+: LLM-Driven Confounder Generation and Validation