S$^3$IT:空间定位的社会智能测试基准
分析
本文介绍了一种新的基准测试 S$^3$IT,旨在评估 AI 代理中的具身社会智能。该基准测试侧重于 3D 环境中的座位安排任务,要求代理在为 LLM 驱动的 NPC 安排座位时,同时考虑社会规范和物理约束。其关键创新在于它能够评估代理将社会推理与物理任务执行相结合的能力,这是现有评估方法中的一个差距。多样化场景的程序生成以及用于获取偏好的主动对话的集成,使其成为一个具有挑战性和相关性的基准。该论文强调了当前 LLM 在该领域的局限性,表明需要进一步研究具身代理中的空间智能和社会推理。与人类基线的比较进一步强调了性能差距。