使用思维格式塔建模语言

Paper#llm🔬 Research|分析: 2026年1月3日 06:13
发布: 2025年12月31日 18:24
1分で読める
ArXiv

分析

本文介绍了Thought Gestalt (TG) 模型,这是一种循环Transformer,它在两个层面上对语言进行建模:token 和句子级“思维”状态。它通过借鉴认知科学,解决了标准Transformer语言模型的局限性,例如关系理解的脆弱性和数据效率低下。TG模型旨在创建更全局一致的表示,从而提高性能和效率。
引用 / 来源
查看原文
"TG consistently improves efficiency over matched GPT-2 runs, among other baselines, with scaling fits indicating GPT-2 requires ~5-8% more data and ~33-42% more parameters to match TG's loss."
A
ArXiv2025年12月31日 18:24
* 根据版权法第32条进行合法引用。