思考ゲシュタルトによる言語モデリング

Paper#llm🔬 Research|分析: 2026年1月3日 06:13
公開: 2025年12月31日 18:24
1分で読める
ArXiv

分析

この論文は、トークンと文レベルの「思考」状態の2つのレベルで言語をモデル化する再帰型TransformerであるThought Gestalt(TG)モデルを紹介しています。標準的なTransformer言語モデルの限界、例えば関係性の理解における脆さやデータ非効率性に対処するために、認知科学から着想を得ています。TGモデルは、よりグローバルに一貫性のある表現を作成することを目指し、パフォーマンスと効率の向上につながります。
引用・出典
原文を見る
"TG consistently improves efficiency over matched GPT-2 runs, among other baselines, with scaling fits indicating GPT-2 requires ~5-8% more data and ~33-42% more parameters to match TG's loss."
A
ArXiv2025年12月31日 18:24
* 著作権法第32条に基づく適法な引用です。