[モデルリリース] Genesis-152M-Instruct: 小規模でのハイブリッドアテンション+TTTの探求

Research#llm📝 Blog|分析: 2025年12月27日 04:31
公開: 2025年12月26日 17:23
1分で読める
r/LocalLLaMA

分析

この記事は、研究目的で設計された小規模言語モデルであるGenesis-152M-Instructのリリースを発表しています。 GLA、FoX、TTT、µP、およびスパース性などの最近のアーキテクチャの革新が、制約されたデータ環境内でどのように相互作用するかを探求することに焦点を当てています。対処される重要な質問は、150Mパラメータスケールで、アーキテクチャ設計が限られたトレーニングデータをどの程度補うことができるかということです。このモデルは、いくつかのICLR 2024〜2025のアイデアを組み合わせており、ハイブリッドアテンション、テスト時トレーニング、選択的アクティベーション、およびµPスケールトレーニングが含まれています。ベンチマークは提供されていますが、著者はこれがSOTAモデルではなく、特に大幅に大きなデータセットでトレーニングされたモデルと比較して、アーキテクチャの探求であることを強調しています。
引用・出典
原文を見る
"How much can architecture compensate for data at ~150M parameters?"
R
r/LocalLLaMA2025年12月26日 17:23
* 著作権法第32条に基づく適法な引用です。