[モデルリリース] Genesis-152M-Instruct: 小規模でのハイブリッドアテンション+TTTの探求
分析
この記事は、研究目的で設計された小規模言語モデルであるGenesis-152M-Instructのリリースを発表しています。 GLA、FoX、TTT、µP、およびスパース性などの最近のアーキテクチャの革新が、制約されたデータ環境内でどのように相互作用するかを探求することに焦点を当てています。対処される重要な質問は、150Mパラメータスケールで、アーキテクチャ設計が限られたトレーニングデータをどの程度補うことができるかということです。このモデルは、いくつかのICLR 2024〜2025のアイデアを組み合わせており、ハイブリッドアテンション、テスト時トレーニング、選択的アクティベーション、およびµPスケールトレーニングが含まれています。ベンチマークは提供されていますが、著者はこれがSOTAモデルではなく、特に大幅に大きなデータセットでトレーニングされたモデルと比較して、アーキテクチャの探求であることを強調しています。
重要ポイント
参照
“アーキテクチャは、〜150Mパラメータでどの程度データを補うことができますか?”