Research#llm📝 Blog分析: 2025年12月27日 04:31

[モデルリリース] Genesis-152M-Instruct: 小規模でのハイブリッドアテンション+TTTの探求

公開:2025年12月26日 17:23
1分で読める
r/LocalLLaMA

分析

この記事は、研究目的で設計された小規模言語モデルであるGenesis-152M-Instructのリリースを発表しています。 GLA、FoX、TTT、µP、およびスパース性などの最近のアーキテクチャの革新が、制約されたデータ環境内でどのように相互作用するかを探求することに焦点を当てています。対処される重要な質問は、150Mパラメータスケールで、アーキテクチャ設計が限られたトレーニングデータをどの程度補うことができるかということです。このモデルは、いくつかのICLR 2024〜2025のアイデアを組み合わせており、ハイブリッドアテンション、テスト時トレーニング、選択的アクティベーション、およびµPスケールトレーニングが含まれています。ベンチマークは提供されていますが、著者はこれがSOTAモデルではなく、特に大幅に大きなデータセットでトレーニングされたモデルと比較して、アーキテクチャの探求であることを強調しています。

参照

アーキテクチャは、〜150Mパラメータでどの程度データを補うことができますか?