Research #llm 📝 Blog分析: 2025年12月27日 04:31

[モデルリリース] Genesis-152M-Instruct: 小規模でのハイブリッドアテンション+TTTの探求

公開:2025年12月26日 17:23

•

1分で読める

分析

この記事は、研究目的で設計された小規模言語モデルであるGenesis-152M-Instructのリリースを発表しています。 GLA、FoX、TTT、µP、およびスパース性などの最近のアーキテクチャの革新が、制約されたデータ環境内でどのように相互作用するかを探求することに焦点を当てています。対処される重要な質問は、150Mパラメータスケールで、アーキテクチャ設計が限られたトレーニングデータをどの程度補うことができるかということです。このモデルは、いくつかのICLR 2024〜2025のアイデアを組み合わせており、ハイブリッドアテンション、テスト時トレーニング、選択的アクティベーション、およびµPスケールトレーニングが含まれています。ベンチマークは提供されていますが、著者はこれがSOTAモデルではなく、特に大幅に大きなデータセットでトレーニングされたモデルと比較して、アーキテクチャの探求であることを強調しています。

重要ポイント

参照

“アーキテクチャは、〜150Mパラメータでどの程度データを補うことができますか？”

古い記事

What's the point of potato-tier LLMs?

新しい記事

Sora AI is getting out of hand 😂

[モデルリリース] Genesis-152M-Instruct: 小規模でのハイブリッドアテンション+TTTの探求

分析

重要ポイント

関連分析

人間によるAI検出

深層学習の実装に焦点を当てた書籍

Geminiのパーソナライズ

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック