LLMのためのフォーカルロス:未開拓の可能性か、隠れた落とし穴か?
分析
この投稿は、次のトークン予測における固有のクラスの不均衡を考慮して、LLMトレーニングにおけるフォーカルロスの適用可能性について妥当な疑問を提起しています。フォーカルロスは、まれなトークンのパフォーマンスを向上させる可能性がありますが、全体的なperplexityへの影響と計算コストを慎重に検討する必要があります。ラベルスムージングや階層的ソフトマックスなどの既存の技術と比較して、その有効性を判断するには、さらなる研究が必要です。
重要ポイント
参照
“現在、トランスフォーマーアーキテクチャに基づくLLMモデルは、本質的にトレーニング中に過度に美化された分類器であると考えています(すべてのステップで次のトークンの強制予測)。”