Paper#LLM🔬 Research分析: 2026年1月3日 17:00

ルーブリック報酬を用いたAI共同研究者の訓練

公開:2025年12月29日 18:59
1分で読める
ArXiv

分析

この論文は、効果的な研究計画を生成するAIを訓練するという課題に取り組んでいます。既存の研究論文の膨大なコーパスを活用して、スケーラブルな訓練方法を開発しています。主な革新は、自己採点のために自動的に抽出されたルーブリックを強化学習フレームワーク内で使用し、広範な人間の監督を回避することです。人間専門家による検証とクロスドメインの一般化テストは、このアプローチの有効性を示しています。

参照

専門家は、70%の研究目標において、初期モデルよりも、ファインチューニングされたQwen3-30B-A3Bモデルによって生成された計画を好み、自動的に抽出された目標固有の採点ルーブリックの84%を承認しました。