ルーブリック報酬を用いたAI共同研究者の訓練

Paper#LLM🔬 Research|分析: 2026年1月3日 17:00
公開: 2025年12月29日 18:59
1分で読める
ArXiv

分析

この論文は、効果的な研究計画を生成するAIを訓練するという課題に取り組んでいます。既存の研究論文の膨大なコーパスを活用して、スケーラブルな訓練方法を開発しています。主な革新は、自己採点のために自動的に抽出されたルーブリックを強化学習フレームワーク内で使用し、広範な人間の監督を回避することです。人間専門家による検証とクロスドメインの一般化テストは、このアプローチの有効性を示しています。
引用・出典
原文を見る
"The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics."
A
ArXiv2025年12月29日 18:59
* 著作権法第32条に基づく適法な引用です。