Research#LLM🔬 Research分析: 2026年1月10日 11:15

M-GRPO:基于动量锚定策略优化的LLM自监督强化学习稳定性

发布:2025年12月15日 08:07
1分で読める
ArXiv