分析
マイクロソフトのPhi-4-reasoning-vision-15Bは、深く思考すべき時を自律的に決定できる、素晴らしい新しいオープンソース生成AIモデルです!"思考モード"制御により、Phi-4は効率性と有効性のバランスを取り、より小型のモデルが複雑なタスクで目覚ましい結果を達成できる可能性を示しています。この革新的なアプローチは、適応性があり効率的なAIの新しい時代を約束します。
reasoningに関するニュース、研究、アップデートをAIが自動収集しています。
"Phi-4-Reasoning-Vision-15Bは、推論と非推論データの注意深くキュレーションされた混合物に対する教師ありファインチューニング(SFT)でトレーニングされています。"
"LLMプログラム合成 + 決定論的検証を用いて、ARC-AGI2で84.0% (840/1000) を達成 — ファインチューニングなし、ニューラルサーチなし"
"WFGY 3.0をリリースしました。これはもはや「RAG」だけではありません。現実世界の亀裂に非常に近い問題について、強力なLLMをストレステストするように設計されたTXTベースのテンション推論エンジンです。"
"Yao らの論文 (NeurIPS 2023) によると、GPT-4 に ToT を適用した実験では、Game of 24 タスクの成功率が、思考の連鎖 (Chain of Thought) の 4% から ToT の 74% に向上しています。"
"Mercury 2は逐次的にデコードしません。並列的な洗練を通して応答を生成し、複数のトークンを同時に生成して、少数のステップで収束します。"
"たとえば、ARC-AGI-2ベンチマークで77.1%を記録し、3 Proの2倍以上のパフォーマンスを発揮しています。"
"初期のアシモフのロボットの物語では、話せないロボットは、後に話せるようになったバージョンよりも進んでいませんでした。"
"場合によっては、プロンプトによって明示的に要求されていない場合でも、制約ベースの分解(例:コンポーネントの相互作用による結果モデリング、評価指標による最適化)を採用しているように見えます。"
"ビジョン言語モデルは、テキスト文字(. と #)としてレンダリングされたバイナリグリッドの読み取りで約84%のF1を達成しますが、まったく同じグリッドが塗りつぶされた正方形としてレンダリングされた場合、同じ視覚エンコーダーを介して両方が画像であるにもかかわらず、29〜39%のF1に崩壊します。"