MiMo-7B:推論特化型LLMの新たな挑戦
🕒
🔗
元記事を見る
カテゴリ
IT・ネットMiMoは、Xiaomiが開発した推論能力に特化した言語モデル(LLM)であり、前処理から強化学習後の訓練までを一貫して設計。MiMo-7Bは、小型モデルでありながら数学とコードの推論タスクで大規模モデルを凌ぐ性能を発揮し、OpenAI o1-miniに匹敵する結果を達成しました。MiMoの成功の鍵は、推論密度の高いデータセットでの事前学習と、多段階にわたる報酬設計を用いた強化学習にあります。また、MTP(Multiple-Token Prediction)や高速なRLループ実装によって、学習効率も大幅に向上。コードはGitHubとHugging Faceで公開されています。