ニュースボイス

MiMoは、Xiaomiが開発した推論能力に特化した言語モデル（LLM）であり、前処理から強化学習後の訓練までを一貫して設計。MiMo-7Bは、小型モデルでありながら数学とコードの推論タスクで大規模モデルを凌ぐ性能を発揮し、OpenAI o1-miniに匹敵する結果を達成しました。MiMoの成功の鍵は、推論密度の高いデータセットでの事前学習と、多段階にわたる報酬設計を用いた強化学習にあります。また、MTP（Multiple-Token Prediction）や高速なRLループ実装によって、学習効率も大幅に向上。コードはGitHubとHugging Faceで公開されています。

ニュースボイス

MiMo-7B：推論特化型LLMの新たな挑戦

カテゴリ

タグ