「強化学習」の記事一覧
-
強化学習の古典技法をPythonで実装
2025-05-06 22:43
科学・技術このGitHubリポジトリでは、Sutton著『強化学習入門』に基づいた様々な強化学習アルゴリズムがPythonで実装されています。マルチアームバンディットからモンテカルロ法、TD学習、方策勾配、Actor-Critic法まで網羅的に収録。基本的な遷移関数を定義することで各手法を実行可能であり、学習目的の利用に適しています。プロダクション用途ではないものの、強化学習の学習や実験には有用なリソースとされています。
-
LLMでロケット設計を最適化する新手法
2025-04-30 22:03
科学・技術Microsoft Researchは、LLMを用いた高出力ロケット設計の最適化手法を発表しました。シミュレーションとLLMの対話によって設計を改善するベンチマーク「RocketBench」を開発し、従来のLLMが設計の繰り返し改善に課題を抱える一方で、強化学習で訓練された7Bパラメータモデルが人間の専門家を上回る精度を実現しました。この手法は、ソフトウェア開発を超えたエンジニアリングへのLLM活用の可能性を示しています。
-
OpenPipe ART:LLMを自己強化学習で訓練
2025-04-30 15:35
IT・ネットOpenPipe ARTは、大規模言語モデル(LLM)のエージェント的動作を強化学習によって最適化するオープンソースのライブラリです。従来の強化学習と異なり、ARTは既存のコードベースに統合可能で、学習ループの複雑さはサーバ側で処理されます。ユーザーはエージェントの実行を通じて得た軌跡に報酬を与え、GRPOアルゴリズムでモデルを訓練できます。2048やTic Tac Toeなどのタスクもサポートし、Hugging FaceやvLLMに対応。現在アルファ版として開発が進められており、貢献も歓迎されています。
-
MiMo-7B:推論特化型LLMの新たな挑戦
2025-04-30 08:48
IT・ネットMiMoは、Xiaomiが開発した推論能力に特化した言語モデル(LLM)であり、前処理から強化学習後の訓練までを一貫して設計。MiMo-7Bは、小型モデルでありながら数学とコードの推論タスクで大規模モデルを凌ぐ性能を発揮し、OpenAI o1-miniに匹敵する結果を達成しました。MiMoの成功の鍵は、推論密度の高いデータセットでの事前学習と、多段階にわたる報酬設計を用いた強化学習にあります。また、MTP(Multiple-Token Prediction)や高速なRLループ実装によって、学習効率も大幅に向上。コードはGitHubとHugging Faceで公開されています。