ニュースボイス

OpenPipe ART:LLMを自己強化学習で訓練

🕒

カテゴリ

IT・ネット

OpenPipe ARTは、大規模言語モデル(LLM)のエージェント的動作を強化学習によって最適化するオープンソースのライブラリです。従来の強化学習と異なり、ARTは既存のコードベースに統合可能で、学習ループの複雑さはサーバ側で処理されます。ユーザーはエージェントの実行を通じて得た軌跡に報酬を与え、GRPOアルゴリズムでモデルを訓練できます。2048やTic Tac Toeなどのタスクもサポートし、Hugging FaceやvLLMに対応。現在アルファ版として開発が進められており、貢献も歓迎されています。