ニュースボイス

OpenPipe ARTは、大規模言語モデル（LLM）のエージェント的動作を強化学習によって最適化するオープンソースのライブラリです。従来の強化学習と異なり、ARTは既存のコードベースに統合可能で、学習ループの複雑さはサーバ側で処理されます。ユーザーはエージェントの実行を通じて得た軌跡に報酬を与え、GRPOアルゴリズムでモデルを訓練できます。2048やTic Tac Toeなどのタスクもサポートし、Hugging FaceやvLLMに対応。現在アルファ版として開発が進められており、貢献も歓迎されています。

ニュースボイス

OpenPipe ART：LLMを自己強化学習で訓練

カテゴリ

タグ