ニュースボイス

2025-05-27 13:33

科学・技術

本研究は、結果ベースの強化学習を用いて未来予測の精度と信頼性を向上させる手法を提案しています。従来のRLVR手法に比べ、ノイズの多い実世界の予測タスクでも安定して動作するよう改良が加えられています。14Bモデルを使った実験では、標準的な大規模モデルと同等の精度を示し、特にキャリブレーションで上回りました。小規模LLMでも経済的価値ある予測ツールになり得ることが示されています。

Claude 4とAI研究の最前線を語る

2025-05-23 06:08

科学・技術

AnthropicのSholto DouglasとTrenton Brickenが出演したポッドキャストで、強化学習の進展やLLMの限界と可能性、自己認識の兆し、そして国家や学生がAGIにどう備えるべきかが語られました。ソフトウェアエージェントの能力向上や、RLによる能力学習の有効性、自己スカフォールディングの課題も議論され、RLの効率やスケーラビリティに関する最新の見解が示されました。AI教育の在り方にも焦点が当たっています。

K-Scale Labsが汎用ヒューマノイドロボットを公開

2025-05-18 19:16

科学・技術

K-Scale Labsは、開発者向けの汎用ヒューマノイドロボット「K-Bot」シリーズを公開しました。機械学習、強化学習、ロボットOS、シミュレーションまでを統合したオープンソース環境で、研究者や開発者向けに手頃な価格で提供されます。アプリ開発や動作学習が簡単に行える統合環境やPython SDKも用意されており、教育や実践での活用が期待されています。OpenAIからも注目を集めています。

API不要の未来へ：Foundryが切り拓くWebエージェントの世界

2025-05-16 17:01

IT・ネット

Foundryは、SaaSやエンタープライズツールにAPIが不要となる未来を見据え、ブラウザエージェント向けの新たな基盤インフラを構築しています。従来のGPTラッパーではなく、RLやMLによる世界モデルの構築に注力。創業者はScale AIやMeta出身の実績あるエンジニアで、現実世界のWeb操作を高精度で再現・評価できるプラットフォームを開発。自動化の新たな基準を目指しています。

INTELLECT-2：分散強化学習で訓練された32Bモデルを公開

2025-05-12 01:46

科学・技術

INTELLECT-2は、世界初の分散型強化学習で訓練された32Bパラメータの大規模言語モデルで、クラウドに依存しない非中央集権的なインフラ上で学習されました。独自のPRIME-RLフレームワークと検証システムTOPLOC、効率的な重み配信手法SHARDCASTを用い、オープンな参加者が生成したロールアウトを検証・活用することで訓練を行います。初期実験では、数学やコーディング課題への適応力が確認され、今後はツール活用やマルチターン強化学習への発展も視野に入れています。

Absolute Zero: 外部データゼロで自律学習するAI

2025-05-11 07:07

科学・技術

Absolute Zeroは、外部データなしで自律的に問題を生成・解決しながら学習を進める新たな強化学習パラダイムです。この手法では、大規模言語モデルが自ら課題を作成し、コード実行を通じてその正誤を検証することで、報酬を自己生成します。AZR（Absolute Zero Reasoner）は数学やコーディングタスクにおいて既存のゼロショットモデルを凌駕する性能を示し、モデル規模や構成にも柔軟に対応できることが確認されました。

人間データゼロで学習する推論モデル「Absolute Zero」

2025-05-08 01:48

科学・技術

Absolute Zero Reasoner（AZR）は、人間が用意したデータを一切使わず、AIが自ら課題を生成・解決・学習する「自己対話型学習」モデルです。提案役と解決役の二役を担い、難易度調整された課題を自動で生み出し、コード実行によって解答の正確性を検証します。AZRは帰納・演繹・アブダクションといった推論モードを通じて継続的に成長し、既存のコーディングや数学モデルを上回る性能を示しています。

強化学習の古典技法をPythonで実装

2025-05-06 22:43

科学・技術

このGitHubリポジトリでは、Sutton著『強化学習入門』に基づいた様々な強化学習アルゴリズムがPythonで実装されています。マルチアームバンディットからモンテカルロ法、TD学習、方策勾配、Actor-Critic法まで網羅的に収録。基本的な遷移関数を定義することで各手法を実行可能であり、学習目的の利用に適しています。プロダクション用途ではないものの、強化学習の学習や実験には有用なリソースとされています。

LLMでロケット設計を最適化する新手法

2025-04-30 22:03

科学・技術

Microsoft Researchは、LLMを用いた高出力ロケット設計の最適化手法を発表しました。シミュレーションとLLMの対話によって設計を改善するベンチマーク「RocketBench」を開発し、従来のLLMが設計の繰り返し改善に課題を抱える一方で、強化学習で訓練された7Bパラメータモデルが人間の専門家を上回る精度を実現しました。この手法は、ソフトウェア開発を超えたエンジニアリングへのLLM活用の可能性を示しています。

OpenPipe ART：LLMを自己強化学習で訓練

2025-04-30 15:35

IT・ネット

OpenPipe ARTは、大規模言語モデル（LLM）のエージェント的動作を強化学習によって最適化するオープンソースのライブラリです。従来の強化学習と異なり、ARTは既存のコードベースに統合可能で、学習ループの複雑さはサーバ側で処理されます。ユーザーはエージェントの実行を通じて得た軌跡に報酬を与え、GRPOアルゴリズムでモデルを訓練できます。2048やTic Tac Toeなどのタスクもサポートし、Hugging FaceやvLLMに対応。現在アルファ版として開発が進められており、貢献も歓迎されています。

MiMo-7B：推論特化型LLMの新たな挑戦

2025-04-30 08:48

IT・ネット

MiMoは、Xiaomiが開発した推論能力に特化した言語モデル（LLM）であり、前処理から強化学習後の訓練までを一貫して設計。MiMo-7Bは、小型モデルでありながら数学とコードの推論タスクで大規模モデルを凌ぐ性能を発揮し、OpenAI o1-miniに匹敵する結果を達成しました。MiMoの成功の鍵は、推論密度の高いデータセットでの事前学習と、多段階にわたる報酬設計を用いた強化学習にあります。また、MTP（Multiple-Token Prediction）や高速なRLループ実装によって、学習効率も大幅に向上。コードはGitHubとHugging Faceで公開されています。

「強化学習」の記事一覧