ニュースボイス

本研究は、結果ベースの強化学習を用いて未来予測の精度と信頼性を向上させる手法を提案しています。従来のRLVR手法に比べ、ノイズの多い実世界の予測タスクでも安定して動作するよう改良が加えられています。14Bモデルを使った実験では、標準的な大規模モデルと同等の精度を示し、特にキャリブレーションで上回りました。小規模LLMでも経済的価値ある予測ツールになり得ることが示されています。

ニュースボイス

結果ベース強化学習による予測精度の向上

カテゴリ

タグ