2025年10月22日、PyTorchチーム(Meta)は新ライブラリ「TorchForge」を発表しました。狙いは明快で、RLのアルゴリズム部分は“疑似コード”のまま書き、分散・非同期・リトライ・資源配分といった面倒はライブラリ側が面倒を見る、という設計です。発表では、同一のロールアウト関数を組み替えるだけで、PPOのような厳密なオンポリシー運用から、最大スループットを狙う完全非同期オフポリシー運用まで滑らかに切り替えられる点が強調されました。
下回りはPyTorch製の分散フレームワーク「Monarch」が要です。単一コントローラとアクター間メッセージングで、生成(推論)・学習・報酬評価・リプレイバッファなどを“論理部品”として束ね、既存のSPMD実装(vLLMのテンソル並列やTorchTitanのFSDP等)を保ったままオーケストレーションします。研究者は“どのランクが誰と通信するか”ではなく“どの部品に何を頼むか”を記述すればよく、規模のストレスから解放されます。
大規模RLでボトルネックになりやすいのが“重み同期”です。70B級モデルを複製運用すると、学習で更新された重みを推論側へ配るだけで数百GBの移動になり、従来ネットワークでは1回の更新に“分単位”を要し得ます。TorchForgeは分散インメモリKVS「TorchStore」を組み込み、DTensorベースのAPIで必要なテンソル断片を即時取得できるようにして、学習と生成の足並みを切り離す構成を示しました。結果として非同期RLの実運用に必要な“訓練と生成のデカップリング”を加速します。
“検証可能な報酬”に向けた環境統合も最初から押さえています。コード実行のサンドボックスをサービスとして立ち上げ、生成したプログラムを安全に走らせて成否で報酬を与える、といったRLVRの基本形をそのまま書けるようにしました。報酬計算の遅延ばらつきが大きいユースケースでも、非同期構成で全体スループットを落とさないよう配慮された設計です。
外部検証の文脈では、スタンフォードのScaling Intelligence Labが“弱い検証器のアンサンブル”で正解度を高める「Weaver」を統合し、数学やGPQAの難問系ベンチでのヒルクライムを確認。実験リソースはCoreWeaveのH100×512構成が提供され、実運用規模の挙動を伴う実証が行われました。
実務への含意は大きいでしょう。プロダクト側は、推論エンジンにvLLM、学習にTorchTitanと“実績ある部品”を選べるため、既存の配備や監視の流儀を崩さずにRL後学習やエージェント化を前倒しできます。一方でTorchForgeとMonarchは“実験的(experimental)”と明記されていますから、APIの変更やドキュメントの粗さを飲み込みつつ、検証環境から段階的に本番系へ寄せる──この慎重な導入が現実解になりそうです。
まとめると、TorchForgeは「アルゴリズムに集中するための分散RL作法」をPyTorch流に定義し、重み同期やツール連携など“現場の泥臭い論点”を標準部品化した取り組みです。モデルの推論・学習・検証をひと続きの仕事に変えるこの流れは、企業のエージェント実装や運用自動化を後押しし、来年のLLM改修計画の現実味をぐっと高めるはずです。
Information
- Show
- FrequencyUpdated Weekly
- PublishedOctober 29, 2025 at 10:00 PM UTC
- Length4 min
- Season1
- Episode666
- RatingClean
