6D AGO
S1, E666
4 MIN

Ep.666 PyTorch「TorchForge」登場──RL後学習とエージェント開発を“疑似コードのまま”大規模化（2025年10月30日配信）

2025年10月22日、PyTorchチーム（Meta）は新ライブラリ「TorchForge」を発表しました。狙いは明快で、RLのアルゴリズム部分は“疑似コード”のまま書き、分散・非同期・リトライ・資源配分といった面倒はライブラリ側が面倒を見る、という設計です。発表では、同一のロールアウト関数を組み替えるだけで、PPOのような厳密なオンポリシー運用から、最大スループットを狙う完全非同期オフポリシー運用まで滑らかに切り替えられる点が強調されました。

下回りはPyTorch製の分散フレームワーク「Monarch」が要です。単一コントローラとアクター間メッセージングで、生成（推論）・学習・報酬評価・リプレイバッファなどを“論理部品”として束ね、既存のSPMD実装（vLLMのテンソル並列やTorchTitanのFSDP等）を保ったままオーケストレーションします。研究者は“どのランクが誰と通信するか”ではなく“どの部品に何を頼むか”を記述すればよく、規模のストレスから解放されます。

大規模RLでボトルネックになりやすいのが“重み同期”です。70B級モデルを複製運用すると、学習で更新された重みを推論側へ配るだけで数百GBの移動になり、従来ネットワークでは1回の更新に“分単位”を要し得ます。TorchForgeは分散インメモリKVS「TorchStore」を組み込み、DTensorベースのAPIで必要なテンソル断片を即時取得できるようにして、学習と生成の足並みを切り離す構成を示しました。結果として非同期RLの実運用に必要な“訓練と生成のデカップリング”を加速します。

“検証可能な報酬”に向けた環境統合も最初から押さえています。コード実行のサンドボックスをサービスとして立ち上げ、生成したプログラムを安全に走らせて成否で報酬を与える、といったRLVRの基本形をそのまま書けるようにしました。報酬計算の遅延ばらつきが大きいユースケースでも、非同期構成で全体スループットを落とさないよう配慮された設計です。

外部検証の文脈では、スタンフォードのScaling Intelligence Labが“弱い検証器のアンサンブル”で正解度を高める「Weaver」を統合し、数学やGPQAの難問系ベンチでのヒルクライムを確認。実験リソースはCoreWeaveのH100×512構成が提供され、実運用規模の挙動を伴う実証が行われました。

実務への含意は大きいでしょう。プロダクト側は、推論エンジンにvLLM、学習にTorchTitanと“実績ある部品”を選べるため、既存の配備や監視の流儀を崩さずにRL後学習やエージェント化を前倒しできます。一方でTorchForgeとMonarchは“実験的（experimental）”と明記されていますから、APIの変更やドキュメントの粗さを飲み込みつつ、検証環境から段階的に本番系へ寄せる──この慎重な導入が現実解になりそうです。

まとめると、TorchForgeは「アルゴリズムに集中するための分散RL作法」をPyTorch流に定義し、重み同期やツール連携など“現場の泥臭い論点”を標準部品化した取り組みです。モデルの推論・学習・検証をひと続きの仕事に変えるこの流れは、企業のエージェント実装や運用自動化を後押しし、来年のLLM改修計画の現実味をぐっと高めるはずです。

Episode Webpage

Show

名古屋ではたらく社長のITニュースポッドキャスト
Frequency

Updated Weekly
Published

October 29, 2025 at 10:00 PM UTC
Length

4 min
Season

1
Episode

666
Rating

Clean

Ep.666 PyTorch「TorchForge」登場──RL後学習とエージェント開発を“疑似コードのまま”大規模化（2025年10月30日配信）

Information