名古屋ではたらく社長のITニュースポッドキャスト

Ep.685 Azure ND GB300 v6が“100万トークン/秒”を突破──Blackwell世代で推論の実用限界が動いた(2025年11月6日配信)

11月3日、Microsoftは「Azure ND GB300 v6」で“100万トークン/秒”の壁を越えたと公表しました。Llama 2 70Bのオフライン推論(MLPerf Inference v5.1、未検証提出)で、1ラック=NVL72構成あたり合計1,100,948トークン/秒を計測。直前世代のND GB200 v6による865,000トークン/秒を27%更新し、1GPUあたりでは約15,200トークン/秒という水準です。実行はTensorRT-LLMのFP4で、ベンチ一式の手順とログも合わせて公開されました。なお“100万トークンの壁”は文脈長ではなく“毎秒の生成トークン数”のことです。

この“速さ”を支えるのがラック一体のNVL72です。72基のBlackwell Ultra GPUとGrace CPUを液冷で密結合し、推論や“推論時スケーリング(test-time scaling)”に最適化。AzureはこのNVL72を18台のND GB300 v6 VMで占有する前提で構成し、HBM帯域・NVLink・NCCLの効率を高めることで、H100世代のND v5比でGEMM性能2.5倍、GPU単体スループット5倍を示したと説明しています。

技術条件も具体的です。1VMあたりGB300×4の合計72GPU、GPUメモリは1基あたり約279GB、HBM帯域は7.37TB/s(効率92%)を計測。CPU-GPU間はNVLink C2Cで従来比4倍の転送速度を得たとしています。測定は18並列ジョブの集計で、第三者のSignal65が“110万トークン/秒”を観測したと添えられました。

業界文脈で見ると、“ラック=1つの巨大アクセラレータ”というNVL72設計が、生成AIの主戦場を“学習中心”から“大規模推論・エージェント実行”へ広げる合図になりつつあります。NVL72は72GPUとGrace CPUを一体運用する前提で、企業はモデルを細かく分割せずに高速HBM領域に収めやすく、長鎖ツール呼び出しやテスト時アンサンブルのような“重い推論”でも待ち時間を抑えやすくなります。

注意点も正直に付記されました。今回の数値はMLPerfの“未検証(unverified)”提出であり、公式検証を経た記録ではありません。それでもAzureがワークロード・レシピ・ログまで公開し、再現手順を示した意義は大きい。トップティアGPUの“実務スループット”が桁を一段上げ、エンタープライズの生成AIを“秒で返す”体験に近づけつつあることが、今回のメッセージです。