名古屋ではたらく社長のITニュースポッドキャスト

ikuo suzuki

システムサーバーの社長である鈴木生雄が気になるITニュースをピックアップして数分のコンテンツとしてお届けする番組です。主に取り上げるニュースはAI、半導体、ビッグテック企業です。

  1. -10 H

    Ep.692 Meta、1,600言語対応「Omnilingual ASR」──音声の“長尾”を一気に掬い上げる(2025年11月13日配信)

    11月10日、MetaのFAIRが「Omnilingual ASR」を発表しました。1,600を超える言語の音声認識を単一スイートでカバーし、これまで対応の難しかった“超・低資源”言語まで射程に入れたのが最大の特徴です。モデルは300M〜7Bの複数サイズを用意し、ゼロショットや言語条件付けにより、わずかな対訳音声からでも新言語の取り込みを狙えるとしています。コードとモデルはApache 2.0で公開され、pip install omnilingual-asrで試せる手軽さも押し出しました。 性能の目安として、7BクラスのLLM-ASRは「1,600+言語の78%でCER10(README表記)」とされ、長尾の言語群に対しても実用域をうかがわせます。もっとも現時点の推論パイプラインは“40秒以下の音声”に制限があり、今後の拡張を予告する段階です。研究用途に向けてはW2V(自己教師)、CTC、LLM-ASRという三系統を揃え、基盤は最新のfairseq2に統一。旧fairseqから刷新されたモジュラー設計で、大規模多言語の学習・配布を回しやすくしています。 データ面でも踏み込みました。FAIRは348の“アンダーサーブド言語”で自然発話を収集した新コーパスをHugging Face上で公開。転記ルールやノイズタグを含む詳細なデータカードを備え、ライセンスはCC-BY 4.0です。既存のMMS(1,100言語対応の研究モデル)など過去の系譜に、新たな実録コーパスを重ねることで、低資源言語の精度底上げと再現性の担保を図っています。 そして持続的な拡大に向け、Metaは今年2月に立ち上げた「Language Technology Partner Program」をテコに、地域コミュニティや研究者からの協力を継続的に募っています。オープン実装(fairseq2)×オープンモデル(Apache 2.0)×オープンデータ(CC-BY)の“三点セット”で、研究から現場導入までの距離を縮める狙いです。外部メディアも“1,600言語対応の包括ASR”としてこの発表を伝え、低資源領域のアクセシビリティ改善に期待が集まっています。 実務目線では、まず“どの系統で始めるか”の設計がポイントです。リアルタイム寄りならCTC系、難語彙やコードスイッチが多い現場ならLLM-ASR系を試し、短尺クリップで評価してから前処理や言語条件付けを詰める──そんな導入の道筋をオープンなレシピで再現できます。企業の多言語サポートや公共機関のアクセシビリティ、さらには宇宙・防災の現場の音声ログ解析まで、“長尾の言語”を含む現実世界にモデルを持ち込むための基盤が、一段と整ってきたと言えるでしょう。

    4 min
  2. -10 H

    Ep.696 ドイツ地裁、OpenAIに著作権侵害の判断──歌詞学習は“要ライセンス”の時代へ(2025年11月13日配信)

    現地11月11日、ミュンヘン地方裁判所第1法廷は、ChatGPTが著作権で保護されたドイツ語の歌詞を無断で再現したとして、OpenAIに対し著作権侵害を認める判断を下しました。原告は音楽著作権管理団体のGEMA。判決は、学習や出力の過程での歌詞利用にライセンスが必要との含意を持ち、OpenAIに損害賠償の支払いを命じています。判決は不服申立ての余地があり、双方は声明を準備中と伝えられています。欧州における生成AI規制の“方向付け”となり得る重要な一歩です。 報道によれば、対象は少なくとも9曲分の歌詞で、たとえばヘルベルト・グレーネマイヤーの「Männer」「Bochum」など具体的楽曲が例に挙げられました。OpenAIは「ChatGPTの仕組みを誤解している」と主張したものの、裁判所は歌詞の再現と学習利用の関係を重く見た格好です。英紙や業界メディアも、この判断をヨーロッパにおける先例と位置づけ、広告や検索に続いて“音楽×生成AI”の線引きが鮮明になったと伝えています。 実務の観点では、音楽分野に限らず“強い著作権”を伴う領域で、開発者・事業者に三つの波及が想定されます。第一に、データ取り扱いの再点検です。コーパス由来の“歌詞断片の記憶”を抑制するフィルタリングや推論時ガードレールの再設計、そして学習データの由来管理が避けられません。第二に、ライセンス交渉の本格化です。GEMAは集団管理の枠組みでAI向け包括許諾の構築を掲げており、判決を受けた“支払いの根拠”が強まります。第三に、係争リスクの地理的拡大です。ミュンヘンの判断は、他のEU域内でも参考にされうるため、プロダクト運用は“国・地域別の権利処理”を前提にせざるを得なくなります。 一方で、今回の結論は最終審ではなく、今後の控訴審で判断が揺れる可能性もあります。とはいえ、欧州の現場感はすでに変わりつつあります。生成AIの歌詞再現を巡る線引きは“フェアユース”が中心の米国と異なり、EUでは権利者の明示的な許諾・オプトアウト運用とセットで整理されがちです。今回の判決を材料に、音楽に限らぬテキスト・画像・脚本等の権利処理が“AI向け包括ライセンス”という形で産業化するシナリオが、より現実味を帯びてきました。 プロダクトに落とすなら、学習前・提供前・推論時の三層での対応が鍵です。学習前はデータ供給元との契約で“AI用途”を明文化。提供前は歌詞等のトリガーワード検知や引用上限のポリシー化、地域別の権利フラグ連動。推論時は“再現率が高い表現”のブロックと根拠提示の徹底です。音楽サーチや要約のような正当な利用価値を損なわないよう、ユーザー体験と権利配慮の“両利き”設計が問われます。判決のインパクトは、訴訟の行方に左右されつつも、AIの開発・運用フロー全体の標準を静かに塗り替え始めています。

    4 min
  3. -10 H

    Ep.695 ヤン・ルカン離脱報道──Meta再編の“余震”と世界モデル志向の行方(2025年11月13日配信)

    11月11日、フィナンシャル・タイムズの報道として、MetaのチーフAIサイエンティストであるヤン・ルカン氏が同社を離れ、新たにスタートアップを立ち上げる計画だと伝えられました。資金調達の初期協議に入っているとされ、同氏の持ち味である“世界モデル”研究を事業基盤へと展開する構想が示唆されています。ロイターもFT報道を引用し、離脱準備と資金調達の動きを伝えています。 背景には、MetaのAI大再編があります。2025年、同社はAI組織を「Superintelligence Labs」に統合し、元Scale AIのAlexandr Wang氏をリーダーに登用。これに伴い、従来はCPO直轄だったLeCun氏のレポートラインもWang氏配下へと切り替わりました。さらに10月には同ラボで約600人規模の人員削減が発表され、機動力重視の体制へ舵が切られています。こうした再編のうねりが、長期志向の基礎研究を掲げてきたLeCun氏の“独立”判断を後押しした格好です。 路線の違いもポイントです。LeCun氏は、LLMのスケールアップだけでは人間並みの推論に至らないという立場で知られ、動画や空間理解から学ぶ世界モデル(JEPA系)を推進してきました。FTは、新会社でもこの方向性を核に据え、長期の知能獲得を目指すと報じています。一方、Meta本体はSuperintelligence Labsの下で実装ドリブンなAIを加速し、社内外の体験に短期で反映する路線を強めています。研究の深掘りと事業の俊敏化——二つの速度の差が、今回の分岐点として浮かび上がります。 資本とインフラの“ケタ違い”も無視できません。Metaは今後3年間で米国に少なくとも6,000億ドルを投資し、AIデータセンターなどの拡張を進める計画を公表しています。巨大計算資源を前提とするLLM・生成AIの実装がダイナミックに進む一方、ルカン流の世界モデルは“計算の使い所”と訓練レシピが勝負どころ。スタートアップとして最先端研究をどう資金・計算と結びつけるかが、初期フェーズの焦点になります。 業界にとっては、人材と路線の“再配列”が続くサインです。基礎研究の旗手が独立し、巨大テックはプロダクト直結のAIで機動力を高める——この分業は、オープンソース連携や共同研究の新しい形を生みやすい。一方で、短期KPIと長期ビジョンのバランスは難所です。企業側は、世界モデル系の成果がプロダクトへ橋渡しされる時間軸を折り込んだ上で、研究コラボやライセンスの“待ち”と“攻め”を切り替える必要がありそうです。

    4 min
  4. -10 H

    Ep.694 Baidu、ERNIE-4.5-VL-28B-A3B-Thinkingを公開──“画像思考”が広げるマルチモーダルの地平(2025年11月13日配信)

    本日11月11日、Baiduが多モーダル思考モデル「ERNIE-4.5-VL-28B-A3B-Thinking」をオープンソースで公開しました。総パラメータ28Bながら、推論時は3Bのみを動かすMoE設計で、画像と言語を行き来しながら考える“Thinking”系のふるまいを強化。公開告知は中国メディア経由でも相次ぎ、推論コストの抑制と開発者への開放を前面に打ち出しています。 今回の目玉は“画像思考”です。単に画像を説明するだけでなく、拡大・縮小で焦点を切り替え、その流れで画像検索などの外部ツールを呼び出して不足情報を補う——そんな一連の操作をモデル側が自律的に組み立てます。グラフの読み取りや細部識別、長尾のビジュアル知識に強みを出したい現場を意識した設計で、実例デモも「理解→検索→推論」の往復を前提に構成されています。 技術的な文脈を足します。ERNIE 4.5系はMoEで“活性パラメータ”を絞り、計算効率を稼ぐのが思想の中核です。Baiduの技術報告では、異種モダリティ間でのパラメータ共有と個別最適の両立がうたわれ、47B/3B活性のラインアップが示されてきました。今回の28B-A3B-Thinkingは、その系譜にある“軽量で回るVLの思考版”という位置づけと言えるでしょう。 配布面では、Hugging FaceのBaidu公式アカウントに当該モデルカードが並び、GitHubのPaddlePaddle/ERNIEでも情報が更新されています。READMEには、軽量VLモデルがQwen2.5-VLの7B/32B級と多くのベンチで競合する、Thinking/非Thinking両モード対応といった主張も記載があります(あくまで自己申告の比較である点は留意)。開発者にとっては、入手性と再現性の面でハードルがぐっと下がった格好です。 産業面で見ると、中国勢は2025年に入り“推論コスト×公開範囲”を武器に攻勢を強めています。Baiduは3月以降、ERNIE 4.5や推論志向のX1で地合いを作り、年内には次世代モデルの投入も予告されるなど、国内競争(DeepSeekや阿里系)の圧力を正面から受け止める構図です。今回の“画像思考×オープン化”は、検索、EC、教育といった画像が絡む日常用途での実利を前面に出し、コミュニティを巻き込む狙いが透けて見えます。 現場導入の観点では、まず“どこまでツールを任せるか”の線引きがポイントです。社内の画像検索やナレッジベースと安全に連携させ、拡大・検索・要約をモデルに委ねるワークフローを小さく始める——そんな始め方が現実的でしょう。推論コストを抑えたMoE構成はABテストや並列実行と相性が良く、業務時間内に“画像→判断資料”を回し切る運用に寄与します。最後に、モデル比較は自己ベンチの条件差に影響されやすいので、社内データでの再評価を前提に、評価軸(正確性・根拠提示・処理時間・コスト)を固定して見ることをおすすめします。

    4 min
  5. -10 H

    Ep.693 Metaの生成広告モデル「GEM」──広告レコメンドの“中枢”を作り替える(2025年11月13日配信)

    11月10日、Metaは広告配信の“頭脳”として機能する基盤モデル「GEM」の技術詳細を公開しました。GEMはLLM発想の巨大モデルを広告レコメンドに持ち込み、FacebookとInstagramの膨大な行動・広告・計測シグナルを横断して学習。ここで得た知見を下流の多数モデルにポストトレーニングで伝搬させ、広告の関連性を一段引き上げる——そんな“中央集権→全体最適”の設計が核です。実運用でも、Q2にはInstagramでコンバージョンが約5%、Facebookフィードで約3%改善したと報告されています。 アーキテクチャ面では、ユーザー属性や広告の体裁などの“非シーケンス特徴”と、長期の閲覧・クリックの“シーケンス特徴”を分けて最適化し、必要な場面で相互作用を学ぶ構造が採用されました。非シーケンス側はWukongを拡張して複合特徴の組み合わせを深堀りし、シーケンス側はピラミッド並列で長大履歴を効率に取り込みます。さらに両者を橋渡しするInterFormerで、シーケンス学習と特徴相互作用を交互に重ねることで、行動履歴の構造を失わずに表現を磨き上げます。 “作って終わり”にしないのも特徴です。GEMは教師、下流の各ドメイン向け基盤モデルとプロダクションの多数モデルが生徒という多段の知識移転を採用。蒸留・表現学習・パラメータ共有を組み合わせ、標準蒸留比で約2倍の移転効率を確保したといいます。結果として、フィード、リール、メッセージングといった各面での目標(クリック、コンバージョンなど)に合わせつつ、横断知見を共有できる“群れとして賢い”配信群へ進化しました。 この規模を回す足腰も刷新されています。数千GPUでの多次元並列、可変長系列に最適化した社内カーネル、PyTorch 2.0のグラフレベル最適化、FP8活性化量子化、NCCLXによる通信最適化などを束ね、効果的トレーニングFLOPSは23倍、MFUは1.43倍向上と説明。探索〜大規模学習〜ポストトレーニングまで、GPU効率を途切れなく高める運用レシピが語られました。 文脈で言えば、Metaはすでに取得段の「Andromeda」で候補集合の質と広がりを高め、今回のGEMでランキング段の“器”をLLM級に置き換えました。GEMはQ3に入っても同じ計算量で得られる性能利得を倍増させたと述べられており、2026年までの広告自動化ロードマップとも歩調を合わせます。生成AIがクリエイティブと配信の両方に浸透する中、“中央の脳+群れの最適化”という二段構えは、広告主のROASと体験の両立を狙う実装と言えるでしょう。 最後に示唆です。GEMは今後、テキスト・画像・音声・動画のマルチモーダル統合をさらに進め、オーガニックと広告の両ランキングを一体化する構想を示しています。一方で、会話AIのデータ活用などプライバシー面の議論も加速中。配信スタックの刷新はビジネス成果と同時に、データガバナンスや説明可能性の再設計を企業に迫ります。現場では、クリエイティブ、計測、カタログ、LTV学習の各パイプラインを“GEM前提”で見直すことが、次の一歩になりそうです。

    6 min
  6. -10 H

    Ep.691 Google TV StreamerにGemini for TVが到来──“テレビの相棒”がついに本番運用へ(2025年11月13日配信)

    Googleは公式ブログで、Gemini for TVの展開をGoogle TV Streamerに広げると発表しました。数週間かけて配信され、リモコンのマイクボタンを押して話しかけるだけで、観たい作品の相談やシリーズの振り返り、話題作のリコメンド、さらには学習トピックの説明やレシピ案内まで、テレビの前で自然にやり取りできるようになります。提供は国と言語を限定し、18歳以上が対象という注意書き付きです。これにより、同端末ではGoogle AssistantからGeminiへの“世代交代”が本格化します。 この展開でポイントになるのは“対象の広さ”です。Gemini for TVは9月にTCLのQM9Kシリーズで先行デビューしていましたが、今回はHDMI端子さえあれば使える外付けのGoogle TV Streamerに来るため、対応テレビを買い替えなくても最新のAI体験を取り込めます。The Vergeも、これで「ほぼ誰でも試せる」ようになると伝えています。 ハード側の素性も押さえておきましょう。Google TV Streamerは4K HDR出力に対応し、Dolby Vision/Atmosをサポート。従来のChromecast 4Kの8GBから32GBへと内蔵ストレージを拡張し、アプリのやり繰りに余裕が生まれました。加えてイーサネット端子やThread内蔵で、映像配信の安定性とスマートホームの中核としての使い勝手を高めています。価格は米国$99.99、日本では16,000円で販売されています。 実体験としては、たとえば「家族それぞれの好みに合う映画を探して」といった曖昧な相談でも、Geminiが候補を提示し、必要に応じてYouTubeの解説や過去シーズンの要点も補ってくれます。作品探しを越えて、子どもの宿題の手助けやDIYの手順確認といった“リビングの日常”にも手を伸ばす設計で、Google自身がテレビ向けに最適化した回答体裁を採用しているのが特徴です。 業界目線では、テレビの主役がアプリの並びから“会話ハブ”へと移る転換点です。年初のCESで予告されていた「テレビにGemini」の構想は、TCL先行→他社/他デバイスへと段階的に広がり、今回のGoogle TV Streamer対応で裾野が一気に拡大。LGやSamsungがCopilot連携を進める中、居間のAIアシスタント競争は“内蔵TV”と“外付け端末”の両面で本格化しています。 導入の実務では、まず端末のソフト更新を適用すれば準備完了です。音声起動はリモコンのマイクボタン経由で、従来の「OK Google」の決まり文句に縛られず自然文でやり取りできます。なお、配信は段階的で地域/言語ごとの差もあるため、表示の案内やg.co/tv/geminiの説明ページをあわせて確認するとスムーズです。

    4 min
  7. -10 H

    Ep.690 Google、7世代目TPU「Ironwood」GAとAxion新VM──“推論の時代”の実装図(2025年11月13日配信)

    発表は米国時間で2025年11月7日。Google Cloudは第7世代TPU「Ironwood」の一般提供(GA)と、独自Arm CPU「Axion」による新VMをまとめて打ち出し、トレーニング偏重から“低遅延・高スループットな推論とエージェント運用”へ主戦場が移るいまに合わせて、シリコンからソフトまでの同時最適を前面に出しました。Ironwoodは大型学習から強化学習、そして大規模推論まで単一スタックで回す思想が特徴です。公称ではTPU v5p比でピーク10倍、Trillium(v6e)比でチップ当たり4倍超の性能を提示。9,216チップを直結するスーパーPodでは9.6Tb/sのICIで結ばれ、総1.77PBのHBMを共有しながらOCSが障害をバイパスして稼働を保ち、必要に応じてPod間もJupiterネットワークで拡張します。電力効率もTrillium比で2倍を謳い、推論の費用対効果を押し上げます。 足元の需要感も具体的です。Anthropicは2026年に向けて最大100万個のTPUにアクセスする計画を明らかにし、画像・動画生成系のLightricksやフロンティア系のEssential AIもIronwoodの価格性能に手応えを示しています。Googleはソフト面でもvLLMによるTPU推論の最適化やMaxTextの強化、GKEのCluster Directorでの保守・トポロジー認識などを公開し、“学習→微調整→提供”の一連を同じ土台で運用できるよう磨き込みを続けています。 一方、アプリ側の土台を担うのがAxionです。新しいN4Aはプレビュー提供を開始し、最新世代のx86系VMに対して最大2倍の価格性能を掲げます。最大64 vCPU・512GBメモリ・50Gbpsネットワークに加え、カスタムマシンタイプとHyperdisk群で“無駄のないサイズ決め”をしやすくしました。あわせて初のArmベアメタル「C4A metal」も予告。既存のC4Aと組み合わせれば、データ前処理やAPIサーバ、バッチ、ミドル規模DBなど“推論を支える日常計算”をAxionに寄せ、重い前処理や長いデコードをTPUに渡す分業が現実解になります。初期ユーザーからは動画トランスコードでの性能向上やデータ処理パイプラインの価格性能改善といった報告も示されました。 仕上げは提供面の工夫です。GKE Inference Gatewayはプレフィル/デコードの性質に応じた分散サービングとプレフィックス指向LBで、TTFT最大96%短縮・提供コスト最大30%削減をうたい、“待ち時間を感じさせない体験”をTPUサービングで狙います。IronwoodのvLLM対応と合わせ、GPU/TPUの切り替えや混在運用のハードルも下がりました。推論を事業の中核に据える企業にとって、「Axionで土台を効率化し、IronwoodでAIを走らせる」構成は、費用対効果と拡張性の両立策としてわかりやすい一手になります。

    5 min
  8. -10 H

    Ep.689 Kimi K2 Thinking──“考えるエージェント”は何が新しいのか(2025年11月13日配信)

    11月6日、Moonshot AIが「Kimi K2 Thinking」を発表しました。1兆パラメータ級のMoEで32Bのみを活性化しつつ、推論の途中で検索や実行環境を呼び出す“思考とツールのインタリーブ”を前提に設計された、いわば「長丁場に強いエージェント」です。特徴は三つ。第一に、ネイティブINT4で推論を回し、低遅延と省メモリを両立。第二に、256Kトークンの長大コンテキスト。第三に、200〜300回規模の連続ツール呼び出しでも目標整合性を保つ安定性です。これらはMoonshotが公開したモデルカードで明確にうたわれています。 性能面では、K2 Thinkingは推論・探索・コーディングの“実務寄りベンチ”で強さを示しました。たとえばHLEのツールあり設定で44.9%、BrowseCompで60.2%と報告し、K2以前の多くの公開モデルを上回る指標を複数提示しています。SWE-benchのような実コード課題でも、ツール前提の検証で70%超に達する指標が並びました。もっとも、これらは同社定義の評価条件(温度設定や思考トークン上限、INT4前提など)に基づく公表値であり、一般向けチャットUIではベンチ構成を簡略化しているため数値が再現しない場合がある、との但し書きも添えられています。 基盤となるK2の設計思想は、計算量の“使いどころ”を見極めるアーキテクチャです。K2は384のエキスパートを抱える1.04兆パラメータのMoEで、推論時は32Bを選択活性。注意機構にはMLAを採用し、学習は15.5兆トークン規模。MuonClip(Muon×QK-Clip)で損失スパイクなく大規模学習を走らせた、と技術報告は述べています。K2 Thinkingはこの土台に“思考×ツール”の訓練を重ね、長期計画・自己批評・検証のループを設計に埋め込みました。 産業的な意味合いも見ておきましょう。MoonshotはK2/K2 Thinkingを改変MITライセンスで公開しつつ、APIでも提供する“二面作戦”で開発者の裾野を広げています。中国勢は2025年にかけてオープン戦略を加速しており、K2のオープン化はその文脈で国際的な存在感を取り戻す狙いも読み取れます。閉じた最前線モデルと比べても、推論・エージェント系タスクでは“場面次第で互角以上”の数字を出し始めたことで、企業は「コスト×性能×運用自由度」の再評価を迫られそうです。 最後に使いどころです。長文の比較検証や資料作成、調査→要約→根拠リンク提示までの“手続きが長い仕事”はK2 Thinkingの得意領域です。内部で思考ログ(reasoning_content)を併走させ、必要なときだけ関数や検索を挿入するため、過程の可視化と検証がしやすい。一方で、評価値はツール構成や温度、出力長上限に敏感です。自社運用ではvLLMやSGLangなど推奨エンジンを使い、ワークフロー単位でプロンプトとツール設計を固定化することが、公開値に近い安定性を出す近道になります。

    6 min

À propos

システムサーバーの社長である鈴木生雄が気になるITニュースをピックアップして数分のコンテンツとしてお届けする番組です。主に取り上げるニュースはAI、半導体、ビッグテック企業です。

Vous aimeriez peut‑être aussi