株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 私立ずんだもん女学園放送部 podcast 20260612

    2日前

    私立ずんだもん女学園放送部 podcast 20260612

    youtube版(スライド付き) 関連リンク OpenAI to acquire Ona 概要:OpenAIによる「Ona」の買収とAIエージェントの未来 OpenAIは、安全なクラウド実行環境とシステム管理(オーケストレーション)技術を持つ「Ona」を買収することを発表しました。この買収の目的は、OpenAIの開発者向けAI支援プラットフォームである「Codex」を強化し、自律的に動く「AIエージェント」をより実用的かつ安全に使えるようにすることです。 1. なぜOnaが必要なのか?「永続的」なAI作業の実現 現在、Codexは週に500万人以上のユーザーに利用されています。従来のAIツールは、人間が指示を入力して数秒〜数分で回答を得る「単発のやり取り」が中心でした。しかし、AIが人間の代わりに「テストの実行」「バグの修正」「システムの移行」といった複雑なタスクを自律的にこなす(エージェント化する)ようになると、作業時間は数時間から数日間に及びます。 ユーザーがPCを閉じたり、ブラウザのセッションを切ったりしても、AIがクラウド上で安全に作業を継続できる「永続的な(裏側で働き続けられる)実行環境」が必要です。Onaはこれまで、200万人以上の開発者に対してセキュアなクラウド開発環境を提供してきた実績があり、その知見と技術がCodexの次の進化に直接活かされます。 2. 企業が求める「セキュリティと管理性」の確保 AIエージェントを実際の業務システム(本番環境)で動かすためには、セキュリティや権限管理が極めて重要になります。機密データへのアクセス制限や、AIの操作ログの記録、人間の承認フローの構築などが必須です。 Onaの技術(顧客管理型の実行モデル)を導入することで、企業は自社のクラウド環境内で安全にAIエージェントを動作させることができるようになります。OpenAIが優れた「知能」を提供し、Onaの技術が「安全な実行境界(インフラ)」を担保することで、企業はデータ漏洩などのリスクを抑えながらAIの恩恵を最大化できます。 3. 今後の展望とエンジニアへの影響 買収手続き完了後、OnaのチームはOpenAIに合流し、開発のライフサイクル全体(テスト、脆弱性対応、複雑なワークフローの維持など)をAIが安全にサポートできる環境を作ります。 エンジニアにとっては、「AIに長時間の面倒な作業を任せ、自分は進捗の確認や最終的な意思決定に集中する」という、新しい開発スタイルが当たり前になる未来を引き寄せる重要なニュースです。 引用元: https://openai.com/index/openai-to-acquire-ona Introducing North Mini Code: Cohere’s First Model For Developers Cohere社は、自律型AIエージェントによるソフトウェア開発に特化した、開発者向けの新しいコード生成モデル「North Mini Code」をApache 2.0ライセンスで公開しました。 本モデルは、総パラメータ数30B(300億)のスパースMixture-of-Experts(MoE)モデルであり、推論時にはそのうち3B(30億)のパラメータのみをアクティブにする軽量な設計です。それでありながら、同等クラスやさらに巨大な競合のオープンソースモデルを凌駕する極めて高いコーディング・エージェント性能を誇ります。 ■ 主な特徴とアーキテクチャ ・ハイブリッド・アテンション: 局所的な処理を行うスライディングウィンドウと、全体を俯瞰するグローバルなアテンションを組み合わせることで、長文のコードも効率的に処理します。 ・MoE(混合専門家)構成: 128個の「専門家(エキスパート)ブロック」からなり、トークンごとに最適な8個をアクティブにします。これにより、無駄な計算を省きつつ高度な推論が可能です。 ■ 高性能を実現する学習アプローチ(ポストトレーニング) 実世界で「動くAIエージェント」として機能させるため、以下の高度な学習プロセスが採用されています。 2段階のSFT(教師あり微調整): 1段階目で基礎的なコーディングや推論能力を学習させ、2段階目で検証済みの高品質なエージェント行動データ(最大128Kの長い文脈)を用いて専門性を高めました。 複数環境(ハーネス)への適応: AIエージェントが操作する開発環境やツール(SWE-Agent、OpenCodeなど)は多種多様です。複数の環境データを混ぜて学習させることで、予期せぬツール環境でも正しく機能する「頑健性(ロバスト性)」を獲得しました。 実証可能報酬を用いた強化学習(RLVR): コードが実際に実行可能か、ユニットテストをパスするかといった「結果」に基づいてモデルを強化しました。これにより、無駄なコードの繰り返しや、ツールの誤用、ハルシネーション(嘘の出力)が劇的に減少しました。 ■ 評価と成果 人間による評価では、強化学習(RLVR)を行ったモデルは、SFTのみの段階と比較して「コード修正タスク」などで66.1%の勝率を収め、大幅な実用性の向上が確認されました。 新人エンジニアにとって、開発を強力にサポートしてくれる頼もしいAIエージェントの基盤となるモデルです。BF16版および軽量なFP8版の重みがすでに公開されており、APIやHugging Face経由で手軽に利用できます。 引用元: https://huggingface.co/blog/CohereLabs/introducing-north-mini-code Build AI-powered scripts with the fm CLI and Python SDK - WWDC26 - Videos - Apple Developer macOS 27で導入された、Appleの高性能なローカルAI(Apple Foundation Models)を、コマンドラインやPythonから手軽に操作できる新機能「fm CLI」と「Python SDK」についての解説です。これまでSwiftでの開発が中心だったAppleのAIモデルを、エンジニアが使い慣れているシェルスクリプトやPythonから直接呼び出せるようになり、開発や運用の効率が飛躍的に向上します。 1. ターミナルでAIを動かす「fm CLI」 macOS 27に標準搭載された fm コマンドを使うと、ターミナルから直接オンデバイスAIや、より高性能なPrivate Cloud Compute(PCC)のサーバーモデルを呼び出せます。 直感的な操作: fm respond "質問" と入力するだけでAIから回答を得られます。テキストだけでなく、画像ファイルを渡して「このスクリーンショットに写っているアプリは何か」を解析させることも可能です。 構造化出力(JSON): AIの回答を指定したJSON形式に固定して出力させられます。これにより、プログラムで扱いやすいデータを取得できます。 業務の自動化: これらをシェルスクリプトに組み込むことで、「フォルダ内にある複数のファイルをAIに判定させ、最新版と下書きに自動で仕分ける」といった高度な自動化タスクが簡単に作れます。 2. アイデアを素早く形にする「Python SDK」 機械学習(ML)の分野で広く使われているPython向けに、ライブラリ apple_fm_sdk が提供されました(動作要件:Apple Silicon搭載Mac、Python 3.10以上、Xcode)。Swiftで本実装する前のプロトタイピングに最適です。 ツール呼び出し(Tool Calling): AIが状況に応じて、自作したPythonプログラム(例:ユーザーの過去の注文履歴を取得する関数)を自発的に実行して回答に役立てることができます。 構造化生成(Guided Generation): @fm.generable というデコレータを使うことで、AIの回答を特定のPythonオブジェクト(クラス)として直接受け取ることができます。パース処理を自作する必要がありません。 3. 豊富なエコシステムを活用した「プロンプト評価」 Python SDKを使う最大のメリットは、Jupyter Notebook、Pandas、matplotlibなどの強力なPythonエコシステムと連携できる点です。アプリに組み込むプロンプト(AIへの指示文)の回答精度をテストデータで自動採点し、グラフ化して分析する「評価パイプライン」を容易に構築できます。Swiftでアプリを作り込む前に、Python上でプロンプトの試行錯誤を高速に回すことができます。 まとめ このアップデートにより、エンジニアは特別なAIインフラを用意することなく、手元のMac上で動く強力なローカルAIをスクリプトやアプリ開発に組み込めるようになりました。まずはターミナルを開いて fm respond を試したり、Python SDKを使って簡単なAIアシスタントを作ってみることから始めてみましょう。 引用元: https://developer.apple.com/videos/play/wwdc2026/334/ 「クロード!もういい!もどれ!」Claude Fableが50時間かけて「ポケモンFR」をクリア Anthropicの最新AIモデル「Claude Fable 5」が、人間の手助けなしに『ポケモン ファイアレッド』を約50時間で自律クリアしました。外部データは一切使わず、人間と同じようにゲーム画面の視覚情報だけを頼りに状況を判断

  2. 3日前

    株式会社ずんだもん技術室AI放送局 podcast 20260611

    youtube版(スライド付き) 関連リンク Claude Fable 5 のプロンプティング 本ドキュメントは、新モデル「Claude Fable 5」および「Claude Mythos 5」を効果的に活用するための、プロンプティングと設計(スキャフォールディング)のベストプラクティスを解説したガイドです。旧モデル(Opus 4.8)からの進化を踏まえ、エンジニアが押さえるべき要点をまとめました。 1. Claude Fable 5 の主な進化 Fable 5は、従来は複雑すぎたり長時間を要したりしたエンドツーエンドの課題で真価を発揮します。 長期の自律性と正確性: 数日間にわたる目標に向け、指示を保持したまま自律実行します。複雑なタスクでも、一回の実行(シングルパス)で正確に実装する能力が向上しました。 ビジョンとデバッグの強化: 技術的な画像や図の解釈、リポジトリ全体を対象としたデバッグ精度が大幅に向上しています。 高度な並列協調: 複数の並列サブエージェントをディスパッチし、非同期に通信させながらタスクを進行させることが得意です。 2. プロンプティングのコツ 指示追従能力が大幅に向上したため、プロンプトの設計思想をアップデートする必要があります。 エフォート(Effort)レベルの調整: high(デフォルト)や最難関タスク用のxhighだけでなく、日常のタスクにはlowやmediumを活用します。低設定でも旧モデルを凌駕するパフォーマンスを発揮し、速度とコストを節約できます。 指示はシンプルに: 指示追従が極めて高いため、細かなルールを列挙せず「簡潔に記述して」などの一言で余計な説明を排除できます。 境界(制約)の明示: 自律性が高く、依頼していない不要な関連作業まで実行することがあるため、「やってはいけないこと」を明示的に定義します。 メモリの提供: Markdownファイルなどのシンプルな履歴ファイルを用意し、これまでの実行の教訓を記録・参照させるとパフォーマンスがさらに向上します。 3. 推奨されるシステム設計の変更 応答テキスト内での思考(推論)再現の禁止: プロンプトで「思考プロセスを回答に書き出して」と要求すると、拒否(refusal)を誘発する原因になります。思考過程が必要な場合は、専用の「適応的思考(adaptive thinking)」ブロックを読み取ります。 非同期実行とタイムアウトの調整: 深い推論や自律実行には数分〜数時間かかる場合があります。クライアント側での接続タイムアウトを防ぐため、非同期ジョブとして進捗を確認できる設計に切り替えます。 古いプロンプトのリファクタリング: 旧モデル向けの細かすぎるスキル指示は、Fable 5本来の力を抑制してしまうため、不要な指示は積極的に削除します。 Fable 5は、細かくAIを誘導するのではなく「適切な目標と制約を与えて自律的に解決させる」という、次世代のエージェント開発に適したモデルです。 引用元: https://platform.claude.com/docs/ja/build-with-claude/prompt-engineering/prompting-claude-fable-5 DiffusionGemma: 4x faster text generation Googleは、テキスト生成の推論速度を最大4倍に高速化する実験的なオープンモデル「DiffusionGemma」を発表しました。Apache 2.0ライセンスで公開されており、GPUの処理能力を最大限に引き出す新しいアプローチ「テキスト拡散」を採用しています。 ■ 従来のモデルとの違いと「テキスト拡散」の仕組み 従来の一般的な大規模言語モデル(LLM)は「自己回帰型」と呼ばれ、文字(トークン)を左から右へ1つずつ順番に出力します(タイプライターのような動作)。この方式は、ローカル環境で1人のユーザーが実行する場合、GPUが次の文字の計算を待つ状態になり、ハードウェアの性能を活かしきれない課題がありました。 一方、DiffusionGemmaが採用する「テキスト拡散」は、画像生成AIのように「ノイズ状態から徐々に鮮明な画像を浮き上がらせる」プロセスをテキストに応用したものです。256トークン分のテキストブロックを並列かつ同時に生成・推敲し、一気に書き上げる(印刷機のような動作)ことで、GPUの計算リソースを無駄なく使い切り、圧倒的な高速化を実現しています。 ■ 主な特徴とメリット 圧倒的な推論速度:専用GPUを用いることで最大4倍の高速化を達成。NVIDIA H100で毎秒1000トークン以上、GeForce RTX 5090でも毎秒700トークン以上の出力が可能です。 省メモリなMoE設計:全体で26B(260億パラメータ)のMixture of Experts(MoE:処理に応じて必要なパーツだけを起動する仕組み)ですが、推論時に動くのは3.8Bのみです。量子化することで、18GB VRAMのコンシューマー向けGPUでも快適に動作します。 双方向アテンション:生成時にすべてのトークンが互いに関連し合えるため、文章の前後関係を同時に考慮できます。従来のLLMが苦手だった「コードの穴埋め」や「数独の解決」といった非線形なタスクに強みを発揮します。 リアルタイムの自己修正:テキスト全体を同時に見渡しながら生成するため、文法エラーや記述ミスをリアルタイムに検知して自己修正できます。 ■ 注意点とおすすめの用途 本モデルは「速度と並列生成」に特化した実験的モデルであるため、出力の「総合的な品質」自体は標準的な「Gemma 4」より低くなります。そのため、高品質な回答が必要な本番システムには従来の「Gemma 4」の利用が推奨されます。 DiffusionGemmaは、エディタでのリアルタイムなコード補完やインライン編集、すばやい試行錯誤が必要なローカル開発など、低遅延(ローカル推論)が最優先されるインタラクティブな開発プロセスで真価を発揮します。 引用元: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/ オープンソースプロジェクト「context-mode」がGitHubトレンド1位に:AIプログラミングのコストを98%削減、Token不安の解消に期待 AIプログラミングツールの普及に伴い、開発者は「高額なAPI利用料(トークン消費)」と、会話が長くなると「AIが途中で前提条件を忘れてしまう記憶喪失」という2つの大きな課題に直面しています。これらを根本から解決するために開発され、GitHubでトレンド1位を獲得するなど世界中で大きな注目を集めているオープンソースプロジェクトが「context-mode」です。 context-modeは、AIモデルと外部システムを繋ぐ標準規格「MCP(Model Context Protocol)」に対応した軽量なプラグインです。プログラミング時におけるAIのトークンコストを最大98%削減し、AIの有効な記憶時間を従来の30分から3時間へと大幅に引き延ばすことができます。 このツールは、主に以下の3つのアプローチで課題を解決します。 仮想サンドボックスによる無駄なトークンの削減 従来のツールは、ファイルの全データをそのままAIに流し込むため、トークン消費が急増していました。context-modeはローカル環境にデータを保存し、AIには必要な情報だけを絞って提供することで、データ読み込み時のトークンコストを大幅に削減します。 「スナップショット」による記憶の維持 会話が長くなるとAIは過去の指示を忘れてしまいます。これを防ぐため、開発の進捗やルールをまとめた軽量な要約(スナップショット)を定期的にAIへ自動注入し、重要な設計や前提ロジックを忘れさせない仕組みを提供します。 「コードで思考(Think in Code)」の推進 AIに大量のデータを直接読み込ませて処理させるのではなく、「データを処理するためのスクリプト」をAI自身に書かせ、ローカルで実行した結果だけをAIに返します。これにより、AIとの高価なやり取りを最小限に抑え、トークンコストを劇的に抑えます。 導入のしやすさと今後の展望 context-modeは、Cursorなどの既存の開発環境(IDE)にそのまま組み込めるアドオン(ミドルウェア)として設計されているため、導入のハードルが非常に低いのが強みです。すでに世界中で24万人以上の開発者や大手IT企業に採用されています。さらに、企業向けにAIの利用コストやエラー発生率を可視化・管理する「Insights」という機能も現在テスト中です。 無駄な情報を極限まで削ぎ落とし、賢くAIを活用する「context-mode」は、これからのAI協調開発における新しいスタンダードとして、多くの開発者の財布と開発効率を救う期待のツールです。 引用元: https://finance.biggo.jp/news/MUh9q54BrAZSr0oS5ID7 AIに『マンジャロがテーマの漫才』を考えてもらったら普通に完成

  3. 4日前

    株式会社ずんだもん技術室AI放送局 podcast 20260610

    youtube版(スライド付き) 関連リンク Claude Fable 5 and Claude Mythos 5 米Anthropic社は、同社史上最高性能を持つ最新AIモデル「Claude Fable 5」および、そのセキュリティ・バイオ研究向けの特別版「Claude Mythos 5」を発表しました。従来のモデルを大幅に上回る実務能力を持ちながら、高度な安全対策が実装されているのが特徴です。日本のエンジニア、特に新人エンジニアが押さえておくべき主要ポイントは以下の4点です。 1. 開発・実務を劇的に効率化する圧倒的な性能 Fable 5は、コーディング、視覚理解(ビジョン)、複雑な意思決定などのベンチマークで世界最高水準(SOTA)の性能を記録しました。 コーディングの超効率化: Stripe社における先行テストでは、通常なら開発チーム全体で2ヶ月以上かかる5,000万行のRubyコードの移行(マイグレーション)作業を、Fable 5がわずか1日で自律的に完了させました。 高度な視覚理解: 画面のスクリーンショット画像だけを頼りにWebアプリのソースコードを再構築できます。また、補助ツールを一切使わず、ゲーム画面の画像入力のみで『ポケットモンスター ファイアレッド』をクリアするほどの空間・状況把握能力を持ちます。 自律性と記憶力の向上: 外部メモリを活用し、長期にわたるタスクでも破綻せずに自律的に思考を継続できます。 2. 安全性を担保する「フォールバック」システム 高い能力を持つAIはサイバー攻撃などに悪用されるリスクもあります。これを防ぐため、Fable 5には危険な対話を検知する高度な「分類器(セーフガード)」が搭載されました。 もしサイバー攻撃やバイオ兵器に関連する危険な質問だと判定された場合、システムは回答を拒否するのではなく、安全な前世代モデル「Claude Opus 4.8」に自動で処理を引き継ぎます(フォールバック)。通常の用途(95%以上のセッション)ではこの制限に引っかかることなく、Fable 5のフルパワーを利用できます。 3. 専門家向けの特別版「Claude Mythos 5」 Fable 5と全く同じモデルでありながら、サイバーセキュリティやバイオ分野のセーフガードを解除した「Mythos 5」も提供されます。こちらは、政府機関や信頼されたセキュリティ防衛組織、高度な医薬品・ゲノム研究を行う専門家にのみ、厳格な審査を経て限定提供されます。 4. 価格とデータ保持ポリシー 低価格化: 入力100万トークンあたり10ドル、出力100万トークンあたり50ドルに設定され、従来のプレビュー版の半額以下に抑えられています。 データの30日保持: 新たな安全基準として、ビジネスデータは30日間保持されます(ただし安全確認目的のみに使用され、AIの学習には一切使われません)。 提供状況: APIおよび一部プランで即日利用可能となっており、個人向けのProプランなどでも段階的に展開される予定です。 Fable 5の登場により、エンジニアが面倒な定型業務をAIエージェントに丸投げし、より本質的な設計や創造的タスクに集中できる未来がすぐそこまで来ています。 引用元: https://www.anthropic.com/news/claude-fable-5-mythos-5 Fluid, natural voice translation with Gemini 3.5 Live Translate 2026年6月9日、Googleは音声から音声への翻訳をほぼリアルタイムで実現する最新モデル「Gemini 3.5 Live Translate」を発表しました。本モデルは、従来の翻訳システムが抱えていた「不自然な間」や「感情の欠如」という課題を打破する画期的な技術です。 ■ 技術的な特徴と革新性 Gemini 3.5 Live Translateの最大の特徴は、70以上の言語を自動検出し、話し手の「抑揚(イントネーション)」「話速(ペース)」「声の高さ(ピッチ)」を維持したまま、自然な音声を生成する点にあります。 従来のシステムは話し手が最後まで話し終えるのを待ってから翻訳を開始する「ターン制」が主流でしたが、本モデルはストリーミング処理により継続的に音声を生成します。文脈の理解度と即時性のバランスを高度に制御することで、話者からわずか数秒遅れるだけの、スムーズで同時通訳に近い体験を提供します。 ■ 開発者向けの提供と活用 新人エンジニアの方にとっても、この強力な機能を自分のアプリケーションに組み込むチャンスがすぐに用意されています。 ・APIの公開:Gemini Live APIを通じて、パブリックプレビューとして利用可能です。Google AI Studioでも試すことができます。 ・優れた堅牢性:高度なノイズ耐性を備えており、騒がしい屋外や予測不可能な環境でも動作します。 ・エコシステムの活用:LiveKit、Agora、Pipecatといった主要なリアルタイム通信SDKがすでに対応しており、複雑なストリーミングインフラを自前で構築しなくても、高品質な音声翻訳機能を実装できる環境が整っています。 ■ 実際の展開と安全性 この技術はGoogle MeetやGoogle Translateアプリにも順次導入されます。特にGoogle Meetでは、これまで英語を中心とした限定的な対応でしたが、今後は2000以上の言語ペアでの会話が可能になり、グローバルな会議のあり方を一変させます。 また、生成されたすべての音声には、Googleの電子透かし技術「SynthID」が不可視の状態で埋め込まれています。これにより、AI生成コンテンツであることを識別可能にし、誤情報の拡散を防ぐといった「責任あるAI」としての安全策も講じられています。 多言語コミュニケーションの壁を取り払うこの技術は、世界のエンジニアが協力して開発を行う現場や、グローバル展開するプロダクトの可能性を大きく広げる、非常にエキサイティングなニュースです。 引用元: https://deepmind.google/blog/fluid-natural-voice-translation-with-gemini-35-live-translate/ OpenCV 5 Is Here: The Biggest Leap in Years for Computer Vision コンピュータビジョンの世界標準ライブラリであるOpenCVが、数年ぶりのメジャーアップデートとなる「OpenCV 5」をリリースしました。これまでのOpenCV 4系では、最新のディープラーニング(DL)モデルを読み込もうとするとエラーが出ることもありましたが、今作は「現代のAI・DL環境への完全対応」を掲げた、非常に意欲的な進化を遂げています。 最大のハイライトは、完全に再設計された「新DNNエンジン」です。ONNX(モデル共有用フォーマット)の対応率が従来の22%から80%以上へと劇的に向上しました。内部構造が「グラフベース」に刷新されたことで、推論時に計算順序を最適化したり、複数の処理を一つにまとめたりすることが可能になり、ONNX Runtimeなどの専用エンジンに匹敵、あるいは凌駕する実行速度を実現しています。 さらに驚くべきは、LLM(大規模言語モデル)やVLM(視覚言語モデル)へのネイティブ対応です。ライブラリ内にトークナイザー(文字を数値化する処理)やキャッシュ機構が組み込まれたため、OpenCVだけで画像の説明文を生成したり、チャットAIを動かしたりできます。また、物体を自然に消去する「LaMa」を用いた画像修復機能なども追加されており、生成AI時代の機能を標準装備しています。 新人エンジニアにとって嬉しい、開発環境の現代化も行われました。 言語仕様の刷新: C++17が標準となり、古いC言語時代の負の遺産(C API)が整理されました。 Pythonの使い勝手向上: Pythonでキーワード引数が使えるようになり、引数の順番を覚えなくてもコードが書けるようになりました。またNumPy 2.xにも対応しています。 ハードウェア加速: 新たな抽象化レイヤー(HAL)により、IntelやARM、RISC-Vなど、どんなCPU・チップ上でもコードを変えずに高速動作する仕組みが整いました。 3Dビジョン機能もモジュールごとに整理され、複数カメラのキャリブレーションや点群処理が扱いやすくなっています。ドキュメントも一新され、検索性が向上しました。 OpenCV 5は、古典的な画像処理から最新の生成AIまでを一気通貫で扱える強力なツールへと生まれ変わりました。今後のアップデートでは、この新エンジンによるGPU加速や、前処理・後処理まで含めたハードウェア高速化も予定されています。最新のAIモデルをプロダクトに組み込みたいエンジニアにとって、必見のリリースです。 引用元: https://opencv.org/opencv-5/ パイの奪い合いといいつつ皆ピザを想像している オタク 「パイの奪い合い」という慣用句を聞いた際、多くの人が本来の洋菓子ではなく、ピザを脳内でイメージしているのではないかという日常の気づきを綴ったエッセイです。日本人にとって馴染

  4. 5日前

    株式会社ずんだもん技術室AI放送局 podcast 20260609

    youtube版(スライド付き) 関連リンク Claude Code × Claude Design で趣味のアプリを作った話 本書は、開発者の広瀬氏がAIコーディングエージェント「Claude Code」とUIモック生成ツール「Claude Design」を駆使し、個人で筋トレ記録アプリを開発した体験レポートです。新人エンジニアにとって、最新のAIアシスタントと協働する「次世代のシステム開発フロー」を学ぶ上で非常に参考になる内容となっています。 1. 開発の概要と技術構成 電波の弱いジムでも快適に動くよう「オフラインファースト」を掲げたモバイルアプリを開発。技術選定や詳細設計は、Claude Codeに相談しながら一つずつ決定されました。 フロントエンド: Expo SDK 54 (React Native), TypeScript バックエンド: Supabase (Postgres, Auth, RLS) 状態管理: TanStack Query (キャッシュを利用したオフライン対応) 2. AIと人間が協働する「開発フロー」 開発は、設計・実装を担当する「Claude Code」と、UIデザインを担当する「Claude Design」をシームレスに行き来しながら進められました。 計画・設計(Claude Code): 要件(オフライン対応、指標計算など)を伝えて、データモデルや画面構成、分割されたタスクの提案を受け、対話しながら設計を決定。 プロジェクト専属「Skill」の育成: 繰り返し行う手順(型定義の再生成、UIスタイルガイドなど)をMarkdown形式の手順書(Skill)として定義。AIが自律的にこれを参照して開発を進める仕組みを構築。 デザインモックの生成(Claude Design): Claude Codeに詳細なデザイン仕様を書き出してもらい、それをClaude Designに渡すことでイメージに沿ったUIモック(JSX)を生成。 実装(Claude Codeへの受け渡し): モックのデザインファイルをClaude Codeに読み込ませ、React Nativeの実装コードへ自動変換。 ズレの監査とテスト: 自動でモックと実装コードの差分をチェックする監査エージェントを動かしつつ、最終的には自身の目で実機確認。また、コードの崩壊を防ぐため、機能ごとにJest(ユニットテスト)やMaestro(E2Eテスト)によるテストをこまめに実行。 3. 新人エンジニアが持ち帰りたい教訓 AIに毎回同じ説明をしない: 共通の前提やルールをあらかじめドキュメント(Skill)にまとめておくことで、指示の精度が上がり、開発テンポが向上します。 こまめなテストで手戻りを防ぐ: AIは高速に大量のコードを出力するため、最後にまとめて確認するとバグの特定が困難になります。テストを小刻みに挟むことが成功の秘訣です。 「作る楽しさ」を主目的にする: 評価軸や技術選定をすべて自分で決められる「趣味の個人開発」は、エンジニアとしての視野を広げ、結果として業務に活きる大きな経験値となります。 最新ツールを組み合わせることで、一人でも設計・デザイン・実装・テストの全工程を高品質に回し切れる、夢のある開発手法を示した好例です。 引用元: https://blog.asial.co.jp/6808/ AIウォーターフォール開発:コンテキストゼロのAIを一人前にする仕組み 本書は、AIを活用したシステム開発において、AIが過去の設計判断やドキュメントのつながりを理解できないという課題を解決するための新しい開発手法を提案しています。 1. AI開発における課題:記憶喪失の「新人」 Claude Codeなどの高度なAIツールは非常に優秀ですが、セッションを開始するたびに記憶(コンテキスト)がリセットされてしまいます。プロジェクトの背景や過去の意思決定をその都度説明し直す必要があり、まるで「毎朝記憶を失ってやってくる新人エンジニア」に指示を出すような状態になってしまいます。ただ関連資料を渡すだけでは、仕様の矛盾や他への影響範囲にAI自身が気づくことは困難です。 2. 解決策:ドキュメントの「トレーサビリティ(追跡可能性)」 この課題を解決するため、従来のウォーターフォール開発が持つ「トレーサビリティ(設計のつながりを追いかけられる状態)」の仕組みを導入します。「どの要件が、どの仕様に紐づき、どのテストで検証されるか」というドキュメント同士の「つながり」を、AIが自分で辿れるように設計します。 具体的には、以下のレイヤーでドキュメントを体系化し、相互に関連付けます。 ADR(設計判断の理由・背景) REQ(要件) SPEC(仕様) BF(業務フロー) TC(テストケース) src(実際のソースコード) 3. 推進するための技術的アプローチ これらをAIに効率よく理解させるため、著者は以下の技術を組み合わせています。 グラフデータベース(Neo4j)の活用: ドキュメントを「点(ノード)」、関係性を「線(エッジ)」として登録し、ドキュメント同士の「つながりの地図」を作ります。 GraphRAGによる検索の最適化: グラフ構造を辿ることで、関連する情報だけをピンポイントで検索し、AIに渡す情報を最小限に抑えます。 AIの行動のパターン化: 実装前に影響範囲を自己評価させる /impact-report や、仕様の矛盾をチェックする /spec-check などのカスタムコマンドを整備。「いきなりコードを書かせず、まず設計の整合性を確認させる」プロセスを徹底します。 CI/CDによる自動化: GitHub Actionsを使い、ドキュメントの参照関係が壊れていないかの自動チェックや、プルリクエスト時の影響範囲の自動レポートを行います。 まとめ AI開発で本当に必要なのは、ドキュメントを大量に読ませることではなく「関係性を整理して伝えること」です。ドキュメント同士のつながりを可視化し、AIがそれを辿れる仕組み(トレーサビリティ)を作ることで、記憶がリセットされるAIでも、迷わずに安全な開発が行えるようになります。 引用元: https://zenn.dev/abalol/articles/579296fa31056f Lookerとセマンティックレイヤーで作る会話分析の運用と評価 データ分析において「別の切り口でデータを見たい」という要望への個別対応は、データエンジニアの大きな負担になります。ファインディ社では、Lookerの「会話分析(自然言語の質問に対して、AIが裏でクエリを自動作成・実行して回答する機能)」を活用し、ユーザーが自律的にデータを抽出・分析できる仕組みを構築しました。 ■ 1. セマンティックレイヤー(Explore)を入口にする理由 データベースにある生のテーブルをそのままAIに渡すと、データの意味や集計ロジックが曖昧なため、誤った回答の原因になります。 そこで、データの定義や集計ルールを1箇所に集約した「セマンティックレイヤー(LookerのExplore)」をAIの参照先に指定しました。これにより、以下のメリットが生まれます。 ・データの信頼性向上: AIがダッシュボードと同じ定義(SSoT: 正しい単一のデータソース)を参照するため、数値の食い違いを防げます。 ・コンテキストの最適化: AIに渡す情報が限定されるため、回答精度が向上します。 ※複数データを横断するファネル分析などの弱点に対しては、ユーザー行動を1行にまとめた「累積ファクトテーブル」をあらかじめ用意してExplore化することで解決しています。 ■ 2. エージェントのGit管理とCI/CD AIエージェントのシステムプロンプトや設定をGUI(画面)で直接編集すると、変更履歴が追えなくなります。そこで、エージェント定義をYAMLファイルに書き出してGitで管理し、GitHub Actionsを通じて自動でLookerに反映する仕組みを導入しました。 ■ 3. 回答品質を担保する「2軸評価」 プロンプトや定義の変更が回答精度にどう影響したかを検証するため、CIで自動評価する仕組みを構築しました。 ・軸1(LLMによる採点): Vertex AIの評価サービスを使い、別のLLM(LLM-as-a-Judge)が「指示に従えているか」「読みやすいか」などを客観的に段階評価します。 ・軸2(クエリの機械的検証): AIが実際に発行したSQLクエリが、意図したテーブルやフィルタを使っているかをテスト(アサーション)で厳密に検証します。 評価結果はプルリクエストに自動コメントされ、ユーザーからのフィードバックをもとに評価ケースを継続的にアップデートしています。 ■ 成果 Lookerユーザーの約半数が会話分析を活用するようになり、社内からのデータ抽出依頼はほぼゼロになりました。データチームは単純作業から解放され、より高度なデータ活用や分析業務に注力できるようになりました。 引用元: https://tech.findy.co.jp/entry/2026/06/08/080000 素人でも手軽に“それっぽい”動画が作れて

  5. 6日前

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260608

    youtube版(スライド付き) 関連リンク E2Eテストを民主化したら、朝には失敗の分析も再実行も修正PRも終わっていた 本書は、医療スタートアップ企業がPlaywrightを用いたE2E(エンドツーエンド)テストの運用を、QA(品質保証)チームから各開発チームへ「民主化(自分たちで運用すること)」し、その過程で発生した課題をAI(Claude)を活用して解決した実践的な取り組みを紹介しています。 1. 背景と「民主化」における課題 従来、プロダクトのE2EテストはQAチームが単独で作成・保守を行っていましたが、「テスト失敗時の原因特定に時間がかかる」「開発チームからテスト内容が見えにくい」という課題がありました。そこで、各開発チームが自分たちのテストを自ら運用する方針へ切り替えました。しかし、これによって「どのエラーが誰の担当か分かりにくい」「エラー調査などの運用負荷が各チームに重くのしかかる」という新たな問題が発生しました。 2. AI(Claude)を活用した解決アプローチ 開発者の負担を減らし、本来の目的であるバグ修正に集中してもらうため、AI(Claude)を取り入れた自動化の仕組みを構築しました。 担当の見える化: Slackのエラー通知に担当チームのメンションを追加し、誰が対応すべきかを一目で分かるようにしました。 AIによるログの自動分析: 夜間に実行したテスト結果やGitHub ActionsのログをClaudeに渡し、エラー原因が「環境の一時的な問題(Flaky)」か「アプリのバグ」かをAIに判定させ、チームごとに結果を整理してSlackへ通知します。 分析に基づく自動アクションの実行: 環境起因のエラーの場合: AIが自動でテストを「再実行」します。 仕様変更による失敗の場合: AIがコードの修正案を検討し、GitHub上に「修正プルリクエスト(PR)」を自動作成します。 アプリのバグの場合: Slackで担当チームへ直接通知します。 3. 導入効果と今後の展望 この取り組みにより、エンジニアは「朝出社してSlackを開くと、テストの失敗分析も、再実行も、修正PRの作成もすべて終わっている」という状態を実現できました。人間はAIが作成したPRをレビューするだけでよくなり、大幅な工数削減に成功しています。 今後は、AIによる分析やPR作成の精度向上、複数チームにまたがる複雑なテストの分類方法などの課題を改善し、さらなる安定運用を目指していくとしています。 引用元: https://zenn.dev/lincwell_inc/articles/e8e288ee35f5b4 スマホで動くAI、Gemma 4が量子化対応で1GB未満に。Googleが軽量モデル公開 - すまほん!! Googleは、モバイル端末での動作に特化した軽量なオープンAIモデル「Gemma 4」において、量子化(モデルの軽量化)を前提に設計・訓練された新しいモデルを公開しました。これにより、最小構成である「Gemma 4 E2B」はメモリ使用量を約1GB、テキスト専用の用途であれば1GB未満にまで抑えることに成功しました。 本技術の最大の特徴は、軽量化のアプローチとして「QAT(Quantization-Aware Training:量子化意識訓練)」を採用した点にあります。 新人エンジニアの方向けにわかりやすく説明すると、AIモデルを軽量化するプロセスは「スーツケースへの荷物のパッキング」に例えられます。 従来の一般的な手法である「PTQ(学習後の量子化)」は、完成したモデルを力ずくで押し込んで圧縮するため、情報が壊れて品質が落ちてしまいがちでした。一方、今回の「QAT」は「最初からきれいに畳んで詰め込むことを想定して訓練(学習)を行う」ため、極限まで軽量化してもモデルの品質(賢さ)を高く維持できます。Googleのベンチマークでも、従来のPTQを上回る品質が確認されています。 具体的な効果として、4bit形式(Q4_0)への圧縮により、標準的な形式(BF16)と比較して約75%ものメモリ使用量を削減しています。例えば「26B A4B」というモデルは、Q4_0形式にすることでメモリ要件を約14.4GBに抑えつつ、一回り大きな31Bモデルに近い処理性能を発揮します。さらにモバイル向けの超圧縮では、重要度の低い処理部分を2bitまで大胆に削り、推論の中核を担う重要な層は高精度に保つといった、効率的な使い分けを行っています。 このアップデートは、ローカル環境(オンデバイス)でAIを動かしたいエンジニアにとって極めて重要なニュースです。 これまで高い通信コストやサーバー遅延が課題だったAIアプリ開発において、ユーザーの手元のスマートフォン単体、かつオフラインでも動く「実用的なAIアプリ」を開発する未来が一気に現実味を帯びてきました。次世代のアプリケーション開発における強力な選択肢となるでしょう。 引用元: https://smhn.info/202606-gemma-4-quantized-1gb-google-lightweight-on-device-ai AI slop コードレビュー 近年、AIコーディングツールの普及が進む一方で、AIが生成した質の低いコードや、対話の伴わないプルリクエスト(PR)が大量に送られてくる「AI slop(AI製の粗悪なコンテンツ/コード)」問題が、OSSのメンテナを悩ませています。本記事は、Scalaコンパイラの開発に携わる筆者が、AIを使いこなせていないユーザーから届く低品質なPRに直面し、その対応に苦慮している現実を綴ったものです。 筆者が日々コードレビューを行う中で感じている「AI slop PR」の具体的な問題点は以下の通りです。 対処療法的な低品質コード 根本的な解決ではなく、特定のエラーやクラッシュを局所的に回避するためだけの、その場しのぎの修正が多く見られます。 当事者意識の欠如 「PRは作ったので、あとはメンテナがどうにかしてください」という、マージ後の責任を考慮しない無責任なスタンスが目立ちます。 AIとの「バケツリレー」によるコミュニケーションの不透明さ レビュアーからの指摘を、PR作成者がそのままAIに丸投げして返答を待つため、レスポンスが遅くなります。また、作成者自身が仕様を理解していないため、透明性の低いAIと会話させられているような状態に陥ります。 設計の議論を無視していきなりコードを変更する 「なぜこの変更が必要か」「別の方針はどうか」という問いかけに対し、設計の合意形成を無視して、いきなりAIが再生成したコードの変更で返してきます。作成者自身に一貫した意思(設計思想)がないためです。 レビューを重ねるほど方針がブレる 議論の流れ(文脈)を考慮せず、直近のコメントだけをAIに入力しているためか、指摘を重ねるたびにコードの方向性が迷走していきます。 新人エンジニアに向けた学びと心構え AIツールを使って効率的にコードを書くこと自体は、現代の開発において非常に強力な武器になります。しかし、最も重要なのは「AIが書いたコードの意図を自分自身でしっかりと理解し、説明・コントロールできること」です。 信頼されるエンジニアになるためには、以下の姿勢が大切になります。 AIの提案を鵜呑みにせず、なぜその実装になるのか、根本原因は何かを自ら考える。 コードを書き換える前に、まずレビュアーと「設計方針の合意」を取る(議論を拒まない)。 ツールに任せる部分と、自分が責任を持つ部分を明確に区別する。 こうしたAI slop問題への対抗策として、今後は「信頼されたユーザーのみがPRを作成でき、それ以外はまずIssueで議論を必須とする」など、OSS開発のあり方そのものが制限付きのフローへと変わっていく可能性が指摘されています。 引用元: https://tanishiking24.hatenablog.com/entry/2026/06/07/134005 お便り投稿フォーム VOICEVOX:春日部つむぎ

  6. 私立ずんだもん女学園放送部 podcast 20260605

    6月4日

    私立ずんだもん女学園放送部 podcast 20260605

    youtube版(スライド付き) 関連リンク Dreaming: Better memory for a more helpful ChatGPT OpenAIは、ChatGPTにおいてユーザーの過去の会話文脈をより賢く、効率的に記憶・整理するための新しいメモリシステム「Dreaming(ドリーミング)」の大幅なアップデートを発表しました。この技術は、長期間にわたる多数のユーザーとの対話における「情報の陳腐化」「正確性」「スケーラビリティ」といった技術的課題を解決するために開発されました。 ■ メモリ機能の進化と「Dreaming」の仕組み ChatGPTのメモリ機能は、2024年にユーザーからの明示的な指示(「〜を覚えておいて」など)を記録する形で始まりました。しかし、これでは情報のアップデートが難しく、指示がないと忘れてしまうという課題がありました。 そこで2025年に導入されたのが「Dreaming」です。これは、AIがバックグラウンド処理(人間が寝ている間に夢を見て記憶を整理するようなプロセス)を通じて、自動的に過去の対話履歴を分析・要約し、メモリを最新状態に更新するシステムです。今回のアップデート(Dreaming V3)は、この仕組みをさらに高性能かつ計算効率よく再構築したものです。 ■ Dreamingが実現する3つのコア体験 本システムは、エンジニアリングにおける「優れたメモリ」の要件として以下の3つを高度にクリアしています。 有用な文脈の引き継ぎ:過去に話した「自分のカメラ機材」などの前提情報を保持するため、次回からは「私のセットアップに互換性のあるパーツは?」と聞くだけで、個別具体的な提案が得られます。 好みの遵守:「ベジタリアン」や「静かな店が好き」といった個人の制約や嗜好を常に反映した回答を行います。 時間経過への適応:時間の経過を認識します。例えば「7月にシンガポールへ行く」という記憶は、旅行期間が過ぎると自動的に「過去に旅行した」と更新されます。これにより、帰国後に「今日の夕食のテイクアウトを提案して」と聞いた際に、旅行先ではなく現在の居住地に基づく提案を正しく行えます。 ■ 技術的ブレイクスルーと展開 今回の新アーキテクチャにより、メモリの合成処理に必要な計算コストを約5分の1にまで劇的に削減することに成功しました。このコスト効率の向上により、これまで有料プラン(Plus/Pro)限定だった高度なDreamingシステムが、数週間以内に無料プラン(Free)ユーザーへも順次提供開始される予定です。 ユーザーは「メモリ概要(Memory Summary)」画面から、ChatGPTが覚えている自身の情報を一覧で確認し、手動で追加や修正、削除を行うことができます。効率的なパーソナライズ基盤として、今後のAIエージェント開発においても重要なマイルストーンとなるアップデートです。 引用元: https://openai.com/index/chatgpt-memory-dreaming NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents タイトル: NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents 要約: NVIDIAは、長時間自律的に稼働する「AIエージェント」向けに最適化された新しいオープンLLM「NVIDIA Nemotron 3 Ultra」を発表しました。複数のツールやサブエージェントを組み合わせる複雑なワークフローにおいて、劇的な高速化とコスト削減を実現します。 1. 概要と優れたパフォーマンス 本モデルは、総パラメータ数550B(アクティブパラメータ数55B)のMixture-of-Experts(MoE)モデルです。エージェントがタスクを長期実行すると、会話履歴の肥大化によるコスト増や目的のブレ(ゴールズレ)が課題になります。本モデルはこれらを解決し、同クラスのオープンモデルと比較して「5倍のスループット(処理速度)」を達成。タスク完了までのトークンコストを「最大30%削減」することに成功しました。 2. 性能を支える革新的な技術 MambaとTransformerのハイブリッド: 長文脈を効率よく処理できる「Mamba」と、精密な情報回収が得意な「Transformer」を融合。長時間のタスクでも一貫した意思決定を維持します。 MOPD(複数教師による強化学習): 10以上の専門分野を持つ「教師モデル」から、本モデル自身が試行錯誤しながら学習する手法を採用。コーディングや高度な推論能力を効率よく向上させました。 NVFP4量子化: 1つのチェックポイントでHopperやBlackwellなど多様なNVIDIA GPUに対応。従来のBF16精度と比較して最大5倍のスループットを発揮します。 LatentMoE & 複数トークン予測(MTP): 効率的な専門家ルーティングと、一度に複数のトークンを予測する技術により、生成時間を大幅に短縮します。 3. 周辺ツールとライセンス 安全性確保のためのガードレールモデル「Nemotron 3.5 Content Safety」や、40カ国語以上に対応するリアルタイム音声認識モデル「Nemotron 3.5 ASR」も同時にリリース。また、開発者が安心して利用・改変できるよう、ライセンスはLinux Foundationの「OpenMDW-1.1」を採用しています。 Hugging FaceやNVIDIA NIM、主要クラウドで既に利用可能で、主要なエージェントフレームワーク(Hermes Agent、LangChainなど)とも連携できます。エージェント開発の未来を担う大注目のモデルです。 引用元: https://developer.nvidia.com/blog/nvidia-nemotron-3-ultra-powers-faster-more-efficient-reasoning-for-long-running-agents/ VoidZero is Joining Cloudflare フロントエンド開発で広く使われているビルドツール「Vite(ヴィート)」などの開発を主導する企業「VoidZero(ボイドゼロ)」が、クラウド大手の「Cloudflare(クラウドフレア)」に統合されることが発表されました。この統合は、モダンなWeb開発に携わる日本のエンジニアにとって非常に大きなニュースです。 1. VoidZeroと主要な開発ツール VoidZeroは、人気フロントエンドフレームワーク「Vue.js」や「Vite」の作者であるEvan You氏が2023年に立ち上げた企業です。JavaScript/TypeScriptエコシステム全体を高速化する統一ツールチェーンの構築を目指し、以下の強力なツール群を提供してきました。 Vite / Vitest: 現代のWeb開発でデファクトスタンダード(事実上の標準)となっている、超高速なビルドツールとテストフレームワーク。 Rolldown: Rust製で極めて高速な次世代バンドラー。最新のVite 8でデフォルトとして採用されています。 Oxc / Oxlint / Oxfmt: Rustで書かれた超高速なJavaScript解析ツール群。従来のESLintやPrettierと互換性を保ちながら、数十倍の高速化を実現しています。 2. Cloudflareとの統合に至った背景 Viteは週1億回以上ダウンロードされるなど爆発的に普及しましたが、オープンソース・ソフトウェア(OSS)単体でのビジネス的な収益化(マネタイズ)には課題を抱えていました。 そこでVoidZeroは、OSSのロードマップや開発方針を歪めずに相乗効果を生み出せるサービスとして、Cloudflareのインフラ上で動作するViteネイティブなデプロイプラットフォーム「Void」の開発を始めました。この開発を通じて両社のシナジーがより明確になり、チームを統合して互いの強みを最大限に活かす道が選ばれました。 3. 今後の影響と日本のエンジニアへのメリット オープンソースとしての継続: Vite、Vitest、Rolldown、Oxcなどの主要ツールは、今後もMITライセンスのオープンソースとして提供され、誰でも自由に無償で利用できます。開発チームも引き続きEvan You氏らが主導します。 AI時代への適応: 近年、AIエージェントによる自動化ツールや開発支援が増加しています。今後は「AIエージェントのためのクラウド」を目指すCloudflareと手を取り合い、人間だけでなくAIにとっても摩擦のない、次世代の開発・デプロイ環境の構築を目指します。 この統合により、フロントエンドツールの開発体制がより強固になり、Cloudflareのクラウドインフラとの親和性も一層高まります。新人エンジニアの皆様にとっても、将来にわたり信頼して学べる強力な開発環境が保証されたと言える、非常にポジティブなニュースです。 引用元: https://voidzero.dev/posts/voidzero-cloudflare Cloudflare Agentsで自分をマイクロマネジメントするAIを作った Cloudflare Agentsを活用し、Obsidianのタスクを元に能動的に自身をマイクロマネジメントするAIエージェント「Kuro」の開発事例です。受動的なチャットボットとは異なり、進捗確認などをTelegram経由で自発的に話しかけてくれます。安全性を考慮し、メモの書き換えは直接行わず変更差分を提案する設計です。個人開発におけるCloudflareの有用性

  7. 6月3日

    株式会社ずんだもん技術室AI放送局 podcast 20260604

    youtube版(スライド付き) 関連リンク Introducing Gemma 4 12B: a unified, encoder-free multimodal model Google DeepMindは、一般的なノートPCなどのローカル環境で軽快に動作する、高性能なマルチモーダルAIモデル「Gemma 4 12B」を発表しました。本モデルは、モバイル向けモデルの「E4B」と、より高度な「26B MoEモデル」のギャップを埋める位置づけとして開発され、メモリ消費を抑えながらも強力な推論能力を備えているのが特徴です。 新人エンジニアの方に向けて、このモデルの革新的なポイントを4つに分けて解説します。 1. 「エンコーダフリー」という新しいアプローチ 従来の画像や音声に対応するAI(マルチモーダルモデル)は、画像用や音声用の独立した「エンコーダ(前処理用AI)」を使ってデータを変換し、メインの言語モデル(LLM)に渡していました。 しかし、Gemma 4 12Bではこのエンコーダを排除した革新的なアーキテクチャを採用しています。 画像(ビジョン)処理: 軽量な埋め込みモジュールのみを使用し、処理の大部分をLLM本体が直接行います。 音声オーディオ処理: エンコーダを完全に無くし、生の音声信号を直接テキストトークンと同じ空間にマッピングして処理します。 このシンプルな構造(Unified Architecture)により、処理の遅延(レイテンシ)とメモリの使用量を劇的に削減することに成功しました。 2. ノートPC(ローカル環境)で動く軽さ モデルのサイズが12B(120億パラメータ)とコンパクトに抑えられているため、16GBのVRAM(ビデオメモリ)やユニファイドメモリを搭載した一般的なPCがあれば、完全にオフラインのローカル環境で動作させることができます。これにより、クラウドのAPIコストを気にせず、手元で手軽にマルチモーダルAIを動かすことができます。 3. 大型モデルに迫る高度な推論力 メモリ消費量は半分以下であるにもかかわらず、ベンチマーク性能は上位モデルである「26B MoE」に迫る実力を持っています。これにより、複雑な「複数ステップの推論」や、自律的に動く「AIエージェント」のワークフローをローカルで実現可能です。また、Multi-Token Prediction(MTP)技術を搭載しており、推論速度も高速化されています。 4. オープンで充実した開発エコシステム ライセンスは「Apache 2.0」で提供され、自由な開発や商用利用が可能です。Hugging Face、Ollama、LM Studio、llama.cppなど、開発者が普段使っている主要なローカル推論ツールやライブラリに最初から対応しています。さらに、AIエージェント構築を支援する公式のスキルライブラリ「Gemma Skills」も同時に公開されています。 Gemma 4 12Bは、特別なGPUサーバーを用意せずとも、手元のPCだけで最先端の「画像・音声・テキスト」を融合したプロダクト開発を始められる、エンジニアにとって非常に魅力的な選択肢です。 引用元: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ Introducing new capabilities to GPT-Rosalind OpenAIは、ライフサイエンス(生命科学)研究およびエンタープライズ規模の創薬に特化したAIモデル「GPT-Rosalind」のアップデートと新機能を発表しました。本モデルは、GPT-5.5が持つ高度なエージェント機能(自律的なコーディングやツール利用)に、医学化学やゲノミクスといった専門領域の強力な知識を融合させたものです。 本アップデートの主な要点と、技術的な特徴は以下の通りです。 1. 専門ベンチマークにおける高い性能と優れたトークン効率 ライフサイエンス研究の現場に即した複数のベンチマークにおいて、従来のGPT-5.5を上回る精度を達成しつつ、消費するトークン数を大幅に削減(コストパフォーマンスが向上)しています。 LifeSciBench: 科学的根拠の処理、分析、設計、推論など、実際の研究に必要なエンドツーエンドのタスクを評価する新ベンチマーク。本モデルは業界トップクラスの成績を記録。 MedChemBench (医学化学): 創薬プロセスの最適化などを評価。GPT-5.5に比べトークン消費量を7.2%削減しつつ、精度を向上(27.5% vs 25.1%)。 GeneBench (ゲノミクス・定量生物学): 長期的な計画と分析が必要なエージェントタスクを評価。GPT-5.5比でトークン数を31%削減し、21.6%の精度を達成。 LabWorkBench (実験支援): 実際のウェットラボ(実験室)プロトコルにおけるトラブルシューティング能力を測定。トークン数を5.3%削減し、精度は63.2%に向上。 2. ワークフローを実効化するプラグインと可視化ツール 推論を行うだけでなく、開発者や研究者が実際に手を動かして検証できる「実行環境」が強化されました。 2つの新プラグイン: 「Life Sciences Research」および「Life Sciences NGS Analysis(次世代シーケンシング分析)」をCodex(コーディング環境)経由で提供。 データ可視化ビューア: 配列、アライメント、分子構造など、生物学特有のネイティブファイル形式を直接確認・操作できるインタラクティブなビューアをCodex内に実装。 ユースケース: がんの液体生検データから変異を特定し、関連文献の探索や阻害剤の立体構造の確認までを、同一のワークスペース上でシームレスに実行できます。 3. 安全性を重視した展開 高度な生物学的機能の悪用を防ぐため、十分なガバナンスと安全管理体制を持つグローバルな「信頼された組織(例:製薬大手のノボ ノルディスクなど)」を対象に、リサーチプレビューとして限定的にアクセスが提供されます。 本モデルは、AIが単なる知識の要約にとどまらず、専門的なデータ分析や複雑な実験計画を自律的に支援する「実用的な開発・研究パートナー」へと進化していることを示しています。 引用元: https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind Introducing MAI-Thinking-1 Microsoft AI Microsoft AIは、高度な推論能力を持つ新しいAIモデル「MAI-Thinking-1」を発表しました。このモデルは、人間を置き換えるのではなく、人間の自律性を支援する「Humanist Superintelligence(人間中心の超知能)」の実現に向けた重要な一歩として開発されました。 1. モデルの概要と特徴 MAI-Thinking-1は、アクティブパラメータ数35B(350億)、総パラメータ数約1T(1兆)の「スパースMoE(Mixture of Experts:必要な部分だけを活性化させる高効率な仕組み)」を採用した中規模モデルです。他社のAIモデルの出力結果を真似て学習させる「蒸留」を一切行わず、クリーンかつ商業利用可能なライセンス済みデータのみを用いて、ゼロからトレーニングされました。これにより、高い制御性と信頼性を確保しています。 2. 開発を支える「Hill-Climbing Machine」 Microsoftは、モデルを継続的かつ安定的に進化させる開発パイプライン「Hill-Climbing Machine」を導入しました。以下の3つの柱を重視しています。 自立した学習: 模倣(蒸留)による学習は、教師モデルの限界や設計の偏りを受け継いでしまいます。自ら課題を解くことで、真の適応力を養っています。 クリーンなデータ: プレトレーニングからAI生成コンテンツを排除し、データの出所を明確にすることで、モデルの挙動を正確に把握・改善できるようにしています。 自社インフラの最適化: 自社製のアクセラレータから強化学習フレームワークに至るまで、全レイヤーを社内で最適化し、効率的な訓練を可能にしています。 3. エンジニアを強力に支援する高い性能 中規模ながら、以下のような極めて高いパフォーマンスを発揮します。 優れたコーディング支援: ソフトウェア開発のベンチマーク(SWE-Bench Pro)において、より巨大なモデルである「Claude Opus 4.6」と同等の実力を示しました。開発者が実際に行う「コードの読み込み、ファイルの編集、テストの実行、エラーからの復旧」といったマルチステップの作業をエミュレートした環境で訓練されています。 高い数学的・科学的推論力: 数学オリンピックレベルの難問を扱う「AIME」ベンチマークにおいて極めて優秀な成績を収め、推論ループによる知能の一般化が証明されています。 優れたユーザー評価: 人間によるブラインド評価において、「Claude Sonnet 4.6」よりも好ましい回答を出力すると評価されました。 4. 実務への導入しやすさ(エンタープライズ対応) 256kトークン(約600ページの文書に相当)の長い文脈を理解でき、関数呼び出し(Function Calling)や開発者命令にも柔軟に対応します。また、一般的なChat Com

  8. 6月2日

    株式会社ずんだもん技術室AI放送局 podcast 20260603

    youtube版(スライド付き) 関連リンク Rethinking Search as Code Generation ■ 背景と課題:なぜ今、検索の仕組みを見直すのか? 従来のAI向け検索システム(RAGなど)は、AIがクエリを送信し、検索エンジンが処理した固定の結果をAIがコンテキストとして受け取る「一括処理(モノリシック)」な仕組みでした。しかし、AIエージェントが複雑なタスクを自律的にこなす現代において、この方法には限界があります。不要な情報がコンテキストを圧迫してコストが膨らむ、柔軟な検索条件の変更が難しい、何度もやり取りが発生して処理が遅くなる、といった課題が生じていました。 ■ 解決策:「Search as Code (SaC)」の提案 Perplexityが開発した「Search as Code (SaC)」は、検索プロセスそのものをコードで制御する新しいアーキテクチャです。検索エンジンの各機能(情報の取得、順位付け、フィルタリング、並列処理など)を、細分化された「SDK(ソフトウェア開発キット)」の部品としてAIに提供します。AIは、提示されたタスクに合わせて自らPythonコードを生成・実行し、その場で最適な「特製検索パイプライン」を動的に組み立てます。 ■ SaCを支える3つのコアレイヤー モデル(Models):タスクを分解し、SDKを用いて最適な検索手順を実行するPythonコードを生成する司令塔です。 サンドボックス(Sandboxes):生成されたコードを安全かつ確実に実行する環境です。処理中の状態(中間データ)をファイル保存することで、長時間のタスクでも破綻せずに次の処理へ引き継げます。 Agentic Search SDK:検索プロセスをアトミック(最小単位)に制御できるPythonの部品集です。AIモデルが最もコードを書きやすい形になるよう、自動で継続的に最適化されています。 ■ 圧倒的な実績と効果 実際のセキュリティ情報(CVE)の調査タスクにおいて、SaCは精度100%を達成しながら、消費トークン数を従来比で85.1%も削減することに成功しました。また、難関ベンチマーク(WANDR等)において他社の最先端AIシステムを最大2.5倍上回るスコアを記録し、高いコストパフォーマンスを実証しています。 ■ まとめ SaCは、「検索APIをただ呼び出すだけ」の時代から、「検索自体をプログラムとして制御する」時代へのシフトを意味します。AIの柔軟な推論力と、決定論的なコード実行の強みを融合させたこの仕組みは、これからのAIシステム開発における重要な設計パラダイムとなるでしょう。 引用元: https://research.perplexity.ai/articles/rethinking-search-as-code-generation Expanding Project Glasswing 本記事は、AIスタートアップのAnthropic社が推進する、AIを活用したソフトウェアセキュリティ強化プロジェクト「Project Glasswing」の拡大について解説したものです。これからの開発現場やセキュリティ対策のあり方を大きく変える、エンジニア必読のトレンドとなっています。 1. 「Project Glasswing」の概要と実績 Project Glasswingは、世界中の重要なソフトウェアの安全性を確保するための共同取り組みです。初期フェーズでは、約50のパートナー組織がサイバーセキュリティに特化したモデル「Claude Mythos Preview」を利用し、自社のコードベースをスキャンしました。その結果、すでに1万件以上の「深刻(High)」または「致命的(Critical)」なセキュリティ脆弱性が発見されるという大きな成果を上げています。 2. パートナーシップの大幅な拡大 Anthropic社は、この取り組みをさらに約150の新たな組織へと拡大します。対象は15カ国以上に及び、電力、水道、医療、通信、ハードウェアといった社会の重要インフラを担う企業や、世界中の開発者が依存するオープンソースソフトウェア(OSS)のメンテナー(管理者)が含まれます。これらの組織のコードベースが攻撃された場合、1億人以上に影響が及ぶ可能性があるため、事前の防御策が急務となっています。 3. 防御側(エンジニア)の変革と支援策 強力なサイバー能力を持つAIが身近になる未来を見据え、防御側もAIを活用して対策を加速させる必要があります。Anthropic社は単に脆弱性を探すだけでなく、以下の支援を展開しています。 実用ツールの提供: 最新モデル(Claude Opus 4.8など)を用いてコードをスキャンし、修正パッチを提案する製品「Claude Security」をリリースしました。 パッチ適用の高速化: 「Claude Mythos Preview」自体を活用し、脆弱性の発見から修正パッチの自動生成、さらにはメモリ安全な言語へのコード書き換えやリリース前チェックなどを進めています。 4. 今後の展望 最終的なゴールは、AIの力で「すべてのソフトウェアをより安全にすること」です。Anthropic社は、悪用を防ぐ強固なセーフガードを開発した上で、この強力なセキュリティ機能を一般公開することを目指しています。今後もパートナーを増やし、AI時代において「防御側が常に有利に立てる世界」の構築を目指します。 引用元: https://www.anthropic.com/news/expanding-project-glasswing Holo3.1: Fast & Local Computer Use Agents 「Holo3.1」は、PCやスマートフォンなどの画面を認識して人間のように操作(Computer Use)できる、最先端のAIエージェントモデルの最新ファミリーです。前バージョン「Holo3」の成功を受け、本バージョンでは「実運用(プロダクション)」を見据え、対応環境の拡大、他システムとの連携力、そしてローカルデバイスでの実行性能が大幅に強化されました。 新人エンジニアの方向けに、Holo3.1の主な進化ポイントを分かりやすく4つに分けて解説します。 1. モバイルを含むあらゆる環境への適応(マルチ環境対応) 従来のWebブラウザやデスクトップ操作に加え、Androidなどのモバイル環境の自動化が大幅に強化されました。モバイル環境の評価指標である「AndroidWorld」において、最大モデル(35B-A3B)のタスク成功率が67%から79.3%へと大きく向上し、より実用的なモバイル操作が可能になりました。 2. 他システムとのスムーズな連携(関数呼び出しのサポート) 開発者が既存のエージェントフレームワークにHoloを組み込みやすくするため、従来のJSON形式での出力に加え、新しく「Function-calling(関数呼び出し)」プロトコルにネイティブ対応しました。これにより、外部ツールやAPIの呼び出しを伴う高度な自動化システムとの連携が非常にスムーズになります。 3. ローカル環境で「高速・プライベート」に動く量子化対応 本バージョン最大の目玉は、モデルのデータサイズを削減する「量子化」に本格対応した点です。「FP8」「Q4 GGUF」「NVFP4」という軽量化されたモデルが提供されています。 特にNVIDIAの技術を活用した「NVFP4」形式では、AIの賢さ(精度)をほぼ落とすことなく、標準的なBF16形式と比べて最大1.74倍の処理高速化(スループット向上)を達成しています。これにより、一般的なWindowsやMac(Apple Silicon)などのローカルPC、あるいは社内の安全なネットワーク環境だけで、データを外部に送信することなく安全かつ高速にAIエージェントを動かせます。 4. 開発要件に合わせて選べる4つのモデルサイズ 超軽量な「0.8B(極小サイズ)」から、コスト効率に優れた「4B」、速度と性能のバランスが良い「9B」、そして最も賢い「35B-A3B」まで、用途やマシンスペックに合わせて柔軟に使い分けられるラインナップが揃っています。 Holo3.1の登場により、セキュリティの観点からクラウドAIを使えなかった業務でも、ローカルPC上で安全かつ実用的な速度で動作する「自動化AIアシスタント」の開発が一気に現実的になりました。 引用元: https://huggingface.co/blog/Hcompany/holo31 ポルトガルの学会で、参加者に「普段何やってるの?」と訊かれたので「I play YU-GI-OH」と返したら、その後「何だこの学会は」と言いたくなる流れになった話 ポルトガルの学会に参加した投稿者が、周囲から「普段何をやっているのか」と尋ねられ「遊戯王をやっている」と答えたところ、現地のアカデミアたちから「バクラ」や「ネクロバレー」といったディープな遊戯王用語が次々と飛び出し、一気に盛り上がったというユーモラスな体験談です。海外の研究者の間でも日本のホビー文化が深く浸透しており、意外な共通の趣味が国境を越えて親睦を深める強力なツールになることを示しています。 引用元: https://togetter.com/li/2704474 お便り投稿フォーム (株式会社ずんだもんは架空の登場組織

評価とレビュー

5
5段階評価中
3件の評価

番組について

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

その他のおすすめ