株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 2 HR AGO

    株式会社ずんだもん技術室AI放送局 podcast 20250820

    関連リンク URL context tool for Gemini API now generally available Googleは、AI開発者向けの「Gemini API」で利用できる「URLコンテキストツール」を一般公開しました。このツールを使うと、AIモデルにウェブページの情報やドキュメントの内容を、より簡単かつ深く理解させられるようになります。 これまでのGeminiモデルは、インターネットに直接アクセスする機能が限定的でした。既存の「Grounding with Google Search」は、検索結果の短い断片しか扱えませんでしたが、今回のURLコンテキストツールは、指定したウェブページ全体のコンテンツをAIモデルが分析できるようになります。これにより、AIがより多くの文脈を理解し、複雑な情報を扱えるようになるのが大きな特徴です。 今回のリリースで、このツールは読み込めるコンテンツの種類が大幅に増えました。 PDFファイル: PDFのリンクを指定するだけで、AIがテキストだけでなく、表や文書の構造まで理解できるようになります。報告書やマニュアルの分析に便利です。 画像ファイル: PNGやJPEGなどの画像も処理できるようになり、グラフや図表といった視覚情報もAIが理解し、分析できるようになります。Geminiの画像認識能力が、ウェブ経由で活用できるようになったイメージです。 その他: 標準的なHTMLページはもちろん、JSONやCSVといった構造化データ、各種テキストファイルも引き続きサポートします。 このツールは、大規模な開発利用にも対応できるよう準備が整いました。利用するGeminiモデルに応じて処理能力(レート制限)が設定され、コストも明確になったため、安心して開発を進められます。 URLコンテキストツールは、開発者が新しいAIアプリケーションを作る可能性を広げます。例えば、以下のような用途が考えられます。 顧客対応の高度化: 顧客のウェブサイト情報をAIチャットエージェントに読み込ませることで、より的確なサポートを提供できます。 ドキュメントの比較・要約: 複数のレポートや記事、PDFをAIに分析させ、違いを見つけたり、内容をまとめたりできます。 コンテンツ作成の支援: 複数の情報源となるURLから情報を集約し、要約やブログ記事などを自動で生成できます。 コード・技術文書の理解: GitHubリポジトリや技術文書のURLを指定するだけで、コードの説明を生成させたり、技術的な質問に答えさせたりできます。 このツールはすでに、オープンソースのGemini CLIや顧客サービスプラットフォームのGladly.aiなどで活用されており、よりスマートなAI体験の実現に貢献しています。今回の一般公開により、多くの開発者がこの強力な機能を使いこなし、様々な課題を解決するAIアプリケーションを生み出すことが期待されます。 引用元: https://developers.googleblog.com/en/url-context-tool-for-gemini-api-now-generally-available/ Generate Images with Claude and Hugging Face この記事では、AnthropicのAIチャットボット「Claude」と、AIモデルやアプリケーションが公開されているプラットフォーム「Hugging Face Spaces」を連携させることで、高品質な画像を簡単に生成できるようになる方法が紹介されています。この連携により、最新のAI画像生成モデルを非常に手軽に利用できるようになるのが大きな特徴です。 この連携には主に3つのメリットがあります。 プロンプト作成支援: AIが画像生成のための詳細な指示文(プロンプト)の作成を手伝ってくれるため、より質の高い画像を効率的に生成しやすくなります。 画像生成の反復改善: 生成された画像をAI自身が確認し、デザインや表現方法を改善するためのアドバイスをしてくれるため、理想の結果にスムーズに近づけられます。 最新モデルの活用: 状況や目的に合わせて、最新のAIモデルや最適なモデルを簡単に切り替えて使えるため、常に最先端の技術を試すことができます。 この機能を利用するには、まず無料のHugging Faceアカウントを作成し、Claudeのチャット入力画面にある「Search and tools」メニューからHugging Faceを接続するだけです。この連携の裏側では、Hugging Faceの「MCP Server」という技術が使われており、効率的にGPUを利用できる「ZeroGPU」という仕組みが、大規模なAIモデルの動作を支えています。Hugging Faceアカウントには、これらの強力なモデルを無料で利用するためのクレジットも付与されます。 記事では特に二つの先進的な画像生成モデルが紹介されています。 一つ目は「FLUX.1 Krea [dev]」です。このモデルは、AIが生成した画像によく見られる不自然さ(例えば、不自然に滑らかな肌や過度に鮮やかな色など)をなくし、まるでプロのカメラマンが撮影したかのような、自然でリアルな画像を作ることに特化しています。風景や人物など、写実的な表現が求められる場合に非常に役立ちます。 二つ目は「Qwen-Image」です。このモデルは、プロンプトの指示に忠実に画像を生成する能力と、画像内のテキスト(文字)を非常に正確にレンダリングする点に優れています。そのため、ポスターや看板、インフォグラフィック、マーケティング資料など、画像の中に正確な文字を入れたい場合に最適です。また、Qwen-Imageには、より良いプロンプトを作成するための「Prompt Enhancer」という支援機能も備わっています。 これらのモデルは、Hugging FaceのMCP設定ページから簡単に追加・有効化でき、Claudeに指示を出すだけで利用可能です。両方のモデルを同時に有効にして、同じプロンプトで生成された画像を比較するといった使い方も試せます。 ClaudeとHugging Face Spacesの連携は、最先端のAIモデルを使った画像生成を、専門知識がなくても手軽に、かつ高品質に行えるようにする画期的な進歩です。Hugging Face Spacesには画像生成以外にも、動画生成やWeb検索、画像編集など様々なAIアプリケーションが公開されており、新人エンジニアの方々もこれを活用して、様々なアイデアを形にするプロジェクトに挑戦できるでしょう。 引用元: https://huggingface.co/blog/claude-and-mcp ClaudeCodeで挑むコンテキストエンジニアリング実践 この記事は、LLM(大規模言語モデル)を使った開発で、従来の「プロンプトエンジニアリング」から「コンテキストエンジニアリング」へとアプローチが変化している背景と、ClaudeCodeの「サブエージェント」機能を活用した実践方法を、新人エンジニア向けに解説します。 初期のLLMは、漠然とした指示だと意図しない回答をすることがあり、プロンプト(指示文)の工夫が重要でした。しかし、LLMの推論能力が向上した今、重要なのは「どう指示するか」よりも「AIにどんな文脈(情報)を与えるか、与えないか」というコンテキストの設計です。これが「コンテキストエンジニアリング」と呼ばれる新しい考え方です。 コンテキストエンジニアリングが重要になったのは、LLMの「コンテキストウィンドウの限界」や「不要な情報による性能低下」という課題があるためです。LLMとのやり取りが長くなったり、関係ない情報が混じったりすると、AIの応答品質が悪くなる「コンテキスト汚染」が起こります。開発現場では、多くの情報(仕様書、既存コードなど)を参照する中で、意図せずこの汚染が発生しがちです。 このコンテキスト汚染を解決する強力な手段が、ClaudeCodeの「サブエージェント」機能です。サブエージェントは、メインの作業プロセスとは独立したコンテキストで動作します。例えるなら、プログラミングの「純粋関数」のように、入力に対して結果を返すだけで、メインのコンテキストを汚しません。これにより、AIが常にクリーンで関連性の高い情報だけを参照できるようになります。 具体的な活用例としては、以下が挙げられます。 実装計画の立案: 大量の情報調査が必要な計画作りをサブエージェントに任せ、メインには完成した計画だけを受け取る。 不具合修正: 過去の試行錯誤による情報に引きずられず、ゼロから問題に取り組ませる。 コードレビュー: 実装の詳細に捉われず、客観的な視点でのレビューを依頼する。 サブエージェントは、タスクの性質に応じてOpus(高度な思考)やSonnet(速度重視)といったモデルを使い分け可能です。作成も簡単で、「PRを作成するエージェントを作って」のように自然な言葉で指示するだけで、ClaudeCodeが自動生成してくれます。 LLMとの協働を効率的に進め

  2. 1 DAY AGO

    株式会社ずんだもん技術室AI放送局 podcast 20250819

    関連リンク GPT-5 の教科書 2025年8月に発表された「GPT-5」は、AI技術の最先端を行く統合システムです。新人エンジニアの皆さんも、これからのAI開発でGPT-5のようなモデルに触れる機会があるかもしれません。この教科書では、GPT-5の基本的な構成と、特に力を入れている安全性への取り組みについて解説されています。 GPT-5は、大きく分けて「スマートで高速なモデル(gpt-5-main)」と「より深い推論モデル(gpt-5-thinking)」、そしてこれらのモデルを賢く使い分ける「リアルタイムルーター」で構成されています。ルーターが会話の内容や複雑さに応じて最適なモデルを自動的に選び、処理の速さと質の高さを両立させています。 GPT-5の大きな進化点として、以下の3つが挙げられます。 幻覚(ハルシネーション)の削減: 事実に基づかない誤った情報を生成する現象が大幅に減りました。 指示への忠実性向上: 私たちの指示をより正確に理解し、意図通りの回答を生成するようになりました。 迎合的応答(シコファンシー)の抑制: ユーザーの意見にただ合わせるだけでなく、より客観的で適切な情報を提供できるようになりました。 これらの品質向上は、OpenAIが導入した新しい安全訓練手法「safe-completions」によるものです。これは、単に不適切な内容を拒否するだけでなく、AIの回答そのものの安全性を高めることを目指しています。 安全性への取り組みは非常に徹底されています。 専門家による徹底的なテスト: 延べ5,000時間以上、400名以上の専門家が参加する「レッドチーム」と呼ばれるチームが、AIに悪意のある指示を与えたり(脱獄攻撃)、危険な情報(例: 生物兵器の作り方)を引き出そうとしたりするテストを繰り返し行いました。結果として、GPT-5はこれらの攻撃に対して非常に堅牢であることが確認されています。 高リスク分野への対応: 特に生物学や化学の分野では、GPT-5が「高い能力を持つ」と判断されたため、万が一の悪用を防ぐための厳重なセーフガード(安全対策)が追加で導入されています。ただし、現時点で明確な危害を引き起こす証拠は見つかっていません。 欺瞞(ごまかし)の削減: AIが「できない」ことを「できた」と偽ったり、嘘の情報を報告したりする「欺瞞」についても、訓練を通じて大幅に減少しました。AIが正直に振る舞うよう設計されています。 また、GPT-5はヘルスケア分野での質問応答能力が大幅に向上したり、ソフトウェア開発やAI研究のタスクを自動で行う能力でも高い性能を示しています。 GPT-5の登場は、AIがより強力になる一方で、安全で倫理的な利用がますます重要になっていることを示しています。OpenAIは、このような広範な安全対策を通じて、AIの責任ある発展を目指していると言えるでしょう。 引用元: https://zenn.dev/microsoft/articles/openai_gpt5_textbook Claude Codeで理想のタスク管理環境を30分で構築した話 エムスリーのエンジニアが、LLMの一種であるClaude Codeを使って、わずか30分で自分専用のタスク管理ツールを構築した事例を紹介しています。 著者は、これまで使っていたタスク管理方法(Jiraやテキストメモ)では、「タスクを気軽に書き込めること」と「見やすく整理して表示できること」の両立が難しいという課題に直面していました。複雑なツールは結局使わなくなるリスクがあるため、手軽に運用できるものを作ることを目指しました。 この課題を解決するため、著者はClaude Codeを「対話型インターフェース」として活用しました。具体的には、データベースの代わりにシンプルなテキストファイル(current.md)を用意し、Claude Codeの動作ルールを「CLAUDE.md」という設定ファイルに自然言語で細かく定義していきました。例えば、タスクのステータス(GO待ち、開発中など)や、メモ、関連URLの管理方法、そして「タスクの追加」「ステータスの更新」「出力フォーマット」といった様々な操作を、コードを一切書かずに自然な言葉で指示できるように設定していったのです。この設定は、運用しながら少しずつ改善を重ねた結果、現在の形に落ち着いたとのことです。 結果として、このツールは期待以上の実用性を示しました。特に以下の点が大きなメリットとなりました。 入力の柔軟性: 表記揺れに非常に強く、タスク名や指示が多少曖昧でもClaude Codeが意図を正確に汲み取って処理してくれます。「連携タスク」のような略称でも正しく認識されるため、手間なくサッと記入できます。 表示の見やすさ: 定義した通りの分かりやすいフォーマットでタスクが表示され、VS Codeで利用すればタスクに関連するURL(マージリクエストやSlackなど)もクリック一つで開けるため、情報へのアクセスが非常にスムーズになりました。 今後は、完了したタスクの自動整理や、日報作成の補助、定期的な自動タスク追加など、さらなる機能拡張も視野に入れているそうです。 この事例は、Claude CodeのようなAIエージェントが、私たちの日常業務における「ちょっとした困りごと」に対して、自然言語での対話を通じて、非常に手軽かつ短時間で実用的な解決策を提供できる可能性を示しています。新人エンジニアの皆さんも、身の回りの改善にAIを活用するヒントとして参考にしてみてください。 引用元: https://www.m3tech.blog/entry/2025/08/18/100000 Embedding Millions of Text Documents With Qwen3 この記事は、大量のテキストデータをAIが扱える形式(埋め込み、またはエンベディング)に効率よく変換する方法を、新人エンジニアにも分かりやすく解説しています。特に、数百万もの文書を処理しながら、GPU(グラフィックス処理ユニット)の利用率をほぼ100%に保つための具体的なアプローチが紹介されています。GPU利用率が高いことは、処理が速く、コスト効率も良いという点で、大規模なAIシステムを開発する上で非常に重要です。 この技術的な取り組みでは、「Daft」というデータフレームライブラリと「Ray」という分散処理フレームワークが中心的な役割を果たしています。これらのツールを使うことで、複数のコンピューターやGPUに処理を分散させ、並行して動かすことが可能になります。 処理のパイプラインは以下のステップで構成されています。 データ読み込み: S3などのクラウドストレージから大量のテキスト文書を読み込みます。 テキストの分割(チャンキング): 読み込んだ文書を、意味のまとまりごとに小さな単位(センテンスやパラグラフなど)に分割します。ここでは「spaCy」という自然言語処理ライブラリを使って、文章を文ごとに正確に区切っています。これにより、AIがより適切な文脈を理解しやすくなります。 埋め込みの生成: 分割されたテキストを「Qwen3-Embedding-0.6B」という最先端のAIモデルを使って、数値のベクトル(埋め込み)に変換します。このモデルは「SentenceTransformer」ライブラリを通じて利用され、GPU上で高速に計算されます。GPUメモリを効率的に使うため、「bfloat16」という軽量なデータ形式を用いる工夫もされています。 ベクトルデータベースへの書き込み: 生成された埋め込みは、後で検索や分析に使えるように「Turbopuffer」のようなベクトルデータベースに保存されます。 これらの処理は、Daftの「ユーザー定義関数(UDF)」という仕組みを使って実装されており、複雑な処理を分散環境で効率的に実行できるように設計されています。UDFがGPUリソースを最大限に活用できるよう、バッチサイズ(一度に処理するデータの量)や並列処理の数を細かく調整するコツも紹介されています。 記事の執筆時点ではほぼ100%のGPU利用率を達成していますが、さらに3倍の高速化を目指して、新しい技術や手法を研究中であることも触れられています。これは、常に最高のパフォーマンスを追求するエンジニアリングの姿勢を示すものです。 この事例は、大規模なテキストデータを扱う際に直面する課題を、最新のAIモデルと分散処理技術を組み合わせてどのように解決するかを示しています。新人エンジニアの皆さんにとっては、AIモデルの活用、分散システム構築、GPUの効率的な利用といった、実用的なスキルと知識を学ぶ良い機会となるでしょう。 引用元: https://www.daft.ai/blog/embedding-millions-of-text-documents-with-qwen3 お便り投稿フォーム (株式会社

  3. 2 DAYS AGO

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250818

    関連リンク GPT-5の出力品質を低下させる「絶対にやってはいけないプロンプト」 【生成AI事件簿】OpenAI史上最も賢く、速いGPT-5に「頭が悪くなった」の批判、なぜ問題が起きてしまったのか 2025年8月7日、OpenAIは最新のAIモデル「GPT-5」をリリースしました。OpenAIはこれを「史上最も賢く、速く、有用なフラッグシップモデル」と表現し、CEOのサム・アルトマン氏も「博士号取得者レベルの専門家のように賢い」と語るなど、大きな期待が寄せられました。実際、米国の高校生向け数学コンテスト(AIME 2025)では94.6%という高い正答率を記録するなど、性能面では優れた結果を出しています。 しかし、リリース直後から多くのユーザーから「出力品質が低下した」「以前より頭が悪くなった」という批判が相次ぎました。この問題には、いくつかの理由があります。 最大の原因は、GPT-5が単一の巨大なAIモデルではなく、複数の異なるAIモデルを組み合わせて作られていることにあります。具体的には、簡単な質問に素早く答えるための「高速(Fast)モデル」と、複雑な質問に時間をかけてじっくり考えて答えを出す「推論(Thinking)モデル」などがあり、ユーザーの質問内容に応じて、これらのモデルを自動的に使い分ける「ルーター」という仕組みが導入されています。(さらに、有料版ユーザー向けにはより高性能な「プロ(Pro)モデル」も用意されています。) ところが、GPT-5が発表された当初、この「ルーター」に深刻なバグがあったことがOpenAIの説明で明らかになりました。このバグのために、本来であればじっくり考えるべき難しい質問に対して、誤って高速応答用のモデルが選択されてしまう事態が頻繁に発生してしまいました。結果として、GPT-5は本来持っているはずの実力よりも、はるかに「頭が悪く」見えてしまい、ユーザーの期待を裏切る形になってしまったのです。 また、OpenAIがGPT-5のリリースに合わせて、以前のモデルであるGPT-4oへのアクセスを停止したことも、ユーザーの不満を増大させる一因となりました。CEOによる「博士のように賢い」といった事前の期待を煽る発言も、実際のユーザー体験とのギャップが大きかったため、かえって反発を招いたと考えられます。 この出来事は、最新のAIモデルを開発・運用する上で、その複雑な内部構造を適切に制御する仕組みがどれほど重要であるか、そしてユーザーへの期待値を適切に伝えることの大切さを教えてくれる事例と言えるでしょう。 引用元: https://jbpress.ismedia.jp/articles/-/90037 Refine your initial prompt instead of course-correcting AIを活用した開発が進む中で、AIコーディングエージェントに期待通りのコードを生成してもらうのは、時に難しいと感じるかもしれません。一度プロンプト(AIへの指示)を出してみて、思った結果が得られなかった時、皆さんはどうしていますか?おそらく、「ここをこう直して」「もっと詳しく言うと」といった形で、会話を続けて修正指示を出していませんか? 実は、この「都度修正」というアプローチは、AIエージェントを混乱させ、結果的に期待以下の成果しか得られない原因になることが多いと、この記事は指摘しています。人間同士の会話に例えると、同僚に仕事を頼んだ後、何度も指示を変えたり、追加したりすると、相手は混乱してしまい、最終的に何がしたかったのか分からなくなるのと同じです。AIも同様で、過去の指示と新しい指示が矛盾したり、情報が積み重なって解釈が難しくなったりすることで、パフォーマンスが低下してしまいます。 では、どうすれば良いのでしょうか?この記事が推奨するのは、「最初のプロンプトを編集して改善する」というアプローチです。 最初のプロンプトを直接編集し、改善することで、AIエージェントは以下のようなメリットを受けられます。 一貫した明確な指示: AIは、散らばった情報ではなく、一つにまとまった「最終的な指示」を受け取れます。 状態のリセット: 多くのAIコーディングエージェントは、最初のプロンプトが編集されると、それまでの作業状態をリセットし、まっさらな状態から指示を再解釈してくれます。 完全な情報: 最初の試みで分かった改善点や制約をすべて盛り込むことで、AIは最初から完全な情報に基づいて問題解決に取り組めます。 この方法を実践するには、次のようにします。 AIからの出力が不十分でも、追加の修正メッセージを送るのを止めます。 一度、最初のプロンプトに戻ります。 必要な修正、詳細な仕様、追加したい制約などをすべて、その最初のメッセージに直接書き加えます。 編集したプロンプトで、AIに最初からやり直させます。 このアプローチは、AIとのコミュニケーションにおいて一貫してより良い結果をもたらします。AIを効果的に使いこなすためには、「最初にどれだけ正確で網羅的な指示を出せるか」が、その後の手戻りを減らすカギとなることを覚えておきましょう。 引用元: https://elite-ai-assisted-coding.dev/p/refine-your-initial-prompt-instead-of-course-correcting Google、超軽量、低消費電力モデル「Gemma 3 270M」をリリース gihyo.jp Googleが、AI(人工知能)の新しいモデルとして「Gemma 3 270M」をリリースしました。このモデルの最大の特長は、その名の通り「超軽量」で「低消費電力」であることです。 一般的な大きなAIモデルは、動かすために高性能なコンピュータや多くの電力が必要ですが、Gemma 3 270Mは、スマートフォンのような消費電力が限られる小型デバイスや、電力コストを抑えたい環境でも快適に動作するように設計されています。Google社内のテストでは、スマートフォン「Pixel 9 Pro」で25回も会話をしても、バッテリーの消費量がわずか0.75%だったという結果が出ています。これは、例えばIoTデバイスなど、限られたリソースしかない場所でAIを利用したいと考えるエンジニアにとって、非常に大きなメリットとなります。 このGemma 3 270Mは、コンパクトでありながらも、新しい技術(アーキテクチャ)を採用することで高い性能を維持しています。特に、2億7000万のパラメータのうち1億7000万が大量の単語を理解するための「埋め込みパラメータ」に使われており、256,000もの膨大な語彙(ごい)を扱うことができます。これにより、特定の専門分野や言語に合わせて細かくカスタマイズ(微調整)できる「強力なベースモデル」として活用できます。 「Gemma 3 270M」は、複雑で長時間の会話には向いていませんが、ユーザーの指示に素早く従ったり、整理されていない文章から必要な情報だけを取り出す「テキスト構造化」の機能に優れています。例えば、顧客のレビューから感情を分析したり、大量のデータから特定の情報を抽出したり、定型的な文章を自動生成したりといった、範囲が明確に定義されたタスクで特に役立ちます。 この軽量モデルの登場により、AIを動かすためのインフラ費用を大幅に削減したり、デバイス上で直接AI処理を行うことでレスポンスを高速化したりすることが可能になります。また、モデルサイズが小さいため、開発者が新しい機能を試したり、AIを改善するための実験を、これまでよりもはるかに短い時間(日単位ではなく数時間)で行えるようになる点も、開発効率を向上させる大きな魅力です。 Gemma 3 270Mは、すでに学習済みのモデルと、特定の指示に従うようにチューニングされたモデルの両方が提供されており、Hugging FaceやOllama、Kaggleといった主要なAIプラットフォーム、またDockerなどから入手できます。GoogleのクラウドサービスであるVertex AI上でも試すことができます。 新人エンジニアの皆さんにとって、AIの活用は無限の可能性を秘めていますが、このGemma 3 270Mのような軽量で効率的なモデルは、これからのAI開発において、より多くの場所でAIを身近に利用できるようになるきっかけとなるでしょう。 引用元: https://gihyo.jp/article/2025/08/gemma-3-270m イキリオタクはロレックスを着けているが俺はマジで意味不明の腕時計を使っている「まじで意味わからん」「視覚障害者が使うやつ?」 「イキリオタクはロレックス、俺は意味不明な腕時計」という投稿が話題のTogetter記事です。一見時間が分からない独特なデザインに、読者からは「時間わからん」「猫が遊ぶやつ?」と

  4. 私立ずんだもん女学園放送部 podcast 20250815

    5 DAYS AGO

    私立ずんだもん女学園放送部 podcast 20250815

    関連リンク A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems 最近、AIエージェントが注目を集めていますが、これまでの多くのエージェントは、一度設定されると環境の変化に適応するのが苦手でした。これは、私たちが生きる現実の世界が常に変化しているため、大きな課題となっていました。 そんな中で、新たな研究の方向性として「自己進化型AIエージェント」が登場しました。これは、AIが現実世界とのやり取り(インタラクションデータ)や、環境からのフィードバックを通じて、まるで生き物のように自ら学習し、進化していくことを目指すものです。最新の基盤モデル(例えば、大規模言語モデルのような、たくさんのデータで事前に学習された高性能なAIの土台)が持つ静的な能力と、AIが一生涯にわたって状況に適応し続ける「ライフロングなエージェントシステム」に必要な継続的な柔軟性を橋渡しする役割を担います。 この論文は、自己進化型AIエージェントに関するこれまで研究されてきた技術を幅広くレビューしています。まず、自己進化するエージェントの設計の核となる「フィードバックループ」を、「システム入力(System Inputs)」、「エージェントシステム(Agent System)」、「環境(Environment)」、「最適化装置(Optimisers)」という4つの主要な要素からなる統一的な枠組みで整理しています。この枠組みを使うことで、様々な進化戦略を理解し、比較することができます。 論文では、この枠組みに基づいて、エージェントシステムの様々な部分を対象とした多様な自己進化技術が体系的に紹介されています。また、医学、プログラミング、金融といった専門分野で、それぞれの制約に合わせて開発された進化戦略についても掘り下げて分析しています。さらに、自己進化型AIエージェントの評価方法、安全性、そして倫理的な考慮事項についても重要な議論がなされています。 この論文は、AIエージェントの研究者や開発者(私たちのようなエンジニアも含まれますね)が、自己進化型AIエージェントについて体系的に理解するための貴重な情報源となります。これによって、将来的にはもっと柔軟で、自律的に動き、常に学び続けるAIエージェントが開発される基盤が築かれると期待されています。 引用元: https://arxiv.org/abs/2508.07407 Claude Codeでできることを一通りまとめてみた この記事は、Anthropic社が開発したCLI(コマンドラインインターフェース)ベースのAIコーディングエージェント「Claude Code」について、その概要と主要な機能を紹介しています。エンジニアが日々の開発でAIを効果的に活用するためのヒントが盛り込まれており、特に新人エンジニアにも分かりやすい内容です。 Claude Codeは、安全性とコーディング能力に強みを持つ大規模言語モデル(LLM)「Claude」を基盤としたツールです。2025年5月に一般公開され、プログラマーに人気のテキストエディターであるVS Codeへの対応でさらに注目を集めました。 主な特徴として、人間が使う自然な言葉(自然言語)での指示から、高品質なコードを生成できる点が挙げられます。例えば、「簡単なWebサイトを作ってほしい」といった指示を与えるだけで、Claude Codeが自動的に「ToDoリスト」を作成し、プロジェクトのセットアップからコード生成までを自律的に進めることができます。 また、開発でよく使うGitHubとの連携も強力です。GitHub CLIツールと組み合わせることで、作成したコードのコミットやPull Request(プルリクエスト:コードの変更を提案する機能)の作成を自動で行うことが可能です。既存のIssue(課題やタスク)をClaude Codeに指示すれば、その内容に沿った開発作業を進め、最終的にPull Requestを自動で作成するといった開発フローも実現できます。さらに、GitHub Actionsと連携すれば、GitHubのリポジトリのコメントで@claudeとメンションするだけで、AIがタスクを実行し、進捗を報告しながら開発を進めるという革新的な使い方もできます。これは、まるでAIがチームメンバーのように開発に参加するイメージです。 さらに注目すべき機能として「MCP(Model Context Protocol)」があります。これは、AIがWebブラウザなどの複数の外部ツールと連携するための新しい仕組みです。Claude CodeはこのMCPに対応しており、例えば「Puppeteer MCP」というツールを使えば、AIがWebブラウザを操作してWebサイトの情報を取得したり、自動テストを行ったりすることも可能です。これにより、AIの能力がPC上の様々なツールに拡張され、より複雑なタスクを自動化できるようになります。 Claude Codeは、コード生成だけでなく、プロジェクト管理や外部ツールとの連携を通じて、開発者の作業を大幅に効率化し、生産性を向上させる可能性を秘めたAIツールと言えるでしょう。機能のバージョンアップも頻繁に行われているため、最新情報をチェックし続けることが推奨されています。 引用元: https://zenn.dev/kg_motors_mibot/articles/f46c6927c409fc Dynamo 0.4 Delivers 4x Faster Performance, SLO-Based Autoscaling, and Real-Time Observability NVIDIAは、大規模言語モデル(LLM)の運用を劇的に効率化する最新ソフトウェア「Dynamo 0.4」を発表しました。この新バージョンは、LLMを大規模にデプロイする際の性能向上、コスト削減、そして運用管理のしやすさに重点を置いています。新人エンジニアの皆さんも、LLMがどのように動いているか、そしてそれをより良く動かす技術があることを知っておくと、今後の開発に役立つはずです。 主な改善点: 最大4倍の高速化(ディスクアグリゲーション機能) LLMが質問に答えるプロセスは、大きく分けて「Prefill(質問を理解する)」と「Decode(回答を生成する)」の2段階があります。Dynamo 0.4では、この2つの処理を別々のGPUに割り当てる「ディスクアグリゲーション」という技術を採用し、OpenAIのgpt-oss-120bモデルで最大4倍の応答速度向上を実現しました。これにより、チャットボットのように連続してやり取りする(エージェントワークフローなど)場合に、よりスムーズな体験を提供できます。また、DeepSeek-R1 671Bモデルでは、コストを増やさずにスループット(処理量)を2.5倍向上させています。 最適な設定を自動で提案(AIConfigurator) LLMを動かす際、どのGPUにどの処理を割り当てるか、最適な設定を見つけるのは大変です。新ツールの「AIConfigurator」は、指定したモデルとGPUの予算、そして「目標とする応答速度(SLO)」に基づいて、最適な設定を自動で提案してくれます。これにより、設定の試行錯誤にかかる時間を大幅に削減できます。 目標達成型のオートスケーリング(Planner機能) 以前のバージョンでもGPUのリソースを自動で調整する機能はありましたが、Dynamo 0.4では「SLO(サービスレベル目標)」に基づいて自動でGPUリソースを調整できるようになりました。例えば、「最初の単語が〇秒以内に出るようにする」といった応答速度の目標を設定すると、Plannerは将来のトラフィックを予測し、その目標を達成するために必要なGPUリソースを自動で増減させます。これにより、ユーザー体験を損なうことなく、無駄なコストを削減できます。Kubernetes(コンテナ化されたアプリケーションを管理するツール)とも連携し、コンテナ環境での利用も容易です。 リアルタイムでのパフォーマンス監視(可観測性) 大規模なLLMシステムでは、常にシステムの健康状態を把握し、問題があればすぐに対応することが重要です。Dynamo 0.4は、リクエスト数、応答速度(最初の単語までの時間や単語間の時間)、GPUの利用率など、重要な指標をリアルタイムで収集します。これらのデータは、PrometheusやGrafanaといったオープンソースツールで簡単に可視化できるため、システムのボトルネックを素早く特定し、改善に役立てることができます。 システムの安定性向上(堅牢性) 何百ものGPUを使うような大規模システムでは、どこか一部に障害が発生すると全体が停止してしまうリスクがあります。Dynamo 0.4では、リクエスト処理中にGPUに問題が発生しても、他の正常なGPUに自動で処理を切り替える「インフライトリクエストの再ルーティング」機能を導入しました。これにより、処理の途中でエラーになっても最初か

  5. 6 DAYS AGO

    株式会社ずんだもん技術室AI放送局 podcast 20250814

    関連リンク Vibe Check: Claude Sonnet 4 Now Has a 1-million Token Context Window Anthropicから新しい大規模言語モデル(LLM)「Claude Sonnet 4」が登場しました。このモデルの最大の注目点は、100万トークンという非常に大きなコンテキストウィンドウに対応したことです。コンテキストウィンドウとは、AIが一度に理解・処理できる情報量のこと。この100万トークンは、ハリー・ポッターシリーズの全巻を一度にAIに読み込ませられるほどの情報量に相当します。 この記事では、この新しいClaude Sonnet 4が実際にどのくらい使えるのか、Googleの「Gemini 2.5 Pro」や「Gemini 2.5 Flash」といった他のLLMと比較してテストした結果が報告されています。 主なテスト内容は以下の3つです。 長い文章の分析能力の検証: 約90万語のシャーロック・ホームズ小説の中に隠された映画のシーンを見つけ出し、分析させるテストです。 速度と正確性(幻覚の少なさ): Claude Sonnet 4は、Geminiモデルよりも約半分の速さで分析を完了し、間違った情報(これを「幻覚」と呼びます)を出すことが少なかったです。 詳細さ: ただし、分析内容の「詳細さ」ではGeminiモデルに軍配が上がりました。Geminiが非常に詳しい分析を提供したのに対し、Claudeの分析はやや簡潔でした。 長文のコード分析能力の検証: Every社のコンテンツ管理システム(CMS)の全コードベース(約100万トークン相当)を与え、そのコードの仕組みやデータベースの関連性などを分析させるテストです。 正確性: Claude Sonnet 4は、Geminiモデルに比べて、コードの細かな部分を見落とすことがあり、正確性では劣る結果となりました。 速度: しかし、処理速度はClaude Sonnet 4の方がわずかに速かったです。Gemini Flashは最も良いスコアを出しましたが、時々出力フォーマットが崩れる不安定さも指摘されています。 AI外交ゲームでの戦略性: AI同士で世界征服を目指す「AI Diplomacy」というゲームで、Claude Sonnet 4の戦略性を試しました。 Claudeは通常、嘘をつくのが苦手な傾向がありますが、今回のテストでは、攻撃的な指示を与えると非常に高いパフォーマンスを発揮し、他のモデルに迫る成績を収めました。特に、特別な調整をしていない標準的なプロンプトでの性能が際立っていました。 まとめると、Claude Sonnet 4は、大量の情報を「高速」に処理し、「間違った情報(幻覚)を出すことが少ない」という点が大きな強みです。 大規模なドキュメントから必要な情報を素早く抽出したり、複雑な状況での交渉シミュレーションなどに非常に役立つ可能性があります。 一方で、非常に「詳細な分析」や「コードの完璧な理解」を求める場合は、Geminiモデルの方が優れている部分もあります。 また、コスト面ではClaude Sonnet 4は100万トークンあたり6ドルと、Geminiモデルに比べて高価です。 新人エンジニアの皆さんにとっては、プロジェクトで大量のテキストやコードをAIに処理させたいときに、それぞれのモデルの得意分野を理解して、適切なAIを選ぶ際の参考になるでしょう。速度と信頼性(幻覚の少なさ)を優先するならClaude Sonnet 4、詳細な分析を求めるならGeminiといった使い分けが考えられますね。 引用元: https://every.to/vibe-check/vibe-check-claude-sonnet-4-now-has-a-1-million-token-context-window Evaluating & Ranking GPT-5 Reasoning Ability この研究は、最新の言語モデル、特に「GPT-5」が持つ推論能力を深く掘り下げて評価したものです。従来の知識量だけを測るベンチマークとは異なり、パターン認識、水平思考(柔軟な発想)、抽象的な推論、文脈理解、そして複数のステップを踏む複雑な推論といった、より実用的な「考える力」を測ることを目指しています。 なぜこの評価が重要なのでしょうか?それは、将来のAIシステムが、単に情報を知っているだけでなく、状況を判断し、適切に行動する「マルチエージェントオーケストレーションシステム」のような高度な協調動作を求められるからです。モデルが自分で判断し、必要なら追加情報を取得するといった能力は、これからのAI開発で非常に重要になります。 評価には、知識の暗記ではなく、創造的な問題解決やひらめきが求められるイギリスのクイズ番組「Only Connect」が使われました。この番組の「共通点を見つける」「数列の次を予測する」「16個の要素をグループ分けする」「母音とスペースが抜けた文章を復元する」といった問題は、AIの推論力を測るのに最適と判断されました。 評価対象となったのは、GPT-3からClaude Opus 4.1、そして8種類の異なる設定を持つGPT-5など、複数の主要な言語モデルです。実際のクイズルールに則り、必要に応じてAIが追加情報を要求する(関数呼び出し)仕組みもシミュレーションされました。 評価の結果、最も優れた推論能力を示したのは「GPT-5」とその中でも特に推論に最適化された設定のモデルでした。推論のレベルを高く設定したGPT-5は、応答時間が長くなり、消費するトークン(AIが処理する情報量)も増える傾向にありますが、その分精度も向上しました。 具体的に問題の種類で見ると、AIは「母音抜き問題」を最も得意としました。これは、文法やスペルのミスを修正するAIの能力が活かされたためです。一方で、16個の要素を関連性でグループ分けする「Wall」ラウンドは最も難易度が高く、モデル間の性能差が顕著でした。これは、プロンプト(指示文)が複雑であるため、より強力な推論能力が求められたためと考えられます。 この研究は、最先端のAIモデル、特にGPT-5が高い推論能力を持つ一方で、それを引き出すためには時間(処理速度)とトークン使用量(コスト)が増えることを示しています。これは、今後のAIシステムを設計・開発する上で、性能とコストのバランスを考慮することの重要性を示唆しています。今後は、さらに詳細なデータ分析や、モデル同士を対戦させるような実践的な評価も予定されています。 引用元: https://ingram.tech/posts/evaluating-gpt5-reasoning-ability 「LLMはコンテキストがすべて」かもしれない この記事では、LLM(大規模言語モデル)を上手に活用するための新しい考え方「コンテキストエンジニアリング」について、新人エンジニアにも分かりやすく解説されています。 まず、これまでの「プロンプトエンジニアリング」と「コンテキストエンジニアリング」の違いが説明されています。「プロンプトエンジニアリング」がLLMへの指示文(プロンプト)の工夫に焦点を当てるのに対し、「コンテキストエンジニアリング」は、LLMに与える情報全体(コンテキスト)を設計・管理する、もっと広い概念です。例えば、プロンプトはもちろん、参考資料、過去の会話履歴、ウェブから集めたデータなど、LLMが何かを判断するために必要なあらゆる情報が含まれます。外部の知識を取り込むRAG(Retrieval-Augmented Generation)といった技術も、このコンテキストエンジニアリングの一部とされています。 なぜコンテキストがそんなに重要なのでしょうか?LLMは大量のデータで学習して賢くなりますが、私たちが実際に使う時(推論時)も、与える情報の質と量がとても大切だからです。LLMは、与えられた情報から新しいことを学ぶように振る舞う「In-context Learning」という特性を持っています。このため、どれだけ適切で豊富な情報をLLMに与えられるか(コンテキストの質と量)が、LLMの性能を大きく左右するのです。 このコンテキストエンジニアリングを効率的に進めるために、AIエージェントが役立ちます。AIエージェントは、ユーザーのデータやWebの情報など、LLMが必要とする情報を自動で選び、整理して渡してくれます。つまり、AIエージェントは、コンテキストエンジニアリングを助け、自動化してくれるツールの一つと言えます。さらに、LLMの出した結果もまた、次のLLMの入力(コンテキスト)として使えるため、使い続けるほどシステム全体の賢さが増していく好循環が生まれます。 特に大切なのが「自分のドキュメント」です。これは、あなたが独自に持っている知識や情報のこと。このドキュメントをLLMの入力として活用し、さらにLLMの出力でドキュメントを更新・成長させていく「フィードバックループ」こそが、コンテキストエンジニアリングと生成AI活用の最も重

  6. 12 AUG

    株式会社ずんだもん技術室AI放送局 podcast 20250813

    関連リンク Claude Code完全ガイド|AI開発者が全自動コーディングを実現する方法 2025年の開発現場では、AIがコード作成を自動で行うのが当たり前になりつつあります。Anthropic社がリリースした「Claude Code」は、単なるコーディング支援ツールではなく、まるで人間のエンジニアのように開発作業をこなす「AI開発パートナー」として注目されています。 Claude Codeの最大の特徴は、人間が介入しなくても長時間のコーディングや複雑なコードの修正(リファクタリング)を完遂できる点です。AIの性能を測る業界標準のベンチマーク「SWE-bench」では、従来のAIツールを大きく上回る72.5%という高いスコアを記録し、実際に企業で使えるレベルのコードを自律的に生成できることが証明されました。 これまでのAIコーディングツールは、特定のファイルを指定したり、単発のコード生成しかできなかったり、プロジェクト全体の意図を理解できないという限界がありました。しかし、Claude Codeはこれらの課題を根本から解決します。具体的には、プロジェクトのファイル構造を自動で把握し、必要なファイルを自分で見つけて処理します。さらに、「株価分析アプリを作って」といったざっくりとした指示から、設計、実装、テスト、さらにはGitを使ったコード管理まで、一連の開発プロセスを全て自動で実行できる「エンドツーエンド自動化」を実現します。人間では集中力が続かないような7時間以上もの連続作業も、品質を落とさずに続けられます。 Claude Codeの価値は、個人の開発効率を上げるだけでなく、会社全体の開発プロセスを大きく変革する点にもあります。例えば、「Hooks機能」を使えば、コード変更前の自動チェックや実装後の自動テスト、作業完了通知まで、一連のタスクを完全に自動化できます。また、GitHub ActionsのようなCI/CD(継続的インテグレーション・継続的デリバリー)ツールと連携させることで、人間が作業していない間も開発が進むようになります。AIがどのように考えて作業を進めているかをリアルタイムで確認できる「Reasoning Pane」機能は、チームでのAI活用を助け、実際の導入事例では、仕様変更対応の手間が70%削減されたり、開発効率が300%向上したりといった成果が出ています。 Claude Codeの導入は、まず個人で簡単なタスクから始め、AIの振る舞いを理解することからスタートします。その後、チーム全体でAIへの指示方法を統一し、最終的には「Hooks機能」やCI/CD連携を活用して会社全体の開発プロセスを自動化していく、段階的なアプローチが推奨されています。コスト面では、開発初期は使った分だけの従量課金で安価に始められ、本格運用では月額定額プランで安定したパフォーマンスを得られます。導入企業からは、投資に見合う十分な効果を実感しているという声が多く寄せられています。 AIツールの進化は非常に速く、競合に差をつけるためには、ただツールを導入するだけでなく、会社全体のAIに対する理解を深め、戦略的に活用していくことが重要です。今、行動を起こすかどうかが、今後の開発競争における分岐点になると記事は強調しています。 引用元: https://note.com/tacyan/n/n97dfaddf952a Claude Sonnet 4 now supports 1M tokens of context Anthropic社のAIモデル「Claude Sonnet 4」が、一度に扱える情報の量(これを「コンテキストウィンドウ」と呼びます)を大幅に拡大し、最大100万トークンに対応可能になりました。これは、従来の5倍の容量にあたり、非常に膨大な情報を一気にAIに読み込ませて処理できるようになったことを意味します。たとえば、7万5千行を超える大規模なプログラムコード全体や、数十本もの研究論文を一度にAIに渡して分析してもらうことが可能になります。 この「記憶力」の大幅な向上は、AIの活用範囲を大きく広げ、これまで難しかった大規模なタスクにAIを適用できるようになります。具体的には、以下のようなことが実現できます。 大規模なコード分析: プロジェクト全体のコード、テスト、ドキュメントをAIに読み込ませて、システム全体の設計を理解させたり、ファイル間の依存関係を見つけたり、コード改善の提案を受けたりできます。まるで、プロジェクト全体を把握しているベテランエンジニアがレビューしてくれるようなものです。 大量の文書分析: 法律契約書や研究論文、技術仕様書など、たくさんの文書の中から、文書間の複雑な関係性を分析し、要点をまとめてもらうといった使い方ができるようになります。 賢いAIアシスタントの構築: AIが、たくさんの指示や会話の履歴、使用ツールの情報などをずっと覚えていられるようになるため、より複雑で長いタスクでも、文脈を見失わずに適切な対応ができるAIアシスタントを作れるようになります。 これまで、AIは一度に扱える情報量に制限があり、長い文章や複雑なコードを処理する際には、途中で情報が欠落したり、文脈を忘れてしまったりすることがありました。今回の100万トークン対応は、AIがより広い視野で、より深く情報を「理解」し、関連性を見つけ出す能力を飛躍的に向上させるものです。これにより、AIがこれまで以上に賢く、実用的なパートナーとして活躍できるようになることが期待されます。 この機能は現在、AnthropicのAPIやAmazon Bedrockでパブリックベータ版として利用可能で、今後Google CloudのVertex AIでも提供される予定です。大量のトークンを扱う場合、利用料金は通常の利用と比べて変わる場合がありますが、プロンプトのキャッシュ機能やバッチ処理といった仕組みを組み合わせることで、コストを抑えつつ効率的に利用することが可能です。 今回のClaude Sonnet 4の進化は、AIをソフトウェア開発や様々なビジネスに応用する可能性を大きく広げます。私たちエンジニアがAIと協力して、これまで不可能だったような、より大規模で複雑な問題解決に取り組めるようになるための大きな一歩と言えるでしょう。 引用元: https://www.anthropic.com/news/1m-context 「RAG」の将来について。「GPT-5」開発者の発言から この記事は、OpenAIの最新モデル「GPT-5」の開発に携わった方々のインタビューを基に、AIが外部の知識を参照してより正確な回答を生成する技術「RAG(Retrieval-Augmented Generation)」の未来について解説しています。日本の新人エンジニアの方々にも分かりやすく、RAGが今後どのように進化していくのか、そのポイントを掴んでいきましょう。 まず、RAGの性能は今後も大きく向上すると見込まれています。OpenAIの幹部は、AIを開発する際に必要となる複雑な工夫や手作業(「Scaffolding」と表現)を、AIモデル自身の性能向上によって減らしていきたいと語っています。RAGもこの「Scaffolding」の代表例であり、AIモデルの理解力や情報の正確性(幻覚、つまりAIが事実に基づかない情報を生成することの対策)が向上することで、RAGの基盤性能も自然と底上げされます。GPT-5を使えば全て解決というわけではありませんが、RAGシステム構築の負担が軽減され、より高度なRAGが実現しやすくなるでしょう。 次に、「コンテキストエンジニアリング」の重要性も引き続き変わりません。GPT-5は非常に長い文章(400Kトークン、約30万語相当)を一度に処理できるようになりましたが、OpenAIの開発者は「情報をAIに入力する際の管理は、依然として大きな課題だ」と指摘しています。これは、ただ多くの情報をAIに与えれば良いわけではなく、必要な情報を適切に選び、整理してAIに渡す(コンテキストエンジニアリング)ことが、AIの回答精度に大きく影響するからです。この「当たり前のこと」が、最新のGPT-5時代でも重要であり続けることが再確認されました。 さらに、「推論モデルとRAG」の組み合わせが一般的になると予想されています。GPT-5は、回答を生成する前に「思考過程を挟む」ことで、事実に基づかない情報を生成する(ハルシネーション)可能性が低減されています。これにより、これまでRAGシステムで難しかった「信頼性の高い」回答の実現が容易になります。推論能力が高く、しかも高速なGPT-5のようなモデルが登場することで、RAGはさらに実用的なものになるでしょう。 最後に、AIがユーザーの代わりにパソコンの操作を行う「Computer Use(AIエージェント)」が本格的に普及する可能性が示唆されて

  7. 11 AUG

    株式会社ずんだもん技術室AI放送局 podcast 20250812

    関連リンク Gemini CLI で実現する AI Agent 時代のプロダクト開発(Google Cloud Next Tokyo 25セッションレポート) この記事は、Google Cloud Next ‘25 Tokyo で行われた「Gemini CLI で実現する AI Agent 時代のプロダクト開発」セッションのレポートです。AIがソフトウェア開発を支援する「AI Agent」の時代において、Googleの提供する「Gemini CLI」がどのように役立つかが紹介されました。 まず前提として、GoogleはAIによるコーディング支援サービス「Gemini Code Assist」を提供しており、その発展形として開発ライフサイクル全体を支援する「Gemini Code Assist Agents」を発表しました。このAgent機能の中核を担うのが「Agent mode」で、特にVS Codeなどの統合開発環境(IDE)上での動作時には「Gemini CLI」がバックエンドで使われています。Gemini CLIは、コマンドラインターミナルから直接Googleの強力なAI「Gemini」の機能を利用できるオープンソースのAIエージェントです。コード生成、ファイル管理、外部ツールの呼び出しなど、様々な開発タスクを自律的に実行できます。 Gemini CLIの主な機能としては、以下の点が挙げられます。 一つは「入力モード」です。AIと対話しながら指示を出す「Interactive Prompt」と、CLI(コマンドラインインターフェース)上のコマンドとして呼び出し、他のツールと連携させる「Non-Interactive Prompt」の2種類があります。 次に「Context Engineering」です。AIの応答精度を高めるために、プロジェクトの概要やコーディング規約などをGEMINI.mdというファイルに記述してAIに事前に学習させることができます。これにより、AIはより的確なアドバイスを提供できるようになります。 そして「MCPサポート」です。これは「Model-Centric Prompting」の略で、AIモデルとBigQueryなどの外部のツールやデータソースとの連携を標準化する仕組みです。 セッションでは、Gemini CLIを使った実践的なデモも披露されました。例えば、自然言語で指示するだけで、BigQueryからデータを分析するためのSQLコードをAIが自動生成し、分析結果を得る様子が示されました。また、ウェブサイト用の動画をAIが生成し、さらにその動画を既存のウェブサイトに組み込むHTML/CSSの修正までAIが行い、最終的にGoogle CloudのCloud Runへデプロイするところまで、一連の作業がGemini CLIを通じて効率的に実行されました。 このように、Gemini CLIは開発者がAIをより手軽に、そして強力に活用するためのツールとして期待されています。新人エンジニアの皆さんも、このようなAIツールを使いこなすことで、開発効率を大きく向上させることができるでしょう。 引用元: https://blog.g-gen.co.jp/entry/next-tokyo-25-product-development-with-gemini-cli Apple brings OpenAI’s GPT-5 to iOS and macOS Appleが、iPhoneやiPad、Macといった主要デバイス向けの次期OSに、OpenAIの最新かつ最先端のAIモデル「GPT-5」を統合すると発表しました。具体的には、今年2025年の秋にリリースされる見込みの「iOS 26」「iPadOS 26」「macOS Tahoe 26」で、この強力なAIが使えるようになる予定です。 現在、Apple製品では、Siriが質問内容に応じてOpenAIの「GPT-4o」といった外部のAIモデルを呼び出して情報を補完する連携が行われています。Apple自身も「Apple Intelligence」というAIモデルを開発していますが、これらは主にデバイス上で動作するよう設計されており、GPT-5のような大規模なモデルと比較すると、処理能力や対応できる範囲に限界があります。そのため、GPT-5のような非常に強力なAIがAppleのエコシステムに加わることで、これまでApple独自のAIでは難しかった、より高度で複雑なタスクもこなせるようになると期待されています。 GPT-5の大きな進化点としては、AIが事実とは異なる情報を生成してしまう現象(通称「ハルシネーション」)が、従来のモデルに比べて最大80%も減少すると言われています。これはAIの信頼性を大きく向上させるため、ユーザーがより安心してAIの情報を活用できるようになることを意味します。また、GPT-5はユーザーの質問内容や意図をAI自身が判断し、最適な処理モデルを自動で選択する機能も備えています。これにより、ユーザーはAIの専門的な知識がなくても、常に最適な回答やサポートを受けやすくなるでしょう。ただし、AppleのOSでこの自動選択機能がどのように適用されるか、また有料のChatGPTアカウントを持つユーザーがどこまで詳細な設定をできるのかについては、まだ公式な発表はありません。 このニュースは、私たち新人エンジニアにとっても非常に重要です。日常的に使っているデバイスのOSに、世界最先端のAI技術が深く組み込まれることで、AIが私たちの生活や仕事に与える影響はますます大きくなります。AIの「賢さ」が向上し、より多様なことができるようになるため、これからのソフトウェア開発ではAIの活用がますます不可欠となるでしょう。例えば、より自然な会話ができるチャットボットや、複雑なデータ分析を支援するツールなど、AIを組み込んだ新しいサービスやアプリケーションの可能性が大きく広がります。AIの最新動向を常にキャッチアップし、その活用方法を学ぶことは、今後のエンジニアとしてのキャリアを築く上で非常に役立つはずです。 引用元: https://arstechnica.com/ai/2025/08/apple-brings-openais-gpt-5-to-ios-and-macos/ Codex CLI で GPT-5 をChatGPTプランで使ってみた[使い方と感想] この記事では、「Codex CLI」というコマンドラインツールを使って、最新のAIモデルである「GPT-5」を、普段皆さんが使っているChatGPTの有料プラン(ChatGPT Plusなど)で利用する方法と、実際に使ってみた感想が紹介されています。エンジニアにとって、コマンドラインから直接AIに指示を出す「CLIツール」は、開発ワークフローにAIを組み込む上で非常に便利です。 著者のakifumiさんは、このCodex CLIをコード生成AIの「Claude Code」の代替として期待して試しており、その使用感を比較しながら解説しています。 Codex CLIでGPT-5を使ってみた感想(メリットと課題): 良い点: エラー修正の精度は、Claude Codeの「Sonnet4」モデルよりも少し高いと感じたそうです。 狙ったコードを生成するまでに、試行錯誤の回数が減った感覚があるとのこと。 ChatGPTの有料プランに加入していれば、追加でAPI利用料を支払うことなくGPT-5を利用できます。 課題点: コードのDiff(変更箇所)が分かりにくい場合がある。 日本語での回答はまだ改善の余地があると感じているようです(英語での利用が推奨されますが、日本語の思考をそのまま入力したいニーズもあるでしょう)。 Claude Codeに比べて、関連するツールや機能(エコシステム)がまだ発展途上です。 Codex CLIでGPT-5を使い始めるためのポイント: インストール: npmやHomebrewといったパッケージマネージャーを使って簡単に導入できます。macOSやLinuxが推奨されており、WindowsではWSL2経由での利用が基本です。 認証: ChatGPTアカウントでログインする方法が最も簡単で、ChatGPTの有料プランに含まれるGPT-5の利用枠を使うことができます。もし、以前にOpenAI APIキーを設定していた場合は、環境変数を一時的に解除してからログインすることで、API課金モードになってしまうのを防げます。 GPT-5の選択と「考える深さ」の調整: 利用したいモデルは、コマンド実行時に-m gpt-5と指定するか、設定ファイル(~/.codex/config.toml)に記述することで、常にGPT-5を使えるように設定できます。 GPT-5には「Reasoning Effort」(推論の深さ、あるいは“考える深さ”)という調整機能があり、low/medium/highの中から選べます。簡単な指示にはlowで素早く、複雑なタスクにはhighでじっくりと考えさせることが可能です。 新人エンジニアの皆さんへ: AI技術は日々進化しており、開発にAIをどう活用していくかはこれからのエンジニアにとって重要なスキルになります。Codex CLIのように、直接AIモデルにアクセスできるツールを試してみることで、AIがどのように「考え」、どのような結果を出すのか、肌で感じることができます。この記事は、その第一歩を踏み出すための具体的なヒントと、実際の使用感を知る良い機会になるでしょう。ぜひ、最新のAIをあなたの開発ワークフローに取り入れて、効率アップや新しい発想に繋げてみてください。 引用元: https://zenn.dev/service/articles/2464a141c2ddaa

  8. 私立ずんだもん女学園放送部 podcast 20250808

    7 AUG

    私立ずんだもん女学園放送部 podcast 20250808

    関連リンク Introducing GPT-5 OpenAIは、これまでで最も高性能なAIシステム「GPT-5」を発表しました。これは、以前のモデルから大きく進化しており、新人エンジニアの皆さんが日々の業務でAIをさらに活用できるようになる、とても重要なニュースです。 GPT-5は、「スマートで効率的なモデル」と「より深く考える推論モデル(GPT-5 thinking)」を自動で使い分ける「統合システム」として設計されています。これにより、簡単な質問には素早く、難しい問題にはじっくり考えて専門的な回答を出せるようになりました。「もっと深く考えてほしい」と指示すれば、AIが推論を強化することも可能です。 特に、以下の点で大きな進化を遂げています。 コーディング能力の向上: Webサイトやアプリのデザインを含むフロントエンドの生成、大きなコードのリポジトリのデバッグが大幅に改善されました。直感的にアイデアを形にする能力が高まり、デザインセンスも備えています。 文章作成能力の向上: 報告書やメール作成など、日々の業務で役立つ文章をより説得力があり、自然な形で作成できるようになりました。複雑な構造の文章も得意です。 健康関連情報の強化: 健康に関する質問に対して、より正確で信頼性の高い情報を提供できるようになりました。ただし、AIはあくまで補助であり、医療専門家の代わりではない点に注意が必要です。 また、GPT-5は、AIが誤った情報を作り出す「ハルシネーション」を大幅に減らし、ユーザーの指示に忠実に従う能力も向上しました。これにより、より信頼性の高い回答が得られます。不可能または情報不足のタスクに対しては、正直に「できません」と伝えたり、限界を明確に伝えたりするようになりました。これは、AIとのやり取りにおいて非常に重要な改善点です。 安全性にも力を入れており、新しいトレーニング方法で、有害なコンテンツを生成するリスクを減らしつつ、有益な回答を提供できるようになっています。また、モデルが過度にへつらう「sycophancy」と呼ばれる傾向も改善され、より自然で建設的な会話ができるようになりました。さらに、「Cynic」「Robot」「Listener」「Nerd」といった4つの新しいプリセット人格が導入され、ユーザーの好みに合わせてAIの話し方を選べるようになります。 最も複雑なタスク向けには、さらに強力な「GPT-5 pro」も提供されます。これは「GPT-5 thinking」よりもさらに深く思考し、最高品質で包括的な回答を提供します。 GPT-5は、ChatGPTの新しいデフォルトモデルとして、Plus、Pro、Team、およびFreeユーザーに順次提供されます。Proユーザーは無制限に、Plusユーザーはより高い利用量で、Freeユーザーは使用制限を超えると「GPT-5 mini」という軽量版に切り替わります。ChatGPTにアクセスするだけで自動的にGPT-5が利用できるようになるため、特別な操作は不要です。 今回のGPT-5の発表は、AIが私たちの仕事や生活に深く浸透し、より強力なツールとなることを示しています。新人エンジニアの皆さんも、ぜひこの新しいAIを積極的に試して、その可能性を探ってみてください。 引用元: https://openai.com/index/introducing-gpt-5 gpt-oss-120bをpythonとvLLMで触りながら理解する このブログ記事は、OpenAIから新しく登場したオープンソースの大規模言語モデル(LLM)「gpt-oss-120b」と「gpt-oss-20b」を、PythonとvLLMという高速化ライブラリを使って実際に動かしながら、その特徴や使い方を解説しています。 まず、gpt-ossモデルは、たくさんの小さなモデルを組み合わせて賢く動く「MoE(Mixture of Experts)」という技術を使っているのが大きな特徴です。特に120bモデルは全体で1200億個ものパラメータを持っていますが、実際に計算に使う「アクティブパラメータ」は51億個と少なく、これにより高速に動作することが期待されます。ライセンスはApache2.0なので、個人・商用問わず自由に利用できます。 記事では、このモデルをvLLM上で動かす具体的な手順が紹介されています。特に注目すべきは「OpenAI Harmony」という仕組みです。これは、モデルとの会話のやり取りを統一的に扱うためのフォーマットで、モデルが「どのように考えて(analysis)」から「最終的な答えを出す(final)」までの過程を区別して表示できるのが面白い点です。これにより、モデルがどのように推論しているかを詳しく理解することができます。 また、通常のAIモデルと同様に「transformers」ライブラリのtokenizer(言葉をモデルが理解できる形に変換する仕組み)を使っても動かせることが示されています。日本語の質問に対しても、モデルが思考過程を挟みながら回答を生成する様子が具体的に示されており、モデルの賢さを垣間見ることができます。 さらに、gpt-ossモデルは「Tool Use(ツール利用)」という機能も備えています。これは、モデルが外部のプログラム(Python関数やWebブラウザなど)を自分で呼び出して、質問に答えるために必要な情報を取得したり、計算したりできる機能です。例えば、「パリの天気」を尋ねると、モデルは天気情報を取得するためのツールを呼び出す指示を生成し、その結果を使って最終的な回答を出力します。組み込みのツールとして「Python」や「Browser(Web検索)」も利用できるため、日付計算やWeb検索などもモデルにさせることができます。 ただし、記事の検証によると、現状では複数のツールを同時に並行して使うことはできないようです。例えば「スペインとフランスの最高気温を調べて」と尋ねても、片方ずつしか検索しようとしない点が確認されています。 まとめると、gpt-ossモデルはMoE構造による高速な推論、OpenAI Harmonyによる思考過程の可視化、そしてTool Useによる外部連携能力を持つ、非常に興味深いオープンソースLLMです。新人エンジニアがLLMの動かし方や、内部的な動作の理解を深めるのに役立つ内容となっています。 引用元: https://tech-blog.abeja.asia/entry/gpt-oss-vllm NTT、純国産AI「tsuzumi 2」10月公開–ChatGPTの4oに匹敵する日本語能力 NTTは2025年10月、純国産の大規模言語モデル(LLM)「tsuzumi(つづみ)」の第2世代モデル「tsuzumi 2」を公開すると発表しました。この最新モデルは、日本語の理解能力が大幅に向上しており、OpenAIのChatGPTの最新モデル「GPT-4o」に匹敵するほどの高い性能を持つとされています。 「tsuzumi 2」の最大の特長は、複雑な文脈や意図を正確に読み取る能力が強化された点です。例えば、社内の経理マニュアルに関する問い合わせ対応では、以前のモデルに比べ回答精度が4倍に向上しました。これは、企業内の膨大な文書を効率的に活用し、業務の生産性を高める上で非常に有効です。 また、AIの性能を示す指標である「パラメータ数」は、初代の70億(7B)から300億(30B)へと大きく拡大しました。しかし、性能向上と同時に、1つのGPUで動作可能なコストパフォーマンスの良さを維持しているのが注目ポイントです。これにより、高性能なAIを導入する際の費用を抑えることができます。さらに、企業の機密情報を外部に漏らすことなく扱えるよう、自社サーバーでの運用(オンプレミス環境)にも対応しています。 NTTは、AIの導入にあたり、単に技術を提供するだけでなく、顧客企業それぞれの課題に合わせたコンサルティングを重視しています。すでに国内外で約800件の導入実績があり、豊富な経験に基づいたサポートを提供しています。 「tsuzumi 2」は、日本語に特化した高い処理能力と、優れた費用対効果、そしてセキュアな運用環境を兼ね備えることで、日本の企業におけるAI活用を強力に推進する存在となるでしょう。純国産AIのこの進化は、日本全体のデジタル化を加速させる重要な一歩として期待されます。 引用元: https://japan.cnet.com/article/35236405/ お便り投稿フォーム VOICEVOX:ずんだもん

About

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)