youtube版(スライド付き)
関連リンク
- あえて二度手間することで取り戻す、AI時代のコーディングの楽しさ
最近、AIエージェントの進化により、開発スピードが驚くほど向上し、短時間でプロトタイプが作れるようになりました。しかし、この便利さの裏で、筆者は「コーディング本来の楽しさが半減している」というモヤモヤを感じています。
このモヤモヤの正体は、従来の開発にあった「学習」「理解」「試行錯誤」という重要なプロセスが、AI任せの開発ではごっそり抜け落ちてしまうことにありました。AIが代わりにコードを書いてくれるため、自分で調べたり、エラーと格闘したりする経験が減り、結果として以下の問題が生じます。
- ノウハウが溜まらない: コードが動いても、なぜ動くのかの深い理解がないため、次に同じ問題に直面してもまたゼロから考えることになります。
- トラブルシューティングができない: 自分で試行錯誤していないため、バグが発生してもどこを直せばいいのか見当がつきにくくなります。
- メンテナンスが辛い: AIが生成したコードは、まるで他人が書いたかのように感じられ、改修や修正が困難になります。
そこで筆者が提案するのが「二度手間開発」です。これは、まずAIを使って最短で動くものを作り、次にそのAIが作ったコードを参考にせず、自分でゼロから同じものを作り直すという方法です。AIのコードは「チートシート」や「模範解答」のように活用し、わからない時だけ参照します。
実際に「二度手間開発」を試したところ、Chrome拡張機能の開発を通じて、WXTの設定の深い理解や、AIコード内の不要な部分の発見、さらにユーザー体験を向上させるアイデアなど、多くの具体的な学びと気づきがあったそうです。自分で手を動かすことで、コードがなぜ動くのか、どうすればもっと良くなるのかを深く考える機会が得られます。
「二度手間開発」を始めるコツは、AIのコードをあえて読まず、新しいプロジェクトで一から作り直すことです。そして、本当に困った時だけAIのコードを見てヒントを得ます。
AIは非常に強力なツールですが、効率化だけを追求すると、エンジニアとしての成長やコーディングの楽しさを失う可能性があります。あえて遠回りする「二度手間開発」を通して、AIを「学びのツール」として活用し、コーディング本来の喜びを取り戻すことができるでしょう。
引用元: https://www.m3tech.blog/entry/2025/09/29/110000
- AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
さくらインターネットが開発したAIスパコン「さくらONE」を用いて、大規模言語モデル(LLM)の学習性能を評価した発表です。新人エンジニアの皆さんも、最先端のAI開発を支えるインフラ技術の現状と課題に触れてみましょう。
1. LLM学習におけるインフラの重要性 ChatGPTのような巨大なLLMの開発には、大量の計算を並行処理する高性能インフラが必須です。深層学習は、Webアプリとは異なり、大量のデータを一括処理する「バッチ型ワークロード」です。 学習を高速化する「分散学習」には、主に以下の手法があります。
- データ並列: モデルを複製し、各GPUに異なるデータを処理させます。
- モデル並列: 巨大なモデルを分割し、複数のGPUで分担して処理します。 モデルの大規模化に伴い、GPUメモリ容量やGPU間のデータ通信速度がボトルネックになりやすいため、RDMAのような高速ネットワーク技術が学習効率を大きく左右します。
2. 国産AIスパコン「さくらONE」の特長 「さくらONE」は、さくらインターネットがLLM開発向けに構築したマネージドHPCクラスタです。
- 高性能GPU計算ノード、超高速ネットワーク、スケーラブルなストレージを統合。
- 2025年のISC「TOP500」で世界49位の実績。特に、オープンなネットワーク技術(SONiC OS、800GbE Ethernet)を採用している点が特徴です。
3. LLM学習ベンチマーク評価と結果 さくらONEのLLM学習性能を客観的に評価するため、業界標準の「MLPerf Training」ベンチマークを実施しました。これは、GPT-3モデルの事前学習を対象に、目標精度達成までの実時間を計測するものです。 結果として、さくらONEは業界標準の範囲内で高い演算効率を達成しました。特にGPU間通信を行うインターコネクトネットワークの高速性が確認されています。しかし、一部の他社システムと比較するとわずかな性能差があり、Ethernet (RoCEv2) とInfiniBandの技術的差異や、チューニングの改善余地が考察されています。ベンチマーク実施では、分散学習の概念や複雑なソフトウェアスタック(Slurm、NeMoなど)の習得、最適な設定を見つけるための試行錯誤が大変だったとのことです。
4. SRE視点からの学びと今後の展望 今回の取り組みは、SRE(サイト信頼性エンジニア)がAIスパコンの性能評価に挑んだ貴重な経験談です。
- クラウドとHPCの思想: クラウドが柔軟なスケールアウトを重視する一方、HPCは限られたリソースを最大限に活用することを目指します。
- フレームワークの奥深さ: 分散学習フレームワークの設定は、深い理論に裏打ちされており、体系的な理解が求められます。
- オブザーバビリティの重要性: 効率的な性能改善には、システムやアプリケーションの動作状況を詳細に可視化する「オブザーバビリティ」が不可欠であり、今後の強化が課題です。
さくらONEの性能評価は、国内のAIインフラ技術の発展に寄与し、LLM開発をさらに加速させる重要な取り組みと言えるでしょう。
引用元: https://speakerdeck.com/yuukit/sakuraone-llm-training-benchmarking
- Smart Multi-Node Scheduling for Fast and Efficient LLM Inference with NVIDIA Run:ai and NVIDIA Dynamo
皆さん、こんにちは!AI技術の進化が目覚ましい中、特にLLM(大規模言語モデル)はどんどん複雑になり、その運用には新しい課題が生まれています。例えば、モデルが巨大すぎて1つのGPUでは動かせなかったり、大量の処理を素早く低遅延でこなす必要があったり、多くの部品(コンポーネント)が連携して動くインフラの調整が大変だったりします。この記事では、NVIDIAが提供する「Run:ai v2.23」と「Dynamo」という2つの技術が、これらの課題をどう解決してくれるのかを、新人エンジニアの方にも分かりやすく解説します。
まず、「NVIDIA Dynamo」は、LLMの推論を高速かつ効率的に行うために作られたフレームワークです。具体的には、
- モデルの処理を「前処理(prefill)」と「生成(decode)」に分け、GPUの性能を最大限引き出す
- 要求の量に応じてGPUの割り当てを柔軟に変える
- LLMの特性に合わせてリクエストを効率的に振り分ける
- データ転送を速くする技術(NIXL)を使う
- KVキャッシュという重要なデータを効率的に管理する といった機能を持っています。これにより、巨大なLLMでも分散されたGPUクラスター上でスムーズに動かせるようになります。
しかし、Dynamoがどんなに優れていても、たくさんの部品が絡み合うLLMの推論を複数のコンピューター(ノード)で動かすには、その部品たちをどこに、いつ、どのように配置・起動するかがとても重要になります。ここが「スケジューリング」という部分で、もしこの調整がうまくいかないと、GPUが無駄に待機してしまったり、部品間の通信に時間がかかって全体の性能が落ちてしまったりします。
そこで活躍するのが「NVIDIA Run:ai v2.23」です。Run:aiは、特に2つの強力な機能でこのスケジューリングの課題を解決します。
- ギャングスケジューリング(一括起動): Dynamoの各部品は密接に連携しているため、どれか一つでも欠けると処理が進みません。ギャングスケ
資訊
- 節目
- 頻率每日更新
- 發佈時間2025年9月29日 下午8:00 [UTC]
- 年齡分級兒少適宜