とにかくヨシ!-Tonikaku Yoshi! | Japanese Meme Society

Tonikaku Yoshi!

ポッドキャストとにかくヨシ!-Tonikaku Yoshi!では九州に住むの研究者とベンチャー企業のエンジニアが主に気になったニュースに関して話し合う中時間ポッドキャストです. お便りはこちらから マシュマロ

  1. 147B.RTX Spark/Free is no Responsivility/怒り駆動開発/電気工事士2種

    18h ago

    147B.RTX Spark/Free is no Responsivility/怒り駆動開発/電気工事士2種

    今回のポッドキャストの概要: NVIDIAの新SoC「RTX Spark」とローカルAI、無料API終了から見るクラウド依存のリスク、「怒り駆動開発」という開発スタイル、第二種電気工事士CBT受験レポート、そしてZig言語とRISC-Vエミュレータの話をしました> RTX Spark(RTXスパーク)とローカルAIのこれから ARM版Windows 11対応のNVIDIA製SoC「RTX Spark」。Blackwell世代GPU+ARM CPUを1チップにまとめ、最大128GBの共有メモリを搭載可能。ノートPCで100B級LLMも動かせるポテンシャルや、先行機種「DGX Spark」との位置づけ、学習ではなく「既存の巨大モデルをいかにローカルで快適に動かすか」という流れについて話しました。 無料API NVIDIA NIMと「ただより高いものはない」問題 NVIDIAの推論基盤NIM上で公開されていた無料API「NVCLIP」を使って、動画編集のシーン転換検出をやろうとしたところ、ある日突然エラー多発→Deprecatedで終了していた話。 無料APIはPOC用途であり、本番運用でいきなり止まるリスクがあること、モデルをダウンロードしてRTX Sparkなどでローカル実行できる設計のほうがサービス継続性の面で安心、という話をしました。 参考: NVCLIPワークフローのREADME 怒り駆動開発(いかり駆動開発) 「テスト駆動開発」「仕様駆動開発」に続く(?)新コンセプトとして「怒り駆動開発」を提案。 共有冷蔵庫の缶コーヒーに「名前を書いてください」と付箋を貼られてムカついた出来事から、「ルールは守りつつ、相手の想像を超えるレベルでラベリングしてやろう」とラベルプリンター自動印刷システムを作る話へ。 King JimのテプラはAPI利用に上位機種が必要なため、互換機NimBot+GitHubのハックツールで外部制御する案など、「理不尽を技術で合法的に昇華する」というスタイルについて話しました。 (メモに挙がっていた関連本: 怒り駆動開発(Amazon)) 第二種電気工事士2種・学科CBT受験レポート 中古住宅をリフォームするために第二種電気工事士を目指している話。 紙試験日程では準備が足りず、CBT方式を選択して締切前日の6/6に受験。 まとめ本+過去問+YouTubeで、約2週間・20時間程度の勉強で学科合格。 合格率や出題傾向(理論問題は取りやすいが、法令・数値暗記がつらい)、一次合格後は7月下旬の技能試験に向けて、実際にケーブルを切って配線する練習が必要なこと、将来的には簿記3級にも挑戦したいという学び直しの話をしました。 Zig言語とRISC-Vエミュレータ、リアルタイムOS 組み込み×AI(いわゆるPhysics AI)文脈で、RISC-V上のリアルタイムOSを触る必要が出てきたことから、C製RISC-Vエミュレータの事例を見つける。 どうせならCでもRustでもなく、最近気になっていた低レベル言語ZigでRISC-V CPUエミュレータを書いてみようという話。 Zig 0.16のチュートリアルでアロケータまで学習済みで、これから実装開始予定。エミュレータ上でリアルタイムOSや小さなLinuxを動かし、CPU構成とOSの関係を学び直す計画について話しました。 次回もお楽しみに。

    36 min
  2. 144B.TurboQuantの中身/GEMMA 4/Ray-ban meta

    Apr 5

    144B.TurboQuantの中身/GEMMA 4/Ray-ban meta

    今回のポッドキャストの概要:Googleのローカル向け新モデル「Gemma 4」、KVキャッシュを6分の1に圧縮するGoogleの新アルゴリズム「TurboQuant」、日本でも展開予定のメガネ型XRデバイス「Ray-Ban Meta」などについて話しました。 Gemma 4:Googleのローカル向けオープンウェイトモデル E2B / E4B / E26B / A4B / E31B の5サイズ構成 E2B/E4B はエッジ・スマホ/ノートPC向けの軽量モデル A4B は Mixture of Experts(26B中アクティブ4B)で、精度と速度のバランスを追求 マルチモーダル対応(画像・音声入力)、140以上の言語対応、コンテキスト長は25万6千トークン 4bit量子化であれば16〜18GB程度のメモリでローカル実行可能という目安や、Qwen 3.5 とのベンチマーク比較、日本語での“触り心地”の話など TurboQuant:KVキャッシュを6分の1に削減する新量子化手法 トランスフォーマーの Q/K/V と KVキャッシュの役割を整理しつつ、「モデルの重み」ではなく「推論時のKVメモリ」を削る仕組みであることを解説 VキャッシュはMSE(平均二乗誤差)を最小化する通常の量子化でOKだが、KキャッシュはQとの内積精度が重要というポイント PolarQuant: ランダム直交回転でベクトルの分布を“均す” デカルト座標→極座標に変換して長さと方向を分離し、方向を -1〜1 に正規化 そのうえで2bit程度まで量子化しても精度を保ちやすくする手法 QJL: PolarQuant後のKと元のKの内積差(残差)を、Johnson–Lindenstraussの補題を使ったランダム写像で圧縮 残差は符号(±)のみ1bit保持し、PolarQuantの2bitと合わせて実質3bitで内積精度を確保 計算時には逆変換して内積を計算するため計算量はほぼ変わらないが、KVメモリを大幅に削減でき、より長いコンテキストを扱えるようになるという話、圧縮研究の観点から見ても新しいアイデアである点など https://speakerdeck.com/tohikakuyoshi/turboquantRay-Ban Meta:メガネ型XRデバイス日本展開へ レイバンとMetaのコラボによるスマートグラス「Ray-Ban Meta」シリーズ 499ドル(約8万円)前後で、度付きレンズ対応モデルが登場予定 メガネとして常用しつつ、Instagramリール撮影、Spotify操作、リマインダー・天気・カレンダー表示、ハンドトラッキングや手首バンドによるゲーム操作(2048やテトリス)、ニューラル手書き機能、リアルタイム音声翻訳などが利用可能に 数ヶ月以内に日本・韓国・シンガポールなどで展開予定とされていること、スマホアプリ連携やSDKによる自作アプリへの期待、8万円という価格や最近のハードウェア値上がり(PS5やPC価格)の話を交えながら、「感覚をアップデートしつつ、稼ぐ力も上げていこう」という締めのトーク次回もお楽しみに。

    47 min
  3. Mar 29

    143B.文字起こしにもとめられる要件/AI/漫画アニメゲーム/ふるさと納税/nice to have

    今回のポッドキャストの概要:AI文字起こしモデルの比較・選定、OpenAIによるAstral買収と開発者ツールの話、Metaの脳活動予測モデルTribe v2、映画『閃光のハサウェイ』第2部やマンガ・小説の感想、ふるさと納税×コンビニ受け取りの新サービス、そして「Nice to have」な仕事観について話しました。 文字起こしAIに求める要件とfaster-whisper採用の話 faster-whisper Cohere Transcribe Qwen3 ASR / Forced Aligner OpenAIによるAstral買収と開発者ツールのこれから OpenAI to acquire Astral MetaのTribe v2:脳活動を予測するAIモデル Tribe v2 デモ 映画『機動戦士ガンダム 閃光のハサウェイ』第2部「キルケーの魔女」感想 公式サイト 紳士向け同人RPG風マンガ『さほこクエスト』の話 さほこクエスト(ヤングチャンピオン) 小説『エピクロスの処方箋』と前作『スピノザの神殺し』の読書感想 エピクロスの処方箋(Amazon) ふるさと納税×コンビニ受け取り:いいちこをセブンで引き換え プレスリリース(PR TIMES) 「Nice to have」な仕事はやるか・やらないか問題(GPIF退職エントリ) ナイストゥーハブはやらない – 退職エントリ (触れきれなかった参考メモ)TurboQuant: Googleの超圧縮AIモデル TurboQuant: Redefining AI Efficiency arXiv: TurboQuant 論文次回もお楽しみに。

    47 min
  4. Mar 22

    142B.Claude 1M Context/Qwen 3.5 as Claude Code/Codex はいかが?

    今回のポッドキャストの概要:Claude 1Mコンテキスト正式リリースの話から、Qwen 3.5を使った「なんちゃってClaude Code」ローカル環境、そしてCodexとClaude Codeの使い分けについて話しました。 Claude 1M Context 一般提供開始 OPUS 4.6 / SONNET 4.6で1ミリオントークンのコンテキストが正式リリース 256Kを超える長コンテキスト利用時の「割増レート」が撤廃され、1Mコンテキストでも通常レートに PDF/画像入力が従来の約100ページから600ページへ拡張 MRCRv2ベンチマークで、長いコンテキストでもClaude OPUS / SONNETがGPT系・Gemini系より高スコアという話 コンテキストあふれ時のコンパクティングで指示が失われがち、というこれまでの不満と、その改善期待 大規模コードベースを読むコードエージェント用途での有利さについて雑談 Qwen 3.5で「Claude Code 風」ローカル環境 中国発オープンLLM「Qwen 3.5」を量子化してローカル実行する試み 35Bモデルを量子化し、24GBメモリのMacでもClaude Code風環境が動く、という話題 Claude Codeのセッション先頭に入るハッシュ値(アトリビューションヘッダ)がKVキャッシュを無効化してしまい、 そのまま真似すると推論速度が90%以上低下するので削った方がいい、というTips 本家仕様変更に依存するため「継続的に使えるかはかなり怪しい」一時的ハックであること バックエンドにはllama.cpp系(RAM CPPと呼んでいた)を使っている模様、サーバ分離構成の話 MシリーズMac(24GB以上)でローカルLLMをガッツリ動かす未来と、Mac Studio / Mac mini / 新しい安価なMac NEOの話題 Codex はいかが?(ChatGPT Codex と Claude Code の使い分け) ChatGPTのコーディングエージェント「Codex」をProプランで試用中 CLI版とアプリ版(codex app)の両方を利用、基本はCLI中心 新規プロジェクトではCodexで始めてみて、cloud.mdが無い状態からどう構成するかを確認する使い方 Claude Codeを実装のメイン、Codexをレビュー・比較・追加アドバイス役として併用 Claude Code:出力がコンパクトで実務寄り、対話の雰囲気が好み Codex:説明が長くてディテール豊富、理論説明や専門的な話をさせるときに強い印象 「喋り方がちょっとキモい」と感じるので、直接ベラベラ話させるより裏方の専門家として使う、というスタイル 研究用途ではGeminiも併用しており、ネット検索込みの情報探索には便利 Codexサブスクは「そこそこ良い」ので来月も継続予定だが、将来的にはローカルLLMへの移行も視野に次回もお楽しみに。

    19 min
  5. Feb 23

    141B.Chinese Open Weights LLM/LLM as as search tool/Agent team/攻殻機動隊 - サイエンス サル

    今回のポッドキャストの概要: 中国発オープンウェイトLLMの最新動向と価格感、LLMを検索インターフェースとして使う潮流、エージェントチーム機能の話、そして新作アニメ版『攻殻機動隊』への期待について話しました。 Chinese Open Weights LLM 中国系企業が公開しているオープンウェイトLLMについて、Qwen 3(アリババ)、MiniMax M2.5、DeepSeek V3.2、GLM-5、Kimi K2.5 などを紹介。 Artificial Analysis のベンチマークで、Claude Opus や GPT-5.2 に肉薄するスコアを出しているモデルがあり、性能面で「遜色ない」レベルになりつつある、という話。 ただし本気の精度でローカル運用するには H200 複数台レベルのハードが必要で現実的ではなく、実務上は AWS Bedrock などクラウド経由API利用が中心になりそう、という整理。 Bedrock の料金を例に、Claude Opus 4.6 と Kimi K2.5 を比較し、100万トークンあたりの単価が 10倍近く違うなど、中国モデルの価格破壊ぶりについて議論。 ベンチマークの妥当性、日本語性能、自分のユースケースに合うかどうかは個別に検証が必要だよね、という締め。 Artificial Analysis 参照しているベンチマークサイトとして軽く紹介。 OpenAI が DeepSeek を非難しているという報道 AIの出力を別のAIの学習データに使う「上流学習」を DeepSeek が行っていると OpenAI が非難しているという記事を紹介。 OpenAI モデルをサードパーティールーター経由で叩き、出力を大量収集している疑惑や、DeepSeek が無料でモデル提供して OpenAI のビジネスを「ただ乗り+価格破壊」で脅かしている構図について話した。 デジタルコピーの容易さゆえの「いたちごっこ」、オープンモデルの安全性(バックドア・特定プロンプトなど)への不安と、サンドボックス化/ネットワーク遮断でどこまで安心できるか、といったセキュリティ面も議論。 実際に触ってみた各種モデルの印象 AWS Bedrock 上で DeepSeek, GLM, NVIDIA Nemotron などを試した話。 DeepSeek は処理に時間がかかる一方、GLM は比較的レスポンスが速い印象。 Nemotron はとにかく速いが、出力フォーマット指定などの指示遵守が弱く、用途を選びそう、という感想。 本物のGPUインフラ(DGXクラス)を自前で買うのは現実的でなく、やはりAPI利用が主流になりそうという結論に。 LLM as a search tool(Gemini / Grok など) LLMサービス自体が検索機能を内蔵し始めている流れを紹介。 Gemini ではツールとして Google 検索が組み込まれており、公式ドキュメント にもなっていること、Grok では X(旧Twitter)のAPIと連携してタイムライン検索などができることを説明。 XのAPIを素で叩くと高価だが、LLM経由だと比較的安く・自然言語でアクセスできる可能性がある、という利用アイデア。 ただし検索結果にはGoogleやXのフィルターが掛かった状態でしかアクセスできないので、「プラットフォームのアルゴリズムを前提としてよしとするか」が重要な前提条件になるという話も。 Agent team / スワーム的なエージェント機能 Claude が最近出している「Agent Teams」機能を取り上げ、中央のエージェントがサブエージェントを立ち上げてタスクを分割し、並列作業させて統合する仕組みを紹介。 コードレビューなら「セキュリティ」「パフォーマンス」「テストカバレッジ」など観点別にエージェントを分けた方が、一体型LLM1つに全部やらせるより偏りが減る、というユースケース。 エージェントが必要なのは「現状のLLMにコンテキスト・計算資源などの制約があるから」なのか、「知性一般が本質的に分業構造を取るべきなのか」という、少し哲学寄りの問いも雑談。 将来、超高性能な1モデルが実現したらエージェントはいらなくなるのか、それでも多数決や三権分立みたいに複数モデル構成に意味が残るのか、という妄想トーク。 攻殻機動隊 × サイエンスSARU新作アニメ 『攻殻機動隊 GHOST IN THE SHELL』の新作アニメが、7月からフジテレビ火曜23時枠+Prime Videoなどで放送予定であることを紹介。 制作はサイエンスSARU(『ダンダダン』『映像研には手を出すな!』など)。映像表現に期待している、という話。 士郎正宗の原作漫画(ヤンマガ海賊版連載)の絵柄・トーンを再現しにいっているらしく、これまでの押井守版映画やSACシリーズ、Netflix 3D版、実写版とはまた別の「原作寄り」攻殻になるのではないか、という期待。 原作漫画は欄外解説が異常に細かく、特に『攻殻機動隊2』はストーリーも概念もかなり難解で「何度読んでもよくわからない」レベルなので、アニメ化したらどう見せるのか楽しみ、という話。 読む順番としては「1 → 2 → 1.5」を推奨。紙本が古くて手に入りにくくても、Kindle版なら入手しやすいので、アニメ前に読んでおくと良さそうだね、という締め。次回もお楽しみに。

    35 min
  6. 140B.Open Models/ H200 = アルファード

    Feb 9

    140B.Open Models/ H200 = アルファード

    今回のポッドキャストの概要:中国発のオープン・ローカルモデルを中心に、Qwen3の音声まわり(TTS/ASR)と、Kimi 2.5 Thinkingモデル、さらにそれらを動かすためのハードウェア規模感(H200=アルファード比喩)について話しました。 Qwen3 Text-to-Speechで音声クローニング – 自分の声を3〜4秒程度でクローンして別テキストを読ませる実験 – 音声のみ/音声+文字起こしの2パターンで学習させたときの違い – 感情表現や話し方のクセをどこまで再現できるか、悪用リスクも含めた所感 Qwen3の「音声設計(ボイスデザイン)」機能 – カスタムボイスとの違い – テキストプロンプトで性別・ピッチ・話速・感情(怒り・明るさなど)、残響(ホールで喋っている感じ)まで指定できる話 – これまで「感情の乗った音声データで学習」していた手間が、プロンプト指定でどこまで代替できるかという期待 Qwen ASR:多言語対応の新しい音声認識モデル – 約1.7BパラメータのASRモデルが登場した話 – 対応言語が約30言語+中国語方言22種と、Whisper以降久々の大型多言語ASR – モデル側から直接タイムスタンプが出せるので、無音検出(VAD)と組み合わせて「どこで誰がしゃべっているか」まで取れるのでは、という構想 – Whisperからの乗り換え候補として、日本語精度にも期待している点 Qwen VLM(Vision-Language Model)を触ってみた話 – 画像×テキストのQwen VLMも試してみて、かなり良い印象だったこと – Qwen(クエイン)の読み方談義や、Alibabaがなぜここまで強力なオープンモデルを出してくるのか(技術力アピール/エコシステム狙いなど)について雑談 Kimi 2.5 Thinkingモデル:1Tパラメータ級の巨大LLM – Moonshot AIのKimi 2.5 Thinkingモデルが約1Tパラメータ、Hugging Face上のサイズ約595GBという規模感 – Kimi公式チャットサイトで試せること、DeepSeek的な位置づけ – OpenAI GPT-4.2系・Claude Opus・Gemini 3 Pro等の“Thinking積み”と比較してもベンチマークは拮抗、一部タスクでは上回るスコアもあるという話 – ローカルで動かせる前提なら、API課金モデルに対抗しうるポテンシャルと、バックエンドに資源を持つプレイヤーが有利になる構図 Kimi 2.5をローカルで動かすためのハードウェア規模 – M3 Ultra Mac Studio × メモリ512GBマシンを2台、Thunderbolt 5接続で非量子化モデルを動かした事例:24トークン/秒ほど出たという報告 – この構成で1台あたり約150万円級、それを2台=約300万円という「車が買える」コスト感 – 1ビット量子化モデルなら、ストレージ+RAM+VRAM合計240GB&24GB GPU 1枚程度でも10トークン/秒で動くというガイドライン – フルモデルをGPUで回そうとするとH200 GPU×4枚クラス(1枚約500万→合計約2,000万円)という試算と、  「H200 1枚=アルファード1台」「アルファード4台が机の上に乗っている」的な比喩トーク H200=アルファード比喩とインフラ時代の感覚 – 高級ミニバン級の価格のGPUが4枚必要、というスケールの話から、  「APIを使うか自前でインフラを持つか」の判断軸 – そんな規模で仕事を回す面白さと、景気のよいハード投資談義 Apple SiliconマシンとローカルLLMのこれから – M4/M5世代Macのメモリ上限や構成の違い – Apple Intelligenceの有無に関わらず、開発用ハードとしてMacが強く求められている感覚 – Claude Codeなどによる開発自動化と、ローカル巨大モデルの登場で、今後の開発スタイルがさらに変わっていくのでは、という展望 次回もお楽しみに。

    21 min

About

ポッドキャストとにかくヨシ!-Tonikaku Yoshi!では九州に住むの研究者とベンチャー企業のエンジニアが主に気になったニュースに関して話し合う中時間ポッドキャストです. お便りはこちらから マシュマロ

You Might Also Like