今月の「科学系ポッドキャストの日」共通テーマは『トリビア』!おちつきAIでは、AIが報酬欲しさに人間を欺く現象「リワードハッキング(報酬ハッキング)」のトリビアをお届けします。 前半は、現役エンジニアのしぶちょーが「強化学習」の基礎を優しく解説。伝説の囲碁AI「AlphaGo」が引退した真の理由や、ルールすら自学する最新AI「MuZero」、医療に応用される「AlphaFold」までの進化の歴史を紐解きます。 後半は、AIが編み出した驚きのズル行動を当てるクイズ大会!「死なないためにポーズ画面で停止するテトリスAI」など、想定外のハック事例にかねりんが挑みます。AIの進化と、人間が果たすべき役割について楽しく学べる70分です。
【目次】
(00:00) 毎月10日は「科学系ポッドキャストの日」!今回の共通テーマはトリビア
(05:13) 本日の企画発表!AIのズルを見抜け「強化学習リワードハッキングクイズ」
(06:57) まずは基礎から復習!AI学習の3分類と「あめちゃん」で学ぶ強化学習
(15:02) 行動をテーブルで管理するQ学習と、組み合わせ爆発を起こす「次元の呪い」
(20:43) 脳みそを持ったDQN(Deep Q-Network)の登場と進化
(23:15) 伝説の囲碁AI「AlphaGo」が引退した本当の理由と汎用人工知能への道
(27:45) 人間のデータは不要!?ルールだけで神の領域に達したAlphaGo Zero
(32:20) ルールすら教えない「MuZero」と、創薬を変えた「AlphaFold」
(41:37) ここから本題!報酬欲しさに目的を見失う「リワードハッキング」とは
(44:22) 【例題】50m走で最速を目指した結果、身長を伸ばして倒れ込んだロボット
(46:58) 【第1問】ロボットハンドが「掴んだフリ」をするために使った驚きの手法
(49:33) 【第2問】ゲームオーバー回避のためポーズ画面で永遠に停止したテトリスAI
(52:51) 【第3問】利益最大化のためにシミュレーション上で違法取引をした株AI
(59:04) 【第4問】盤面の彼方に石を置き、相手をメモリオーバーさせた五目並べAI
(63:04) まとめ:AIが賢くなるほど、人間がルールを正しく定義する責任は重くなる
(69:30) 11月29日 18時~20時原宿でリアルイベントの告知
【今回の放送回に関連するリンク】
・本:最強囲碁AI アルファ碁 解体新書 増補改訂版
https://amzn.to/47Kaj32
【今回の要チェックキーワード】
強化学習(Reinforcement Learning):
AIが「行動」と「報酬」のサイクルを通じて学ぶ方法。良い結果を出すと報酬を得て、その経験からより良い行動を選ぶようになる。
教師あり学習(Supervised Learning):
入力データとその正解(ラベル)をセットで与えて学習させる手法。たとえば「画像→猫」というように、正解を教えながら学ばせる。
教師なし学習(Unsupervised Learning):
正解のないデータを使い、AIが自らパターンや関係性を見つけ出す手法。代表的なのはクラスタリング(似たもの同士をまとめる)など。
RLHF(Reinforcement Learning from Human Feedback):
人間の評価やフィードバックを使ってAIを強化学習する手法。ChatGPTのように「人間らしい応答」を学ばせるために使われる。
報酬ハッキング(Reward Hacking):
AIが報酬を最大化するために「ズル」を覚えてしまう現象。目的の本質を理解せず、報酬だけを稼ぐ行動を取ることがある。
AlphaGo(アルファ碁):
Google DeepMindが開発した囲碁AI。人間の棋譜と強化学習を組み合わせ、2016年に世界トップ棋士・李世乭(イ・セドル)氏に勝利して話題になった。
AlphaGo Zero(アルファ碁ゼロ):
人間の棋譜を一切使わず、囲碁のルールだけを与えて自己対戦を繰り返し、最強になったAI。短期間でAlphaGoを超える実力を示した。
AlphaZero(アルファゼロ):
囲碁・将棋・チェスといった複数のボードゲームに対応する汎用AI。自己対戦による強化学習で、各分野の専用AIを圧倒する性能を発揮。
MuZero(ミューゼロ):
ゲームのルールすら知らない状態から、観察を通してルールを推測し、学習するAI。AlphaZeroの進化版で、より「人間の学び」に近い。
AlphaFold(アルファフォールド):
DeepMindが開発したタンパク質構造予測AI。アミノ酸配列から立体構造を正確に予測し、生物学・創薬研究に革命を起こした。従来は数年かかっていた解析を数時間で実現する。—----------------------------#科学系ポッドキャストの日 参加回!
11月のトークテーマ「トリビア」:ホストはサイエントーク
科学系ポッドキャストの日とは?:https://scien-talk.com/science_podcast/
企画プレイリスト→ https://open.spotify.com/playlist/0VXcho1KfS79fEPn0frZ5Z
—----------------------------
【番組の概要】
日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。
★ご感想やコメントは、番組公式ハッシュタグをつけてX(旧Twitter)でポストしていただけるとありがたいです。
【番組公式ハッシュタグ】
#おちつきAI
【番組公式X】
https://x.com/ochitsuki_AI
【パーソナリティ(MC)】
▼しぶちょー
・AIエンジニア
・技術士(機械部門)
「大手機械メーカーでAI開発の最前線を担う現役エンジニア。AI(ディープラーニング)の実装スキルを証明する「E資格」を保有。機械(ハードウェア)への高度な知見も有し、双方の専門性を掛け合わせ『AIの社会実装』に貢献する。情報発信活動にも精力的に取り組み、ブログ・音声配信(Podcast/Voicy)・SNSなどで幅広く活躍。単なる技術解説でなく、行動変容を伴う情報発信を信条とする。その姿勢が評価され、2025年UJA科学広報賞 審査員特別賞を受賞。著書に『集まれ設計1年生 はじめての締結設計』(日刊工業新聞社)。岐阜県テクノプラザものづくり支援センター広報大使、生成AI EXPO in 東海 共同代表も務める。」
https://x.com/sibucho_labo
https://voicy.jp/channel/3963
▼かねりん(金田勇太)
・KANERIN Podcast Studios 代表
・一般社団法人 地方WEB3連携協会 理事
「刑事司法実務の最前線で多数の犯罪捜査を指揮。2017年から暗号資産業界へ参入。数々のグローバルプロジェクトに参画しコンサルティング、情報分析・アドバイザリー業務を提供。コンサートライブ配信業、音声配信業、テックメディア創業等を経て、ポッドキャストレーベル兼プロダクション「KANERIN Podcast Studios」を創業。多様なパートナーと共に、未来へつなぐ声の原典を共創している。」
https://x.com/kanerinx
https://voicy.jp/channel/2534
【プロデューサー】
かねりん https://x.com/kanerinx
【サウンド・アーキテクト】
Aviv Haruta https://x.com/oji_pal
【カバーアートデザイン】
UTA https://x.com/uta_dib
【制作/著作】
KANERIN Podcast Studios
--------------------------------------------------
※画像引用元:https://www.imdb.com/title/tt6700846/
【各種ポッドキャストスタンドへのリンク】
Spotify
https://open.spotify.com/show/6iGk39bSta5KZ1QD7jvK2o
Apple Podcast
https://podcasts.apple.com/us/podcast/id1841316430
Amazon Music
https://music.amazon.co.jp/podcasts/aba8e9a4-aefb-404a-b366-4b7a11b3f7cb/
YouTube
https://www.youtube.com/playlist?list=PLNQiF7XIko7QOIlyFMiI_aDdk1eJzNiCD
LISTEN
https://listen.style/p/ochitsukiai
المعلومات
- البرنامج
- معدل البثيتم التحديث أسبوعيًا
- تاريخ النشر٦ نوفمبر ٢٠٢٥ في ٦:٣٢ م UTC
- مدة الحلقة١ س ١٥ د
- الموسم١
- الحلقة١٤
- التقييمملائم
