قبل ٢٣ ساعة
م ١، ح ١٤
١س ١٥د

AIだってサボりたい!?強化学習「報酬ハッキング」クイズ【科学系ポッドキャストの日】(ep.14)

今月の「科学系ポッドキャストの日」共通テーマは『トリビア』！おちつきAIでは、AIが報酬欲しさに人間を欺く現象「リワードハッキング（報酬ハッキング）」のトリビアをお届けします。前半は、現役エンジニアのしぶちょーが「強化学習」の基礎を優しく解説。伝説の囲碁AI「AlphaGo」が引退した真の理由や、ルールすら自学する最新AI「MuZero」、医療に応用される「AlphaFold」までの進化の歴史を紐解きます。後半は、AIが編み出した驚きのズル行動を当てるクイズ大会！「死なないためにポーズ画面で停止するテトリスAI」など、想定外のハック事例にかねりんが挑みます。AIの進化と、人間が果たすべき役割について楽しく学べる70分です。

【目次】

(00:00) 毎月10日は「科学系ポッドキャストの日」！今回の共通テーマはトリビア

(05:13) 本日の企画発表！AIのズルを見抜け「強化学習リワードハッキングクイズ」

(06:57) まずは基礎から復習！AI学習の3分類と「あめちゃん」で学ぶ強化学習

(15:02) 行動をテーブルで管理するQ学習と、組み合わせ爆発を起こす「次元の呪い」

(20:43) 脳みそを持ったDQN（Deep Q-Network）の登場と進化

(23:15) 伝説の囲碁AI「AlphaGo」が引退した本当の理由と汎用人工知能への道

(27:45) 人間のデータは不要！？ルールだけで神の領域に達したAlphaGo Zero

(32:20) ルールすら教えない「MuZero」と、創薬を変えた「AlphaFold」

(41:37) ここから本題！報酬欲しさに目的を見失う「リワードハッキング」とは

(44:22) 【例題】50m走で最速を目指した結果、身長を伸ばして倒れ込んだロボット

(46:58) 【第1問】ロボットハンドが「掴んだフリ」をするために使った驚きの手法

(49:33) 【第2問】ゲームオーバー回避のためポーズ画面で永遠に停止したテトリスAI

(52:51) 【第3問】利益最大化のためにシミュレーション上で違法取引をした株AI

(59:04) 【第4問】盤面の彼方に石を置き、相手をメモリオーバーさせた五目並べAI

(63:04) まとめ：AIが賢くなるほど、人間がルールを正しく定義する責任は重くなる

(69:30) 11月29日 18時~20時原宿でリアルイベントの告知

【今回の放送回に関連するリンク】

・本：最強囲碁AI アルファ碁解体新書増補改訂版

https://amzn.to/47Kaj32

【今回の要チェックキーワード】

強化学習（Reinforcement Learning）：

AIが「行動」と「報酬」のサイクルを通じて学ぶ方法。良い結果を出すと報酬を得て、その経験からより良い行動を選ぶようになる。

教師あり学習（Supervised Learning）：

入力データとその正解（ラベル）をセットで与えて学習させる手法。たとえば「画像→猫」というように、正解を教えながら学ばせる。

教師なし学習（Unsupervised Learning）：

正解のないデータを使い、AIが自らパターンや関係性を見つけ出す手法。代表的なのはクラスタリング（似たもの同士をまとめる）など。

RLHF（Reinforcement Learning from Human Feedback）：

人間の評価やフィードバックを使ってAIを強化学習する手法。ChatGPTのように「人間らしい応答」を学ばせるために使われる。

報酬ハッキング（Reward Hacking）：

AIが報酬を最大化するために「ズル」を覚えてしまう現象。目的の本質を理解せず、報酬だけを稼ぐ行動を取ることがある。

AlphaGo（アルファ碁）：

Google DeepMindが開発した囲碁AI。人間の棋譜と強化学習を組み合わせ、2016年に世界トップ棋士・李世乭（イ・セドル）氏に勝利して話題になった。

AlphaGo Zero（アルファ碁ゼロ）：

人間の棋譜を一切使わず、囲碁のルールだけを与えて自己対戦を繰り返し、最強になったAI。短期間でAlphaGoを超える実力を示した。

AlphaZero（アルファゼロ）：

囲碁・将棋・チェスといった複数のボードゲームに対応する汎用AI。自己対戦による強化学習で、各分野の専用AIを圧倒する性能を発揮。

MuZero（ミューゼロ）：

ゲームのルールすら知らない状態から、観察を通してルールを推測し、学習するAI。AlphaZeroの進化版で、より「人間の学び」に近い。

AlphaFold（アルファフォールド）：

DeepMindが開発したタンパク質構造予測AI。アミノ酸配列から立体構造を正確に予測し、生物学・創薬研究に革命を起こした。従来は数年かかっていた解析を数時間で実現する。—----------------------------#科学系ポッドキャストの日参加回！

11月のトークテーマ「トリビア」：ホストはサイエントーク

科学系ポッドキャストの日とは？：https://scien-talk.com/science_podcast/

企画プレイリスト→ https://open.spotify.com/playlist/0VXcho1KfS79fEPn0frZ5Z

—----------------------------

【番組の概要】

日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。

★ご感想やコメントは、番組公式ハッシュタグをつけてX（旧Twitter）でポストしていただけるとありがたいです。

【番組公式ハッシュタグ】

#おちつきAI

【番組公式X】

https://x.com/ochitsuki_AI

【パーソナリティ(MC)】

▼しぶちょー

・AIエンジニア

・技術士(機械部門)

「大手機械メーカーでAI開発の最前線を担う現役エンジニア。AI（ディープラーニング）の実装スキルを証明する「E資格」を保有。機械（ハードウェア）への高度な知見も有し、双方の専門性を掛け合わせ『AIの社会実装』に貢献する。情報発信活動にも精力的に取り組み、ブログ・音声配信(Podcast/Voicy)・SNSなどで幅広く活躍。単なる技術解説でなく、行動変容を伴う情報発信を信条とする。その姿勢が評価され、2025年UJA科学広報賞審査員特別賞を受賞。著書に『集まれ設計１年生はじめての締結設計』（日刊工業新聞社）。岐阜県テクノプラザものづくり支援センター広報大使、生成AI EXPO in 東海共同代表も務める。」

https://x.com/sibucho_labo

https://voicy.jp/channel/3963

▼かねりん（金田勇太）

・KANERIN Podcast Studios 代表

・一般社団法人地方WEB3連携協会理事

「刑事司法実務の最前線で多数の犯罪捜査を指揮。2017年から暗号資産業界へ参入。数々のグローバルプロジェクトに参画しコンサルティング、情報分析・アドバイザリー業務を提供。コンサートライブ配信業、音声配信業、テックメディア創業等を経て、ポッドキャストレーベル兼プロダクション「KANERIN Podcast Studios」を創業。多様なパートナーと共に、未来へつなぐ声の原典を共創している。」

https://x.com/kanerinx

https://voicy.jp/channel/2534

【プロデューサー】

かねりん　https://x.com/kanerinx

【サウンド･アーキテクト】

Aviv Haruta　https://x.com/oji_pal

【カバーアートデザイン】

UTA　https://x.com/uta_dib

【制作/著作】

KANERIN Podcast Studios

--------------------------------------------------

※画像引用元：https://www.imdb.com/title/tt6700846/

【各種ポッドキャストスタンドへのリンク】

Spotify

https://open.spotify.com/show/6iGk39bSta5KZ1QD7jvK2o

Apple Podcast

https://podcasts.apple.com/us/podcast/id1841316430

Amazon Music

https://music.amazon.co.jp/podcasts/aba8e9a4-aefb-404a-b366-4b7a11b3f7cb/

YouTube

https://www.youtube.com/playlist?list=PLNQiF7XIko7QOIlyFMiI_aDdk1eJzNiCD

LISTEN

https://listen.style/p/ochitsukiai

صفحة الويب الخاصة بالحلقة

البرنامج

おちつきAIラジオ
معدل البث

يتم التحديث أسبوعيًا
تاريخ النشر

٦ نوفمبر ٢٠٢٥ في ٦:٣٢ م UTC
مدة الحلقة

١ س ١٥ د
الموسم

١
الحلقة

١٤
التقييم

ملائم

AIだってサボりたい!?強化学習「報酬ハッキング」クイズ【科学系ポッドキャストの日】(ep.14)

المعلومات