エンジニアがもがくラジオ

オンラインゲームと多腕バンディット問題

  • オンラインサッカーゲーム「Rematch」を実況プレイ中の話題からスタート
  • オフサイドもファールも何でもありの自由すぎるルールと、ランクシステムの面白さ
  • ネイティブ世代とのジェネレーションギャップ──小学生がタブレットでマイクラをやっていた10年前、30代の自分には想像できなかった世界
  • 当初は恐怖さえあったオンラインゲームと、そのマッチングシステムに夢を描いていた頃の話
  • そこから「多腕バンディット問題」へ:探索と活用のバランスをどう取るかという、報酬最適化の有名な課題
  • ε-Greedy法、UCB法、Thompson Samplingなどの代表的アルゴリズム
  • ベータ分布を使った成功確率の表現とランダムサンプリングの仕組み
  • pCVR(コンバージョン率の高さ)とのつながりや、強化学習の一種としての位置付け
  • 倒立振り子問題の例で考える強化学習の難しさ
  • LLMは教師あり学習?教師なし学習?──自己教師あり学習の位置づけ
  • 知らない分野を深く学ぶなら、まずDeepResearchで調べてから音声モードで聞き込み学習するのがおすすめ

----

少し出遅れてエンジニアとしてのキャリアをスタートさせた、わたくし「とっく」が技術に必死にしがみついたり、

キャリアについて迷ったり、色々と試行錯誤して成長しようともがく様子をお届けする番組です。

ご意見・ご感想は、Xのハッシュタグ #エンジニアがもがくラジオ にお寄せください。

【とっく】

𝕏: https://x.com/tokkuu

・Profile: https://www.tokku-tech.dev/

【イルカ】

Twitch: https://www.twitch.tv/irukamind

YouTube: https://www.youtube.com/@irukamind

TikTok: https://www.tiktok.com/@irukamind88

𝕏: https://x.com/irukamind

Instagram: https://www.instagram.com/irukamind88