デデデータ!!〜“あきない”データの話〜

第128回「精度99%!!でも、当てにならない。なぜAIの評価は難しいのか? 〜機械学習とLLMの違いから見えてくるAI評価の新基準〜」

【メッセージ募集】

番組への質問、トークテーマのご提案、DATAFLUCTに相談したい!など、各種ご連絡は以下のフォームからお送り下さい。

https://forms.gle/3PLJMK4Akr2LT1Pa7

【今回の内容】

さて今日のデデデータですが、リスナーさんからの質問にお答えをして行きたいと思います!

<リスナーからの質問>

久米村さん、DJ Nobbyさん、こんにちは。

いつも楽しく、そして学び多く拝聴しております。現在、私はAIエージェントの開発に携わっており、LLMの出力品質の評価について悩んでいます。

従来のアプリケーション開発では、単体テストや結合テストなどで真偽を判定するケースがほとんどでした。ですが、LLMを活用したサービスの出力においては、その出力に揺らぎがあるため、「完全一致」を基準としたテストが難しく、そもそも何を持って品質を担保できてると言えるか、悩ましく思っております。具体的に挙げると以下のようなところで頭を抱えております。

・LLMの出力品質に対する評価戦略は、開発初期からどう設計すべきか。

・評価基準の策定(完全一致 or 部分一致 or スコア化)

・開発のどの段階で、どの程度の評価(カバレッジや網羅性)を行うべきか。

・ 手動評価から自動化への移行タイミングや方法論。

・オフライン評価/オンライン評価といった概念は体系化されているのか、ベストプラクティスがあるのか。AIエージェントの一般活用が今後進んでいくことに比例し、品質をどう測り、どう担保するかは重要なテーマで従来のソフトウェアテストと同様、専門分化していくだろうとも思ったりしています。

上記について、お考えをお聞きできれば嬉しいです。これからも番組を楽しみにしております。どうぞよろしくお願いいたします。

久米村さん、専門的な内容です!そもそも質問の内容から解説してください!!

【今日の質問】

・AIの精度はどれほど高いのか

・いいAIと悪いAIはどのように見分けるべきなのか

・専門的な知識なくAIの質を評価する方法はあるのか

・AIの質を体系的に評価する手法はあるのか

【出演者】

■久米村隼人

ベネッセ、マクロミル、リクルート、日本経済新聞など複数の企業にて、データを活用する15の新規事業を創出。2018年に大企業のデータ活用支援・新規事業立ち上げ支援を行うFACTORIUMを設立し、70以上のDXプロジェクトを支援。2019年にデータサイエンススタジオDATAFLUCTを設立し、4年間で30以上のAIサービスをローンチ。これまで責任者としてローンチした新規事業は35を超える。

大阪府立大学大学院工学研究科修了、早稲田大学大学院商学研究科修了

■DJ Nobby

キャリア26年目のラジオパーソナリティ。経済ニュースパーソナリティとしてフォロワー10万人を超えるVoicyチャンネルを個人で運営する傍ら、ラジオ番組「週刊Nobbyタイムズ」「DJ Nobby's Tokyo LIVE!!」のパーソナリティ、ポッドキャスト「ながら日経」の土曜パーソナリティなどを務める。

大学卒業後はラジオパーソナリティと並行してシティバンク・エヌ・エイ、東京金融取引所、プルデンシャル生命、メットライフ生命に勤務。銀行・証券・保険の3分野に精通し、特にコンプライアンス分野のデータ分析に強みを持つ。

DATAFLUCTウェブサイト

https://datafluct.com