#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント 〜

AI Engineering Now

LLM-as-a-Judgeに着想を得て、エージェンティックシステムを評価するためにエージェンティックシステムを用いることを提案したAgent-as-a-Judge: Evaluate Agents with Agentsを題材に話しました。

ポッドキャストの書き起こしサービス「LISTEN」は⁠こちら⁠

Shownotes:

https://arxiv.org/abs/2410.10934v1

https://huggingface.co/DEVAI-benchmark

https://github.com/metauto-ai/agent-as-a-judge/tree/main

https://blog.langchain.dev/scipe-systematic-chain-improvement-and-problem-evaluation/ ⁠

出演者:

seya(⁠@sekikazu01⁠)

kagaya(⁠@ry0_kaga⁠)

露骨な表現を含むエピソードを聴くには、サインインしてください。

この番組の最新情報をチェック

サインインまたは登録して番組をフォローし、エピソードを保存し、最新のアップデートを入手しましょう。

国または地域を選択

アフリカ、中東、インド

アジア太平洋

ヨーロッパ

ラテンアメリカ、カリブ海地域

米国およびカナダ