LLM-as-a-Judgeに着想を得て、エージェンティックシステムを評価するためにエージェンティックシステムを用いることを提案したAgent-as-a-Judge: Evaluate Agents with Agentsを題材に話しました。
ポッドキャストの書き起こしサービス「LISTEN」はこちら
Shownotes:
https://arxiv.org/abs/2410.10934v1
https://huggingface.co/DEVAI-benchmark
https://github.com/metauto-ai/agent-as-a-judge/tree/main
https://blog.langchain.dev/scipe-systematic-chain-improvement-and-problem-evaluation/
出演者:
seya(@sekikazu01)
kagaya(@ry0_kaga)
情報
- 番組
- 配信日2024年11月18日 22:00 UTC
- 長さ29分
- 制限指定不適切な内容を含まない