継続的にLLMアプリケーションの評価基準や自動評価をアップデートする仕組みであるEvalGenについて書かれた論文「Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences」について話しました。
ポッドキャストの書き起こしサービス「LISTEN」はこちら
Shownotes:
https://arxiv.org/abs/2404.12272
https://www.sh-reya.com/blog/ai-engineering-flywheel/
https://www.chainforge.ai/
https://github.com/wandb/evalForge/tree/main
https://blog.langchain.dev/aligning-llm-as-a-judge-with-human-preferences/
出演者:
seya(@sekikazu01)
kagaya(@ry0_kaga)
Информация
- Подкаст
- Опубликовано4 ноября 2024 г. в 22:00 UTC
- Длительность33 мин.
- ОграниченияБез ненормативной лексики