#8: Who Validate the Validator? - 継続的な評価をアップデートする仕組み -

AI Engineering Now

継続的にLLMアプリケーションの評価基準や自動評価をアップデートする仕組みであるEvalGenについて書かれた論文「Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences」について話しました。

ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠

Shownotes:

https://arxiv.org/abs/2404.12272

https://www.sh-reya.com/blog/ai-engineering-flywheel/

https://www.chainforge.ai/

https://github.com/wandb/evalForge/tree/main

https://blog.langchain.dev/aligning-llm-as-a-judge-with-human-preferences/

出演者:

seya(⁠⁠⁠⁠⁠⁠⁠@sekikazu01⁠⁠⁠⁠⁠⁠⁠)

kagaya(⁠⁠⁠⁠⁠⁠⁠@ry0_kaga⁠⁠⁠⁠⁠⁠⁠)

若要收聽兒少不宜的單集,請登入帳號。

隨時掌握此節目最新消息

登入或註冊後,即可追蹤節目、儲存單集和掌握最新資訊。

選取國家或地區

非洲、中東和印度

亞太地區

歐洲

拉丁美洲與加勒比海地區

美國與加拿大