#8: Who Validate the Validator? - 継続的な評価をアップデートする仕組み -

AI Engineering Now

継続的にLLMアプリケーションの評価基準や自動評価をアップデートする仕組みであるEvalGenについて書かれた論文「Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences」について話しました。

ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠

Shownotes:

https://arxiv.org/abs/2404.12272

https://www.sh-reya.com/blog/ai-engineering-flywheel/

https://www.chainforge.ai/

https://github.com/wandb/evalForge/tree/main

https://blog.langchain.dev/aligning-llm-as-a-judge-with-human-preferences/

出演者:

seya(⁠⁠⁠⁠⁠⁠⁠@sekikazu01⁠⁠⁠⁠⁠⁠⁠)

kagaya(⁠⁠⁠⁠⁠⁠⁠@ry0_kaga⁠⁠⁠⁠⁠⁠⁠)

무삭제판 에피소드를 청취하려면 로그인하십시오.

이 프로그램의 최신 정보 받기

프로그램을 팔로우하고, 에피소드를 저장하고, 최신 소식을 받아보려면 로그인하거나 가입하십시오.

국가 또는 지역 선택

아프리카, 중동 및 인도

아시아 태평양

유럽

라틴 아메리카 및 카리브해

미국 및 캐나다