LLM을 더 빠르게 서빙하는 법
- KV 캐싱
- Paged Attention
- vLLM
- Speculative Decoding
- OpenAI 프롬프트 캐싱
- OpenAI Predicted Outputs
Physical intelligence,
- AI 로봇
- Action 모델
정보
- 프로그램
- 주기격주 업데이트
- 발행일2024년 11월 16일 오전 9:40 UTC
- 길이43분
- 시즌1
- 에피소드2
- 등급전체 연령 사용가
LLM을 더 빠르게 서빙하는 법
- KV 캐싱
- Paged Attention
- vLLM
- Speculative Decoding
- OpenAI 프롬프트 캐싱
- OpenAI Predicted Outputs
Physical intelligence,
- AI 로봇
- Action 모델