수도리부트

LLM을 더 빠르게 서빙하는 법, KV 캐싱 & Speculative Decoding

LLM을 더 빠르게 서빙하는 법

- KV 캐싱

- Paged Attention

- vLLM

- Speculative Decoding

- OpenAI 프롬프트 캐싱

- OpenAI Predicted Outputs

Physical intelligence,

- AI 로봇

- Action 모델