수도리부트

16.11.2024
С1, В2
43 МИН.

LLM을 더 빠르게 서빙하는 법, KV 캐싱 & Speculative Decoding

수도리부트

LLM을 더 빠르게 서빙하는 법

- KV 캐싱

- Paged Attention

- vLLM

- Speculative Decoding

- OpenAI 프롬프트 캐싱

- OpenAI Predicted Outputs

Physical intelligence,

- AI 로봇

- Action 모델

Веб-страница выпуска

Подкаст

수도리부트
Частота

Каждые две недели
Опубликовано

16 ноября 2024 г. в 09:40 UTC
Длительность

43 мин.
Сезон

1
Выпуск

2
Ограничения

Без ненормативной лексики