Saltar al contenido
kerneldigest

LLM Inference

84 artículos

Optimización de inferencia de LLMs: KV cache, cuantización, batching

Comparativas