Saltar al contenido
kerneldigest

LLM Inference

51 artículos

Optimización de inferencia de LLMs: KV cache, cuantización, batching

Comparativas