Dentro de la mente de un TransformerEvolución de los LLMLa naturaleza autorregresiva de los transformadoresArquitectura de transformadores solo con decodificadorCaptura el contexto de los tokens calculando la atenciónEjecución de la generación de LLM: una guía paso a pasoEjecuta el modelo QwenPredicción del modelo, línea por líneaHabilita la caché KV para mejorar el rendimientoLas fases de prellenado y decodificaciónEjecuta el LLM con un marco de servicio Sirve el LLM (Qwen) con vLLMComparación de rendimiento: vLLM frente a Hugging Face TransformersConceptos básicos del servicio de streaming de LLMConceptos básicos sobre el servicio por lotes de LLMResumen