Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Los modelos de lenguaje a gran escala (LLMs) han pasado de ser curiosidades de investigación a convertirse en infraestructura crítica para la producción en un tiempo sorprendentemente corto, muy parecido a la revolución de Internet. Se acerca un mundo de agentes, y en muchos sentidos ya está aquí: una nueva ola de «tokenización» en la que cada vez más aplicaciones se construyen sobre la infraestructura de los LLM en lugar de sobre las API y los servicios tradicionales.
En solo unos años, el «solo llama a la API» de proveedores públicos de LLMs como OpenAI ha evolucionado a «necesitamos nuestros propios modelos», y luego a «necesitamos ejecutar estos modelos de manera eficiente, segura y a gran escala». Las empresas ahora necesitan mucho más control sobre sus LLMs: para la gobernanza de datos, la resolución de problemas, la evaluación, el cumplimiento normativo y la gestión de costos. Muchos equipos han descubierto que lo más difícil de la GenAI no es entrenar un modelo o conectar una interfaz de chat, sino todo lo que hay en medio: configurar el servicio y la optimización del modelo para que cumpla los objetivos de negocio a un costo aceptable.
Hemos observado esa brecha de cerca. Hemos visto prototipos brillantes desmoronarse bajo el tráfico real o agotar el presupuesto de GPU en una semana. Hemos visto organizaciones ansiosas por reconstruir casos de ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access