Introducción

Tanto si tu título es ingeniero de datos como si es otra profesión orientada a los datos (os vemos, analistas y científicos), es probable que hayas oído el término ETL. Es muy probable que ETL forme parte de tu vida, ¡aunque no lo sepas!

Abreviatura de extraer, transformar, cargar, ETL se utiliza para describir el flujo de trabajo fundamental que se encarga a la mayoría de los profesionales de los datos: tomar los datos de un sistema de origen, modificarlos para adaptarlos a sus necesidades y cargarlos en un destino.

¿Quieres ayudar a los jefes de producto a tomar decisiones basadas en datos? ETL construye las tablas críticas para tus informes. ¿Quieres entrenar la siguiente iteración del modelo de aprendizaje automático de tu equipo? ETL crea conjuntos de datos de calidad. ¿Intentas aportar más estructura y rigor a las políticas de almacenamiento de tu empresa para cumplir los requisitos de conformidad? ETL aportará proceso, linaje y observabilidad a tus flujos de trabajo.

Si quieres hacer algo con los datos, necesitas un proceso o canalización fiable. Esta verdad fundamental es válida desde las cargas de trabajo clásicas de inteligencia empresarial (BI) hasta los avances de vanguardia, como los grandes modelos lingüísticos (LLM) y la IA.

El mundo feliz de la IA

El mundo de los datos ha visto ir y venir muchas tendencias; algunas han transformado el espacio, y otras han resultado ser modas pasajeras. La más reciente es, sin duda, la IA generativa.

A cada paso se habla de IA, LLM y chatbots. Esta reciente fascinación por la IA, provocada en gran medida por el lanzamiento del ChatGPT de OpenAI, va más allá del interés de los medios de comunicación y entre los investigadores: ahora muchos la consideran una inversión estratégica esencial... ¿y quién quiere quedarse atrás?

El verdadero valor de los LLM procede de la incrustación o el ajuste fino de modelos en conjuntos de datos limpios y curados. Estas técnicas permiten crear modelos con conocimientos específicos del dominio, evitando errores comunes, como la alucinación.

Por supuesto, las incrustaciones significativas se derivan de, lo has adivinado, conjuntos de datos limpios. En ese sentido, la IA se basa en la transformación de datos. Su éxito depende en gran medida de la capacidad de crear conjuntos de datos coherentes y de alta calidad a escala. Los datos tienen que moverse, mutar y fusionarse en un solo lugar, podríamos decir extraerse, transformarse y cargarse.

Así es, incluso la tecnología más puntera tiene sus raíces en el ETL.

Un panorama de datos cambiante

Además del reciente auge de la IA generativa, otras tendencias han reconfigurado el panorama de los datos en la última década. Una de ellas es la creciente importancia de los datos en flujo. Las empresas generan ahora enormes cantidades de datos en tiempo real a través de sensores, sitios web, aplicaciones móviles y otros medios. Este cambio requiere la ingestión y el procesamiento de datos en tiempo real para la toma inmediata de decisiones. Por tanto, los ingenieros de datos se enfrentan al reto de ir más allá del procesamiento por lotes tradicional para construir y gestionar canalizaciones continuas capaces de manejar grandes volúmenes de datos en flujo.

Otro avance digno de mención es la aparición de las arquitecturas data lakehouse. El data lakehouse representa un concepto novedoso, que pretende fusionar las capacidades de los almacenes de datos y los lagos de datos. Aprovechando nuevas tecnologías de almacenamiento como Delta Lake, que mejoran la fiabilidad y el rendimiento de los lagos de datos, el modelo lakehouse combina el almacenamiento rentable y escalable de los lagos de datos con el eficiente procesamiento de transacciones de los almacenes de datos. Esta amalgama permite la ejecución tanto de cargas de trabajo de IA (que suelen manejarse en los lagos de datos) como de cargas de trabajo analíticas (que suelen realizarse en los almacenes de datos) dentro de un marco singular. Esta integración reduce significativamente las complejidades asociadas al mantenimiento de arquitecturas paralelas, garantizando una gobernanza de datos coherente y gestionando la duplicación de datos.

Aunque la ETL es un concepto antiguo en la gestión de datos, su relevancia sigue siendo la misma en el panorama moderno de los datos. Una consideración crítica ahora es cómo pueden adaptarse los procesos ETL para abarcar tanto los datos por lotes como los datos en flujo, y cómo pueden integrarse eficazmente en una arquitectura de lago de datos. Esta guía pretende iluminar estos aspectos, ayudándote a comprender la ETL a la luz de estas tendencias en evolución.

¿Qué pasa con el ELT (y otros sabores)?

Al adentrarte en la ingeniería de datos, puede que te encuentres con términos como ELT además de ETL. Puede que pienses: "Vaya, estos tipos deberían contratar a un corrector", pero tranquilo, en realidad son términos diferentes.

La diferencia clave en ELT radica en la secuencia: en ELT, todo se carga en un recurso de preparación, y luego se transforma aguas abajo. ELT se ha convertido cada vez más en la norma, suplantando a ETL en muchos escenarios: como dicen muchos, "el almacenamiento es barato". El término "ETL" se ha utilizado ampliamente durante tanto tiempo (desde la creación de las propias bases de datos) que sigue siendo habitual referirse a él, incluso cuando ELT es más preciso. Ahora estamos en una era de "almacenar primero, actuar después", facilitada por los costes decrecientes del almacenamiento en la nube y la facilidad de generación de datos.

Para el análisis, es frecuente conservar todos los datos potencialmente útiles. Avances tecnológicos como la arquitectura medallón yel lago de datos apoyan este enfoque con funciones como la fácil evolución del esquema y el viaje en el tiempo. Hablaremos de ellas y de otras a lo largo de esta guía.

Aunque utilicemos predominantemente el término "ETL", es importante señalar que los principios y consideraciones tratados son aplicables tanto a la ETL como a la ELT, así como a otras variantes como la ETL inversa -lapráctica de volver a ingerir datos depurados en herramientas empresariales desde el almacén o el lago-. No, ETL inversa = LTE, y sí, esto es confuso, pero estamos divagando.

Tanto si el término "ETL" describe con precisión tu proceso actual como si no, comprender los fundamentos de la ingestión, transformación y orquestación de datos sigue siendo crucial. Esto también se extiende a las buenas prácticas en áreas como la observabilidad, la resolución de problemas, el escalado y la optimización. Esperamos que esta guía sea un recurso valioso, independientemente de la metodología específica de procesamiento de datos que emplees.

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita https://oreilly.com.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/understandingETL.

Para noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.

Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media.

Míranos en YouTube: https://youtube.com/oreillymedia.

Agradecimientos

Aunque todos estamos a hombros de gigantes, esta guía en particular no habría sido posible sin la tutoría, la ayuda y el apoyo de algunas personas muy dedicadas y solidarias.

En primer lugar, gracias a mis compañeros de O'Reilly y Databricks: Aaron Black, que me dio la oportunidad de escribir; Gary O'Brien, que fue un editor de desarrollo estelar (¡y confidente!); Ori Zohar, que ayudó a dar forma a la guía en su conjunto; y tanto Sumit Makashir como Pier Paolo Ippolito por sus excelentes y atentas revisiones técnicas.

Gracias a Zander Matheson por su ayuda para comprender el streaming y el procesamiento de flujos. Además de desarrollar una herramienta increíble (Bytewax), Zander ha sido un gran amigo y un gurú de los datos en general.

Gracias a Aleks Tordova y al equipo de Coalesce, que se asociaron para escribir mi primera guía y me han brindado amplias oportunidades de aprender y crecer.

Gracias a mi familia, que me ha apoyado incondicionalmente en mi viaje -en los datos y en la vida- a pesar de mis defectos, idiosincrasias y payasadas en general. Gracias, Jasmine, Violet y Paul (¡y cachorros Enzo y Rocky!)

Además, tengo la suerte de contar con algunos amigos increíbles que me han apoyado mientras me mudaba al otro lado del país, aceptaba un nuevo trabajo, escribía esta guía y continuaba mi camino de autodescubrimiento. Hubo muchos mensajes de texto, Slacks, llamadas telefónicas y memes que me ayudaron en los momentos difíciles. Por orden alfabético, gracias a JulieAnn, Kandace, Rob, Srini y Tyson.

Por último, gracias a la comunidad de datos. A las personas que contribuyen al código abierto y presentan ponencias en conferencias, a los profesionales que se levantan cada día buscando mejorar, a los educadores/mentores que nos hacen avanzar como campo, y a todos los autores cuyos textos, ideas y contenidos nos han ayudado a llegar a donde estamos hoy: ¡Estoy impaciente por ver lo próximo que conseguiremos!

Get Entender el ETL now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.