Capítulo 18. La ingeniería de datos desde la perspectiva de un científico de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Bill Franks

La gente se ha centrado en la ingestión y gestión de datos durante décadas, pero sólo recientemente la ingeniería de datos se ha convertido en una función generalizada.1 ¿Por qué? Este capítulo ofrece una visión algo contraria.

Administración de bases de datos, ETL y similares

Históricamente, las personas que trabajaban con datos empresariales se centraban en tres áreas principales. En primer lugar estaban los que gestionaban la recogida de datos brutos en los sistemas fuente. En segundo lugar estaban los que se centraban en las operaciones ETL. Hasta hace poco, las funciones de ETL se centraban abrumadoramente en las bases de datos relacionales. En tercer lugar estaban los administradores de bases de datos que gestionan esos sistemas relacionales.

El trabajo de estos roles de datos tradicionales está en gran medida estandarizado. Por ejemplo, los administradores de bases de datos no le dicen a una base de datos en qué discos almacenar los datos o cómo garantizar la integridad relacional. Como la tecnología relacional está madura, muchas tareas complejas son fáciles. Del mismo modo, las herramientas ETL tienen adaptadores para sistemas fuente comunes, funcionalidad para ...

Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.