Capítulo 3. Fundamentos de la ingeniería de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El auge del ML en los últimos años va estrechamente unido al auge de los grandes datos. Los grandes sistemas de datos, incluso sin ML, son complejos. Si no llevas años y años trabajando con ellos, es fácil perderse entre siglas. Son muchos los retos y las posibles soluciones que generan estos sistemas. Las normas del sector, si es que existen, evolucionan rápidamente a medida que salen nuevas herramientas y se amplían las necesidades del sector, creando un entorno dinámico y en constante cambio. Si observas la pila de datos de distintas empresas tecnológicas, puede parecer que cada una hace lo suyo.

En este capítulo, cubriremos los aspectos básicos de la ingeniería de datos que, esperamos, te proporcionarán un terreno firme en el que apoyarte mientras exploras el panorama para tus propias necesidades. Empezaremos con las distintas fuentes de datos con las que podrías trabajar en un proyecto típico de ML. Seguiremos hablando de los formatos en los que se pueden almacenar los datos. Almacenar datos sólo es interesante si pretendes recuperar esos datos más adelante. Para recuperar los datos almacenados, es importante saber no sólo cómo están formateados, sino también cómo están estructurados. Los modelos de datos definen cómo se estructuran los datos almacenados en un determinado formato de datos.

Si los modelos de ...

Get Diseño de sistemas de aprendizaje automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.