Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
¡Bienvenido a esta primera edición de Malla de Datos de Flujo! Ésta es tu guía para comprender y construir una malla de datos en streaming que cumpla todos los pilares de una malla de datos.
La malla de datos es una de las arquitecturas más populares para plataformas de datos que muchos están explorando hoy en día. Este libro te ayudará a comprender a fondo esta plataforma de datos de autoservicio en un contexto de streaming. Hoy en día, el procesamiento por lotes domina todos los procesos de extracción, transformación y carga (ETL) en la mayoría de las empresas. Este libro te ayudará a mostrar una perspectiva diferente de los conductos de datos y a aplicar los mismos conceptos que ya entiendes en el ETL por lotes, pero en un ETL de flujo en el contexto de una malla de datos.
Este libro está diseñado para ayudarte a comprender los conceptos esenciales en torno a la malla de datos en streaming: los conceptos, arquitecturas y tecnologías de su núcleo. El libro abarca todos los temas esenciales relacionados con el streaming de malla de datos, desde los fundamentos de la arquitectura de datos, pasando por el uso de herramientas de big data para el almacenamiento de datos, hasta los enfoques orientados al negocio para las arquitecturas de streaming de malla de datos. Además, examinaremos una pila de servicios implicados en un proyecto de malla de datos en streaming de éxito.
Este libro no requiere que tengas conocimientos previos de los pilares que componen una malla de datos. Presentaremos brevemente los pilares a un nivel muy alto y los definiremos pensando específicamente en el streaming. Si crees que necesitas comprender la malla de datos con más detalle, consulta el libro de Zhamak Dehghani, Malla de datos (O'Reilly).
Quién debería leer este libro
Este libro está escrito para cualquiera que esté interesado en aprender más sobre la malla de datos en streaming, combinando el apasionante trabajo realizado en la malla de datos con el streaming en tiempo real para la transformación de datos, la definición de productos de datos y la gobernanza de datos. Este libro también es útil para ingenieros de datos, analistas de datos, científicos de datos, arquitectos de software y propietarios de productos que deseen implementar una arquitectura de streaming de datos para sus proyectos. Este libro es útil para quienes deseen familiarizarse con las tecnologías de streaming de datos y las buenas prácticas para integrarlas, a escala, en sus proyectos.
Por qué escribimos este libro
Nosotros escribimos un libro sobre la malla de datos en flujo porque creemos que tiene el potencial de revolucionar la forma en que las empresas gestionan y procesan sus datos. Streaming data mesh proporciona una plataforma que une las capacidades de mensajería, almacenamiento y procesamiento en una solución integral. Al aumentar la fiabilidad y la cobertura de los datos al tiempo que reduce los costes, esta plataforma permite a las empresas acelerar significativamente su transformación digital y convertirse en organizaciones impulsadas por los datos. Con este libro, queremos asegurarnos de que nuestros lectores comprenden los principios clave, los últimos enfoques y lo que se debe y no se debe hacer en la malla de streaming de datos. También queremos proporcionar una guía paso a paso para configurar y poner en funcionamiento una malla de datos en streaming, teniendo en cuenta las buenas prácticas.
Navegar por este libro
Este libro está organizado de la siguiente manera:
- Los capítulos 1 y 2 proporcionan una introducción a los conceptos de malla de datos y los amplían a un contexto de streaming.
- El Capítulo 3 entra en detalle sobre la propiedad de los dominios y los enfoques utilizados para identificarlos, el diseño impulsado por los dominios, las funciones asociadas a un dominio de datos, las herramientas a tener en cuenta, así como un enfoque de las devoluciones de cargos centradas en los dominios.
- El Capítulo 4 explora la creación de productos de flujo de datos, incluyendo la identificación, ingestión, transformación y publicación de productos de datos.
- El capítulo 5 examina la gobernanza federada de los datos computacionales dentro de una malla de datos en flujo.
- El Capítulo 6 trata de la infraestructura de autoservicio en relación con la malla de datos en streaming.
- El capítulo 7 se sumerge en la arquitectura de una malla de streaming de datos y sus componentes, incluyendo la infraestructura y la arquitectura de la nube.
- El capítulo 8 trata de la estructura, la alineación y las funciones asociadas a la creación de un equipo descentralizado.
- El Capítulo 9 trata de la aplicación de la malla de datos en flujo para crear almacenes de características que potencien el entrenamiento y la inferencia de modelos de ciencia de datos.
- El capítulo 10 ofrece un ejemplo concreto de creación de una malla de datos en flujo.
Convenciones utilizadas en este libro
En este libro se utilizan las siguientes convenciones tipográficas:
- Cursiva
-
Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.
Constant width
-
Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.
Constant width bold
-
Muestra comandos u otros textos que deben ser tecleados literalmente por el usuario.
Constant width italic
-
Muestra el texto que debe sustituirse por valores proporcionados por el usuario o por valores determinados por el contexto.
Consejo
Este elemento significa un consejo o sugerencia.
Nota
Este elemento significa una nota general.
Advertencia
Este elemento indica una advertencia o precaución.
Utilizar ejemplos de código
El material complementario (ejemplos de código, ejercicios, etc.) está disponible para su descarga en https://github.com/hdulay/streaming-data-mesh.
Si tienes una pregunta técnica o un problema al utilizar los ejemplos de código, envía un correo electrónico a support@oreilly.com.
Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.
Agradecemos, pero generalmente no exigimos, la atribución. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Streaming Data Mesh " de Hubert Dulay y Stephen Mooney (O'Reilly). Copyright 2023 Hubert Dulay y Stephen Mooney, 978-1-098-13072-5".
Si crees que el uso que haces de los ejemplos de código no se ajusta al uso legítimo o al permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en permissions@oreilly.com.
Aprendizaje en línea O'Reilly
Nota
Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.
Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita https://oreilly.com.
Cómo contactar con nosotros
Por favor, dirige tus comentarios y preguntas sobre este libro a la editorial:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Norte
- Sebastopol, CA 95472
- 800-889-8969 (en Estados Unidos o Canadá)
- 707-829-7019 (internacional o local)
- 707-829-0104 (fax)
- support@oreilly.com
- https://www.oreilly.com/about/contact.html
Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/streaming-data-mesh.
Para obtener noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.
Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media
Síguenos en Twitter: https://twitter.com/oreillymedia
Míranos en YouTube: https://youtube.com/oreillymedia
Agradecimientos
No habríamos podido escribir este libro sin Andy Kwan, promotor de nuestra propuesta para el mismo. Gracias también a nuestra editora de producción, Beth Kelly, y sobre todo a Jeff Bleiel. Jeff ha sido una ayuda tremenda, y apreciamos enormemente todo lo que ha hecho por nosotros.
Un agradecimiento especial a todos los revisores que dedicaron incontables horas a digerir este contenido y sugerir mejoras. Su inquebrantable apoyo fue decisivo para hacer realidad este libro. Ralph Matthias Debusmann, por acercarse y mostrar su interés desde el principio por nuestro libro. Ravneet Singh, gracias también por tu ayuda y apoyo. Dr. Ian Buss, ¡gracias una y otra vez! Sharon Xie, Decodable tiene suerte de contar contigo. Eric Sammer, gracias por la experiencia.
Hubert
Gracias a mi mujer, Beth, y a mis hijos, Aster y Nico, por apoyarme y recordarme que debo dedicar tiempo a mí mismo y a mi familia.
Me gustaría dar las gracias específicamente a todos los que influyeron en mí durante mi tiempo en Cloudera. "Construye siempre tu marca", Hemal Kanani -todavía oigo tu voz cuando leo esa frase- ¡BUM! Ben Spivey por estar siempre ahí como mentor y amigo. Ian Buss por enseñarme que el big data es fácil. Marlo Carillo y mis hermanos filip big data-gracias por representar al RP. Y por supuesto, los Illuminatis del CLDR.
También me gustaría dar las gracias a todos los de Confluent que viajaron conmigo a la OPI y por darme las experiencias necesarias para escribir este libro. Dan Elliman, gracias por ser Batman para mi Robin en la NE. Eric Langan, gracias por tener una actitud tan genial y contagiosa. Paul Earsy, por guiarme a través de aguas turbias. Para Steve Williams: ¿por qué te jubilaste? Aún estás en tu mejor momento. A Jay Kreps por su liderazgo. Gwen Shapira por ser una gran influencia. Yeva Byzek, Ben Stopford, Adam Bellemare y Travis Hoffman por estar ahí al principio del discurso sobre la malla de datos en Confluent. Gracias, Confluent, por patrocinar este libro y por todas las demás personas inteligentes que hay allí.
También me gustaría dar las gracias a las muchas personas que aportaron sus comentarios y ayudaron a dar forma al libro: Benjamin Djidi, Ismael Ghalimi, David Yaffe, Hojjat Jafarpour, Yingjun Wu, Zander Matheson, Will Plummer, Ting Wang, Jove Zhong y Yaniv Ben Hemo.
Stephen
Me gustaría expresar mi más sincera gratitud a todos los que me han apoyado mientras escribía este libro. Agradezco especialmente a los colegas que me guiaron a lo largo del proceso de escritura y publicación. También estoy agradecida a amigos y familiares por su inquebrantable amor y aliento. Además, estoy agradecida al equipo editorial de O'Reilly por sus inestimables consejos y recursos. Por último, estoy agradecida a los muchos lectores que han sido una maravillosa fuente de inspiración para mí a lo largo de este viaje. Gracias a todos.
Get Malla de transmisión de datos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.