Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Con este práctico libro, los profesionales de la IA y el aprendizaje automático (ML) aprenderán a crear e implementar con éxito proyectos de ciencia de datos en Amazon Web Services (AWS). La pila de IA y ML de Amazon unifica la ciencia de datos, la ingeniería de datos y el desarrollo de aplicaciones para ayudarte a mejorar tus habilidades. Esta guía te muestra cómo construir y ejecutar pipelines en la nube, y luego integrar los resultados en aplicaciones en cuestión de minutos en lugar de días. A lo largo del libro, los autores Chris Fregly y Antje Barth demuestran cómo reducir costes y mejorar el rendimiento.

  • Aplica la pila de IA y ML de Amazon a casos de uso del mundo real para el procesamiento del lenguaje natural, la visión informática, la detección del fraude, los dispositivos conversacionales y mucho más.

  • Utiliza el ML automatizado (AutoML) para implementar un subconjunto específico de casos de uso con Amazon SageMaker Autopilot.

  • Profundiza en el ciclo de vida completo de desarrollo de modelos para un caso de uso de procesamiento del lenguaje natural (PLN) basado en BERT, incluyendo la ingestión y el análisis de datos, y mucho más.

  • Une todo en una canalización de operaciones de ML (MLOps) repetible.

  • Explora ML en tiempo real, detección de anomalías y análisis de streaming en flujos de datos en tiempo real con Amazon Kinesis y Amazon Managed Streaming para Apache Kafka (Amazon MSK).

  • Aprende las buenas prácticas de seguridad para proyectos y flujos de trabajo de ciencia de datos, incluyendo AWS Identity and Access Management (IAM), autenticación, autorización, incluyendo ingestión y análisis de datos, formación de modelos e implementación.

Resumen de los capítulos

El capítulo 1 ofrece una visión general de la amplia y profunda pila de IA y ML de Amazon, un conjunto enormemente potente y diverso de servicios, bibliotecas de código abierto e infraestructura para utilizar en proyectos de ciencia de datos de cualquier complejidad y escala.

El Capítulo 2 describe cómo aplicar la pila de IA y ML de Amazon a casos de uso del mundo real para recomendaciones, visión informática, detección de fraudes, comprensión del lenguaje natural (NLU), dispositivos conversacionales, búsqueda cognitiva, atención al cliente, mantenimiento industrial predictivo, domótica, Internet de las Cosas (IoT), sanidad y computación cuántica.

El Capítulo 3 muestra cómo utilizar AutoML para implementar un subconjunto específico de estos casos de uso con SageMaker Autopilot.

Los capítulos 4-9 profundizan en el ciclo de vida completo de desarrollo de modelos (MDLC) para un caso de uso de PNL basado en BERT, incluida la ingestión y el análisis de datos, la selección e ingeniería de características, el entrenamiento y ajuste de modelos, y la implementación de modelos con Amazon SageMaker, Amazon Athena, Amazon Redshift, Amazon EMR, TensorFlow, PyTorch y Apache Spark sin servidor.

El capítulo 10 une todo en tuberías repetibles utilizando MLOps con tuberías SageMaker, tuberías Kubeflow, Apache Airflow, MLflow y TFX.

El Capítulo 11 demuestra ML en tiempo real, detección de anomalías y análisis de streaming en flujos de datos en tiempo real con Amazon Kinesis y Apache Kafka.

El capítulo 12 presenta un amplio conjunto de buenas prácticas de seguridad para los proyectos y flujos de trabajo de la ciencia de datos, incluyendo IAM, autenticación, autorización, aislamiento de red, cifrado de datos en reposo, cifrado de red post-cuántica en tránsito, gobernanza y auditabilidad.

A lo largo del libro, ofrecemos consejos para reducir los costes y mejorar el rendimiento de los proyectos de ciencia de datos en AWS.

Quién debería leer este libro

Este libro es para cualquiera que utilice datos para tomar decisiones empresariales críticas. Esta guía ayudará a los analistas de datos, científicos de datos, ingenieros de datos, ingenieros de ML, científicos de investigación, desarrolladores de aplicaciones e ingenieros de DevOps a ampliar su comprensión de la pila moderna de la ciencia de datos y a mejorar sus habilidades en la nube.

La pila de IA y ML de Amazon unifica la ciencia de datos, la ingeniería de datos y el desarrollo de aplicaciones para ayudar a los usuarios a mejorar sus habilidades más allá de sus funciones actuales. Mostramos cómo construir y ejecutar pipelines en la nube, y luego integrar los resultados en aplicaciones en minutos en lugar de días.

Lo ideal, y para aprovechar al máximo este libro, es que los lectores tengan los siguientes conocimientos:

  • Conocimientos básicos de computación en nube

  • Conocimientos básicos de programación con Python, R, Java/Scala o SQL

  • Familiaridad básica con herramientas de ciencia de datos como Jupyter Notebook, pandas, NumPy o scikit-learn

Otros recursos

En hay muchos grandes autores y recursos en los que se inspiró este libro:

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva
Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.
Constant width
Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.
Constant width bold
Muestra comandos u otros textos que deben ser tecleados literalmente por el usuario.
Consejo

Este elemento significa un consejo o sugerencia.

Nota

Este elemento significa una nota general.

Utilizar ejemplos de código

Puedes descargar material complementario de (ejemplos de código, ejercicios, etc.) en https://github.com/data-science-on-aws. Algunos de los ejemplos de código mostrados en este libro están acortados para destacar una implementación específica. El repositorio incluye cuadernos adicionales que no se tratan en este libro, pero que son útiles para que los lectores los revisen. Los cuadernos están organizados por capítulos del libro y deberían ser fáciles de seguir.

Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.

Agradecemos, pero no exigimos, la atribución. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Ciencia de datos en AWS", de Chris Fregly y Antje Barth (O'Reilly). Copyright 2021 Antje Barth y Flux Capacitor, LLC, 978-1-492-07939-2".

Si crees que el uso que haces de los ejemplos de código no se ajusta al uso legítimo o al permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en permissions@oreilly.com.

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita http://oreilly.com.

Cómo contactar con nosotros

Por favor, dirige tus comentarios y preguntas sobre este libro a la editorial:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Norte
  • Sebastopol, CA 95472
  • 800-998-9938 (en Estados Unidos o Canadá)
  • 707-829-0515 (internacional o local)
  • 707-829-0104 (fax)

En tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/data-science-aws.

Envía un correo electrónico para comentar o hacer preguntas técnicas sobre este libro.

Para obtener noticias e información sobre nuestros libros y cursos, visita http://oreilly.com.

Encuéntranos en Facebook: http://facebook.com/oreilly

Síguenos en Twitter: http://twitter.com/oreillymedia

Míranos en YouTube: http://www.youtube.com/oreillymedia

Los autores comparten regularmente en Twitter o LinkedIn entradas de blog relevantes, charlas de conferencias, diapositivas, invitaciones a reuniones y fechas de talleres.

Sigue a los autores en Twitter: https://twitter.com/cfregly y https://twitter.com/anbarth

Encuentra a los autores en LinkedIn: https://www.linkedin.com/in/cfregly y https://www.linkedin.com/in/antje-barth

Agradecimientos

Nos gustaría dar las gracias a nuestro editor de desarrollo de O'Reilly, Gary O'Brien, que nos ayudó a navegar por el proceso de creación del libro y, lo que es más importante, nos hizo reír cada vez que charlábamos. ¡Gracias, Gary, por permitirnos incluir código fuente y especificaciones de hardware de bajo nivel en el Capítulo 1! También nos gustaría dar las gracias a Jessica Haberman, editora jefe de adquisiciones, que nos ofreció consejos clave sobre todo, desde la propuesta inicial del libro hasta el recuento final de páginas. Tras siete años presentando propuestas de libros, ¡nos ayudó a subir el listón hasta el punto de que la propuesta fue aceptada! Un agradecimiento especial a Mike Loukides y Nicole Taché, de O'Reilly, por sus atentos consejos al principio del proceso de escritura del libro, incluido el esquema de los capítulos, las introducciones y los resúmenes.

Nos gustaría enviar un caluroso agradecimiento a los revisores de libros que incansablemente revisaron -y volvieron a revisar- cada página de este libro. Los revisores se enumeran aquí en orden alfabético por nombre de pila: Ali Arsanjani, Andy Petrella, Brent Rabowsky, Dean Wampler, Francesco Mosconi, Hannah Marlowe, Hannes Hapke, Josh Patterson, Josh Wills, Liam Morrison, Noah Gift, Ramine Tinati, Robert Monarch, Roy Ben-Alta, Rustem Feyzkhanov, Sean Owen, Shelbee Eigenbrode, Sireesha Muppala, Stefan Natu, Ted Dunning y Tim O'Brien. Vuestra profunda experiencia técnica y vuestros exhaustivos comentarios han sido de un valor incalculable, no sólo para este libro, sino para la forma en que presentaremos el material técnico en el futuro. Habéis contribuido a que este libro pase de bueno a excelente, y hemos disfrutado mucho trabajando con todos vosotros en este proyecto.

Chris

Me gustaría dedicar este libro a mi difunto padre, Thomas Fregly. Papá: Trajiste a casa mi primer ordenador Apple cuando tenía 8 años y cambiaste mi vida para siempre. Me ayudaste a absorber tu libro de cálculo universitario a los 10 años y solidificaste aún más mi gran interés por las matemáticas. Me enseñaste a leer vorazmente, a escribir sucintamente, a hablar con eficacia, a teclear con rapidez y a hacer preguntas pronto. Viéndote reparar el motor de un barco mientras estabas varado en el lago Michigan, no dejo de inspirarme para profundizar y comprender el hardware que alimenta mi software. Paseando por tu oficina del Chicago Sun-Times, aprendí que todo el mundo tiene una historia interesante que contar, incluido el recepcionista, el director general y el personal de mantenimiento. Decías "Hola" a todos por igual, preguntabas por sus hijos, escuchabas sus historias y les hacías reír con alguna anécdota graciosa propia. De niño, cogido de tu mano mientras paseábamos por el campus de tu universidad, aprendí que no pasa nada por salirse de la acera y labrarse su propio camino entre la hierba. Me dijiste: "No te preocupes, Chris, con el tiempo pavimentarán este camino, ya que es claramente el camino más corto desde el edificio de ingeniería hasta la cafetería". Tenías razón, papá. Muchos años después, recorrimos ese camino recién pavimentado mientras tomábamos tu bebida favorita, Diet Pepsi, en la cafetería. De ti aprendí a labrarme mi propio camino en la vida y a no seguir siempre a la multitud. Aunque no viviste para ver Windows 95, francamente no te perdiste gran cosa. Y sí, finalmente Mac OS pasó a Linux. En eso también tenías razón.

También me gustaría dar las gracias a mi coautora, Antje Barth, por trabajar hasta altas horas de la noche y los fines de semana para ayudar a hacer de esto una experiencia fantástica de escritura de libros. Aunque tenemos una diferencia horaria de 8-9 horas entre San Francisco y Düsseldorf, siempre estuviste disponible para sesiones virtuales de pizarra, mejoras de última hora del código fuente y discusiones sobre la coma Oxford. Nos hemos hecho aún mejores amigos gracias a esta experiencia, y no podría haber creado un libro tan denso y de tan alta calidad sin ti. Estoy deseando trabajar contigo en muchos proyectos futuros.

Antje

Me gustaría dar las gracias a Ted Dunning y a Ellen Friedman por ser grandes mentores y animarme siempre a asumir nuevos retos. Ted, siempre tienes palabras sabias que compartir cuando hablamos y que me ayudan a ver las cosas desde una perspectiva diferente, ya sea al prepararme para un concurso de maquetas o al aconsejarnos sobre cómo ayudar a nuestros lectores a sacar el máximo partido de este libro. Ellen, aún recuerdo cómo me guiaste para crear propuestas de charlas convincentes para conferencias cuando empecé a presentar charlas para las conferencias O'Reilly Strata y AI. Y hasta el día de hoy, pongo especial empeño en idear títulos pegadizos. Por desgracia, O'Reilly rechazó mi propuesta de titular este libro Alexa, por favor, entrena mi modelo.

Ambas predicáis con el ejemplo cuando decís: "Ayudad a construir el sueño de una niña de lo que puede conseguir". Por esa misma razón, me gustaría dedicar este libro a todas las mujeres y niñas que sueñan con seguir una carrera en tecnología o que la siguen en la actualidad. Mientras creas en ti misma, no hay nada que te impida cumplir tus sueños en esta profesión.

Ha habido muchas más personas que me han apoyado y animado a lo largo de mi trayectoria profesional. Os doy las gracias a todos.

También quiero dar las gracias a Chris por ser un coautor divertido y perspicaz. Desde el principio, siempre insististe en los más altos estándares, me impulsaste a profundizar y me animaste a ser curiosa y a hacer muchas preguntas. Me ayudaste a simplificar mi código, a presentar mis ideas con claridad y a aceptar por fin la controvertida coma de Oxford.

Get Ciencia de datos en AWS now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.