Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Estás a punto de emprender un importante y encomiable viaje de aprendizaje que incluirá estadísticas, codificación y mucho más. Antes de sumergirme en él, me gustaría dedicar algo de tiempo a hablar de mis objetivos de aprendizaje para ti, de cómo llegué a este libro y de lo que deberías esperar.

Objetivo de aprendizaje

Al final de este libro, tú deberías ser capaz de realizar análisis exploratorios de datos y pruebas de hipótesis utilizando un lenguaje de programación. Explorar y probar relaciones es fundamental para la analítica. Con las herramientas y marcos de trabajo que aprenderás en este libro, estarás bien posicionado para seguir aprendiendo técnicas de análisis de datos más avanzadas.

Utilizaremos Excel, R y Python porque son herramientas potentes y porque facilitan el aprendizaje. Pocos libros cubren esta combinación, aunque la progresión de las hojas de cálculo a la programación es habitual para los analistas, yo incluido.

Requisitos previos

Para cumplir estos objetivos, este libroparte de algunossupuestos técnicos y tecnológicos.

Requisitos técnicos

Estoy escribiendo este libro en un ordenador Windows con la versión Office 365 de Excel para escritorio. Siempre que tengas instalada en tu máquina una versión de pago de Excel 2010 o superior para Windows o Mac, deberías poder seguir la mayor parte de las instrucciones de este libro, con algunas variaciones, sobre todo con las Tablas dinámicas y la visualización de datos.

Nota

Aunque Excel ofrece versiones gratuitas y de pago en línea, se necesita una versión de escritorio de pago para acceder a algunas de las funciones tratadas en este libro.

Tanto R como Python son herramientas gratuitas de código abierto disponibles para los principales sistemas operativos. Más adelante en el libro explicaré cómo instalarlas.

Requisitos tecnológicos

Este libro no asume ningún conocimiento previo de R o Python; dicho esto, se basa en un conocimiento moderado de Excel para aplanar esa curva de aprendizaje.

Los temas de Excel con los que deberías estar familiarizado son los siguientes:

  • Referencias de celda absolutas, relativas y mixtas

  • Lógica condicional y agregación condicional (IF() declaraciones,SUMIF()/SUMIFS(), etc.)

  • Combinar fuentes de datos (VLOOKUP(), INDEX()/MATCH(), etc.)

  • Ordenar, filtrar y agregar datos con Tablas dinámicas

  • Trazado básico (gráficos de barras, de líneas, etc.)

Si quieres practicar más con estos temas antes de seguir adelante, te sugiero la Biblia Excel 2019 de Michael Alexander et al. (Wiley).

Cómo he llegado hasta aquí

Como muchos en nuestro campo, mi camino hacia la analítica fue tortuoso. En la escuela, las matemáticas se convirtieron en una asignatura que evitaba activamente; demasiadas de ellas me parecían totalmente teóricas. Algunos cursos de estadística y econometría despertaron mi interés. Fue un soplo de aire fresco aplicar las matemáticas a algún fin concreto.

Esta exposición a la estadística fue ciertamente escasa. Asistí a una universidad de artes liberales, donde adquirí sólidas habilidades de escritura y pensamiento, pero pocas cuantitativas. Cuando llegué a mi primer trabajo a tiempo completo, me sorprendió la profundidad y amplitud de los datos que se me había confiado gestionar. Muchos de estos datos vivían en hojas de cálculo y era difícil obtener mucho valor de ellos sin una intensa limpieza y preparación.

Parte de esta "gestión de datos" es de esperar; el New York Times ha informado de que los científicos de datos dedican entre el 50% y el 80% de su tiempo a preparar los datos para el análisis. Pero me preguntaba si había formas más eficientes de limpiar, gestionar y almacenar datos. En concreto, quería hacerlo para poder dedicar más tiempo a analizar los datos. Al fin y al cabo, el análisis estadístico siempre me ha resultado agradable, pero la preparación manual y propensa a errores de los datos en hojas de cálculo, no tanto.

Como me gustaba escribir (gracias, licenciada en humanidades), empecé a escribir en un blog sobre consejos que aprendía en Excel. Por suerte y con mucho trabajo, el blog fue ganando adeptos, y a él atribuyo gran parte de mi éxito profesional. Te invito a que tepases por stringfestanalytics.com; sigo publicando regularmente sobre Excel y la analíticaen general.

Cuando empecé a aprender más sobre Excel, mi interés se extendió a otras herramientas y técnicas analíticas. Para entonces, los lenguajes de programación de código abierto R y Python habían ganado una popularidad significativa en el mundo de los datos. Pero mientras me abría camino en el dominio de estos lenguajes, sentía una fricción innecesaria en el camino del aprendizaje.

"Excel malo, codificación buena"

Me di cuenta en de que para los usuarios de Excel, la mayoría de la formación en R o Python sonaba muy parecido a esto:

Todo este tiempo, has estado utilizando Excel cuando en realidad deberías haber estado programando. ¡Mira todos los problemas que ha causado Excel! Es hora de dejar el hábito por completo.

Es una actitud equivocada por un par de razones:

No es exacto

La elección entre codificación y hojas de cálculo se plantea a menudo como una especie de lucha entre el bien y el mal. En realidad, es mejor pensar en ellas como herramientas complementarias y no como sustitutas. Las hojas de cálculo tienen su lugar en la analítica, al igual que la programación. Aprender y utilizar una no niega la otra. En el Capítulo 5 se analiza esta relación.

Es un mal enfoque instructivo

Los usuarios de Excel entienden intuitivamente cómo trabajar con datos: pueden ordenarlos, filtrarlos, agruparlos y unirlos. Saben qué arreglos facilitan el análisis y cuáles implican mucha limpieza. Se trata de una riqueza de conocimientos sobre la que construir. Una buena enseñanza lo utilizará para salvar la distancia entre las hojas de cálculo y la codificación. Desgraciadamente, la mayoría de la instrucción quema el puente por desprecio.

Las investigaciones indican que relacionar lo que has aprendido con lo que ya sabes es poderoso. Como dicen Peter C. Brown et al. en Make It Stick: La Ciencia del Aprendizaje Exitoso (Belknap Press):

Cuanto más puedas explicar sobre la forma en que tu nuevo aprendizaje se relaciona con tus conocimientos previos, más fuerte será tu comprensión del nuevo aprendizaje y más conexiones crearás que te ayudarán a recordarlo más adelante.

Como usuario de Excel, puede ser difícil relacionar nuevas ideas con lo que ya sabes cuando te dicen (erróneamente) que lo que ya sabes es basura. Este libro adopta un enfoquediferente, partiendo de tus conocimientos previos sobre hojas de cálculo para que tengas un marco claro en mente cuando nos adentremos en R y Python.

Nota

Tanto las hojas de cálculo como los lenguajes de programación son valiosas herramientas analíticas; no hay necesidad de abandonar Excel una vez que hayas cogido R y Python.

Las ventajas didácticas de Excel

De hecho, Excel es una herramienta de enseñanza analítica excepcionalmente fantástica:

Reduce la sobrecarga cognitiva

La sobrecarga cognitiva es el número de conexiones o saltos lógicos necesarios para comprender algo. A menudo, un viaje de aprendizaje analítico tiene este aspecto:

  1. Aprende una técnica nueva.

  2. Aprende a aplicar la nueva técnica utilizando nuevas técnicas decodificación.

  3. Progresar a técnicas más avanzadas, sin haberte sentido nunca realmente cómodo con las básicas.

Ya es bastante difícil aprender los fundamentos conceptuales de la analítica. Aprenderlo al mismo tiempo que se aprende a programar supone una sobrecarga cognitiva enorme. Por las razones que expondré, practicar la analítica mediante la codificación tiene sus ventajas. Pero es mejor aislar estos conjuntos de habilidades mientras se dominan.

Es una calculadora visual

La primera oferta masiva de una hoja de cálculo en se llamó VisiCalc -literalmente, calculadora visual-. Este nombre apunta a uno de los puntos de venta más importantes de la aplicación. Especialmente para los principiantes, los lenguajes de programación pueden parecer una "caja negra": teclea las palabras mágicas, pulsa "ejecutar" y listo: los resultados. Lo más probable es que el programa lo haya hecho bien, pero puede ser difícil para un novato abrir el capó y ver por qué (o, quizá más importante, por qué no).

En cambio, Excel te permite ver cómo toma forma un análisis en cada paso del camino. Te permite calcular y recalcular visualmente. En lugar de confiar en mi palabra (o en la de un lenguaje de codificación), harás demostraciones en Excel para visualizar conceptosanalíticos clave.

Nota

Excel ofrece la oportunidad de aprender los fundamentos del análisis de datos sin necesidad de aprender al mismo tiempo un nuevo lenguaje de programación. Esto reduce enormemente la sobrecarga cognitiva.

Resumen del libro

Ahora que entiendes el espíritu del libro y lo que espero que consigas, repasemos su estructura.

Parte I, "Fundamentos de la Analítica en Excel"

La analítica se apoya en la estadística. En esta parte, aprenderás a explorar y probar relaciones entre variables utilizando Excel. También utilizarás Excel para construir demostraciones convincentes de algunos de los conceptos más importantes de la estadística y la analítica. Esta base en la teoría estadística y el marco para realizar análisis te colocará sobre una base sólida para la programación de datos.

Parte II, "De Excel a R"

Ahora que dominas los fundamentos del análisis de datos, es el momento de aprender uno o dos lenguajes de programación. Empezaremos con R, un lenguaje de código abierto construido especialmente para el análisis estadístico. Verás cómo transferir limpiamente lo que has aprendido sobre el trabajo con datos de Excel a R. Concluyo la sección con un ejercicio final de principio a fin en R.

Parte III, "De Excel a Python"

Python es otro lenguaje de código abierto que merece la pena aprender para la analítica. Con el mismoespíritu de la Parte II, aprenderás a pasar tus datos de Excel a este lenguaje y a realizar un análisis de datos completo.

Ejercicios de fin de capítulo

Cuando leo libros, tiendo a saltarme los ejercicios de al final del capítulo porque creo que mantener el ritmo de mi lectura es más valioso. ¡No seas como yo!

Al final de la mayoría de los capítulos te ofrezco la oportunidad de practicar lo que has aprendido. Puedes encontrar las soluciones a estos ejercicios en la carpetade ejercicios-soluciones del repositorio adjunto, donde las verás en un archivo con el nombre de cada capítulo respectivo. Completa estos ejercicios y compara tus respuestas con las soluciones. Aumentarás tu comprensión del material y, al mismo tiempo, me proporcionarás un buen ejemplo.

Consejo

La mejor forma de aprender es de forma activa; si no pones en práctica inmediatamente lo que has leído, es probable que lo olvides.

Esto no es una lista de la colada

Una cosa que me encanta de la analítica es que casi siempre hay varias formas de hacer lo mismo. Es probable que te muestre cómo hacer algo de una forma cuando ya estás familiarizado con otra.

Mi objetivo en este libro es utilizar Excel como herramienta didáctica para el análisis y ayudar a los lectores a transferir estos conocimientos a R y Python. Si lo convirtiera en un volcado de ideas de todas las formas de completar una determinada tarea de limpieza o análisis de datos, el libro perdería su enfoque en torno a este objetivo concreto.

Puede que prefieras formas alternativas de hacer algo; incluso puede que esté de acuerdo contigo en que, dadas las diferentes circunstancias, existe un enfoque mejor. Sin embargo, dadas las circunstancias de este libro y sus objetivos, he decidido abarcar ciertas técnicas y excluir otras. Hacerlo de otro modo supondría el riesgo de convertir el libro en un anodino manual de instrucciones, en lugar de una punzante guía para avanzar en la analítica.

Que no cunda el pánico

Como autora, espero que me encuentres fácil y accesible. Sin embargo, tengo una regla para este libro: ¡que no cunda el pánico! Hay una curva de aprendizaje ciertamente pronunciada, ya que no sólo explorarás la probabilidad y la estadística, sino también dos lenguajes de programación. Este libro te introducirá en conceptos de estadística, informática y otros. Al principio pueden resultar chocantes, pero empezarás a interiorizarlos con el tiempo. Permítete aprender por ensayo y error.

Creo firmemente que con los conocimientos que posees sobre Excel, éste es un encargoalcanzable para un libro. Puede haber momentos de frustración ysíndrome del impostor; nos pasa a todos. No dejes que estos momentos ensombrezcan el progreso real que harás aquí.

¿Estás preparado? Nos vemos en el Capítulo 1.

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo, extensiones de archivo y variables de conjuntos de datos.

Constant width

Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables de código o de funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.

Consejo

Este elemento significa un consejo o sugerencia.

Nota

Este elemento significa una nota general.

Advertencia

Este elemento indica una advertencia o precaución.

Utilizar ejemplos de código

El material complementario (ejemplos de código, ejercicios, etc.) se puede descargar en https://github.com/stringfestdata/advancing-into-analytics-book.

Puedes descargar y descomprimir una copia de la carpeta en tu ordenador o, si estás familiarizado con GitHub, clonarla. Este repositorio contiene copias completas de los scripts y libros de trabajo de cada capítulo en la carpeta principal. Todos los conjuntos de datos necesarios para seguir este libro se encuentran en una subcarpeta separada de la carpeta de conjuntos de datos, junto con notas sobre su origen y los pasos seguidos para recopilarlos y limpiarlos. En lugar de operar directamente sobre cualquiera de estos libros de Excel, te sugiero que hagas copias, ya que la manipulación de los archivos de origen puede afectar a los pasos posteriores. Todas las soluciones de para los ejercicios de final de capítulo se encuentran en la carpeta exercise-solutions.

Si tienes una pregunta técnica o un problema al utilizar los ejemplos de código, envía un correo electrónico

Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativade código de ejemplo de este libro en la documentación de tu producto sí requierepermiso.

Agradecemos la atribución, pero en general no la exigimos. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Avanzando en Analítica por George Mount (O'Reilly). Copyright 2021 George Mount, 978-1-492-09434-0".

Si crees que el uso que haces de los ejemplos de código no se ajusta al uso legítimo o al permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita http://oreilly.com.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Norte
  • Sebastopol, CA 95472
  • 800-998-9938 (en Estados Unidos o Canadá)
  • 707-829-0515 (internacional o local)
  • 707-829-0104 (fax)

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/advancing-into-analytics.

Envía un correo electrónico para comentar o hacer preguntas técnicas sobre este libro.

Para obtener noticias e información sobre nuestros libros y cursos, visita http://oreilly.com.

Encuéntranos en Facebook: http://facebook.com/oreilly.

Síguenos en Twitter: http://twitter.com/oreillymedia.

Míranos en YouTube: http://www.youtube.com/oreillymedia.

Agradecimientos

En primer lugar, quiero dar las gracias a Dios por darme esta oportunidad de cultivar y compartir mis talentos. En O'Reilly, ha sido muy agradable trabajar con Michelle Smith y Jon Hassell, y les estaré eternamente agradecida por su oferta de que escribiera un libro. Corbin Collins me mantuvo en marcha durante el desarrollo del libro. Danny Elfanbaum y el equipo de producción convirtieron el manuscrito en bruto en un libro real. Aiden Johnson, Felix Zumstein y Jordan Goldmeier aportaron valiosas revisiones técnicas.

Conseguir que la gente reseñe un libro no es fácil, así que tengo que dar las gracias a John Dennis, Tobias Zwingmann, Joe Balog, Barry Lilly, Nicole LaGuerre y Alex Bodle por sus comentarios. También quiero dar las gracias a las comunidades que han puesto a disposición esta tecnología y estos conocimientos, a menudo sin compensación directa. He hecho algunos amigos fantásticos a través de mis búsquedas analíticas, que han sido tan generosos con su tiempo y sabiduría. Mis educadores del Instituto Padua Franciscan y del Hillsdale College hicieron que me enamorara del aprendizaje y de la escritura. Dudo que hubiera escrito un libro sin su influencia.

También doy las gracias a mi madre y a mi padre por proporcionarme el amor y el apoyo que tengo el privilegio de tener. Por último, a mi difunto Papou: gracias por compartir conmigo el valor del trabajo duro y la decencia.

Get Avanzar en la Analítica now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.