Capítulo 4. Automatizar la exploración y edición de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La mayor parte de este libro te muestra cómo la IA puede hacer algo nuevo que no se podía haber hecho antes, ya sea identificar características y anomalías clave, construir un modelo de aprendizaje automático o aplicar los Servicios de IA de Azure a tus datos. Este capítulo, sin embargo, trata de cómo la IA puede automatizar aspectos del proceso de exploración y edición de datos. La primera mitad del capítulo revisa los componentes de IA integrados en el Editor de consultas Power Query que automatizan los pasos del preprocesamiento de datos. La segunda mitad explora las herramientas y funciones de IA que ayudan a acelerar el proceso de interpretación de la información y generación de informes. En conjunto, estas funciones de automatización de Power BI permiten al analista dedicar menos tiempo a tareas tediosas y liberar más tiempo para un trabajo más reflexivo.

El poder transformador de la automatización

Como lector de este libro, es probable que seas el tipo de persona a la que le entusiasman los avances en el panorama tecnológico. Al tipo opuesto de persona, alguien que rechaza las nuevas tecnologías, se le suele llamar ludita. ¿Pero sabías que éste era el nombre de un movimiento obrero del norte de Inglaterra a principios del siglo XIX? Los luditas originales eran trabajadores textiles cualificados que irrumpían en las fábricas y destruían los nuevos telares que competían con su trabajo. Su sabotaje era lo bastante grave como para que el Parlamento aprobara en 1812 la Ley de Ruptura de Telares, que castigaba con la muerte tales delitos.1 En particular, para los luditas nunca se trató de estar en contra de la tecnología en sí, sino de proteger sus medios de vida.

Pero no todo progreso es malo para todas las personas. A veces la automatización sustituye a las habilidades, el trabajo o las personas, y otras veces puede servir de complemento. Por ejemplo, puedes tener un puesto de trabajo que no existía hace 20 años y que sólo ha sido posible gracias a los recientes avances en la recopilación y el análisis de datos. Dos investigadores del MIT, Erik Brynjolfsson y Andrew McAfee, describen cómo las innovaciones modernas benefician a algunas personas, pero no a todas:

El progreso tecnológico va a dejar atrás a algunas personas, tal vez incluso a muchas, mientras avanza a toda velocidad. Como demostraremos, nunca ha habido un momento mejor para ser un trabajador con habilidades especiales o la educación adecuada, porque estas personas pueden utilizar la tecnología para crear y captar valor. Sin embargo, nunca ha habido un momento peor para ser un trabajador con sólo habilidades y capacidades "ordinarias" que ofrecer, porque los ordenadores, los robots y otras tecnologías digitales están adquiriendo estas habilidades y capacidades a un ritmo extraordinario.2

El mismo concepto de tecnología disruptiva se aplica también a las organizaciones. Tomemos el ejemplo de cómo la introducción de los cajeros automáticos cambió la forma de operar de las sucursales bancarias.3 Esta nueva tecnología permitió que una sucursal bancaria funcionara con un tercio menos de trabajadores; sin embargo, esto hizo que a los bancos les resultara más barato abrir más sucursales. El efecto neto fue que se contrataron más cajeros. Los cajeros automáticos también cambiaron el tipo de trabajo realizado en las sucursales: redujeron el número de tareas de manejo de efectivo realizadas, lo que permitió a los cajeros dedicar más tiempo a establecer relaciones con los clientes y vender otros productos financieros.

Muchas empresas tienen la opción de adoptar la tecnología disruptiva o convertirse en víctimas de ella. La IA ya ha transformado la sociedad, los negocios y nuestras propias vidas, y no muestra signos de detenerse a medida que avanza la frontera tecnológica. ¿Qué será lo próximo? En 2018, el consejero delegado de Google, Sundar Pichai, dio una respuesta: "Pienso en [la IA] como algo más profundo que la electricidad o el fuego". Esta audaz proclamación se debe, en parte, a que la IA es una tecnología de propósito general,es decir, un tipo de tecnología que tiene amplias aplicaciones en diversos productos e industrias. La electricidad, como mencionó Pichai, también es una tecnología de propósito general. Por sí misma, la electricidad no puede hacer gran cosa, pero sentó las bases para una amplia serie de inventos: las fábricas con máquinas eléctricas permitieron un control más preciso en la fabricación, la iluminación incandescente alargó asequiblemente los días, y el frigorífico, la televisión y (finalmente) el ordenador personal revolucionaron la vida doméstica. La IA también cambiará nuestra forma de vivir y de trabajar, abriendo una nueva era de desarrollo tecnológico.

Sobrevivir (y prosperar) con la automatización

La única constante en los negocios es el cambio, por lo que es importante que las personas y las organizaciones naveguen por el cambiante panorama tecnológico. La automatización puede cambiar drásticamente la forma de hacer el trabajo, pero a quienes la adopten les irá mucho mejor que a quienes la ignoren. Hablemos de cómo tú y tu empresa podéis prepararos mejor para el desarrollo de la automatización.

Cómo puede prepararse un analista de datos

Adopta un aprendizaje amplio.

Estudiar una amplia variedad de temas te hace más capaz de dedicarte a un campo específico que está despegando (o alejarte de un campo que está en declive) debido a la automatización. Los generalistas también suelen ser más innovadores y pueden tener éxito en un campo determinado utilizando una mentalidad multidisciplinar.

Abraza el aprendizaje estrecho.

Otro enfoque es obtener un título o certificación en una disciplina que tenga una demanda futura fiable. Las disciplinas cuantitativas y técnicas siguen siendo una buena apuesta en la Era de la IA. Ten en cuenta que este enfoque no es mutuamente excluyente con el aprendizaje en sentido amplio; se pueden hacer ambas cosas.

Conviértete en un experto en la materia.

También es importante aprender los entresijos de una empresa y del sector en el que opera. Si un experto en la materia desempeña una función que puede automatizarse, es más probable que pueda desempeñar otra función dentro de la misma empresa que otros empleados.

Especialízate en automatización.

Si no puedes vencerlos, ¡únete a ellos! La automatización puede dejar obsoletos algunos puestos de trabajo pero, en el proceso, creará otros nuevos. Los recientes avances en grandes modelos lingüísticos aumentarán la demanda de ingenieros de aprendizaje automático para entrenar dichos modelos, así como de ingenieros de prompts formados en formular las mejores preguntas para producir resultados de alta calidad.

Introduce un rol no automatizable.

Busca una especialidad dentro de los datos y la analítica que no pueda automatizarse (o al menos que sea más difícil de automatizar). Considera campos como la gobernanza de datos, la privacidad o la ética.

Refuerza la narración de tus datos.

La automatización en Power BI facilita y agiliza la transformación, el análisis y la visualización de los datos, aumentando el número de informes generados. Esto, a su vez, hará que los narradores de datos sean más valiosos, ya que pueden crear narrativas a partir de los datos y descubrir nuevas preguntas que plantear.

Ejercita esas habilidades blandas.

Los humanos seguirán queriendo trabajar con otros humanos, y es difícil recibir empatía de un algoritmo. Si la IA se hace omnipresente, los directivos de éxito serán los que tengan una gran inteligencia emocional.

Cómo puede prepararse una organización basada en datos

Invierte en desarrollo profesional.

Dedica tiempo significativo y recursos al aprendizaje de tus empleados, especialmente en áreas que complementen los avances en IA.

Adopta una mentalidad de crecimiento.

Fomenta una cultura con visión de futuro que se esfuerce por crecer. Esto incluye organizar tu empresa de forma que sea lo suficientemente ágil como para pivotar en respuesta a las tecnologías cambiantes y le permita apoyar la ejecución de ese crecimiento.

Reestructurar los puestos de trabajo.

Muéstrate dispuesto a desplazar empleados dentro de una organización si las nuevas formas de automatización permiten que un equipo funcione con menos personal. Considera también qué nuevas funciones podrían aprovechar mejor la última tecnología.

Prioriza deleitar a tu cliente.

Si la automatización generalizada está convirtiendo tu producto o servicio antes diferenciado en una mercancía, tendrás que encontrar la forma de destacar frente a la creciente competencia. Una forma de hacerlo es adoptar un enfoque centrado en el cliente, con personalización y un servicio superior.

Explora nuevas oportunidades de mercado.

Al igual que Internet condujo al desarrollo del comercio electrónico, los avances en IA y automatización permitirán la creación de nuevos productos, mercados e industrias.

Haz hincapié en la creatividad y la innovación.

Redobla la apuesta por los aspectos de tu empresa que no pueden automatizarse, como la creatividad y la innovación humanas.

Construye la automatización.

No esperes pasivamente a que ocurra el futuro; haz que ocurra liderando el desarrollo de la automatización dentro de tu producto o servicio.

Automatización de la IA en Power BI

Las plataformas de inteligencia empresarial en su conjunto no son fáciles de automatizar porque no realizan una sola tarea, sino que son un conjunto de herramientas que realizan muchas funciones. Además, los cuadros de mando de BI suelen utilizarse para la exploración de datos, donde no siempre hay un objetivo o resultado claro que optimizar. En cambio, podemos examinar los distintos componentes de una plataforma de BI y ver qué partes son las más adecuadas para la automatización.

Considera el ciclo de inteligencia empresarial que se muestra en la Figura 4-1. Comienza el ciclo en la parte superior derecha, donde un analista identifica un problema empresarial. A continuación, define un modelo de datos que le permitirá resolver el problema empresarial o responder a una pregunta concreta. A continuación, deben recopilar datos de la organización que les permitan construir el modelo de datos especificado. Estos tres primeros pasos, mostrados a la derecha en azul (gris más oscuro en la edición impresa), no son buenos candidatos para la automatización. No existe ningún programa informático que te diga cuál es el problema más acuciante de una empresa, qué datos se necesitan para abordar ese problema o dónde se puede acceder a los datos. Estos pasos debe darlos un humano.

Figura 4-1. El ciclo de la inteligencia empresarial

Después de que el analista haya recopilado los datos, los transforman para construir un modelo de datos. A continuación, utilizan esos datos procesados para construir un informe con datos resumidos y/o visualizaciones de datos. A continuación, el analista analizará el informe para resolver el problema empresarial o responder a la pregunta. Estos tres pasos, mostrados a la izquierda en verde (gris más claro en la edición impresa), tienen elementos que pueden automatizarse hasta cierto punto. Esto significa que existen oportunidades reales para que un analista de datos se asocie con algunas herramientas de automatización basadas en IA para acelerar ciertas tareas o ayudar en la toma de decisiones.

Por ejemplo, en Power BI hay muchas herramientas automatizadas de transformación de datos en Power Query que utilizan IA, como obtener datos de la web por ejemplo, añadir columna de ejemplos, perfilado de datos, generación de tablas y coincidencia difusa. Además, hay herramientas automatizadas de creación de informes, como la creación de preguntas y respuestas y la creación de informes. También en Power BI, tienes las funciones de análisis de informes con automatización incorporada, como la narrativa inteligente y las visualizaciones de perspectivas rápidas.

El último paso del ciclo de inteligencia empresarial consiste en que el analista de datos comunique los resultados a su organización. Como se ve en la Figura 4-1, esto también se representa en azul (gris más oscuro en la edición impresa), ya que no es un buen candidato para la automatización. El ciclo vuelve al paso inicial porque la inteligencia empresarial implica un proceso iterativo de descubrimiento.

IA en Power Query

Nota

Este libro asume que el lector ya está familiarizado con los fundamentos de Power BI y, por tanto, sabe que Power Query es donde un desarrollador puede conectarse a una o más fuentes de datos y luego transformar los datos en el formato deseado. Sin embargo, si necesitas ponerte al día o refrescar conocimientos, consulta esta visión general de Power Query.

La siguiente ronda de funciones de automatización basadas en IA dentro de Power BI forma parte de Power Query. Estas herramientas aprovechan la IA para realizar más rápidamente diversas manipulaciones de datos. Esto es beneficioso para el analista de datos, porque nadie entra en su línea de trabajo diciendo: "Quiero pasarme la carrera limpiando datos". De hecho, algunas de las aplicaciones más infravaloradas de la IA implican tareas aburridas o tediosas.

Esto también es importante a nivel organizativo, donde las empresas que utilizan la IA tienen una clara ventaja sobre las que no lo hacen. Los recientes desarrollos en grandes modelos lingüísticos, como ChatGPT, que se trata en el Capítulo 7, muestran cómo una nueva tecnología puede aumentar la capacidad de un empleado al darle esencialmente a cada uno su propio asistente personal. Del mismo modo, hay herramientas de IA en Power BI que capacitan a las personas para completar rápidamente tareas mundanas.

En esta sección, repasaremos seis de estas funciones que te ahorrarán tiempo y pueden facilitarte el trabajo o desbloquear un nuevo conjunto de datos para su análisis. Incluyen obtener datos de la web por ejemplo (web scraping), añadir columna de ejemplos, perfilado de datos, generación de tablas (a partir de texto, CSV, JSON, API web o Excel) y coincidencia difusa.

Obtener datos de la Web por ejemplo

A veces sabemos de la existencia de algunos datos de interés, pero están en un formato al que no se puede acceder fácilmente. Por ejemplo, una ocurrencia relativamente común describe los PDF como "donde los datos van a morir" debido a su diseño inmutable. Las páginas Web son otro ejemplo: en ellas viven cantidades increíbles de información, pero su formato está optimizado para la navegación y no para compartir datos a gran escala.

Aquí es donde entra en juego el web scraping. El web scraping es el proceso automatizado de extracción de información de páginas web. Analiza el lenguaje de marcado de hipertexto (HTML) subyacente de un sitio web y lo almacena para su uso posterior. Si utilizas el navegador Firefox o Chrome, puedes ver el HTML de una página haciendo clic con el botón derecho en la página y seleccionando Inspeccionar La Figura 4-2 muestra el HTML subyacente en una página de recursos de O'Reilly. Después de hacer clic en Inspeccionar, puedes ir al panel de la derecha y navegar por algunas secciones desplegables para revelar el texto almacenado que rellena la página.

Figura 4-2. Revelar el HTML subyacente de una página web

Power BI da la opción de cargar una página web y extraer el HTML en una tabla de datos. El usuario proporciona algunos ejemplos del resultado deseado, y Power BI utiliza la IA para predecir automáticamente todas las entradas deseadas de la página web.

Según nuestra experiencia, la IA es bastante buena identificando el patrón de extracción de HTML después de dos o tres ejemplos, pero no mejora mucho después de eso. Si no obtienes buenos resultados, prueba estos consejos:

  • Comprueba si hay erratas en tus entradas anteriores.

  • Asegúrate de seleccionar una entrada del desplegable después de escribir los primeros caracteres.

  • Comprueba si hay texto extra al final de una entrada haciendo doble clic y utilizando la tecla de flecha derecha.

  • Vuelve a empezar desde el principio.

  • Prueba a extraer una sección mayor de la que querías inicialmente (por ejemplo, en la Demo 1, extraemos "Por [nombre del autor]" porque extraer sólo el nombre del autor no funcionaba sistemáticamente).

Demostración 4-1: Obtener datos de la Web con un ejemplo

Vamos a recorrer un ejemplo de web scraping con obtener datos de web por ejemplo. Abre un nuevo informe de Power BI y selecciona la "flecha desplegable" de "Obtener datos". A continuación, haz clic en Web, como se muestra en la Figura 4-3.

Figura 4-3. Obtener datos de una fuente web

En URL, pega esto:

  • https://web.archive.org/web/20231120092630/https://www.oreilly.com/products/books-videos.html

A continuación, haz clic en Aceptar(Figura 4-4). Se abrirá una página web con una lista de productos O'Reilly.

Si se te pregunta a qué nivel aplicar estos ajustes, selecciona la URL completa en el menú desplegable y selecciona Conectar (no aparece en la imagen). La conexión puede tardar un minuto completo.

Esto abre la ventana Navegador, que ofrece varias opciones para visualizar los datos subyacentes de la página web. Seleccionando Vista Web, puedes ver la página web original como si la hubieras abierto en un navegador(Figura 4-5). O puedes seleccionar Vista Tabla y Código HTML para ver el código que genera la página(Figura 4-6). Alternativamente, puedes hacer clic en Vista Tabla y en el cuadro Tabla 1 para mostrar una tabla sugerida generada a partir del HTML de la página(Figura 4-7).

Figura 4-4. Decirle a Power BI qué sitio web quieres raspar
Figura 4-5. Una versión renderizada del sitio web
Figura 4-6. Visualizar el HTML del sitio web
Figura 4-7. Una de las cuatro tablas sugeridas con datos extraídos del código fuente del sitio web

En lugar de utilizar una de las tablas sugeridas, prueba a construir la tuya propia. Haz clic en Añadir tabla utilizando ejemplos en la esquina inferior izquierda. Se abrirá una nueva ventana, como se muestra en la Figura 4-8.

Figura 4-8. Empezar a construir una tabla a partir de una página web

El recuadro superior de la ventana muestra la página web renderizada, y el recuadro inferior es donde empezaremos a rellenar los datos de ejemplo que deseamos extraer. A continuación, desplázate hacia abajo en el cuadro superior para mostrar el primer libro. A continuación, en el cuadro inferior, nombra los encabezados Título, Autores, Editorial y Descripción. Ahora introduce la información del primer libro añadiendo el título, el autor, la editorial y la descripción del libro(Figura 4-9). Incluye "Por" antes del nombre del autor (por ejemplo, "Por Martin Kleppmann") para ayudar a la IA a encontrar lo que buscas. Esto lo acortaremos más adelante.

Nota

Creemos que es mejor empezar a escribir una entrada y luego seleccionar la opción que rellena automáticamente la entrada correcta. Esto reduce la posibilidad de que un error tipográfico inadvertido confunda a la IA y haga predicciones basadas en lo que has escrito y no en lo que querías decir.

Figura 4-9. Introducir información del primer libro para crear una tabla

Ahora desplázate hacia abajo en la primera casilla para ver el segundo libro de la lista. Introduce el título, el autor (incluyendo "Por"), la editorial y la descripción, acordándote de empezar a escribir y, a continuación, selecciona la opción de la lista. Tu ventana debería parecerse ahora a la de la Figura 4-10.

Figura 4-10. Añadir un segundo ejemplo desde la página web

Observa en la Figura 4-10 que después de dos filas de ejemplos, la IA de obtener datos de web por ejemplo ha rellenado el resto de la tabla. Utiliza texto gris para indicar que está haciendo una predicción. Si no obtienes los mismos resultados, asegúrate de consultar los consejos para utilizar el web scraping inmediatamente antes de esta sección.

Cuando estés listo, pulsa Aceptar para continuar. Aparecerá la ventana del Navegador, como se muestra en la Figura 4-11. Los resultados de la extracción HTML aparecen en la parte izquierda como Tabla 6. Ahora queremos modificar la lista de autores utilizando añadir columna de ejemplos, así que haz clic en Transformar Datos. Seguiremos a partir de aquí en la Demostración 4-2.

Figura 4-11. La recién creada Tabla 6 en la ventana del Navegador

Añadir columna a partir de ejemplos

He aquí otra herramienta del conjunto de herramientas de automatización de que permite a un analista transformar rápidamente los datos. Añadir columna a partir de ejemplos pide al usuario que proporcione entradas de ejemplo para mostrar a la IA cómo quiere que sea una nueva columna. A continuación, un algoritmo intenta identificar la fórmula de Power Query M que produce los mismos resultados.

Nota

Suponemos que el lector ya tiene conocimientos básicos del Lenguaje de Fórmulas de Power Query (denominado simplemente M y tratado brevemente en el Capítulo 1) que subyace a todas las consultas de Power BI. En este libro no trabajaremos directamente con código M, pero para quienes deseen una visión general o un repaso de , consulta la Introducción a Power Query M.

Lo interesante aquí es que el modelo de IA está prediciendo un paso intermedio (la fórmula M), y nosotros estamos evaluando la predicción basándonos en cómo aparece el paso final (generar una nueva columna). Aunque no hay documentación que indique cómo funciona la función de añadir columna a partir de ejemplos, se trata de una función similar dentro de los grandes modelos lingüísticos como ChatGPT, en los que un usuario puede dar una o varias indicaciones y el algoritmo generará una salida como si estuviera "aprendiendo" en tiempo real. Consulta el Capítulo 7 para obtener más detalles sobre este tema.

Puedes utilizar añadir columna desde ejemplos para combinar, extraer, transformar o mejorar datos en una nueva columna de tu elección. La mejor situación para utilizar esta función es si ya sabes que la transformación deseada existe dentro de Power BI (ya sea como expresión M o dentro de la interfaz de usuario); sin embargo, también es útil para probar diferentes manipulaciones y explorar lo que es posible.

Por nuestra experiencia, nos parece que la IA es buena generando una nueva columna a partir de dos o tres ejemplos, pero no mejora mucho después de eso. Si no obtienes buenos resultados, prueba estos consejos:

  • Comprueba si hay erratas en tus entradas anteriores.

  • Corrige las predicciones que sean incorrectas.

  • Proporciona ejemplos que abarquen una amplia gama de ejemplos.

  • Si todo lo demás falla, vuelve a empezar desde el principio.

Demostración 4-2: Añadir columna a partir de ejemplos

Veamos un ejemplo de generación de una nueva columna a partir de un conjunto de datos utilizando ejemplos. Esto es una continuación de la Demostración 4-1, en la que extrajimos datos de recursos del sitio web de O'Reilly. Es una continuación natural porque la extracción HTML a veces recoge datos que no son precisamente los que queremos.

Abre el Editor de consultas Power Query si aún no está abierto. Selecciona la columna Autores y haz clic en la pestaña Añadir Columna(Figura 4-12). Ahora selecciona Columna A partir de ejemplos y en el desplegable elige A partir de selección. Esto significa que estás generando una nueva columna basada en la información que se encuentra en la columna Autores.

Figura 4-12. Encontrar la herramienta Añadir Columna desde Ejemplos en el Editor Power Query

La ventana cambiará, añadiendo una nueva Columna1, como se muestra en la Figura 4-13. Aquí es donde puedes añadir ejemplos de los datos formateados que quieras de Autores.

Figura 4-13. Una nueva columna antes de añadir ejemplos

Cambia el nombre de la columna Autores2 y añade el primer ejemplo de Martin Kleppmann sin el precedente "Por". Como puedes ver en la Figura 4-14, a partir de un solo ejemplo la IA ha predicho que todas las entradas son la lista de autores sin "Por". Observa también la fórmula M predicha que aparece en la parte superior sobre cómo se genera la nueva columna. Dice así: De la columna Autores, toma todo el texto que venga después del primer espacio en blanco.

Figura 4-14. Las entradas predichas en gris basadas en un solo ejemplo de entrada

También queremos sustituir todas las comas de las listas de autores por punto y coma. Avancemos unas filas y sustituyamos esos dos autores por Joe Reis; Matt Housley. Ahora, en la Figura 4-15, podemos ver que todos los autores de una lista están separados por punto y coma. La fórmula M correspondiente para generar la columna también aparece arriba.

Figura 4-15. Añadir un segundo ejemplo que sustituya la coma por un punto y coma

Haz clic en Aceptar para completar la generación de columnas. Continuaremos a partir de aquí en la Demostración 4-3, donde veremos cómo perfilar nuestro nuevo conjunto de datos.

Perfiles de datos

Mientras transformas tus datos con Power Query Editor, en cualquier momento puedes hacer una pausa y revisar un perfil de los datos en su estado actual. El perfil de datos te permite detectar errores e incluso te sugiere automáticamente transformaciones específicas para ayudarte con tu consulta. Estas transformaciones incluyen mantener, eliminar, sustituir, filtrar por, agrupar por y copiar valores.

En concreto, hay tres funciones dentro del Editor de consultas potentes que conforman un perfil de datos:

Calidad de la columna

Esta función desglosa la proporción de entradas de cada columna que son válidas, un error o están vacías.

Distribución en columnas

Esta función muestra una distribución de frecuencias de los valores dentro de cada columna.

Perfil de la columna

Esta función muestra estadísticas descriptivas de cada columna, así como una distribución de frecuencias más detallada.

Posiblemente, la mayor ventaja del perfilado de datos son las sugerencias incorporadas sobre qué transformación debe considerar el analista en función del estado de los datos. Por ejemplo, si una columna incluye valores vacíos, al pasar el ratón sobre la sección Calidad de la columna aparecerá una recomendación impulsada por la IA (indicada con un icono de bombilla) para eliminar esos valores vacíos.

No hay ningún complicado algoritmo de aprendizaje profundo que impulse esta función. En su lugar, este ejemplo nos recuerda que cualquier algoritmo que replique la inteligencia humana sigue encajando bajo el paraguas de la inteligencia artificial. Decidimos incluir esta función en el libro porque se ajusta al capítulo sobre automatización y utiliza la toma de decisiones sugiriendo transformaciones.

Nota

Por defecto, Power Query sólo utiliza las 1.000 filas superiores para construir un perfil. Esto se puede cambiar en la esquina inferior izquierda de la ventana de Power Query haciendo clic en "Perfilado de columnas basado en las 1000 filas superiores" y seleccionando "Perfilado de columnas basado en todo el conjunto de datos."

Demostración 4-3: Perfilado de datos

Retomamos la transformación de datos que es una continuación de la Demo 4-1 y la Demo 4-2. Abre el Editor de Power Query si aún no está abierto. Ve a la pestaña Ver y marca la casilla "Calidad de columna" dentro de la sección Vista previa de datos(Figura 4-16). Esto revela nueva información bajo las cabeceras de columna que perfila la proporción de datos de cada columna que es válida, un error o está vacía. En este ejemplo, vemos que nuestro conjunto de datos está completo porque cada columna tiene el 100% de los datos identificados como "Válidos".

También puedes pasar el ratón por encima de esta nueva sección para que aparezca una ventana emergente. Cuando haces clic en la elipsis de la parte inferior derecha de esa ventana emergente, un desplegable enumera algunas acciones rápidas que puedes realizar en función de la calidad de los datos. Este es un buen ejemplo de cómo Power BI te permite realizar rápidamente transformaciones de datos con la ayuda de la IA.

Figura 4-16. Perfilando la calidad de la columna mediante un acceso directo a posibles acciones

Desmarca Calidad de columna y selecciona en su lugar "Distribución de columna". Esto revela una nueva sección sobre la distribución de frecuencias de los valores dentro de cada columna, como se muestra en la Figura 4-17. Esto muestra que hay tres autores con dos libros a su nombre. Si pasas el ratón por encima de la sección Autores, aparece una ventana emergente con una acción sugerida en la que se puede hacer clic para Eliminar duplicados.

Figura 4-17. Perfilar distribuciones de columnas con una acción sugerida

Por último, aprenderemos la última forma automatizada de perfilar nuestros datos. Deselecciona Distribución por columnas y selecciona "Perfil de columna". No aparecerá nada hasta que se seleccione una columna, así que haz clic en la columna del editor para que aparezca una nueva sección en la parte inferior. A la izquierda aparecen las estadísticas resumidas de la columna, y a la derecha la distribución de valores. La Figura 4-18 muestra que O'Reilly es el editor más común en este conjunto de datos, lo que tiene sentido dado que hemos extraído la lista de recursos del sitio web de O'Reilly.

Figura 4-18. Perfil de columna automatizado que muestra una distribución de valores y estadísticas resumidas

A continuación, pasa el ratón por encima de la barra horizontal de O'Reilly Media, Inc. para mostrar la proporción exacta de artículos publicados por la empresa (54% en este ejemplo). La ventana emergente también incluye acciones sugeridas en las que se puede hacer clic y que filtrarán las filas en función de si tienen o no a O'Reilly Media, Inc. como editor. Además, las elipsis de la ventana emergente revelan más opciones prácticas de filtrado(Figura 4-19).

Figura 4-19. Acciones adicionales para filtrar los datos

Generación de mesas

Otra función de Power Query que utiliza la IA integrada es la Generación de Tablas. Aquí es donde Power BI es capaz de identificar una tabla a partir de (1) un tipo de archivo que no es nativamente una estructura de tabla o (2) un tipo de archivo basado en tablas con datos mal organizados.

Para la primera situación, Power BI es capaz de generar automáticamente una tabla a partir de tipos de datos anidados, como JSON y respuestas de APIs basadas en web. La Figura 4-20 muestra un ejemplo de datos anidados de un archivo JSON. Generar tablas a partir de datos en este formato es un verdadero ahorro de tiempo para los analistas de datos, especialmente cuando se integra Power BI con API.

Figura 4-20. Un archivo JSON que muestra los dos primeros elementos de la página web de O'Reilly

La segunda categoría de tipos de archivo que Power BI puede utilizar para generar tablas incluye Microsoft Excel, CSV y archivos de texto. Los archivos Excel, al igual que los archivos JSON, se generan automáticamente en una tabla, aunque los datos sean desordenados y no estén perfectamente formateados como una tabla. Los CSV y los archivos de texto tienen aún más flexibilidad para el analista de datos; Power BI genera una tabla basada en varios ejemplos de una forma casi idéntica a la de obtener datos de la web por ejemplo y añadir columna de ejemplos.

Según nuestra experiencia, la IA es bastante sensible a la calidad de los datos de los que el usuario proporciona ejemplos. Al igual que las demás funciones "por ejemplo" de Power Query, no es probable que la predicción de la IA mejore después de más de tres ejemplos. Si no obtienes buenos resultados, prueba estos consejos:

  • Comprueba si hay erratas en tus entradas anteriores.

  • Corrige las predicciones erróneas.

  • Proporciona una gran variedad de ejemplos.

  • Extrae las entradas más largas (siempre se pueden transformar después de cargar la tabla).

  • Si todo lo demás falla, vuelve a empezar desde el principio.

Demostración 4-4: Generación de tablas

La mejor forma de entender cómo funcionan las funciones de generación de tablas de es viéndolas en acción. Aquí comenzaremos con una nueva demostración; sin embargo, utilizaremos los datos de las demostraciones anteriores de este capítulo sobre recursos del sitio web de O'Reilly Media. Aunque la funcionalidad de generación de tablas funciona con JSON, API web, Excel, CSV y tipos de archivo de texto, aquí sólo la demostraremos con CSV y JSON.

Nuestro primer paso es importar el archivo CSV con el que vamos a trabajar. Empieza haciendo clic en la flecha desplegable "Obtener datos" y seleccionando Web, como se muestra anteriormente en la Figura 4-3.

A continuación, en URL, copia el conjunto de datos de muestra alojado en la página GitHub de este libro. Haz clic en Aceptar(Figura 4-4).

Esto abrirá una vista previa de los datos. Como puedes ver en la Figura 4-21, hay algunas filas vacías, una nota sobre que los datos de precios se han generado aleatoriamente, y los propios precios combinados en una columna con el formato de recurso. Queremos extraer una tabla utilizando ejemplos, así que haz clic en el botón Extraer Tabla Utilizando Ejemplos.

Figura 4-21. Extraer una tabla de un archivo CSV con ejemplos

A continuación, querrás hacer la ventana a pantalla completa y ensanchar la primera columna para tener más espacio para trabajar. En el lugar de la Columna1, haz que Título sea la cabecera de la primera columna. A continuación, empieza a escribir el nombre del primer ejemplo hasta que aparezca el nombre completo, (ISC)2 CISSP Certified Information Systems Security Professional Official Study Guide, 9th Edition, como se muestra en la Figura 4-22. Selecciónalo.

Recuerda que, al dar ejemplos, es mejor seleccionar un elemento de un desplegable en lugar de escribirlo o copiar y pegar la entrada. Esto garantiza que se identifique el valor real de los datos.

Figura 4-22. Añadir la primera entrada de una fila de ejemplo

Como puedes ver en la Figura 4-23, el algoritmo ya ha hecho predicciones (¡correctas!) sobre los títulos restantes del CSV. Las entradas son grises para indicar que son meras predicciones. Pasa a la siguiente columna y sustituye Columna1 por Autor. A continuación, empieza a escribir el nombre de los autores hasta que aparezca M. Chapple, J. M. Stewart, D. Gibson. Selecciónalo.

Figura 4-23. Añadir la segunda entrada de una fila de ejemplo

Repítelo yendo a la siguiente columna, sustituyendo Columna1 por Precio, buscando 32,72 y seleccionándolo de la lista(Figura 4-24). Pulsa Intro cuando hayas terminado.

Figura 4-24. Añadir la tercera entrada de una fila de ejemplo

Vemos en la Figura 4-25 que las filas superiores mostradas de los archivos CSV sin procesar corresponden a las filas formateadas de texto gris. Sólo con este ejemplo, el algoritmo ha predicho correctamente el aspecto que debería tener el resto de la tabla. Haz clic en Cargar.

Figura 4-25. Después de un solo ejemplo, el algoritmo predijo correctamente las filas restantes de la tabla

Ahora pasaremos a un segundo ejemplo, esta vez con el tipo de archivo JSON hecho a partir de datos anidados. Ya mostramos el aspecto de estos datos en su formato bruto en la Figura 4-20, situada al principio de esta sección. Puedes ver dos recursos definidos como un diccionario con pares de entradas que representan una clave (por ejemplo, "título") y un valor asociado (por ejemplo, "Diseño de aplicaciones intensivas en datos").

Como hicimos en la Figura 4-3, haz clic en el icono desplegable "Obtener datos" y selecciona Web. A continuación, igual que hicimos en la Figura 4-4, pega nuestro archivo JSON en URL. Haz clic en Aceptar.

Power BI reconoce que hemos añadido un archivo JSON y lo convierte automáticamente a un formato de tabla dentro del Editor de consultas Power. Si observas la Figura 4-26, verás que la nueva tabla creada a partir del archivo JSON(oreilly2) aparece en la parte izquierda, debajo de la tabla anterior basada en el archivo CSV(oreilly).

Figura 4-26. Un archivo JSON convertido automáticamente en una tabla, listada como una de las dos tablas

Seguiremos con este ejemplo más adelante, en la Demo 4-5, donde mostraremos una fusión utilizando la concordancia difusa. Pero por ahora, tómate un momento para guardar el archivo, seleccionando Aplicar si se te pide.

Emparejamiento difuso

¿Cuál es tu nombre? Deja de leer ahora y responde a la pregunta, preferiblemente en voz alta.

¿Usaste un apodo o tu nombre legal? ¿Mencionaste un segundo nombre o una inicial? ¿Y tu(s) apellido(s)? ¿Y algún título, honorífico o sufijo? Para un ordenador, cada uno de estos nombres es diferente. Por ejemplo, "Thomas J. Weinandy" = "Tom Weinandy" devolverá False porque esas dos cadenas (es decir, datos de texto) no coinciden.

Ahora imagina que una empresa tiene dos conjuntos de datos que comparten una columna de direcciones de envío, pero carecen de las claves de unión adecuadas. Si las direcciones de las dos columnas son ligeramente diferentes, no se pueden unir por medios tradicionales. Aquí es donde entra en escena la concordancia difusa. La concordancia difusa, o lógica difusa, es un método estadístico para calcular una puntuación de similitud entre dos cadenas, y si la puntuación supera un umbral definido, unirlas. Las similitudes se basan en factores como sustituciones, supresiones e inserciones de caracteres.

La concordancia difusa está integrada en Power BI como parte del Editor de consultas de Power, lo que permite al usuario combinar conjuntos de datos con columnas de cadenas similares. Incluye varias opciones de configuración, entre ellas

Umbral de similitud

Un parámetro opcional que indica lo parecidas que deben ser dos cadenas para coincidir. Un valor de 0,0 hará que coincidan todos los valores, y un valor de 1,0 unirá sólo las coincidencias perfectas. Por defecto, el valor es 0,8.

Ignorar caso

Este parámetro indica si las coincidencias deben ser insensibles a mayúsculas y minúsculas (por ejemplo, Internet coincide con Internet). Por defecto se ignoran las mayúsculas y minúsculas.

Emparejar combinando partes de texto

Cuando está seleccionada (por defecto), se ignoran los espacios en las coincidencias; si no está seleccionada, se tienen en cuenta los espacios.

Número máximo de partidos

Esta opción devuelve todas las coincidencias (por defecto) o un número determinado de coincidencias. Por ejemplo, un valor de 1 significa que cada fila devolverá exactamente una coincidencia.

Tabla de transformación

Esta opción especifica si existe una tercera tabla puente que permita coincidencias a través de un mapeado más amplio. Por ejemplo, una tabla de transformación podría contener nombres de países con códigos de país ISO de dos letras.

Demostración 4-5: Emparejamiento difuso

Esta demostración continúa desde donde estábamos al final de la Demostración 4-4. Abre el Editor de Power Query si aún no está abierto. En la cinta Inicio, haz clic en la flecha desplegable "Fusionar consultas". A continuación, selecciona "Fusionar consultas como nuevas"(Figura 4-27).

Figura 4-27. Acceder a la fusión de consultas con concordancia difusa

Ahora se abre una nueva ventana Fusionar. La primera tabla ya debería estar rellenada con la consulta oreilly, pero en la segunda tabla, selecciona la consulta "oreilly2" del desplegable. Ahora tienes que seleccionar en qué columna(s) se unirán estas dos tablas. En este caso, quieres unir según el título y el autor de los recursos. Selecciona Título y Autor en la primera consulta (utilizando la tecla Ctrl para la multiselección) y "título" y "autor" en la segunda consulta. Asegúrate de que los números de columna 1 y 2 se corresponden entre sí, como se muestra en la Figura 4-28, donde Título y título son 1 y Autor y autor son 2.

Figura 4-28. Seleccionar columnas dentro de consultas para fusionar

Después de seleccionar las columnas de ambas tablas, aparecerá una ventana emergente advirtiéndote de los problemas de privacidad relacionados con los dos conjuntos de datos que se están fusionando. Como no hay problemas de privacidad con estos datos, marca Ignorar niveles de privacidad y haz clic en Guardar para continuar(Figura 4-29).

Figura 4-29. Confirmar que no hay problemas de privacidad en este caso

En la parte inferior de la ventana Fusionar hay opciones adicionales sobre el tipo de fusión que queremos realizar. Selecciona Exterior completo en el desplegable para incluir todos los datos. También debes marcar "Utilizar concordancia difusa para realizar la fusión". A partir de aquí, podrás ver cuántas coincidencias se producen según el umbral de similitud predeterminado para la coincidencia difusa de 0,8. Como indica la flecha de la Figura 4-30, sólo 12 de 50 filas coinciden.

Figura 4-30. Realizar una unión externa con coincidencia difusa

Queremos mejorar la tasa de coincidencia de nuestros datos, aun a riesgo de crear más falsos positivos. Haz clic en "Opciones de coincidencia difusa" para ver otras formas de modificar la unión. A continuación, como se muestra en la Figura 4-31, añade 0,5 a "Umbral de similitud" para permitir más coincidencias. Una vez hecho esto, el mensaje de la parte inferior de la ventana muestra que las 50 filas de 50 coinciden con esta configuración. Haz clic en Aceptar.

Figura 4-31. Establecer un umbral de similitud más bajo para aumentar el número de coincidencias

Ahora tenemos una consulta combinada, llamada Tabla1, visible en Power Query Editor. La segunda consulta se muestra actualmente como una columna de tablas. Para expandirla, selecciona el icono de división a la derecha de "oreilly2", como se muestra en la Figura 4-32. Asegúrate de que la opción Expandir está seleccionada y haz clic en Aceptar.

Figura 4-32. Desplegar la segunda consulta en la tabla combinada

Si te fijas en la esquina inferior izquierda de la ventana, verás que la tabla tiene 10 columnas y 54 filas. Las 10 columnas son buenas, porque significa que la fusión se ha realizado correctamente; sin embargo, el recuento de filas indica que ahora tenemos 4 filas más que las 50 de cada tabla original. Para averiguar qué filas son falsas coincidencias positivas, arrastra la columna Título a la izquierda inmediata de la columna "oreilly2.title". Ensancha ambas columnas hasta que se revele la edición, como se muestra en la Figura 4-33.

Figura 4-33. Comparar títulos para descubrir registros duplicados después de la coincidencia
Nota

Al utilizar la concordancia difusa en Power BI, a menudo es mejor hacer coincidir demasiadas filas que muy pocas, porque siempre puedes eliminar las coincidencias falsas positivas. Sin embargo, esto no es práctico a grandes escalas. La compensación de costes y beneficios entre tener muy pocas coincidencias o demasiadas dependerá de las particularidades de cada caso de uso.

Como cuatro registros es un solapamiento suficientemente pequeño, podemos buscar manualmente las filas que deseamos eliminar y filtrarlas utilizando una columna índice. Para crear una, selecciona la cinta Añadir columna, haz clic en el desplegable "Columna índice" y selecciona Desde 0(Figura 4-34).

Figura 4-34. Añadir una columna índice de base 0

Ahora arrastra la nueva columna Índice a la izquierda inmediata de la columna Título, como se muestra en la Figura 4-35. Comparando las dos columnas de título, identificamos los cuatro recursos con ediciones incongruentes. Como todos ellos son títulos que aparecen dos veces, podemos eliminarlos con seguridad de nuestro modelo de datos.

Figura 4-35. Identificar las filas no coincidentes que hay que eliminar

Para eliminar las filas, haz clic en el desplegable Índice. A continuación, deselecciona 1, 3, 11 y 15. Haz clic en Aceptar(Figura 4-36).

Figura 4-36. Utilizar una columna índice para eliminar las filas no coincidentes

Ahora, como se muestra en la Figura 4-37, nos quedan las mismas 50 filas que en nuestros conjuntos de datos originales. Así concluimos nuestra demostración sobre la concordancia difusa. Puedes guardar el informe, seleccionando Cerrar y Aplicar si se te pide.

Figura 4-37. Resultado de fusionar con éxito dos tablas con concordancia difusa

Aquí termina la sección sobre cómo utilizar las herramientas de automatización basadas en IA dentro de Power Query para transformar mejor y más rápidamente tus datos. Ahora, pasaremos a ver las formas en que la IA puede ayudarte con la generación de informes y el análisis de datos.

Exploración Inteligente de Datos

Uno de los elementos más impactantes de Power BI es lo rápido que permite al usuario pasar de los datos brutos a nuevas perspectivas. La automatización basada en IA dentro de Power BI lleva esto un paso más allá al permitir la exploración rápida de datos y la creación de informes a través de una variedad de herramientas. Estas herramientas aprovechan el poder de la IA para crear rápidamente prototipos y perspectivas, pero dejan que el desarrollador decida con cuál merece la pena quedarse.

El papel del ser humano aquí es menos el de un programador y más parecido al de un conservador de museo que está construyendo una narrativa en torno a una situación empresarial con datos. La IA puede facilitar tu trabajo, pero no te dice las preguntas correctas que debes hacer ni qué respuestas son las más significativas. Sin embargo, los algoritmos pueden complementar las habilidades de una persona que sepa integrar su trabajo con la IA.

Esto nos devuelve al ciclo de inteligencia empresarial de la Figura 4-1, donde anteriormente en el capítulo hemos tratado el papel de la automatización en las transformaciones de datos. Ahora, el resto del capítulo considerará cómo la automatización basada en la IA puede apoyar la creación y el análisis de informes. Destacaremos aquí tres características: perspectivas rápidas, creación de informes y narrativa inteligente. El visual de preguntas y respuestas podría incluirse adecuadamente en esta sección, ya que permite al usuario final formular preguntas a partir de los datos para generar rápidamente visuales. Sin embargo, ya hablamos de Preguntas y Respuestas en el Capítulo 3, por lo que dejaremos que el lector vuelva allí si está interesado.

Advertencia

En noviembre de 2023, Microsoft anunció la vista previa pública de Copilot, una herramienta de IA generativa integrada en el servicio Power BI que puede analizar datos y crear informes con una interfaz basada en chat. Se trata de una función que cambia rápidamente, por lo que te sugerimos que busques en Internet las últimas capacidades de Copilot en el servicio Power BI y en Power BI Desktop. Mientras tanto, el resto de este capítulo se centra en las herramientas para la exploración inteligente de datos que están generalmente disponibles en el momento de escribir este artículo.

Ideas rápidas

Perspectivas rápidas de forma automática escanea un conjunto de datos y realiza diversos análisis en pares de variables dentro de ese conjunto de datos para descubrir patrones y relaciones interesantes. Esto ayuda al usuario a comprender mejor el conjunto de datos, a identificar una idea que podría no haber tenido en cuenta, a crear rápidamente un panel de control, a tener ideas para incorporar a un informe o, simplemente, a desatascarse tras sentirse abrumado por un nuevo conjunto de datos.

Nota

Utilizar la funcionalidad de insights rápidos en todo un conjunto de datos es posible en el servicio Power BI basado en navegador, pero no en Power BI Desktop, lo que significa que requiere una licencia Pro o Premium. En Power BI Desktop puedes seguir utilizando la información sobre un visual concreto, como se explica en el Capítulo 3. Perspectivas rápidas sólo está disponible para datos cargados en Power BI y no para DirectQuery o datos en streaming.

Quick insights realiza muchos análisis automatizados diferentes en tu conjunto de datos. Las listas siguientes los desglosan por tipos de datos.

Para datos numéricos y categóricos:

Valores numéricos atípicos

Uno o varios puntos de datos numéricos difieren significativamente de los demás si se dividen por una sola categoría.

Categoría de valores atípicos

Una o dos categorías tienen una cuota de valores desproporcionadamente mayor que otras categorías.

Correlación

Varios puntos de datos numéricos de una categoría comparten una relación positiva o negativa.

Baja varianza

Los puntos de datos numéricos se aproximan a la media de una categoría.

Factores mayoritarios

La mayoría de un total procede de una sola categoría.

Para datos de series temporales:

Valores atípicos de las series temporales

Hay valores que cambian inesperadamente en un momento dado.

Tendencias de las series temporales

Hay una tendencia positiva o negativa a lo largo del tiempo.

Puntos de cambio en las series temporales

Hay múltiples cambios significativos en una tendencia.

Estacionalidad en las series temporales

Existe un patrón cíclico que persiste en el tiempo.

Participación estable

Hay una baja varianza (mencionada anteriormente) que se mantiene estable a lo largo del tiempo.

Ya estás listo para empezar a explorar perspectivas rápidas y ahorrar tiempo en el proceso. Sin embargo, si te encuentras con problemas, prueba estos consejos para organizar tus datos y obtener mejores resultados:

  • Oculta las columnas sin importancia o duplicadas en tu conjunto de datos para excluirlas de las perspectivas rápidas.

  • Utiliza una mezcla de datos numéricos, categóricos y series temporales.

  • Si recibes un mensaje de error diciendo que tus datos no son estadísticamente significativos, puede deberse a que tu conjunto de datos es demasiado simple, carece de datos suficientes o no incluye datos numéricos o fechas.

Demo 4-6: Perspectivas rápidas

Ahora podemos ver una visión rápida en acción. Esta demostración utiliza datos relativos a los taxis de la ciudad de Nueva York. Utilizaremos quick insights para un conjunto de datos completo, lo que significa que esta demostración debe realizarse en el servicio Power BI basado en navegador y requerirá una suscripción Pro o Premium. Consulta "Premium, Pro y Power BI gratuito" para obtener más detalles e información sobre cómo suscribirte a una prueba gratuita.

Primero, descarga este informe completo sobre los taxis de Nueva York y guárdalo localmente. A continuación, ve al servicio Power BI e inicia sesión.

Queremos un espacio para mantener juntos todos nuestros recursos para esta demostración y las demás de este capítulo. En la parte izquierda, selecciona Espacios de trabajo y ve a "Mi espacio de trabajo" o crea uno nuevo seleccionando "Nuevo espacio de trabajo" y siguiendo las instrucciones para configurarlo. Esta demostración utilizará el espacio de trabajo "Demostraciones AI"(Figura 4-38).

Figura 4-38. Ir a tu espacio de trabajo inicial o crear uno nuevo

Desde aquí, haz clic en Cargar y selecciona Examinar(Figura 4-39).

Figura 4-39. Cargar un informe de Power BI guardado localmente

Busca el informe de taxi que has descargado de GitHub llamado TimeSeriesComplete y haz clic en Abrir(Figura 4-40).

Figura 4-40. Seleccionar el informe de Power BI

Ahora verás el informe de Power BI guardado en tu espacio de trabajo junto con el conjunto de datos subyacente. Haz clic en el icono de la elipsis que corresponde al conjunto de datos (donde apunta la flecha en la Figura 4-41, bajo el menú desplegable) y luego selecciona "Obtener perspectivas rápidas". Por último, haz clic en "Ver perspectivas" (no aparece en la imagen).

Figura 4-41. Acceder a una visión rápida de un conjunto de datos

Ahora puedes revisar toda la lista de tarjetas de perspectivas, como la que se muestra en la Figura 4-42. Cada tarjeta incluye una imagen junto con una explicación de por qué se identificó como tal la información potencial. La tarjeta de información que se muestra aquí descubrió que el día 359 (es decir, Navidad) era un valor atípico en cuanto al número de viajes en taxi realizados en un día concreto.

Puedes utilizar el icono de expansión situado en la esquina superior derecha para entrar en un modo de enfoque con una versión ampliada del visual. También puedes seleccionar el icono de anclaje para anclar la tarjeta de información a un panel de información relevante.

Figura 4-42. Una tarjeta de información que muestra el número de viajes en taxi realizados el Día 359, con las opciones de ampliarla o fijarla en un panel de control

Exploremos algunos ejemplos más de conclusiones interesantes, que se muestran en la Figura 4-43. La tarjeta de perspectiva izquierda señala cómo el número diario de viajes en taxi incluye tanto estacionalidad como una tendencia general a la baja. La tarjeta de información de la derecha muestra una correlación positiva entre el importe diario de las propinas y el importe total diario gastado en viajes en taxi.

Figura 4-43. Tarjetas generadas a partir de percepciones rápidas que muestran, respectivamente, la tendencia de los viajes en taxi y la correlación de las tarifas totales y los importes de las propinas

Seguimos explorando la gran variedad de percepciones con los dos ejemplos de la Figura 4-44. La tarjeta de la izquierda muestra que las nevadas en Nueva York son mayores en los meses de enero y febrero. La tarjeta de la derecha identifica dos días del año atípicos en cuanto a la cantidad de precipitaciones recibidas.

Figura 4-44. Fichas generadas a partir de percepciones rápidas que muestran, respectivamente, las nevadas por mes y los días atípicos de precipitación

No todas las conclusiones de las percepciones rápidas son significativas o incluso interesantes, y eso está bien. Esta herramienta está pensada para ser utilizada en colaboración con alguien que conozca el caso de uso o tenga el juicio adecuado para determinar qué tarjetas de insight son relevantes.

Creación de informes

Hemos llegado a nuestro penúltimo perfil de una función de automatización en Power BI: la creación de informes. La creación de informes genera automáticamente un informe de Power BI completamente desarrollado a partir de un conjunto de datos dado. Esto es coherente con el tema de las herramientas de IA que capacitan a los humanos para trabajar de forma más eficaz y eficiente a lo largo del ciclo de inteligencia empresarial.

La creación de informes es similar a las perspectivas rápidas en que también debe hacerse en el servicio Power BI y, por tanto, requiere una licencia Pro o Premium. Las dos funciones también son similares en el sentido de que ambas tardan unos pocos clics en crearse después de cargar un conjunto de datos en un espacio de trabajo. Sin embargo, hay diferencias; vamos a explorarlas sumergiéndonos directamente en una demostración de cómo funciona la creación de informes.

Demostración 4-7: Creación de informes

Retomamos la demostración anterior que generaba tarjetas de información a partir de datos sobre viajes diarios en taxi en la ciudad de Nueva York. No necesitas haber completado la Demo 4-6 para seguir ésta; sin embargo, nos saltaremos los pasos para cargar este informe de Power BI en un espacio de trabajo. Vuelve a consultar la Demo 4-6 si necesitas orientación.

Una vez cargado el informe en un espacio de trabajo del servicio Power BI, localiza el conjunto de datos TimeSeriesComplete (mostrado en la Figura 4-45 dentro de un espacio de trabajo titulado "AI Demos"). Haz clic en el icono de la elipsis y selecciona "Crear informe automáticamente" en la lista.

Figura 4-45. Creación automática de un informe de Power BI a partir de un conjunto de datos
Nota

Hay otra forma de crear automáticamente un informe si ya tienes el conjunto de datos deseado guardado en el Hub de Datos. Como muestra la Figura 4-45, en la parte izquierda del Servicio Power BI, puedes hacer clic en el icono Crear y, a continuación, seleccionar "Elegir un conjunto de datos publicado", elegir un conjunto de datos dentro del Hub de Datos y hacer clic en "Crear informe automáticamente".

Y violá, ¡tu informe está hecho! Esto, por desgracia, no significa que hayas terminado. El algoritmo que genera el informe intenta identificar qué variables y elementos visuales son más significativos; sin embargo, sigue necesitando que alguien se asegure de que satisface las necesidades de la empresa y lo personalice en consecuencia.

Por ejemplo, observa la Figura 4-46, reconociendo que tus resultados pueden ser ligeramente distintos. Quizá no nos interese el porcentaje diario de viajes que van al aeropuerto o el recuento total de pasajeros. Algunos valores mostrados tampoco tienen sentido, como "Suma de día_número_de_año por día_nombre" y "Suma de avg_velocidad_del_viento por día_nombre". Hagamos algunos cambios.

Figura 4-46. Un informe creado automáticamente

En primer lugar, queremos intercambiar las variables utilizadas en el informe. Desmarca todas las variables actuales y selecciona cuota_crédito, fecha e importe_propina. Esto debería coincidir con lo que ves en la Figura 4-47.

Figura 4-47. Cambiar el informe para incluir las variables seleccionadas

A continuación, cambia las variables numéricas para que sean promedios, no sumas. En tip_amount, haz clic en el icono de la elipsis y selecciona Promedio. Repite este paso para cuota_crédito. El informe debería mostrar ahora las mismas etiquetas de datos que en la Figura 4-48; sin embargo, los elementos visuales pueden ser ligeramente diferentes en tu versión.

Figura 4-48. El mismo informe autogenerado de la Figura 4-46, pero con las nuevas variables seleccionadas

¡Ahora el informe tiene mejor aspecto! Los gráficos de barras de la derecha muestran algunas de las diferencias de día de la semana y mes del año en las cantidades medias diarias de propina dadas a los taxistas, así como la frecuencia con que los pasajeros pagan con tarjeta de crédito.

El gráfico lineal de la izquierda también cuenta una historia intrigante. La línea más oscura muestra cómo la proporción diaria de pagos con tarjeta de crédito ha ido aumentando con el tiempo y acercándose al 100%. La línea más clara muestra cómo el importe medio diario de las propinas también ha ido aumentando con el tiempo. En realidad, la correlación entre ambas es sólo un artefacto de los datos, ya que las propinas de los pagos en efectivo no se registran (lo que afecta a la media). Esto significa que la gente no está necesariamente dando más propinas con el tiempo; sin embargo, alrededor de 2022 parece que el crecimiento de las propinas supera el crecimiento de la tasa de uso de las tarjetas de crédito.

Nota

¿Te has fijado en el texto de la esquina inferior izquierda del informe de la Figura 4-48? Ése es el visual narrativo inteligente y el tema de la siguiente sección.

Si deseas realizar más cambios en los visuales, sólo tienes que pasar el ratón por encima de un visual y seleccionar el icono "Personalizar este visual"(Figura 4-49).

Figura 4-49. Personalizar aún más un visual

Guarda tu trabajo cuando hayas terminado. Si quieres seguir editando el informe en Power BI Desktop, en la parte superior izquierda haz clic en Archivo y luego en "Descargar este archivo" (no aparece en la imagen).

Narrativa inteligente

Recuerda del Capítulo 3 que las funciones de Preguntas y Respuestas permiten a un usuario hacer una pregunta a los datos tomando el texto como entrada y produciendo un visual como salida. En este sentido, la narrativa inteligente es simplemente una versión inversa de las preguntas y respuestas. La narrativa inteligente busca en los visuales de un informe y produce un resumen de texto a partir de los datos.

La narrativa inteligente puede utilizarse en Power BI Desktop o en el servicio Power BI y puede aplicarse de tres formas:

  • Como cuadro de texto que resume todos los elementos visuales de un informe

  • Como cuadro de texto que resume una única imagen

  • Como un icono en un visual que, al pulsarlo, revela un resumen en texto del visual

La Figura 4-50 muestra cómo para acceder a la función de narrativa inteligente a través del icono del panel Visualizaciones. Al seleccionar el icono, aparecerá un resumen de todas las visualizaciones del informe. En este caso, el texto inteligente apareció en la parte inferior del lienzo como tres perspectivas.

Nota

La Figura 4-50 muestra el informe de Power BI sobre viajes en taxi en la ciudad de Nueva York utilizado en la Demostración 4-6 (ver Figura 4-41). Vuelve a esa demo para ver las instrucciones de descarga si deseas seguirla.

Figura 4-50. Utilizar la narrativa inteligente para describir un informe completo

Para crear una narración inteligente de un visual individual, todo lo que tienes que hacer es hacer clic con el botón derecho en el visual y seleccionar Resumir.

Advertencia

Si no ves la opción Resumir para un visual, asegúrate de que tienes acceso de edición y estás en modo edición.

Por último, puedes añadir un icono de narración inteligente a un visual seleccionando el visual, yendo a "Formato visual" > General > Iconos de cabecera > Iconos y, a continuación, activando "Narración inteligente", como se muestra en la Figura 4-51.

Figura 4-51. Añadir un icono narrativo inteligente a un visual

La función de narrativa inteligente no sólo describe los elementos visuales cuando se crean, sino que también se actualiza automáticamente cuando se aplican rebanadoras y filtros. Toma como ejemplo la narrativa inteligente de la Figura 4-50. Si un usuario cambia el intervalo de fechas utilizando el filtro de la parte superior derecha, el texto cambiará en tiempo real a nuevas perspectivas específicas de los datos dentro del intervalo de fechas especificado.

Además, el usuario puede formatear el texto como mejor le parezca e incluso añadir su propio texto o valores. La Figura 4-52 muestra el texto "Viajes Acumulados" e indica cómo añadir un valor dinámico. Un valor dinámico es un campo o medida vinculado a tus datos y que se muestra como texto normal, pero que se actualiza con los cambios del informe.

Figura 4-52. Añadir un valor dinámico a la narrativa visual inteligente

A continuación, un indicador permite al usuario buscar un valor personalizado. La Figura 4-53 muestra cómo la entrada "Suma del viaje en taxi" identifica correctamente "viaje en taxi" como valor dinámico, como indica la línea azul que hay debajo. También se puede dar más formato a este valor, como añadir una coma. Haz clic en Guardar.

Figura 4-53. Definir un valor dinámico a partir de los datos

Puedes ver el valor dinámico resultante en la Figura 4-54, donde la narración inteligente indica que hubo casi 1.700 millones de viajes en taxi durante el periodo de tiempo seleccionado.

Figura 4-54. Un valor dinámico con formato personalizado

Resumen

Repasamos cómo utilizar las funciones basadas en IA de Power BI que ayudan a automatizar el proceso de transformación de datos, así como la creación y el análisis de informes. Estas herramientas aceleran tu capacidad para pasar de las preguntas de negocio a las respuestas, convirtiéndote en un analista más productivo. También hablamos de los aspectos del ciclo de inteligencia empresarial que no son fáciles de automatizar, al menos en un futuro próximo.

Esperemos que puedas aprender habilidades importantes que te ayuden a preparar tu trabajo u organización para el futuro. La IA ya está transformando nuestra forma de trabajar, y el ritmo de la disrupción no parece que vaya a ralentizarse. Creemos que debería preocuparte menos que la IA sustituya tu trabajo y más que te sustituya un analista que aproveche mejor el poder de la IA.

Leer este libro es un paso en la dirección correcta para convertirte en ese desarrollador experto en IA y reforzar la calidad de tu trabajo, así como tu seguridad laboral. Como dijo Elbert Hubbard: "Una máquina puede hacer el trabajo de cincuenta hombres ordinarios. Ninguna máquina puede hacer el trabajo de un hombre extraordinario". Así que aprovecha el poder de la IA para convertirte en extraordinario y ayuda a tu organización a conseguir lo mismo, porque los algoritmos no van a ir a ninguna parte. Por mi parte, doy la bienvenida a nuestros nuevos compañeros de IA.

1 Richard Conniff, "Contra qué lucharon realmente los luditas", Smithsonian Magazine, marzo de 2021.

2 Erik Brynjolfsson y Andrew McAfee, The Second Machine Age: Work, Progress, and Prosperity in a Time of Brilliant Technologies (Nueva York: W. W. Norton & Company, 2014), 11.

3 James Bessen, "Trabajo y tecnología: Innovative Technology Is Displacement Workers to New Jobs Rather Than Replacement Them Entirely", Finance & Development 52, nº 1 (2015): 16.

Get Inteligencia Artificial con Microsoft Power BI now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.