Capítulo 1. Primeros pasos con la IA en la empresa: tus datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Power BI es el principal servicio de análisis empresarial de Microsoft que proporciona visualizaciones interactivas y funciones de inteligencia empresarial. Power BI es una tecnología centrada en el negocio con una interfaz fácil de usar que hace que sea fácil subestimar su potencia. En este capítulo, vamos a explorar el ingrediente esencial para sacar el máximo partido a Power BI: preparar tus datos.

¿Qué problemas son específicos del ámbito de la preparación de datos en autoservicio? Como sabe cualquiera que haya intentado combinar datos en Excel, la limpieza de datos es un proceso frustrante y largo. Puede verse agravado por errores en las fórmulas y errores humanos, así como por tener acceso sólo a un conjunto de datos de muestra. Además, los analistas empresariales pueden no tener acceso directo a los datos en primer lugar. Los equipos empresariales pueden tener que obtener datos de distintos silos empresariales, lo que añade retrasos a un proceso ya de por sí frustrante. A veces, incluso pueden torcer los procesos empresariales existentes o traspasar los límites para obtener los datos que necesitan. La frustración que sienten les impide ejercer su creatividad a la hora de analizar los datos. Muchas organizaciones tienen una industria oculta de hojas de cálculo Excel que componen los "pequeños datos" que hacen funcionar el negocio. A menudo, TI no puede obtener ninguna visibilidad de estos "charcos" de datos, por lo que no puede gestionarlos ni ejercer su papel de guardián de los datos.

Según la metodología Get Things Done de David Allen, existe un claro valor estratégico en disponer de ancho de banda para ser creativo. Para ser creativa, la gente necesita estar libre de distracciones y tareas incompletas. Cuando las personas tratan con datos, pueden obtener ideas siendo lúdicas, pero para ello necesitan tener libertad para centrar su tiempo y atención en el análisis. Tener que dedicar mucho tiempo a limpiar un lío de datos suele interferir en el proceso creativo. En lugar de obtener ideas de un lago de grandes datos, puede que sólo tengan una serie de charcos de datos turbios con los que trabajar. Esta situación lleva a la decepción de los líderes empresariales que esperan observaciones astutas y una comprensión profunda de los datos de la empresa.

Visión general de los métodos de ingestión de datos de Power BI

Power BI proporciona varias formas de introducir datos en tus informes y cuadros de mando. En este capítulo, nos centraremos en los flujos y conjuntos de datos. El método que elijas depende en gran medida de los requisitos y limitaciones específicos de tu caso de uso y, en particular, de la naturaleza de los datos y las necesidades empresariales. Empecemos hablando de un diferenciador importante: los datos en tiempo real frente a los datos procesados por lotes.

Los datos en tiempo real se ingieren y visualizan en cuanto se adquieren. La actualidad de los datos es crítica. La latencia entre la generación de los datos y su disponibilidad es mínima, a menudo de milisegundos a unos pocos segundos. Los datos en tiempo real permiten a los responsables de la toma de decisiones o a los sistemas actuar inmediatamente basándose en la información actual, por lo que son fundamentales en escenarios en los que se necesitan decisiones o respuestas inmediatas. Los datos en tiempo real se encuentran en muchos ámbitos, como el Internet de las Cosas (IoT), los juegos, la sanidad y las finanzas. La capacidad de procesar rápidamente los datos en tiempo real y actuar sobre ellos ofrece muchas ventajas. Puede dar a la empresa una ventaja competitiva, mejorar la seguridad, mejorar la experiencia del usuario e incluso salvar vidas en situaciones de emergencia.

El procesamiento por lotes consiste en recopilar y procesar grandes volúmenes de datos en grupos, o lotes, en lugar de procesar cada dato a medida que llega al sistema. El procesamiento por lotes suele utilizarse cuando no es necesario que los datos estén disponibles en tiempo real. Los datos pueden almacenarse temporalmente y procesarse más tarde, a menudo durante un periodo de menor demanda del sistema. Por ejemplo, el procesamiento por lotes es adecuado cuando la fuente de datos sólo tiene acceso intermitente a la red y sólo se puede acceder a los datos cuando la fuente de datos está disponible. Además, puede ser más caro procesar los datos en tiempo real, por lo que cuando no es necesario el acceso inmediato a los datos, una empresa suele determinar que el procesamiento por lotes es suficiente.

Ahora que ya tenemos una visión general de las dos opciones básicas de velocidad de datos, echemos un vistazo a los distintos métodos de ingestión de datos en Power BI.

El método de importación de datos consiste en importar datos de una fuente a Power BI. Una vez importados los datos, se almacenan en un formato altamente comprimido y en memoria dentro de Power BI. Con el método de importación de datos, la interacción con el informe es muy rápida y responde a los clics y marcas del usuario en el lienzo de Power BI.

El método de consulta directa establece una conexión directa con la fuente de datos. Cuando un usuario interactúa con un informe, se envían consultas al sistema fuente para recuperar y mostrar los datos en el panel de Power BI. No se copian ni almacenan datos dentro de Power BI.

El método de conexión en directo es similar a la consulta directa, pero está pensado explícitamente para establecer conexiones con modelos de Analysis Services.

Los flujos de datos de Power BI son una característica del servicio Power BI basado en la nube de Microsoft Azure. Los flujos de datos te permiten conectarte, transformar y cargar datos en Power BI. Los datos transformados pueden utilizarse tanto en modo Importación como en modo DirectQuery. El proceso se ejecuta en la nube independientemente de cualquier informe de Power BI y puede alimentar datos en diferentes informes.

El enfoque del modelo compuesto permite a los desarrolladores de Power BI crear informes utilizando los métodos de consulta directa o de importación de datos. Por ejemplo, los datos en tiempo real podrían establecerse junto a datos de referencia que no necesitan ser en tiempo real, como los datos geográficos.

Utilizando el método del conjunto de datos, puedes crear informes basados en conjuntos de datos existentes de Power BI. Un conjunto de datos puede reutilizarse muchas veces para mantener la coherencia en varios informes.

Este capítulo explorará el potencial de los flujos de datos para resolver los problemas de preparación de datos mencionados anteriormente.

Flujos de trabajo en Power BI que utilizan IA

Un flujo de datos es una colección de tablas creadas y gestionadas en espacios de trabajo del servicio Power BI. Una tabla es un conjunto de columnas utilizadas para almacenar datos, de forma muy similar a una tabla dentro de una base de datos. Es posible añadir y editar tablas en el flujo de datos. El flujo de datos también permite gestionar y programar actualizaciones de datos, que se configuran directamente desde el espacio de trabajo.

¿Cómo se crean los flujos de datos?

Para crear un flujo de datos, ve primero a https://www.powerbi.com para iniciar el servicio Power BI en un navegador.

A continuación, crea un espacio de trabajo desde el panel de navegación de la izquierda, como se muestra en la Figura 1-1.

Figura 1-1. Crear un espacio de trabajo

El espacio de trabajo almacena el flujo de datos. Crear un flujo de datos es sencillo, y aquí tienes algunas formas de construirlo.

Crear un flujo de datos importando un conjunto de datos

En el espacio de trabajo, hay una lista desplegable para crear nuevos recursos, como informes paginados o cuadros de mando. Debajo de Nuevo hay una opción para crear un nuevo flujo de datos, como se muestra en la Figura 1-2.

Figura 1-2. Crear un flujo de datos

A continuación, se te presentan las cuatro opciones que aparecen en la Figura 1-3.

Figura 1-3. Opciones para crear un flujo de datos

Para este ejemplo, elige la primera opción, "Definir nuevas tablas". A continuación, selecciona "Añadir nuevas tablas"(Figura 1-4).

Figura 1-4. Uso de Definir nuevas tablas

A continuación, verás una selección de muchas opciones para la ingestión de datos. La Figura 1-5 muestra un ejemplo de la gama de fuentes de datos para los flujos de datos de Power BI.

Figura 1-5. Ejemplo de posibles fuentes de datos para un flujo de datos

Para este ejemplo, ingiere un archivo CSV que contenga datos de esperanza de vida del Banco Mundial. Para ello, selecciona Texto/CSV.

A continuación, en el cuadro de texto denominado Ruta de archivo o URL, introduce la siguiente ruta de archivo:

A continuación, verás opciones para seleccionar y acceder al archivo, como se ilustra en la Figura 1-6.

Figura 1-6. Introducir los ajustes de conexión de un archivo de texto/CSV

El flujo de datos mostrará ahora los datos, como se muestra en la Figura 1-7. Para continuar, haz clic en "Transformar datos", que se encuentra en la parte inferior derecha de la pantalla de previsualización de datos del archivo.

Figura 1-7. Visualización de los datos en la pantalla Previsualizar datos de archivo

Después de elegir transformar los datos, tienes que hacer algunas cosas:

  1. Elimina las primeras filas de datos. Selecciona "Reducir filas", luego "Eliminar filas" y, por último, "Eliminar filas superiores"(Figura 1-8).

    Figura 1-8. Eliminar las filas superiores de un flujo de datos

    Escribe 3 en el cuadro de texto y pulsa OK(Figura 1-9).

    Figura 1-9. Especificar el número de filas a eliminar
  2. Establece la primera fila de datos como cabeceras de columna. En la pestaña Inicio, selecciona Transformar y luego "Usar primeras filas como encabezados". La Figura 1-10 muestra cómo aparecen estas opciones en la pestaña Power Query Online.

    Figura 1-10. Establecer la primera fila como cabecera de columna
  3. Ahora elimina las columnas innecesarias. Haz clic con el botón derecho en la columna Nombre del Indicador y selecciona "Eliminar columnas". A continuación, haz clic con el botón derecho del ratón en la columna Código del Indicador y selecciona "Eliminar columnas". La Figura 1-11 muestra el comando "Eliminar columnas" en su lista desplegable.

    Figura 1-11. Eliminar columnas no deseadas
  4. Da forma a los datos. Los quieres en formato de tabla larga y estrecha, con muchas filas y pocas columnas. En cambio, una tabla ancha tiene muchas columnas y menos filas. Power BI funcionará mejor con los datos en formato estrecho, ya que la métrica de interés, la esperanza media de vida, estará contenida en una columna en lugar de estar repartida en numerosas columnas.

    Para despivotar las columnas, selecciona todas las columnas a partir de 1960. En la pestaña Transformar, selecciona "Unpivotar columnas" y luego, en la lista desplegable, "Unpivotar columnas". La Figura 1-12 muestra estas opciones en la pestaña Power Query Online.

    Figura 1-12. Despivotar las columnas
  5. Haz que las columnas sean más fáciles de entender cambiándoles el nombre. Cambia el nombre de la columna Atributo a Año y cambia el nombre de la columna Valor a Esperanza de Vida Media.

  6. Por último, modifica la columna Año para que tenga un tipo de dato de número entero. Selecciona la columna y abre la pestaña Transformar. Selecciona "Tipo de datos: Texto" y luego "Número entero" en la lista desplegable(Figura 1-13).

    Figura 1-13. Cambiar el tipo de dato del año

Una vez completados estos pasos, el flujo de datos de Power BI aparecerá como se muestra en la Figura 1-14. Haz clic en "Guardar y cerrar". Utilizaremos este flujo de datos en un ejercicio posterior.

Figura 1-14. Flujo de datos completado

Crear un flujo de datos importando/exportando un flujo de datos

Puedes crear flujos de datos utilizando la opción importar/exportar. Este método es práctico, ya que te permite importar un flujo de datos desde un archivo. Este proceso es útil si quieres guardar una copia del flujo de datos fuera de línea en lugar de en línea. También es útil si necesitas mover un flujo de datos de un espacio de trabajo a otro.

Para exportar un flujo de datos, selecciona el flujo de datos y, a continuación, elige Más (la elipsis) para ampliar las opciones de exportación de un flujo de datos. A continuación, selecciona export.json. El flujo de datos comenzará a descargarse en formato MDL.

Para importar un flujo de datos, selecciona la casilla de importación y carga el archivo. Power BI crea entonces el flujo de datos. El flujo de datos puede servir de base para transformaciones adicionales o permanecer tal cual.

Crear flujos de datos definiendo nuevas tablas

También puedes crear un flujo de datos definiendo una nueva tabla. La opción Definir nuevas tablas, mostrada en la Figura 1-15, es fácil de utilizar. Te pide que te conectes a una nueva fuente de datos. Una vez conectada la fuente de datos, se te pedirá que proporciones detalles como la configuración de la conexión y los datos de la cuenta.

Figura 1-15. Uso de "Definir nuevas tablas"

Crear flujos de datos con tablas vinculadas

La opción Enlazar tablas proporciona a la posibilidad de tener una referencia de sólo lectura a una tabla existente que esté definida en otro flujo de datos.

El enfoque de tablas enlazadas es útil si es necesario reutilizar una tabla en varios flujos de datos. Hay muchos casos de uso de este tipo en analítica, como cuando se reutiliza una tabla de fechas o una tabla de consulta estática. Los almacenes de datos suelen tener tablas de fechas personalizadas que se ajustan a la necesidad empresarial, como las tablas de fechas personalizadas variables, y una tabla de consulta estática puede contener nombres de países y códigos ISO asociados, que no cambian mucho con el tiempo. Si la red es un problema, también es útil utilizar tablas vinculadas que actúen como caché para evitar actualizaciones innecesarias. A su vez, esto reduce la presión sobre la fuente de datos original.

En estas situaciones, creas la tabla una vez, y luego es accesible a otros flujos de datos como referencia. Para fomentar la reutilización y las pruebas, puedes utilizar la opción Vincular tablas de otros flujos de datos(Figura 1-16).

Crear flujos de datos con tablas calculadas

Puedes llevar la idea de las tablas vinculadas un paso más allá, configurando un flujo de datos que utilice una tabla calculada mientras hace referencia a una tabla vinculada. La salida es una nueva tabla que forma parte del flujo de datos.

Es factible convertir una tabla vinculada en una tabla calculada; puedes crear una nueva consulta a partir de una operación de fusión, crear una tabla de referencia o reproducirla. La nueva consulta de transformación no se ejecutará utilizando los datos recién importados. En su lugar, la transformación utiliza los datos que ya residen en el almacenamiento de flujo de datos.

Importar un modelo de flujo de datos

Con Importar modelo, puedes elegir un modelo de flujo de datos para importarlo a tu espacio de trabajo(Figura 1-17).

Figura 1-17. Importar modelo

Si un flujo de datos se exporta a formato JSON, por ejemplo, puedes importar este archivo a otro espacio de trabajo. Para importar un flujo de datos desde un archivo, haz clic en "Importar modelo" y navega hasta el archivo JSON. A continuación, el servicio Power BI ingestará el archivo para crear el nuevo flujo de datos.

Crear flujos de datos utilizando una carpeta MDL

Los equipos de empresa pueden hacer que aproveche al máximo el formato del Modelo de Datos Común (MDC) con flujos de datos que accedan a tablas creadas por otra aplicación en el formato MDC. Puedes acceder a la opción cuando crees un nuevo flujo de datos, como se muestra en la Figura 1-18.

Figura 1-18. Adjuntar una carpeta de Modelo Común de Datos (vista previa)

Para acceder a estas tablas, tendrás que proporcionar la ruta completa al archivo con formato MDL almacenado en Azure Data Lake Store (ADLS) Gen2 y configurar los permisos correctos. La URL debe ser una ruta directa al archivo JSON y utilizar el punto final ADLS Gen2; ten en cuenta que el almacenamiento Azure Blob (blob.core) no es compatible.

La ruta es un enlace en formato HTTP y tendrá un aspecto similar al ejemplo del cuadro de ruta de la carpeta Modelo de datos común de la Figura 1-19. La ruta se genera automáticamente cuando el desarrollador configura el espacio de trabajo de almacenamiento de flujo de datos, y termina con model.json.

Figura 1-19. Especificación de la ruta de la carpeta Modelo Común de Datos

Además, la cuenta ADLS Gen2 debe tener configurados los permisos adecuados para que Power BI pueda acceder al archivo. Si el desarrollador no puede acceder a la cuenta ADLS Gen2, no podrá crear el flujo de datos.

La mayoría de los desarrolladores utilizan ya la nueva experiencia de espacio de trabajo. Para los que no, la posibilidad de crear flujos de datos a partir de carpetas de MDL, que sólo está disponible en la nueva experiencia de espacio de trabajo, es un aliciente para pasarse a ella.

Aspectos a tener en cuenta antes de crear flujos de trabajo

Los flujos de datos no están disponibles en mi espacio de trabajo en el servicio Power BI.

Puedes crear flujos de datos sólo en un espacio de trabajo Premium con una licencia Pro o una licencia Premium por usuario (PPU). Las tablas calculadas también están disponibles sólo en Premium.

Decidirás qué datos utilizar para la tabla una vez que estés conectado. Una vez que elijas tus datos y una fuente, Power BI volverá a conectarse a la fuente de datos para conservar los datos actualizados en el flujo de datos.

Durante la configuración, también se te preguntará con qué frecuencia necesitas actualizar los datos. Esta decisión dependerá en parte de tu licencia, ya que determinará el número de actualizaciones de datos disponibles para tu organización. Antes de empezar a crear el flujo de trabajo, debes decidir el momento de las actualizaciones de datos. Si no estás seguro de cuáles son las mejores horas para programar las actualizaciones de datos, es una buena idea elegir una hora que garantice que los datos estarán listos para los equipos de la empresa al comienzo de la jornada laboral.

El Editor de Flujo de Datos transforma los datos en el formato requerido para su uso en el flujo de datos, según el ejemplo dado en la sección "¿Cómo se crean los flujos de datos?".

Flujos de datos y agregaciones automáticas

Power BI Premium incorpora ahora flujos de datos en streaming y agregación automática. Estas funciones acelerarán la creación y el consumo de informes, y darán soporte a proyectos con grandes conjuntos de datos. Por ejemplo, los flujos de datos en streaming permiten a los creadores de informes incorporar datos en tiempo real para que sus informes sean más fáciles de usar y más rápidos.

Como la cantidad de datos procedentes de nuevos lugares crece cada día, las empresas necesitarán ayuda para hacerlos procesables. Estas funciones desempeñarán un papel fundamental a la hora de permitir que las empresas utilicen los datos de forma más eficiente para fundamentar decisiones empresariales acertadas.

Prepara primero tus datos

La inteligencia artificial necesita datos; sin datos, no hay IA. Power BI Desktop utiliza flujos de datos para crear conjuntos de datos, informes, cuadros de mando y aplicaciones basados en los datos obtenidos de los flujos de datos de Power BI.

El objetivo final es obtener información sobre las actividades empresariales, y el siguiente paso para conseguirlo es preparar los datos para los flujos de datos de Power BI.

Preparar los datos para los flujos de datos

La preparación de los datos suele ser la tarea más complicada, costosa y lenta de los proyectos analíticos. Los conjuntos de datos pueden incluir datos fragmentados, ausentes e incompletos. Además, las estructuras de datos pueden ser confusas y estar mal documentadas. Los flujos de datos de Power BI ayudan a las organizaciones a afrontar todos estos retos. Permiten la ingestión, transformación, limpieza e integración de grandes volúmenes de datos. Además, los flujos de datos de Power BI pueden estructurar los datos de forma estandarizada para facilitar la elaboración de informes.

Los flujos de datos ayudan a simplificar y a configurar una canalización de extracción, transformación y carga (ETL) de Power BI de autoservicio. Un flujo de datos sigue el mismo patrón que una simple canalización ETL que puede conectarse a los datos de origen, transformar los datos aplicando reglas empresariales y preparar los datos para que estén disponibles para su visualización. A continuación, Power BI se conecta a un almacén de datos en entornos de inteligencia empresarial y visualiza los datos a partir de ese punto.

¿Dónde deben limpiarse y prepararse los datos?

En muchas arquitecturas técnicas, existen varias opciones para la limpieza y preparación de datos, ya que se dispone de varias fuentes de datos: desde hojas de cálculo de Excel a sistemas de big data, pasando por soluciones propietarias como Google Analytics. En consecuencia, puedes elegir entre una miríada de pipelines de procesamiento de datos para procesar datos de distintas fuentes. Merece la pena examinar algunas de estas opciones antes de entrar en la cuestión de por qué los flujos de datos son esenciales para limpiar datos para Power BI.

Opción 1: Limpia los datos y agrégalos en el sistema fuente

La herramienta utilizada para esta opción depende del sistema fuente que almacene los datos. Por ejemplo, si la arquitectura técnica descansa en un servidor Microsoft SQL, la solución podría extraer los datos utilizando procedimientos almacenados o vistas.

Con esta opción, la arquitectura general mueve menos datos del sistema fuente a Power BI. Esto es útil si la empresa no necesita detalles de bajo nivel y se desea anonimizar los datos agregándolos.

Una desventaja de este enfoque es que los datos fuente sin procesar no están disponibles para Power BI, por lo que la empresa tiene que volver al sistema fuente cada vez que necesite los datos. Puede que los datos ni siquiera sigan existiendo en el sistema fuente si se han archivado o depurado, por lo que es mejor que Power BI importe los datos. Otro problema es que la limpieza de datos puede sobrecargar la capacidad del sistema fuente, ralentizando potencialmente el sistema y afectando a los equipos empresariales que lo utilizan. Además, el sistema fuente puede no tener un rendimiento rápido debido a las operaciones empresariales y, por tanto, no ser capaz de proporcionar informes rápidos a los usuarios empresariales. Power BI es una opción excelente para eludir estos problemas, porque alivia la presión sobre los sistemas fuente subyacentes, trasladando la carga de trabajo a la nube, al tiempo que da soporte a los usuarios empresariales que necesitan sus informes de Power BI.

Opción 2: Limpiar datos de una fuente a un almacén secundario

Los usuarios empresariales a menudo no entienden por qué los motores de búsqueda como Google o Bing pueden producir millones de resultados en segundos, pero los departamentos de TI tardan mucho más en producir datos. Algunas empresas trabajan en torno a TI, yendo a comprar sus propios conjuntos de datos para sus propios análisis. Esto puede provocar frustración cuando el personal de la empresa encuentra confusos los aspectos técnicos. Los expertos en almacenamiento de datos crean paquetes ETL que se encargan de las tareas de transformación de datos según un calendario para evitar las cargas de datos puntuales.

Acceder repetidamente a los sistemas operativos puede afectar a su rendimiento. La transferencia de datos a una fuente secundaria resuelve este problema, ya que el sistema original deja de verse afectado por la demanda adicional de los usuarios empresariales.

Sin embargo, la actividad ETL implica coordinar muchas piezas diferentes de lógica que deben interactuar en secuencia. Muchos sistemas operativos internos simplemente no están diseñados para trabajar a la velocidad de la empresa, y no están diseñados para trabajar juntos. La realidad es que a menudo se exportan datos a CSV o Excel y luego se mezclan. Esto significa que las empresas funcionan con fuentes de datos operativos que pueden diferir de las fuentes de datos originales y entre sí en términos de estructura, contenido y frescura.

Microsoft está cambiando su enfoque hacia los servicios y dispositivos, en lugar de hacia las aplicaciones locales, basadas en el escritorio y en las instalaciones. Con el tiempo, esto significa que habrá que abordar la proliferación de Excel en todas las organizaciones. Las empresas necesitan ayuda con los nuevos retos que plantean los datos, como una variedad cada vez mayor de fuentes de datos, incluidos los datos de las redes sociales y los big data. Para algunas organizaciones, esto significará pasar de una metodología de centro de llamadas a una de centro de contacto, por ejemplo, un enorme cambio de procesos que se reflejará en los datos resultantes. Si no se actualizan los procesos, los usuarios empresariales recurrirán a mezclar datos en Excel simplemente porque no parece haber una forma clara de combinarlos de forma más sólida. Esto no siempre funciona bien; por ejemplo, las tablas de Excel pueden estar excesivamente decoradas, o las tablas HTML pueden interpretarse como marcas estructurales en lugar de marcas reales. Todo esto puede resultar confuso para los sistemas frontales posteriores.

Las personas necesitan estar aisladas de la necesidad de escribir SQL en la medida de lo posible, ya que no siempre tienen el conjunto de habilidades para realizar cambios correctamente. Los productos de Microsoft que logran este objetivo son SQL Server Integration Services (SSIS), Azure Data Factory y Azure Databricks. Estas herramientas utilizan una complicada lógica de orquestación para garantizar que los paquetes ETL se ejecutan en secuencia en el momento adecuado. El desarrollo de ETL requiere una mentalidad técnica para crear rutinas que importen datos correctamente.

La empresa debe reconocer que la preparación de los datos es probablemente el aspecto más importante de la analítica estratégica, la inteligencia empresarial y, de hecho, cualquier cosa que tenga que ver con los datos. Todo el mundo tiene datos sucios, y la transformación de datos en autoservicio es una necesidad. Si tu organización cree que no tiene datos sucios, no está buscando lo suficiente. Las empresas deben darse cuenta de que la necesidad de una transformación de datos de autoservicio para responder a las preguntas de negocio es un hecho operativo si quieren satisfacer las necesidades de los clientes. Afortunadamente, Power BI puede ayudar.

Ingestión de datos en tiempo real frente a procesamiento por lotes

Construir una canalización de integración de datos de nivel empresarial como lleva mucho tiempo, y hay que tener en cuenta muchas consideraciones y directrices de diseño. A menudo, las empresas se mueven tan rápido que resulta difícil para el equipo informático seguir el ritmo de cambio de los requisitos. Microsoft ha desarrollado dataflows, una herramienta de preparación de datos totalmente gestionada para Power BI, para superar este reto. Hay dos opciones: utilizar los flujos de datos para importar datos mediante el procesamiento de datos en tiempo real o por lotes, o utilizar conjuntos de datos en streaming para trabajar con datos en tiempo real.

Conjuntos de datos en tiempo real en Power BI

Tiempo real suele significar cosas diferentes para organizaciones diferentes. Por ejemplo, en algunas organizaciones, las cargas del almacén de datos se actualizan una vez al día, pero se consideran "en tiempo real".

Desde la perspectiva de Power BI, el streaming en tiempo real se produce en tiempo real, a menudo con actualizaciones que tienen lugar más de una vez por segundo. Power BI te permite transmitir datos y actualizar cuadros de mando en tiempo real, y cualquier visual o cuadro de mando creado en Power BI puede representar y actualizar datos y visuales en tiempo real.

¿Cuál es la génesis de los datos en tiempo real? Los dispositivos y fuentes de datos en tiempo real pueden incluir sensores de fabricación, fuentes de medios sociales o muchos otros recolectores o transmisores de datos sensibles al tiempo. Por tanto, muchos escenarios implican datos en tiempo real, y Power BI ofrece varias oportunidades de ingestión de datos en tiempo real.

En Power BI, hay tres tipos de conjuntos de datos en tiempo real para apoyar la visualización de datos en tiempo real en los cuadros de mando:

  • Empujar conjuntos de datos

  • Transmisión de conjuntos de datos

  • Conjuntos de datos de streaming PubNub

En esta sección repasaremos en qué se diferencian estos conjuntos de datos, y luego hablaremos de cómo llegan los datos en tiempo real a estos conjuntos de datos.

Configurar conjuntos de datos de streaming

El servicio Power BI te permite para configurar conjuntos de datos en streaming. Para ello, haz clic en el botón Nuevo (+) de la esquina superior izquierda del servicio Power BI. Ahora, selecciona Conjunto de datos en streaming(Figura 1-20).

Figura 1-20. Configurar conjuntos de datos de streaming

Cuando pulses el botón Nuevo, verás las tres opciones visibles en la Figura 1-21. A partir de este punto, hay tres opciones para crear un conjunto de datos de streaming: una es crear un flujo de datos utilizando una API, la segunda es crear un flujo de Azure Analytics, y la tercera es utilizar PubNub como conjunto de datos de la fuente de datos de streaming.

API

Puedes crear un conjunto de datos de streaming con la API REST de Power BI. Después de seleccionar API en la ventana Nuevo conjunto de datos de streaming, tienes varias opciones para permitir que Power BI se conecte al punto final y lo utilice, como se muestra en la Figura 1-22.

Flujo Azure

Para crear un Azure Stream, tienes que dirigirte a la página de ayuda de Azure Stream Analytics para configurar tu conjunto de datos de streaming. Microsoft sacará a la luz esta función en breve en Power BI, pero actualmente no está disponible en el portal de Power BI(Figura 1-23).

PubNub

Azure Stream Analytics ofrece una forma de agregar el flujo bruto de datos de PubNub antes de que pase a Power BI, para que Power BI pueda presentar los datos de forma óptima. Como PubNub es una herramienta de terceros, no la trataremos en este libro.

Figura 1-21. Seleccionar el tipo de conjunto de datos de streaming
Figura 1-22. Configurar la API de Power BI
Figura 1-23. Seleccionar Azure Stream desde Azure Stream Analytics

Ingesting data into Power BI: Push method versus streaming method

Los métodos push dataset y streaming dataset reciben datos en un modelo push, en el que los datos se introducen en Power BI. Power BI crea una base de datos subyacente que constituye la base de las visualizaciones de los informes y cuadros de mando de Power BI. En cambio, el método de streaming no almacena los datos durante más de una hora.

El método push permite al desarrollador de informes crear informes utilizando los datos almacenados en la base de datos, por ejemplo, filtrando, utilizando visuales de Power BI y utilizando las funciones de informes de Power BI. Por otro lado, el método de streaming no permite utilizar las funciones estándar de informes de Power BI; en su lugar, utiliza una fuente de streaming personalizada que muestra los datos en tiempo real con una latencia muy baja.

Procesamiento de datos por lotes con Power BI

Los flujos de datos de Power BI son perfectos cuando se necesita un movimiento de datos orientado a la empresa y de autoservicio. Los usuarios empresariales utilizan los flujos de datos para conectarse rápidamente a las fuentes de datos y preparar los datos para la elaboración de informes y la visualización. Los flujos de datos de Power BI son similares a las hojas de cálculo de Excel, por lo que los usuarios ya están familiarizados con las habilidades necesarias para utilizar esta herramienta.

Aunque los flujos de datos de Power BI están orientados a la empresa, funcionan con las enormes cantidades de datos transaccionales y observacionales almacenados en el ADLS Gen2. Además, los flujos de datos de Power BI trabajan con grandes almacenes de datos y con los pequeños datos que hacen funcionar el negocio. Por tanto, para las organizaciones cloud-first o cloud-friendly, los flujos de datos de Power BI pueden acceder a los servicios de datos de Azure.

Para los clientes de Microsoft, Power BI se integra perfectamente con el resto del sistema Power BI. Por ejemplo, Los flujos de datos de Power BI son compatibles con el MDL, un conjunto de entidades empresariales legales como Cuenta, Producto, Cliente potencial y Oportunidad. Los flujos de datos permiten asignar fácilmente cualquier dato de cualquier forma a las entidades jurídicas del MDL.

Los flujos de datos de Power BI también tienen un rico conjunto de capacidades que resultan útiles para diversos escenarios. En primer lugar, los flujos de datos pueden conectarse a fuentes de datos e ingerir tablas de datos. Pueden fusionar y unir tablas, así como unir tablas. Además, los flujos de datos también pueden realizar la práctica habitual de pivotar datos. Los flujos de datos enriquecen los datos creando nuevas columnas computadas en las tablas, y pueden simplificar los datos filtrando las tablas para que los usuarios obtengan lo que necesitan sin fricciones.

Otra gran ventaja de los flujos de datos es que pueden ejecutarse automáticamente según un calendario, ¡permitiendo a los desarrolladores configurarlo y olvidarse! El "problema de última milla" de la analítica es que las empresas no siempre entienden cómo obtener valor de un proyecto analítico. La automatización es una forma crucial de obtener valor de estos proyectos, ayudando a las empresas con el problema de la última milla de poner sus soluciones en entornos de producción.

Los flujos de datos de Power BI también pueden interactuar con la IA entrenando y aplicando modelos de IA en las tablas. Por tanto, es posible utilizar la IA en los flujos de datos.

Comprendamos ahora algunos conceptos más profundos en torno a los flujos de datos.

Importar datos por lotes con Power Query en Flujos de datos

Power Query, que ayuda a crear flujos de datos de Power BI, es accesible desde Power BI, Excel y la experiencia en línea de Power Query. Esta herramienta de fácil uso para la transformación de datos permite a los analistas empresariales y de datos leer datos de una amplia gama de fuentes.

La interfaz de usuario (UI) de Power Query ofrece docenas de formas de calcular y transformar datos directamente mediante la cinta y los cuadros de diálogo de Power Query. Además de ser fácil de usar, Power Query puede transformar datos de formas atractivas y extensibles. Admite más de 80 fuentes de datos incorporadas y un kit de desarrollo de software (SDK) de conectores personalizados con un rico ecosistema. Un SDK proporciona una colección de herramientas de software, bibliotecas, documentación, ejemplos de código, procesos y guías que permiten a los desarrolladores crear aplicaciones de software en una plataforma específica. Cuando se trata de conectarse a los datos, un SDK se utiliza para la gestión de la conexión, la seguridad y la personalización. El SDK de conector personalizado agiliza el proceso de desarrollo abstrayendo detalles complejos, de modo que sea más sencillo conectar y recuperar datos de fuentes menos comunes que no forman parte de las fuentes de datos disponibles de fábrica.

Todo lo que aparece en la interfaz de usuario de Power Query se traduce automáticamente a código en un lenguaje llamado M. Aunque los usuarios no necesitan escribir código, utilizar M en Power Query es una forma estupenda de aprender sobre codificación y actividades de transformación entre bastidores. El lenguaje M es un tema en sí mismo y, por tanto, queda fuera del alcance de este libro.

El motor de cálculo de flujo de datos

Los flujos de datos tienen un motor de cálculo que ayuda a unir todas las columnas, facilitando las cosas. En algún momento, los usuarios de Excel se topan con un problema en el que hay una dependencia circular implicada en una fórmula. El motor de cálculo de los flujos de datos ayuda a resolver esos problemas creando enlaces para comprobar las dependencias antes de la implementación.

Para muchas empresas, es necesario producir múltiples flujos de datos debido a una variedad de fuentes de datos, ninguna de las cuales es la fuente de la verdad. Estos múltiples flujos de datos se crean y gestionan en un único espacio de trabajo de Power BI, por lo que son fáciles de administrar. Además, parte del proceso de garantizar la integridad de los datos de alta calidad implica examinar las dependencias entre los flujos de trabajo para comprobar su coherencia.

Opciones de flujo de datos

Las organizaciones pueden utilizar los flujos de datos de Power BI de varias formas. Exploremos algunas de las opciones.

Opción 1: Totalmente gestionado por Power BI

Power BI se encarga de todo en la nube, desde la ingesta de datos a su estructuración y actualización hasta la visualización final de los datos. El viaje de los datos comienza con el uso de la herramienta en línea Power Query basada en la web para estructurar los datos. Un lago de datos Azure almacena los datos utilizando la infraestructura Azure, que es transparente para la organización. Con esta opción, la organización no puede gestionar los datos por sí misma, ya que Power BI proporciona un servicio integral en la nube.

Opción 2: Trae tu propio lago de datos

La Opción 2 es casi idéntica a la Opción 1, con una diferencia significativa: la organización asocia su propia cuenta de lago de datos de Azure a Power BI y la gestiona utilizando herramientas como Power Query y Power BI. Esta opción es útil para las organizaciones que deseen acceder a sus datos fuera de Power BI.

Opción 3: Flujos de datos externos

Con esta configuración, una solución como como Azure Data Factory asume la responsabilidad de gestionar los datos. Power BI consume los datos, pero no los gestiona.

Flujos de datos de Power BI en Power BI Desktop

Independientemente de la opción que se utilice para gestionar los flujos de datos de Power BI, los usuarios empresariales extraerán los datos utilizando la opción Obtener datos de Power BI Desktop o de la versión en línea de Power BI. La opción Obtener datos es fácil de usar. No es necesario que el desarrollador de Power BI sepa dónde están almacenados los datos, ya que puede seleccionar las tablas de datos relevantes. Otra característica conveniente es que es posible unir tablas que se actualizan en diferentes horarios.

DirectQuery en Power BI

Es posible conectar a diferentes fuentes de datos cuando se utiliza Power BI Desktop o el servicio Power BI y realizar esas conexiones de datos de diferentes maneras. El desarrollador de Power BI se conecta directamente a los datos del repositorio fuente original mediante un método conocido como DirectQuery.

La experiencia ha demostrado que los usuarios de suelen decir que quieren la información más actualizada de inmediato. Sin embargo, esto no significa que quieran datos en tiempo real. En realidad, tiempo real y actualidad no son lo mismo. Pongamos un ejemplo. Supongamos que los datos se cargan cada noche mediante procesamiento por lotes, de modo que estén listos para que la empresa los vea a las 8:00 a.m. Como los datos no se actualizarán hasta las 8:00 a.m., utilizar el método Importar es perfecto; los usuarios verán los datos más recientes a partir de las 8:00 a.m.

Importación frente a consulta directa: Recomendaciones prácticas

Recordarás de anteriores que el método Importar datos almacena los datos en Power BI. Los datos se almacenan en memoria, lo que hace que los visuales y los informes tengan mayor capacidad de respuesta. Los datos se transforman utilizando los flujos de datos de Power BI o el Editor de consultas de Power, para que el desarrollador pueda transformar y dar forma a los datos según sus necesidades. Los datos se actualizan mediante programaciones específicas; el número de programaciones disponibles depende de la licencia de Power BI que tengas. Puedes utilizar datos de fuentes sin conexión o disponibles esporádicamente.

Como era de esperar, hay algunas advertencias, dependiendo de tu escenario específico. Hay límites en cuanto al volumen de datos, y el límite depende de tu licencia: el límite de tamaño por conjunto de datos es de 2 GB para Power BI Pro y superior para Premium. Dado que el modelo de Importación extrae los datos de forma programada, los datos son tan recientes como la última actualización.

La Consulta Directa es perfecta si tu escenario requiere actualizaciones de datos con mayor frecuencia. Consulta Directa significa que los datos están siempre actualizados con la fuente. Como los datos no se almacenan en Power BI, no hay limitaciones en el tamaño de los datos. Además, la lógica empresarial permanece centralizada en la fuente.

Sin embargo, como los datos permanecen en la fuente, el rendimiento de los informes de Power BI puede ser más lento que con el método de Importación. Con la Consulta Directa, las consultas se envían a la base de datos de origen, los datos se recuperan de la fuente y, a continuación, los datos se envían de vuelta al panel de Power BI. Si el panel pierde la conexión, Power BI no podrá mostrar ningún dato. Por tanto, la Consulta Directa requiere una conexión constante con la fuente de datos.

El método Importar datos es adecuado cuando tienes conjuntos de datos más pequeños o que se ajustan a tus limitaciones de capacidad. También es adecuado para fuentes de datos fuera de línea o que están disponibles esporádicamente. La Consulta Directa también es útil si tu escenario requiere más actualizaciones de datos de las que están disponibles con el método Importar Datos.

Power BI Premium, Pro y Gratuito

Las diferentes versiones de Power BI conceden distintos niveles de acceso a las funciones del software. A continuación se ofrece una visión general de cada una de ellas, seguida de una explicación sobre qué herramientas de IA de este libro requieren una suscripción de pago a Power BI:

Gratis

Como era de esperar, la versión más popular es la gratuita Power BI Desktop, que permite a los usuarios conectarse a los datos y crear informes en su máquina local.

Pro

Power BI Pro incluye todas las funciones de la versión gratuita y da acceso a la versión basada en navegador, el servicio Power BI, que permite al usuario crear y compartir un cuadro de mando en directo. Pro viene incluido en Office 365 E5 sin coste adicional; de lo contrario, cuesta 10 $ por usuario y mes.

Prima por usuario (PPU)

PPU incluye todas las funciones Pro, así como capacidad dedicada en el inquilino Power BI, lo que significa que no tendrás que competir con otros usuarios por el procesamiento en la nube. También desbloquea funciones más avanzadas de IA, automatización y preparación de datos, y cuesta 20 $ al mes por usuario.

Prima por capacidad (PPC)

Premium por capacidad es una suscripción para toda la organización que incluye todas las funciones disponibles con la licencia PPU. A muchas organizaciones les resulta más rentable registrarse en Premium por usuario, pero quienes deseen una licencia única pagarán 4.995 $ al mes por nivel de unidades de capacidad.

También nos referiremos a PPU y PPC colectivamente durante el resto del libro simplemente como "Premium". No hay ninguna diferencia significativa entre ambos en lo que se refiere a las funciones de IA que tratamos.

Nota

Todos los precios indicados están actualizados en el momento de escribir este artículo, así que consulta el sitio web de Power BI para conocer las tarifas más recientes. También puedes seguir el enlace para inscribirte en una prueba gratuita de 60 días, así como para obtener más información sobre los precios para administraciones públicas y organizaciones sin ánimo de lucro.

A lo largo de este libro tratamos muchas funciones diferentes de IA de Power BI, muchas de las cuales requieren una licencia de pago para acceder a ellas. La Tabla 1-1 desglosa los elementos más significativos según su capítulo correspondiente, así como si requieren la versión Gratuita, Pro o Premium de Power BI.

Tabla 1-1. Desglose de las funciones de IA de Power BI por capítulo y licencia requeridaa
Capítulo Gratis Pro Premium
1 Crear flujos de datos en un espacio de trabajo de Power BI Flujo de datos mejorado con funciones de IA
2 Modelado de datos en Power BI Desktop ⬅ y modelado de datos en el servicio Power BI
3 Árbol de descomposición, Influenciadores clave, Preguntas y respuestas, Perspectivas ⬅ y AutoML en Power BI
4 Obtener datos de web por ejemplo, añadir columna de ejemplos, perfilado de datos, generación de tablas, concordancia difusa, narración inteligente ⬅ y Quick Insights, Creación de informes
5 Gráfico de líneas (previsión y detección de anomalías)
6 Gráfico de dispersión (agrupación)
7 Conjunto de datos en streaming en Power BI, servicios Azure AIb ⬅ con frecuencia de actualización mejorada
8 Detección lingüística, extracción de frases clave, análisis de sentimientos
9 Etiquetado de imágenes
10 Consumir un modelo entrenado en Azure Machine Learningb
11 Python y R para ingesta de datos, transformación de datos, visualización de datos, aprendizaje automático
12 Consumir un modelo entrenado en Azure Machine Learningb o AutoML

a La flecha de la izquierda indica que incluye todas las funciones a la izquierda, y la X indica algo que no se incluye con esta licencia.

b También requiere créditos de pago de Microsoft Azure. Consulta "Suscripción a Azure y prueba gratuita" para más detalles.

Resumen

La gama de opciones de los flujos de datos de Power BI permite a la organización gestionar Power BI con el grado de "nubosidad" que prefiera. En última instancia, las empresas intentan encontrar un equilibrio entre los informes de "bandeja de plata" y el autoservicio, y los flujos de datos de Power BI ofrecen ambos métodos de elaboración de informes, al tiempo que evitan el infierno de Excel de los charcos de datos que son piezas de deuda de datos no supervisadas, no gestionables y rebeldes.

Get Inteligencia Artificial con Microsoft Power BI now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.