Capítulo 4. Obtener datos de Alteryx Designer

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Al igual que hay tantos formatos diferentes de que puedes utilizar para introducir datos en Designer, también hay tantos formatos y métodos para sacarlos de Designer. Puedes enviar tus datos a fuentes sencillas, como un archivo CSV o un archivo Excel, pero también puedes enviarlos directamente a bases de datos, fuentes web y las principales herramientas de visualización de datos, como PowerBI y Tableau. La mayoría de los usuarios envían los datos a archivos, como Excel y CSV, o a bases de datos, como Microsoft SQL Server. En este capítulo aprenderás a hacer ambas cosas.

Como ya he dicho en capítulos anteriores, el Diseñador es extremadamente flexible y potente, y puede crear informes y salidas bien diseñados en varios formatos que te permiten automatizar tanto los informes como los análisis. Este capítulo se centrará en la herramienta Salida de Datos, pero presentaré muchas más herramientas para la salida de datos, que trataremos en detalle en los Capítulos 9 y 10.

Ficheros frente a bases de datos

Muchos de los que trabajamos en el sector de la analítica nunca recibimos una clase formal ni formación sobre el uso de bases de datos. De hecho, la mayoría de nosotros probablemente recibimos más formación sobre el uso de Excel para nuestros proyectos que sobre cualquier otra cosa. Mientras hablamos de la salida de datos, quiero aprovechar esta oportunidad para retarte a que consideres si utilizar bases de datos podría ser mejor para ti. Hay dos razones por las que planteo este reto.

En primer lugar, Designer hace que sea muy fácil interactuar con las bases de datos, tanto para introducir como para extraer datos. En segundo lugar, son muchas las funciones que ofrecen las bases de datos. Puede que pienses que trabajar con archivos es más fácil y rápido, pero me gustaría que cuestionaras esa suposición. Con un poco de trabajo, puedes trabajar de forma más eficaz y eficiente utilizando bases de datos.

Más concretamente, veo tres ventajas clave de utilizar bases de datos en lugar de archivos:

Ubicación céntrica
Cualquiera que haya utilizado archivos para almacenar datos puede dar fe del desorden que se produce con el tiempo en el propio almacenamiento de archivos. Carpetas y carpetas de datos están desperdigadas y, muchas veces, es difícil acceder a ellas, a menos que seas extremadamente organizado en todo momento. Tener una base de datos en la que almacenar los datos tiene más sentido, ya que están todos en una ubicación central. A las bases de datos no les importa si los datos son de una fila o de mil millones de filas; pueden manejar cualquier tamaño.
Escala y flexibilidad
No hay nada mejor que la potencia de una base de datos. Los usuarios que han intentado poner 500.000 filas de datos en una hoja de Excel saben que la mayoría de los tipos de archivo no se construyeron para escalar bien. Esa flexibilidad de poder pasar de un registro a mil millones de registros es poderosa. La flexibilidad de una base de datos también se demuestra en su capacidad para almacenar todos los tipos de datos diferentes en un mismo lugar. Disponer de una base de datos que puede almacenar formatos JSON, formatos espaciales y formatos de tabla estándar significa que los usuarios no tienen que gestionar varios tipos de archivo en función de los datos.
Acceso y control
Tener archivos que contienen datos valiosos repartidos por toda una máquina es un riesgo para las empresas y para el usuario. Si un usuario deja su portátil conectado, por casualidad, y alguien aprovecha para rebuscar entre los archivos, no hay forma de impedir que coja un archivo que está en el escritorio y se lo envíe por correo electrónico a sí mismo o a otra persona. Está ahí, abierto y expuesto. Con una base de datos, sin embargo, puedes proteger tus datos: se almacenan en servidores que están dentro de las paredes de una empresa y se pueden cuidar adecuadamente.

Desde que tengo uso de razón, las bases de datos han representado la analítica "real", a escala. Te aseguro que los archivos son igual de importantes para la analítica, y lo discutiremos a continuación.

Salida a archivos

La principal forma de dar salida a los datos a un archivo es utilizando la herramienta Salida de datos, que es el tema principal de este capítulo. Esta herramienta tiene muchas funciones que van más allá de la simple salida de datos. Empezaremos viendo cómo generar un único archivo CSV. A continuación, veremos la salida a Excel, así como al formato de base de datos propietario de Alteryx, YXDB.

Nota

Alteryx tiene algunos tipos de archivo que son propietarios y sólo se utilizan con Alteryx Designer y Server. Uno de ellos es un formato de archivo de base de datos llamado YXDB. Este formato de archivo es el más eficiente para leer y escribir en Designer porque no tiene límite de tamaño, está comprimido para obtener la máxima velocidad e incluye metadatos adicionales que hacen referencia al origen de los datos y a cómo se crearon. No hay límite de filas: ningún otro formato de archivo, aparte del texto, admite tantas filas.

Salida a un archivo CSV

Para dar salida a un archivo CSV utilizando la herramienta Datos de salida, primero arrastra y suelta una herramienta Datos de salida en el lienzo y asegúrate de que está conectada a la herramienta desde la que quieres dar salida a los datos (ver Figura 4-1).

Figura 4-1. Salida a archivo CSV

Para configurar la herramienta Datos de Salida, tendrás que indicar al Diseñador dónde quieres guardar el archivo de salida. Puedes hacerlo igual que con la herramienta Datos de Entrada, haciendo clic en la flecha hacia abajo de la parte derecha de la ventana Configuración, que abrirá la ventana Conexiones de datos (ver Figura 4-2).

Figura 4-2. Ventana de conexiones de datos

En la ventana Conexiones de datos, selecciona la opción CSV. Después, en la siguiente ventana, elige un nombre para el archivo (ver Figura 4-3).

Figura 4-3. Guardar un archivo de datos en formato CSV

Haz clic en Guardar. ¡Has completado la configuración para la salida de los datos a un archivo CSV en tu máquina! Recuerda que también puedes cambiar la configuración, si es necesario (ver Figura 4-4).

Figura 4-4. Opciones de configuración del CSV

Vamos a profundizar en algunas de las opciones de configuración de los archivos CSV.

Opciones de configuración

En general, es importante comprender las opciones de configuración que tienes a tu disposición para la herramienta Datos de Salida, ya que hay muchas opciones que pueden determinar si eres capaz de leer correctamente el archivo. También hay pequeños trucos que eliminarán 2-3 pasos de tu flujo de trabajo con sólo configurar las opciones adecuadas. Echemos un vistazo a esas opciones:

Registros máximos por archivo
Esta opción te permite especificar cuántos registros se escriben. Si estás en modo desarrollo y sólo estás probando, podrías establecerlo en, digamos, 10 registros para que sea rápido hasta que necesites ejecutarlo completamente.
Formato de archivo
Esta es la opción que utilizas para elegir el tipo de archivo.
Delimitadores
Es muy importante prestar atención a esto, ya que es el carácter real que separa tus datos en columnas. Si intentas enviar los datos a un archivo y todos acaban en la misma columna, es probable que el delimitador sea incorrecto.
La primera fila contiene los nombres de los campos
Esta opción te permite especificar si tus datos contienen cabeceras o no.
Campos de salida de la cotización
Esta opción es similar a la de la herramienta Introducir Datos, que garantiza que los valores no queden cortados al azar por las comillas.
Código Página
Esta es la opción que te permite especificar la página de código. La mayoría de las veces, nunca necesitarás modificar esto.
Estilo de final de línea
Si trabajas con archivos de distintos sistemas (Unix, Mac o Windows), puede que tengas que configurar esta opción para escribir correctamente los archivos.
Escribir lista de materiales
Esta opción te permite incluir o excluir la marca de orden de bytes (BOM) en la salida.

Una vez que hayas ejecutado tu flujo de trabajo con la herramienta Datos de salida configurada, es muy fácil abrir el archivo desde Alteryx. Hablemos de cómo ver el archivo de salida.

Ver el archivo de salida

En la ventana de Resultados, te darás cuenta de que cualquier entrada o salida que aparezca en la lista también está configurada como un hipervínculo en el que puedes hacer clic para abrir ese archivo. También puedes filtrar rápidamente tus registros haciendo clic en las cabeceras del panel Resultados para ver sólo las Advertencias o los Mensajes, por ejemplo (ver Figura 4-5).

Figura 4-5. Ventana de resultados

Salida a un archivo Excel

La salida a un archivo Excel es muy similar a la salida a un archivo CSV, con sólo un par de opciones diferentes. Todavía tendrás que elegir el archivo en el que quieres escribir, pero en lugar de hacer clic en la flecha hacia abajo y seleccionar un archivo, puedes simplemente escribir (o copiar y pegar) el nombre del archivo y la ubicación en el cuadro de texto. Si lo escribes correctamente, con la extensión de archivo .xlsx, lo reconocerá automáticamente y establecerá la configuración por defecto. Es importante tener en cuenta que si haces clic en la flecha hacia abajo y utilizas la interfaz para seleccionar el archivo, algunas de las opciones (como Registros máximos por archivo y Formato de archivo), así como la selección del nombre de la hoja, se establecerán automáticamente. Si escribes la ruta y el nombre del archivo, tendrás que configurarlo manualmente, así como utilizar los "|||" (delimitadores de tubo) al final con el nombre de la hoja para especificar qué hoja exacta quieres utilizar (ver Figura 4-6).

Figura 4-6. Ruta del archivo

Un elemento importante que debes tener en cuenta es que las hojas de un archivo Excel son como las tablas de una base de datos. Funcionan de forma muy parecida. Hablemos más sobre cómo podemos configurar la salida.

Opciones de configuración

La opción más importante para dar salida a en Excel es la tercera opción de la Figura 4-6 (Opciones de salida), que te permite elegir los criterios de salida del archivo. Debes asegurarte de que lo has configurado correctamente, o podría causar errores la segunda vez que ejecutes el flujo de trabajo. Al dar salida a Excel, tienes cuatro opciones de configuración entre las que elegir:

Añadir a hoja existente
Utiliza esta opción si tienes un archivo/hoja ya creado que quieres añadir.
Sobrescribir hoja o rango
Utiliza esta opción si quieres sustituir una hoja o rango.
Sobrescribir archivo (Eliminar)
Utiliza esta opción si quieres sustituir un libro entero.
Crear nueva hoja
Utiliza esta opción si cada vez que ejecutes quieres que se cree una nueva hoja. Atención: si esa hoja ya está creada, el Diseñador lanzará un error indicándote que no se puede escribir en ella porque ya existe.

Salida a un archivo YXDB

Dar salida a YXDB es probablemente la forma más fácil de dar salida. Para muchos casos de uso, por ejemplo cuando se requiere un archivo y el conjunto de datos es también bastante grande o cuando los propietarios de un conjunto de datos no quieren que se modifiquen, es una opción realmente buena si quieres poner rápidamente los datos en un formato fácil y no tienes requisitos para informar o presentar los datos.

Para dar salida a tus datos en el formato YXDB, sólo tienes que seguir los mismos pasos que para CSV y Excel, y elegir la ubicación donde quieres que se almacenen los datos. Recuerda que el Diseñador va a hacer todo lo que pueda para ayudarte, estableciendo automáticamente las configuraciones cuando elijas el tipo de archivo (ver Figura 4-7).

Figura 4-7. Configuraciones para el tipo de archivo YXDB

Dedica algún tiempo a familiarizarte con el uso de los tipos de archivo YXDB. Sin duda te ayudará en tu viaje por Alteryx. Ahora bien, por muy importante que sea poder exportar a archivos como YXDB, yo diría que exportar a bases de datos es aún más importante. Vamos a asegurarnos de que comprendes bien cómo Alteryx Designer te permite dar salida a bases de datos.

Salida a bases de datos

Como se indicó en el último capítulo, Alteryx Designer admite casi todas las fuentes de datos más utilizadas del mundo: Microsoft SQL Server, Amazon S3, MongoDB, MySQL e incluso fuentes más recientes como Snowflake y Databricks. Es divertido pensar en todas las combinaciones de fuentes de datos desde las que se podría leer y en las que se podría escribir. Esta es una de las razones por las que Alteryx es tan flexible. Si necesitas mover datos de Excel a Amazon S3, puedes hacerlo. Si necesitas mover datos de Microsoft SQL Server a Snowflake, puedes hacerlo. Para ello, tendrás que saber cómo utilizar la herramienta Datos de salida para tu fuente de datos respectiva. No voy a cubrir todas las fuentes de datos en este libro, pero daré un par de ejemplos que deberían ser útiles, ya que funcionan de manera similar.

En el capítulo anterior, aprendiste a conectarte a bases de datos y a utilizar la herramienta Datos de Entrada. Aquí vas a conectarte a ODBC u OLEDB del mismo modo con la herramienta Datos de Salida que con la herramienta Datos de Entrada. Si necesitas que te recuerde cómo configurar una conexión o una credencial, y conectarlas, te recomiendo que repases esa parte en el último capítulo. Sin embargo, hay un par de matices con la herramienta Datos de Salida, que trataré en los siguientes ejemplos.

Salida a Microsoft SQL Server

En primer lugar, traerás una herramienta de Datos de Salida de la paleta de herramientas de Entrada/Salida y la configurarás. Para configurar la herramienta, selecciona "Configurar una conexión" (ver Figura 4-8).

Figura 4-8. Configuración de la herramienta Datos de Salida

Una vez abierta la ventana Conexiones de datos, selecciona la base de datos con la que quieres conectarte. En este ejemplo, elige ODBC para Microsoft SQL Server (ver Figura 4-9).

Figura 4-9. ODBC de Microsoft SQL Server

Al seleccionar la conexión que deseas, verás una ventana que será diferente según el tipo de conexión que realices. Como te estás conectando a ODBC, verás el Gestor de conexiones (ver Figura 4-10).

Figura 4-10. Gestor de conexiones

Como ya he dicho, cuando eres nuevo en el trabajo con Designer, es importante jugar un poco. Date tiempo para explorar y probar distintas opciones, de modo que 1) te familiarices con las distintas opciones, pero sobre todo 2) aprendas qué opciones te dan lo que quieres (facilidad de uso, rendimiento o incluso una conexión que funcione).

En la ventana Conexión ODBC de SQL Server, elige tu DSN y asigna las credenciales adecuadas. Hay un paso de configuración que es exclusivo de la herramienta Salida de Datos y es la selección de la Tabla de Salida. Tendrás que indicar al Diseñador qué tabla quieres escribir. Cuando hayas introducido el nombre de la tabla, haz clic en Aceptar (véase la Figura 4-11).

Figura 4-11. Tabla de salida

Ahora verás la ventana de Configuración rellenada con los ajustes base. Vamos a repasar las opciones para que sepas lo que puedes cambiar o actualizar.

Opciones de configuración

Aunque ya hemos hablado de Registros máximos por archivo y Formato de archivo anteriormente en este capítulo, el ID de conexión y la Tabla se establecieron como parte de la conexión, y para la herramienta Datos de salida hay bastantes opciones importantes que son diferentes. Estas opciones diferirán ligeramente dependiendo de si te conectas utilizando ODBC u OLEDB:

Opciones de salida

Tienes muchas opciones sobre cómo quieres escribir los datos. Puedes hacer de todo, desde Anexar, pasando por Borrar Datos y Anexar, hasta eliminar completamente la tabla o borrar los datos antes de escribir. También tienes la opción de realizar Actualizaciones. Todas estas opciones te permiten ser muy preciso en tus flujos de trabajo, para actualizar tanto o tan poco como necesites (ver Figura 4-12).

Advertencia

Para utilizar las sentencias de Actualización dentro de las Opciones de Salida, tendrás que asegurarte de que tienes Claves Primarias en tu tabla.

Figura 4-12. Opción de salida para crear una nueva tabla
Añadir mapa de campos
Esta opción te permite asignar diferentes campos de tu salida a los campos de la tabla/hoja que existen en la fuente de salida.
Clave para la actualización
Si estás realizando una acción de actualización de la base de datos, podrías utilizarla para proporcionar una clave a la base de datos.
Pre Crear Sentencia SQL

Esta opción te permite ejecutar una sentencia SQL antes de tu actualización/salida principal. Esto es muy útil si necesitas crear una tabla temporal, borrar datos concretos, actualizar una tabla o incluso ejecutar un procedimiento almacenado antes de escribir los datos en la tabla especificada en la configuración de la herramienta Datos de salida.

Nota

Es probable que necesites utilizar el formato OLEDB para poder utilizar procedimientos almacenados.

Post Crear sentencia SQL
Se trata de la misma opción que la Sentencia SQL Precreada, que te permite ejecutar una sentencia SQL, pero en este caso es después de escribir los datos en la tabla especificada en la configuración de la herramienta Datos de Salida.
Ignorar Errores Pre/Post SQL DROP TABLE
Si se devuelven errores desde la base de datos, se ignoran. Esto evita que se produzcan errores en el flujo de trabajo.
Tabla/Nombre de campo Estilo SQL
Dependiendo del tipo de base de datos a la que te conectes, puede que tengas que modificarlo si el estilo SQL de los nombres de tus tablas y/o campos debe incluir comillas o no.
Tamaño de la transacción
Es el número de filas que se escriben en la base de datos cada vez. Si trabajas con consultas a bases de datos de gran tamaño, deberás determinar un tamaño óptimo para tu base de datos, que depende de factores como la memoria disponible.
Mostrar mensajes de transacción
Esta opción te permite mostrar un mensaje para cada transacción en el registro de resultados del flujo de trabajo. Cada mensaje contiene la suma de registros escritos hasta esa transacción.
Campo Objeto Espacial
Esta opción te permite establecer el objeto espacial que se incluirá en la salida. Los archivos espaciales sólo pueden contener un objeto espacial por registro.
Tamaño del campo del objeto espacial
Esta opción te permite establecer el tamaño del objeto espacial.
Proyección
El método utilizado para representar una parte de la Tierra esférica sobre una superficie plana se denomina proyección cartográfica. Si trabajas con datos espaciales, esta opción te permite seleccionar el tipo de proyección de salida. Por defecto, Proyección está en blanco y da salida a WGS 84. Para obtener información detallada sobre el Soporte de Proyección, visita la documentación de ayuda de Alteryx.

Una vez que hayas ajustado las opciones de configuración a tus preferencias, sólo tienes que ejecutar el flujo de trabajo. Si lo has hecho bien, verás datos en tu base de datos. Trabaja en esto con cautela y ponte en contacto con alguien si necesitas un poco de ayuda extra. Una vez que lo consigas, ¡estarás capacitado para hacer flujos de trabajo increíbles!

Salida a múltiples fuentes

Una función muy útil del Diseñador es su capacidad para escribir en muchas fuentes diferentes a la vez. Puedes escribir tanto en archivos como en tablas de bases de datos, y dividir los datos en función de los valores de un campo. Por ejemplo, supongamos que tienes una tabla que muestra información del Territorio de Ventas (ver Figura 4-13).

Figura 4-13. Información del Territorio de Ventas

Si necesitas dividir cada Grupo de Territorios de Ventas en su propia hoja o tabla, puedes dar salida a estos datos en cuatro tablas diferentes: una para cada grupo (Norteamérica, Europa, Pacífico y NA). Para que quede claro, el número de tablas, archivos u hojas creados depende del número de valores distintos de la columna que elijas.

Para configurar esta opción, marca la casilla de la parte inferior de la ventana Configuración de la herramienta Datos de Salida que dice "Tomar nombre de archivo/tabla del campo" (ver Figura 4-14).

Figura 4-14. Tomar nombre de archivo/tabla del campo

A continuación, decidirás qué opción quieres utilizar para la opción de salida (ver Figura 4-15).

Figura 4-15. Opción de salida

Veamos algunos ejemplos de cada una de estas opciones de salida.

Añadir sufijo al nombre de archivo/tabla

Esta opción te permite enviar a las tablas o archivos cada valor del campo que hayas seleccionado. Supongamos que eliges "Prueba" como nombre de la fuente de datos. Lo que verías, si utilizamos nuestro ejemplo SalesTerritoryGroup, son las tablas que se muestran en la Figura 4-16. Observa cómo, para cada región, la región (también conocida como SalesTerritoryGroup) se añade a la tabla Prueba.

Figura 4-16. Sufijo de tabla

Añadir prefijo al nombre del archivo/tabla

Esta opción se comporta igual que la opción Sufijo, salvo que los nombres de los campos se antepondrán al principio de los nombres de archivo/tabla. Por ejemplo, si escribiéramos en hojas Excel, veríamos algo como la Figura 4-17, donde la región se antepone al principio de cada nombre de tabla (nombre de hoja).

Figura 4-17. Prefijo de la tabla

Cambiar nombre de archivo/tabla

Con las dos opciones anteriores, la salida se añade a los nombres añadiéndolos o anteponiéndolos. Esta opción cambia todo el nombre del archivo/tabla. En lugar de ver el nombre "Prueba", si utilizamos la opción Cambiar nombre de archivo/tabla, podemos hacer que la salida sea un poco más limpia (ver Figura 4-18).

Figura 4-18. Cambiar nombre de archivo/tabla

Cambiar toda la ruta del archivo

Existen numerosas formas creativas de utilizar esta opción. Una muy útil es cuando trabajas con archivos CSV o TXT y quieres escribir en varios archivos que se encuentran en directorios diferentes. Si eliges esta opción para escribir en formato CSV, también puedes ser muy específico y construir dinámicamente las rutas de los archivos. Digamos que para cada Grupo Territorial tenemos una carpeta correspondiente, y en cada carpeta queremos que salgan los archivos correspondientes por Región Territorial. La fórmula podría parecerse a la Figura 4-19. (Más información sobre la creación de fórmulas en el Capítulo 5)

Figura 4-19. Fórmula para cambiar toda la ruta del archivo

Si observamos el aspecto que tendría uno de los Grupos de territorios de ventas, veríamos algo parecido a la Figura 4-20. Cada Región del Territorio de Ventas se convirtió en su propio archivo CSV dentro de su Grupo de Territorios de Ventas Norteamérica.

Figura 4-20. Salidas del archivo Territorio de ventas

Tienes total libertad para determinar dinámicamente dónde se colocan los archivos y cómo se nombran. Por ejemplo, podrías enviar todos los archivos del Grupo de Territorios de Ventas de Europa a una carpeta "Europa" en un servidor o unidad compartida completamente distintos, si así lo deseas. La idea importante aquí es que el Diseñador es lo suficientemente flexible como para permitirte incorporar esa lógica a tu flujo de trabajo, de modo que no tengas que hacerlo manualmente.

Conclusión

Dar salida a tus datos desde Alteryx es una potente función que te permite obtener datos en el formato que necesites, pero también hacerlo de forma dinámica y con precisión. Es importante que sepas que hay muchas más herramientas que te permiten dar salida a los datos en un formato específico. Estas herramientas incluyen:

  • Escribir datos en BD

  • Herramienta de renderizado

  • Subida a Amazon S3

  • Salida de Google Sheets

  • Salida MongoDB

  • Publicar en PowerBI

  • Publicar en Tableau Server

  • Meta de salida de Salesforce

  • Salida de listas de SharePoint

  • Salida API

  • Salida Blob

  • Herramienta Python

  • Herramienta R

  • Orden de ejecución

Ahora puedes actualizar los datos que desees, así como emitir datos por lotes en varios archivos o tablas. En este capítulo has aprendido a escribir tanto en archivos como en bases de datos. Una vez más, te reto a que rompas las suposiciones que puedas tener sobre escribir siempre en archivos. Puede que una base de datos te resulte más ventajosa. Tienes algunas opciones específicas, como las sentencias pre y post SQL, que pueden ayudarte a gestionar tu salida a bases de datos. Es importante comprender estas opciones, pero te recomiendo que dediques tiempo a aprender las opciones que he tratado en este capítulo para ayudarte a sacar el máximo partido de las herramientas de salida.

Hasta ahora, hemos cubierto cómo introducir y extraer tus datos de Alteryx Designer. Ahora quiero mostrarte cómo empezar a utilizar Alteryx Designer para limpiar tus datos. Este es un paso importante y crítico en tu viaje para llegar a ser competente, ¡así como para comprender temas más complejos en Alteryx Designer!

Get Alteryx Designer: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.