Capítulo 4. Obtener datos de Alteryx Designer
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Al igual que hay tantos formatos diferentes de que puedes utilizar para introducir datos en Designer, también hay tantos formatos y métodos para sacarlos de Designer. Puedes enviar tus datos a fuentes sencillas, como un archivo CSV o un archivo Excel, pero también puedes enviarlos directamente a bases de datos, fuentes web y las principales herramientas de visualización de datos, como PowerBI y Tableau. La mayoría de los usuarios envían los datos a archivos, como Excel y CSV, o a bases de datos, como Microsoft SQL Server. En este capítulo aprenderás a hacer ambas cosas.
Como ya he dicho en capítulos anteriores, el Diseñador es extremadamente flexible y potente, y puede crear informes y salidas bien diseñados en varios formatos que te permiten automatizar tanto los informes como los análisis. Este capítulo se centrará en la herramienta Salida de Datos, pero presentaré muchas más herramientas para la salida de datos, que trataremos en detalle en los Capítulos 9 y 10.
Ficheros frente a bases de datos
Muchos de los que trabajamos en el sector de la analítica nunca recibimos una clase formal ni formación sobre el uso de bases de datos. De hecho, la mayoría de nosotros probablemente recibimos más formación sobre el uso de Excel para nuestros proyectos que sobre cualquier otra cosa. Mientras hablamos de la salida de datos, quiero aprovechar esta oportunidad para retarte a que consideres si utilizar bases de datos podría ser mejor para ti. Hay dos razones por las que planteo este reto.
En primer lugar, Designer hace que sea muy fácil interactuar con las bases de datos, tanto para introducir como para extraer datos. En segundo lugar, son muchas las funciones que ofrecen las bases de datos. Puede que pienses que trabajar con archivos es más fácil y rápido, pero me gustaría que cuestionaras esa suposición. Con un poco de trabajo, puedes trabajar de forma más eficaz y eficiente utilizando bases de datos.
Más concretamente, veo tres ventajas clave de utilizar bases de datos en lugar de archivos:
- Ubicación céntrica
- Cualquiera que haya utilizado archivos para almacenar datos puede dar fe del desorden que se produce con el tiempo en el propio almacenamiento de archivos. Carpetas y carpetas de datos están desperdigadas y, muchas veces, es difícil acceder a ellas, a menos que seas extremadamente organizado en todo momento. Tener una base de datos en la que almacenar los datos tiene más sentido, ya que están todos en una ubicación central. A las bases de datos no les importa si los datos son de una fila o de mil millones de filas; pueden manejar cualquier tamaño.
- Escala y flexibilidad
- No hay nada mejor que la potencia de una base de datos. Los usuarios que han intentado poner 500.000 filas de datos en una hoja de Excel saben que la mayoría de los tipos de archivo no se construyeron para escalar bien. Esa flexibilidad de poder pasar de un registro a mil millones de registros es poderosa. La flexibilidad de una base de datos también se demuestra en su capacidad para almacenar todos los tipos de datos diferentes en un mismo lugar. Disponer de una base de datos que puede almacenar formatos JSON, formatos espaciales y formatos de tabla estándar significa que los usuarios no tienen que gestionar varios tipos de archivo en función de los datos.
- Acceso y control
- Tener archivos que contienen datos valiosos repartidos por toda una máquina es un riesgo para las empresas y para el usuario. Si un usuario deja su portátil conectado, por casualidad, y alguien aprovecha para rebuscar entre los archivos, no hay forma de impedir que coja un archivo que está en el escritorio y se lo envíe por correo electrónico a sí mismo o a otra persona. Está ahí, abierto y expuesto. Con una base de datos, sin embargo, puedes proteger tus datos: se almacenan en servidores que están dentro de las paredes de una empresa y se pueden cuidar adecuadamente.
Desde que tengo uso de razón, las bases de datos han representado la analítica "real", a escala. Te aseguro que los archivos son igual de importantes para la analítica, y lo discutiremos a continuación.
Salida a archivos
La principal forma de dar salida a los datos a un archivo es utilizando la herramienta Salida de datos, que es el tema principal de este capítulo. Esta herramienta tiene muchas funciones que van más allá de la simple salida de datos. Empezaremos viendo cómo generar un único archivo CSV. A continuación, veremos la salida a Excel, así como al formato de base de datos propietario de Alteryx, YXDB.
Nota
Alteryx tiene algunos tipos de archivo que son propietarios y sólo se utilizan con Alteryx Designer y Server. Uno de ellos es un formato de archivo de base de datos llamado YXDB. Este formato de archivo es el más eficiente para leer y escribir en Designer porque no tiene límite de tamaño, está comprimido para obtener la máxima velocidad e incluye metadatos adicionales que hacen referencia al origen de los datos y a cómo se crearon. No hay límite de filas: ningún otro formato de archivo, aparte del texto, admite tantas filas.
Salida a un archivo CSV
Para dar salida a un archivo CSV utilizando la herramienta Datos de salida, primero arrastra y suelta una herramienta Datos de salida en el lienzo y asegúrate de que está conectada a la herramienta desde la que quieres dar salida a los datos (ver Figura 4-1).
Para configurar la herramienta Datos de Salida, tendrás que indicar al Diseñador dónde quieres guardar el archivo de salida. Puedes hacerlo igual que con la herramienta Datos de Entrada, haciendo clic en la flecha hacia abajo de la parte derecha de la ventana Configuración, que abrirá la ventana Conexiones de datos (ver Figura 4-2).
En la ventana Conexiones de datos, selecciona la opción CSV. Después, en la siguiente ventana, elige un nombre para el archivo (ver Figura 4-3).
Haz clic en Guardar. ¡Has completado la configuración para la salida de los datos a un archivo CSV en tu máquina! Recuerda que también puedes cambiar la configuración, si es necesario (ver Figura 4-4).
Vamos a profundizar en algunas de las opciones de configuración de los archivos CSV.
Opciones de configuración
En general, es importante comprender las opciones de configuración que tienes a tu disposición para la herramienta Datos de Salida, ya que hay muchas opciones que pueden determinar si eres capaz de leer correctamente el archivo. También hay pequeños trucos que eliminarán 2-3 pasos de tu flujo de trabajo con sólo configurar las opciones adecuadas. Echemos un vistazo a esas opciones:
- Registros máximos por archivo
- Esta opción te permite especificar cuántos registros se escriben. Si estás en modo desarrollo y sólo estás probando, podrías establecerlo en, digamos, 10 registros para que sea rápido hasta que necesites ejecutarlo completamente.
- Formato de archivo
- Esta es la opción que utilizas para elegir el tipo de archivo.
- Delimitadores
- Es muy importante prestar atención a esto, ya que es el carácter real que separa tus datos en columnas. Si intentas enviar los datos a un archivo y todos acaban en la misma columna, es probable que el delimitador sea incorrecto.
- La primera fila contiene los nombres de los campos
- Esta opción te permite especificar si tus datos contienen cabeceras o no.
- Campos de salida de la cotización
- Esta opción es similar a la de la herramienta Introducir Datos, que garantiza que los valores no queden cortados al azar por las comillas.
- Código Página
- Esta es la opción que te permite especificar la página de código. La mayoría de las veces, nunca necesitarás modificar esto.
- Estilo de final de línea
- Si trabajas con archivos de distintos sistemas (Unix, Mac o Windows), puede que tengas que configurar esta opción para escribir correctamente los archivos.
- Escribir lista de materiales
- Esta opción te permite incluir o excluir la marca de orden de bytes (BOM) en la salida.
Una vez que hayas ejecutado tu flujo de trabajo con la herramienta Datos de salida configurada, es muy fácil abrir el archivo desde Alteryx. Hablemos de cómo ver el archivo de salida.
Ver el archivo de salida
En la ventana de Resultados, te darás cuenta de que cualquier entrada o salida que aparezca en la lista también está configurada como un hipervínculo en el que puedes hacer clic para abrir ese archivo. También puedes filtrar rápidamente tus registros haciendo clic en las cabeceras del panel Resultados para ver sólo las Advertencias o los Mensajes, por ejemplo (ver Figura 4-5).
Salida a un archivo Excel
La salida a un archivo Excel es muy similar a la salida a un archivo CSV, con sólo un par de opciones diferentes. Todavía tendrás que elegir el archivo en el que quieres escribir, pero en lugar de hacer clic en la flecha hacia abajo y seleccionar un archivo, puedes simplemente escribir (o copiar y pegar) el nombre del archivo y la ubicación en el cuadro de texto. Si lo escribes correctamente, con la extensión de archivo .xlsx, lo reconocerá automáticamente y establecerá la configuración por defecto. Es importante tener en cuenta que si haces clic en la flecha hacia abajo y utilizas la interfaz para seleccionar el archivo, algunas de las opciones (como Registros máximos por archivo y Formato de archivo), así como la selección del nombre de la hoja, se establecerán automáticamente. Si escribes la ruta y el nombre del archivo, tendrás que configurarlo manualmente, así como utilizar los "|||" (delimitadores de tubo) al final con el nombre de la hoja para especificar qué hoja exacta quieres utilizar (ver Figura 4-6).
Un elemento importante que debes tener en cuenta es que las hojas de un archivo Excel son como las tablas de una base de datos. Funcionan de forma muy parecida. Hablemos más sobre cómo podemos configurar la salida.
Opciones de configuración
La opción más importante para dar salida a en Excel es la tercera opción de la Figura 4-6 (Opciones de salida), que te permite elegir los criterios de salida del archivo. Debes asegurarte de que lo has configurado correctamente, o podría causar errores la segunda vez que ejecutes el flujo de trabajo. Al dar salida a Excel, tienes cuatro opciones de configuración entre las que elegir:
- Añadir a hoja existente
- Utiliza esta opción si tienes un archivo/hoja ya creado que quieres añadir.
- Sobrescribir hoja o rango
- Utiliza esta opción si quieres sustituir una hoja o rango.
- Sobrescribir archivo (Eliminar)
- Utiliza esta opción si quieres sustituir un libro entero.
- Crear nueva hoja
- Utiliza esta opción si cada vez que ejecutes quieres que se cree una nueva hoja. Atención: si esa hoja ya está creada, el Diseñador lanzará un error indicándote que no se puede escribir en ella porque ya existe.
Salida a un archivo YXDB
Dar salida a YXDB es probablemente la forma más fácil de dar salida. Para muchos casos de uso, por ejemplo cuando se requiere un archivo y el conjunto de datos es también bastante grande o cuando los propietarios de un conjunto de datos no quieren que se modifiquen, es una opción realmente buena si quieres poner rápidamente los datos en un formato fácil y no tienes requisitos para informar o presentar los datos.
Para dar salida a tus datos en el formato YXDB, sólo tienes que seguir los mismos pasos que para CSV y Excel, y elegir la ubicación donde quieres que se almacenen los datos. Recuerda que el Diseñador va a hacer todo lo que pueda para ayudarte, estableciendo automáticamente las configuraciones cuando elijas el tipo de archivo (ver Figura 4-7).
Dedica algún tiempo a familiarizarte con el uso de los tipos de archivo YXDB. Sin duda te ayudará en tu viaje por Alteryx. Ahora bien, por muy importante que sea poder exportar a archivos como YXDB, yo diría que exportar a bases de datos es aún más importante. Vamos a asegurarnos de que comprendes bien cómo Alteryx Designer te permite dar salida a bases de datos.
Salida a bases de datos
Como se indicó en el último capítulo, Alteryx Designer admite casi todas las fuentes de datos más utilizadas del mundo: Microsoft SQL Server, Amazon S3, MongoDB, MySQL e incluso fuentes más recientes como Snowflake y Databricks. Es divertido pensar en todas las combinaciones de fuentes de datos desde las que se podría leer y en las que se podría escribir. Esta es una de las razones por las que Alteryx es tan flexible. Si necesitas mover datos de Excel a Amazon S3, puedes hacerlo. Si necesitas mover datos de Microsoft SQL Server a Snowflake, puedes hacerlo. Para ello, tendrás que saber cómo utilizar la herramienta Datos de salida para tu fuente de datos respectiva. No voy a cubrir todas las fuentes de datos en este libro, pero daré un par de ejemplos que deberían ser útiles, ya que funcionan de manera similar.
En el capítulo anterior, aprendiste a conectarte a bases de datos y a utilizar la herramienta Datos de Entrada. Aquí vas a conectarte a ODBC u OLEDB del mismo modo con la herramienta Datos de Salida que con la herramienta Datos de Entrada. Si necesitas que te recuerde cómo configurar una conexión o una credencial, y conectarlas, te recomiendo que repases esa parte en el último capítulo. Sin embargo, hay un par de matices con la herramienta Datos de Salida, que trataré en los siguientes ejemplos.
Salida a Microsoft SQL Server
En primer lugar, traerás una herramienta de Datos de Salida de la paleta de herramientas de Entrada/Salida y la configurarás. Para configurar la herramienta, selecciona "Configurar una conexión" (ver Figura 4-8).
Una vez abierta la ventana Conexiones de datos, selecciona la base de datos con la que quieres conectarte. En este ejemplo, elige ODBC para Microsoft SQL Server (ver Figura 4-9).
Al seleccionar la conexión que deseas, verás una ventana que será diferente según el tipo de conexión que realices. Como te estás conectando a ODBC, verás el Gestor de conexiones (ver Figura 4-10).
Como ya he dicho, cuando eres nuevo en el trabajo con Designer, es importante jugar un poco. Date tiempo para explorar y probar distintas opciones, de modo que 1) te familiarices con las distintas opciones, pero sobre todo 2) aprendas qué opciones te dan lo que quieres (facilidad de uso, rendimiento o incluso una conexión que funcione).
En la ventana Conexión ODBC de SQL Server, elige tu DSN y asigna las credenciales adecuadas. Hay un paso de configuración que es exclusivo de la herramienta Salida de Datos y es la selección de la Tabla de Salida. Tendrás que indicar al Diseñador qué tabla quieres escribir. Cuando hayas introducido el nombre de la tabla, haz clic en Aceptar (véase la Figura 4-11).
Ahora verás la ventana de Configuración rellenada con los ajustes base. Vamos a repasar las opciones para que sepas lo que puedes cambiar o actualizar.
Opciones de configuración
Aunque ya hemos hablado de Registros máximos por archivo y Formato de archivo anteriormente en este capítulo, el ID de conexión y la Tabla se establecieron como parte de la conexión, y para la herramienta Datos de salida hay bastantes opciones importantes que son diferentes. Estas opciones diferirán ligeramente dependiendo de si te conectas utilizando ODBC u OLEDB:
- Opciones de salida
Tienes muchas opciones sobre cómo quieres escribir los datos. Puedes hacer de todo, desde Anexar, pasando por Borrar Datos y Anexar, hasta eliminar completamente la tabla o borrar los datos antes de escribir. También tienes la opción de realizar Actualizaciones. Todas estas opciones te permiten ser muy preciso en tus flujos de trabajo, para actualizar tanto o tan poco como necesites (ver Figura 4-12).
Advertencia
Para utilizar las sentencias de Actualización dentro de las Opciones de Salida, tendrás que asegurarte de que tienes Claves Primarias en tu tabla.
- Añadir mapa de campos
- Esta opción te permite asignar diferentes campos de tu salida a los campos de la tabla/hoja que existen en la fuente de salida.
- Clave para la actualización
- Si estás realizando una acción de actualización de la base de datos, podrías utilizarla para proporcionar una clave a la base de datos.
- Pre Crear Sentencia SQL
Esta opción te permite ejecutar una sentencia SQL antes de tu actualización/salida principal. Esto es muy útil si necesitas crear una tabla temporal, borrar datos concretos, actualizar una tabla o incluso ejecutar un procedimiento almacenado antes de escribir los datos en la tabla especificada en la configuración de la herramienta Datos de salida.
Nota
Es probable que necesites utilizar el formato OLEDB para poder utilizar procedimientos almacenados.
- Post Crear sentencia SQL
- Se trata de la misma opción que la Sentencia SQL Precreada, que te permite ejecutar una sentencia SQL, pero en este caso es después de escribir los datos en la tabla especificada en la configuración de la herramienta Datos de Salida.
- Ignorar Errores Pre/Post SQL DROP TABLE
- Si se devuelven errores desde la base de datos, se ignoran. Esto evita que se produzcan errores en el flujo de trabajo.
- Tabla/Nombre de campo Estilo SQL
- Dependiendo del tipo de base de datos a la que te conectes, puede que tengas que modificarlo si el estilo SQL de los nombres de tus tablas y/o campos debe incluir comillas o no.
- Tamaño de la transacción
- Es el número de filas que se escriben en la base de datos cada vez. Si trabajas con consultas a bases de datos de gran tamaño, deberás determinar un tamaño óptimo para tu base de datos, que depende de factores como la memoria disponible.
- Mostrar mensajes de transacción
- Esta opción te permite mostrar un mensaje para cada transacción en el registro de resultados del flujo de trabajo. Cada mensaje contiene la suma de registros escritos hasta esa transacción.
- Campo Objeto Espacial
- Esta opción te permite establecer el objeto espacial que se incluirá en la salida. Los archivos espaciales sólo pueden contener un objeto espacial por registro.
- Tamaño del campo del objeto espacial
- Esta opción te permite establecer el tamaño del objeto espacial.
- Proyección
- El método utilizado para representar una parte de la Tierra esférica sobre una superficie plana se denomina proyección cartográfica. Si trabajas con datos espaciales, esta opción te permite seleccionar el tipo de proyección de salida. Por defecto, Proyección está en blanco y da salida a WGS 84. Para obtener información detallada sobre el Soporte de Proyección, visita la documentación de ayuda de Alteryx.
Una vez que hayas ajustado las opciones de configuración a tus preferencias, sólo tienes que ejecutar el flujo de trabajo. Si lo has hecho bien, verás datos en tu base de datos. Trabaja en esto con cautela y ponte en contacto con alguien si necesitas un poco de ayuda extra. Una vez que lo consigas, ¡estarás capacitado para hacer flujos de trabajo increíbles!
Salida a múltiples fuentes
Una función muy útil del Diseñador es su capacidad para escribir en muchas fuentes diferentes a la vez. Puedes escribir tanto en archivos como en tablas de bases de datos, y dividir los datos en función de los valores de un campo. Por ejemplo, supongamos que tienes una tabla que muestra información del Territorio de Ventas (ver Figura 4-13).
Si necesitas dividir cada Grupo de Territorios de Ventas en su propia hoja o tabla, puedes dar salida a estos datos en cuatro tablas diferentes: una para cada grupo (Norteamérica, Europa, Pacífico y NA). Para que quede claro, el número de tablas, archivos u hojas creados depende del número de valores distintos de la columna que elijas.
Para configurar esta opción, marca la casilla de la parte inferior de la ventana Configuración de la herramienta Datos de Salida que dice "Tomar nombre de archivo/tabla del campo" (ver Figura 4-14).
A continuación, decidirás qué opción quieres utilizar para la opción de salida (ver Figura 4-15).
Veamos algunos ejemplos de cada una de estas opciones de salida.
Añadir sufijo al nombre de archivo/tabla
Esta opción te permite enviar a las tablas o archivos cada valor del campo que hayas seleccionado. Supongamos que eliges "Prueba" como nombre de la fuente de datos. Lo que verías, si utilizamos nuestro ejemplo SalesTerritoryGroup, son las tablas que se muestran en la Figura 4-16. Observa cómo, para cada región, la región (también conocida como SalesTerritoryGroup) se añade a la tabla Prueba.
Añadir prefijo al nombre del archivo/tabla
Esta opción se comporta igual que la opción Sufijo, salvo que los nombres de los campos se antepondrán al principio de los nombres de archivo/tabla. Por ejemplo, si escribiéramos en hojas Excel, veríamos algo como la Figura 4-17, donde la región se antepone al principio de cada nombre de tabla (nombre de hoja).
Cambiar nombre de archivo/tabla
Con las dos opciones anteriores, la salida se añade a los nombres añadiéndolos o anteponiéndolos. Esta opción cambia todo el nombre del archivo/tabla. En lugar de ver el nombre "Prueba", si utilizamos la opción Cambiar nombre de archivo/tabla, podemos hacer que la salida sea un poco más limpia (ver Figura 4-18).
Cambiar toda la ruta del archivo
Existen numerosas formas creativas de utilizar esta opción. Una muy útil es cuando trabajas con archivos CSV o TXT y quieres escribir en varios archivos que se encuentran en directorios diferentes. Si eliges esta opción para escribir en formato CSV, también puedes ser muy específico y construir dinámicamente las rutas de los archivos. Digamos que para cada Grupo Territorial tenemos una carpeta correspondiente, y en cada carpeta queremos que salgan los archivos correspondientes por Región Territorial. La fórmula podría parecerse a la Figura 4-19. (Más información sobre la creación de fórmulas en el Capítulo 5)
Si observamos el aspecto que tendría uno de los Grupos de territorios de ventas, veríamos algo parecido a la Figura 4-20. Cada Región del Territorio de Ventas se convirtió en su propio archivo CSV dentro de su Grupo de Territorios de Ventas Norteamérica.
Tienes total libertad para determinar dinámicamente dónde se colocan los archivos y cómo se nombran. Por ejemplo, podrías enviar todos los archivos del Grupo de Territorios de Ventas de Europa a una carpeta "Europa" en un servidor o unidad compartida completamente distintos, si así lo deseas. La idea importante aquí es que el Diseñador es lo suficientemente flexible como para permitirte incorporar esa lógica a tu flujo de trabajo, de modo que no tengas que hacerlo manualmente.
Conclusión
Dar salida a tus datos desde Alteryx es una potente función que te permite obtener datos en el formato que necesites, pero también hacerlo de forma dinámica y con precisión. Es importante que sepas que hay muchas más herramientas que te permiten dar salida a los datos en un formato específico. Estas herramientas incluyen:
Escribir datos en BD
Herramienta de renderizado
Subida a Amazon S3
Salida de Google Sheets
Salida MongoDB
Publicar en PowerBI
Publicar en Tableau Server
Meta de salida de Salesforce
Salida de listas de SharePoint
Salida API
Salida Blob
Herramienta Python
Herramienta R
Orden de ejecución
Ahora puedes actualizar los datos que desees, así como emitir datos por lotes en varios archivos o tablas. En este capítulo has aprendido a escribir tanto en archivos como en bases de datos. Una vez más, te reto a que rompas las suposiciones que puedas tener sobre escribir siempre en archivos. Puede que una base de datos te resulte más ventajosa. Tienes algunas opciones específicas, como las sentencias pre y post SQL, que pueden ayudarte a gestionar tu salida a bases de datos. Es importante comprender estas opciones, pero te recomiendo que dediques tiempo a aprender las opciones que he tratado en este capítulo para ayudarte a sacar el máximo partido de las herramientas de salida.
Hasta ahora, hemos cubierto cómo introducir y extraer tus datos de Alteryx Designer. Ahora quiero mostrarte cómo empezar a utilizar Alteryx Designer para limpiar tus datos. Este es un paso importante y crítico en tu viaje para llegar a ser competente, ¡así como para comprender temas más complejos en Alteryx Designer!
Get Alteryx Designer: La Guía Definitiva now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.