Capítulo 4. Visión general de la API estructurada
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Esta parte del libro será una inmersión profunda en las API Estructuradas de Spark. Las API Estructuradas son una herramienta para manipular todo tipo de datos, desde archivos de registro no estructurados hasta archivos CSV semiestructurados y archivos Parquet altamente estructurados. Estas API hacen referencia a tres tipos básicos de API de recopilación distribuida:
-
Conjuntos de datos
-
Marcos de datos
-
Tablas y vistas SQL
Aunque son partes distintas del libro, la mayoría de las API Estructuradas se aplican tanto al cálculo por lotes como al streaming. Esto significa que, cuando trabajes con las API Estructuradas, debería ser sencillo pasar de la computación por lotes al streaming (o viceversa) sin apenas esfuerzo. Trataremos el streaming en detalle en la Parte V.
Las API estructuradas son la abstracción fundamental que utilizarás para escribir la mayoría de tus flujos de datos. Hasta ahora en este libro, hemos adoptado un enfoque basado en tutoriales, serpenteando por gran parte de lo que ofrece Spark. Esta parte ofrece una exploración más profunda. En este capítulo, presentaremos los conceptos fundamentales que debes comprender: las API tipadas y no tipadas (y sus diferencias); cuál es la terminología básica; y, por último, cómo Spark toma realmente tus flujos de datos de la API estructurada y los ejecuta ...