Capítulo 6. Trabajar con distintos tipos de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El capítulo 5 presentó conceptos y abstracciones básicos de DataFrame. Este capítulo de cubre la construcción de expresiones, que son el pan de cada día de las operaciones estructuradas de Spark. También repasamos el trabajo con distintos tipos de datos, incluidos los siguientes:
-
Booleanos
-
Números
-
Cuerdas
-
Fechas y marcas de tiempo
-
Manejo de nulos
-
Tipos complejos
-
Funciones definidas por el usuario
Dónde buscar API
Antes de que comience, merece la pena explicar dónde debes buscar las transformaciones como usuario. Spark es un proyecto en crecimiento, y cualquier libro (incluido éste) es una instantánea en el tiempo. Una de nuestras prioridades en este libro es enseñar dónde, en el momento de escribir esto, debes buscar funciones para transformar tus datos. A continuación se indican los lugares clave donde buscar:
DataFrame(Dataset) Métodos-
Este es en realidad un poco tramposo, porque un DataFrame no es más que un Dataset de tipos
Row, así que en realidad acabarás consultando los métodosDataset, que están disponibles en este enlace.
Dataset submódulos como DataFrameStatFunctions y DataFrameNaFunctions tienen más métodos que resuelven conjuntos específicos de problemas. DataFrameStatFunctions, por ejemplo, contiene una variedad de funciones relacionadas con la estadística, mientras que DataFrameNaFunctions ...