Capítulo 11. Ciencia de datos y R
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La ciencia de los datos es una disciplina relativamente nueva que llamó la atención de muchos por primera vez con esteartículo de Mike Loukides, de O'Reilly, publicado en. Aunque existen muchas definiciones en este campo, Loukides destila en esta definición su detallada observación y participación en el mismo:
Una aplicación de datos adquiere su valor de los propios datos, y crea más datos como resultado. No es sólo una aplicación con datos; es un producto de datos. La ciencia de datos permite crear productos de datos.
Uno de los principales ecosistemas de código abierto para software de ciencia de datos está en Apache e incluyeHadoop(que incluye el sistema de archivos distribuido HDFS, Hadoop Map/Reduce,1 el almacén de objetos Ozone y el programador Yarn), labase de datos distribuida Cassandra y el motor de cálculo Spark. Lee la sección "Módulos y herramientas relacionadas" de la página de Hadoop para obtener una lista actualizada.
Lo interesante aquí es que gran parte de esta infraestructura, que los científicos de datos dan por sentada, está escrita en Java y Scala (un lenguaje JVM). Gran parte del resto está escrito en Python, un lenguaje que complementa a Java.
Los problemas de la ciencia de datos pueden implicar mucha configuración, por lo que sólo daremos un ejemplo de DS tradicional, utilizando el framework Spark. Spark ...
Get Libro de cocina de Java, 4ª edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.