Capítulo 12. Ciência de dados e R
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
12.0 Introdução
Ciência de dados é uma disciplina relativamente nova que chamou a atenção de muitos com umartigo de 2010de Mike Loukides, da O'Reilly. Embora existam muitas definições no campo, Loukides destila a sua observação detalhada e participação na ciência de dados nesta definição:
Uma aplicação de dados adquire o seu valor a partir dos próprios dados e, como resultado, cria mais dados. Não se trata apenas de uma aplicação com dados; é um produto de dados. A ciência dos dados permite a criação de produtos de dados.
Um dos principais ecossistemas de código aberto para software de ciência de dados está no Apache e incluio Hadoop(que inclui o Hadoop Distributed File System [HDFS], o Hadoop MapReduce,1 o armazenamento de objectos Ozone e o agendador YARN), abase de dados distribuída Cassandra e o motor de computação Spark. Lê as secções Módulos e projectos relacionados da página do Hadooppara obteres uma lista actualizada.
O que é interessante aqui é que uma grande parte desta infraestrutura, que é tida como garantida pelos cientistas de dados, está escrita em Java e Scala (uma linguagem JVM). Grande parte do resto está escrita em Python, uma linguagem que complementa Java. Muitos utilizadores vêem apenas o lado Python das coisas e não se apercebem que Java está por detrás de alguma da infraestrutura.
Os problemas de Data ...