book

R for Data Science, 2ª Edição

Name: R for Data Science, 2ª Edição
ISBN: 9798341641976

by Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund

April 2025

Intermediate to advanced

578 pages

13h 35m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Introdução
Prefácio à segunda ediçãoO que vais aprenderComo este livro está organizadoO que não vais aprenderModelaçãoGrandes dadosPython, Julia e amigosPré-requisitosRRStudioO TidyverseOutros pacotesExecuta o código ROutras convenções utilizadas neste livroAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentosEdição online
I. Jogo completo
1. Visualização de dados
IntroduçãoPré-requisitosPrimeiros passosOs pinguins Quadro de dadosObjetivo finalCriar um ggplotAdicionar estética e camadasExercíciosChamadas ggplot2Visualiza as distribuiçõesUma variável categóricaUma variável numéricaExercíciosVisualiza as relaçõesUma variável numérica e uma variável categóricaDuas variáveis categóricasDuas variáveis numéricasTrês ou mais variáveisExercíciosGuardar as tuas parcelasExercíciosProblemas comunsResumo
2. Fluxo de trabalho: Noções básicas
Noções básicas de codificaçãoComentáriosO que é que um nome tem?Funções de chamadaExercíciosResumo
3. Transformação de dados
IntroduçãoPré-requisitosnycflights13Noções básicas do dplyrFilasfiltra()Erros comunsorganiza()distinto()ExercíciosColunasmuda()seleciona()renomeia()deslocaliza()ExercíciosO cachimboGruposgroup_by()resume()As funções slice_Agrupamento por múltiplas variáveisDesagrupamento.porExercíciosEstudo de caso: Agregados e dimensão da amostraResumo
4. Fluxo de trabalho: Estilo de código
NomesEspaçosTubosggplot2Seccionamento ComentáriosExercíciosResumo
5. Tidy de dados
IntroduçãoPré-requisitosTidy DataExercíciosDados de alongamentoDados em nomes de colunasComo funciona a rotação?Muitas variáveis em nomes de colunasNomes de dados e de variáveis nos cabeçalhos de colunaAlargamento dos dadosComo é que pivot_wider() funciona?Resumo
6. Fluxo de trabalho: Scripts e projectos
ScriptsCódigo de funcionamentoDiagnóstico do RStudioGuardar e atribuir nomesProjectosQual é a fonte da verdade?Onde se encontra a tua análise?Projectos RStudioCaminhos relativos e absolutosExercíciosResumo
7. Importação de dados
IntroduçãoPré-requisitosLer dados de um ficheiroConselhos práticosOutros argumentosOutros tipos de ficheirosExercíciosControlar tipos de colunasAdivinhar tiposValores em falta, tipos de colunas e problemasTipos de colunasLer dados de vários ficheirosEscrever para um ficheiroEntrada de dadosResumo
8. Fluxo de trabalho: Obter ajuda
O Google é teu amigoFazer um reprexInvestir em ti próprioResumo

II. Visualiza
9. Camadas
IntroduçãoPré-requisitosMapeamentos estéticosExercíciosObjectos geométricosExercíciosFacetasExercíciosTransformações estatísticasExercíciosAjustes de posiçãoExercíciosSistemas de coordenadasExercíciosA gramática de gráficos em camadasResumo
10. Análise exploratória de dados
IntroduçãoPré-requisitosPerguntasVariaçãoValores típicosValores incomunsExercíciosValores incomunsExercíciosCovariaçãoUma variável categórica e uma variável numéricaDuas variáveis categóricasDuas variáveis numéricasPadrões e modelosResumo
11. Comunicação
IntroduçãoPré-requisitosEtiquetasExercíciosAnotaçõesExercíciosBalançasEscalas predefinidasTicks de eixo e teclas de legendaLayout da legendaSubstituir uma balançaZoomExercíciosTemasExercíciosDisposiçãoExercíciosResumo
III. Transforma-te
12. Vectores lógicos
IntroduçãoPré-requisitosComparaçõesComparação de pontos flutuantesValores em faltaé.na()ExercíciosÁlgebra BooleanaValores em faltaOrdem de operações%em%ExercíciosResumosResumos lógicosResumos numéricos de vectores lógicosSubconjunto lógicoExercíciosTransformações condicionaisif_else()case_when()Tipos compatíveisExercíciosResumo
13. Números
IntroduçãoPré-requisitosFazendo númerosContagensExercíciosTransformações numéricasRegras de aritmética e de reciclagemMínimo e máximoAritmética modularLogaritmosArredondamentoCortar números em intervalosAgregados cumulativos e móveisExercíciosTransformações geraisClassificaçõesDesviosIdentificadores consecutivosExercíciosResumos numéricosCentroMínimo, Máximo e QuantisEspalhaDistribuiçõesPosiçõesCom mutate()ExercíciosResumo
14. Cordas
IntroduçãoPré-requisitosCriar uma cadeia de caracteresEscapadelasRaw StringsOutros caracteres especiaisExercíciosCriar muitas cadeias de caracteres a partir de dadosstr_c()cola()str_flatten()ExercíciosExtrair dados de cadeias de caracteresSeparação em linhasSeparação em colunasDiagnosticar problemas de alargamentoCartasComprimentoSubconjuntoExercíciosTexto não inglêsCodificaçãoVariações de letrasFunções dependentes da localidadeResumo
15. Expressões regulares
IntroduçãoPré-requisitosFundamentos de padrõesFunções principaisDetetar correspondênciasConta as partidasSubstituir valoresExtrair variáveisExercíciosDetalhes do padrãoFugirÂncorasClasses de personagensQuantificadoresPrecedência de operadores e parêntesesAgrupar e capturarExercíciosControlo de padrõesSinalizadores regexCorrespondências fixasPraticaVerifica o teu trabalhoOperações booleanasCriar um padrão com códigoExercíciosExpressões regulares noutros locaisTidyverseBase RResumo
16. Factores
IntroduçãoPré-requisitosNoções básicas sobre factoresInquérito Social GeralExercícioModificação da ordem dos factoresExercíciosModificação dos níveis dos factoresExercíciosFactores ordenadosResumo
17. Datas e horas
IntroduçãoPré-requisitosCriar data/horaDurante a importaçãoDe CordasDe componentes individuaisDe outros tiposExercíciosComponentes de data e horaObter componentesArredondamentoModificação de componentesExercíciosIntervalos de tempoDuraçõesPeríodosIntervalosExercíciosFusos horáriosResumo
18. Valores em falta
IntroduçãoPré-requisitosValores em falta explícitosÚltima observação transitadaValores fixosNaNValores em falta implícitosPivotarCompletaJunta-te a nósExercíciosFactores e grupos vaziosResumo
19. Junta-te a nós
IntroduçãoPré-requisitosChavesChaves primárias e estrangeirasVerificação de chaves primáriasChaves de substituiçãoExercíciosUniões básicasUniões mutantesEspecificar chaves de junçãoFiltragem de junçõesExercíciosComo funcionam as uniões?Correspondência de linhasFiltragem de junçõesNão-Equi junta-seJuntas cruzadasA desigualdade junta-seRolling JoinsUniões de sobreposiçãoExercíciosResumo
IV. Importação
20. Folhas de cálculo
IntroduçãoExcelPré-requisitosComeçar a trabalharLer folhas de cálculo do ExcelFichas de trabalho de leituraLer parte de uma folhaTipos de dadosEscreve no ExcelSaída formatadaExercíciosPlanilhas GooglePré-requisitosComeçar a trabalharLer o Google SheetsEscrever no Google SheetsAutenticaçãoExercíciosResumo
21. Bases de dados
IntroduçãoPré-requisitosNoções básicas sobre bases de dadosLigar a uma base de dadosNeste livroCarrega alguns dadosNoções básicas de DBINoções básicas de dbplyrSQLNoções básicas de SQLSELECIONADEGRUPO PORONDEORDENA PORSubconsultasJunta-te a nósOutros verbosExercíciosTraduções de funçõesResumo
22. Seta
IntroduçãoPré-requisitosObter os dadosAbrir um conjunto de dadosO formato ParquetVantagens do parquetPartiçãoReescrever os dados da biblioteca de SeattleUsando o dplyr com o ArrowDesempenhoUsando o dbplyr com o ArrowResumo
23. Dados hierárquicos
IntroduçãoPré-requisitosListasHierarquiaColunas da listaDesinstalaçãounnest_wider()unnest_longer()Tipos inconsistentesOutras funçõesExercíciosEstudos de casoDados muito alargadosDados relacionaisAninhado profundamenteExercíciosJSONTipos de dadosjsonliteIniciar o processo de rectângulosExercíciosResumo
24. Raspagem da Web
IntroduçãoPré-requisitosÉtica e legalidade da raspagemTermos de serviçoInformações de identificação pessoalDireitos de autorNoções básicas de HTMLElementosAtributosExtrair dadosEncontrar elementosSelecções de aninhadosTexto e atributosTabelasEncontrar os selectores certosJuntar tudoGuerra das EstrelasIMDb Top FilmsSites dinâmicosResumo
V. Programa
25. Funções
IntroduçãoPré-requisitosFunções vectoriaisEscrever uma funçãoMelhorar a nossa funçãoFunções de mutaçãoResumo das funçõesExercíciosFunções do quadro de dadosIndirecção e avaliação TidyQuando deves abraçar?Casos de utilização comunsMascaramento de dados versus seleção TidyExercíciosFunções de plotagemMais variáveisCombinando com outros pacotes TidyverseEtiquetagemExercíciosEstiloExercíciosResumo
26. Iteração
IntroduçãoPré-requisitosModificar várias colunasSeleção de colunas com .colsChamada de uma função individualChamada de várias funçõesNomes de colunasFiltragemacross() em FunçõesVersus pivot_longer()ExercíciosLer vários ficheirosListando arquivos em um diretórioListaspurrr::map() e list_rbind()Dados no caminhoGuardar o teu trabalhoMuitas Iterações SimplesDados heterogéneosLidar com falhasGuardar várias saídasEscrever para uma base de dadosEscrever ficheiros CSVGuardar parcelasResumo
27. Um guia de campo para a Base R
IntroduçãoPré-requisitosSeleção de vários elementos com [Subconjunto de vectoresSubconjunto de quadros de dadosEquivalentes ao dplyrExercíciosSelecionando um único elemento com $ e [[Quadros de dadosTibblesListasExercíciosCandidata-te à famíliapara laçosParcelasResumo
VI. Comunica
28. Quarto
IntroduçãoPré-requisitosFundamentos do QuartoExercíciosEditor VisualExercíciosEditor de origemExercíciosPedaços de códigoEtiqueta de pedaçosOpções de pedaçosOpções globaisCódigo em linhaExercíciosNúmerosDimensionamento de figurasOutras opções importantesExercíciosTabelasExercíciosArmazenamento em cacheExercíciosResolução de problemasCabeçalho YAMLAutónomoParâmetrosBibliografias e citaçõesFluxo de trabalhoResumo
29. Formatos Quarto
IntroduçãoOpções de saídaDocumentosApresentaçõesInteratividadehtmlwidgetsBrilhanteSítios Web e livrosOutros formatosResumo
Índice
Sobre os autores

Content preview from R for Data Science, 2ª Edição

Capítulo 24. Raspagem da Web

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Introdução

Este capítulo apresenta-te as noções básicas de Web scraping com o rvest. A raspagem da Web é uma ferramenta útil para extrair dados de páginas da Web. Alguns sites oferecem uma API, um conjunto de pedidos HTTP estruturados que retornam dados como JSON, que podes manipular usando as técnicas do Capítulo 23. Sempre que possível, deves utilizar a API,¹ porque, normalmente, ela te dará dados mais confiáveis. Infelizmente, porém, a programação com APIs da Web está fora do escopo deste livro. Em vez disso, vamos ensinar scraping, uma técnica que funciona independentemente de um site fornecer ou não uma API.

Neste capítulo, discutiremos primeiro a ética e as legalidades da raspagem antes de mergulharmos nos conceitos básicos de HTML. Em seguida, aprende as noções básicas de seletores CSS para localizar elementos específicos na página e como utilizar funções rvest para obter dados de texto e atributos do HTML para o R. Discutiremos algumas técnicas para descobrir qual o seletor CSS necessário para a página que está a recolher, antes de terminar com alguns estudos de caso e uma breve discussão sobre sites dinâmicos.

Pré-requisitos

Neste capítulo, vamos concentrar-nos nas ferramentas fornecidas pelo rvest. O rvest é um membro do tidyverse mas não é um membro principal, por isso terás de o carregar explicitamente. Também carregaremos ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341641976

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design