Skip to Main Content
数据科学之编程技术:使用R进行数据清理、分析与可视化
book

数据科学之编程技术:使用R进行数据清理、分析与可视化

by 迈克尔 弗里曼, 乔尔 罗斯
August 2021
Beginner to intermediate content levelBeginner to intermediate
450 pages
6h 13m
Chinese
Pearson
Content preview from 数据科学之编程技术:使用R进行数据清理、分析与可视化

12.4 tidyr实战:探索教育统计

本节使用真实的数据集来演示如何使用tidyr重塑数据,重塑数据是数据探索过程中不可或缺的部分。本例中的数据是从世界银行数据浏览器[1]中下载的,它收集了数百个不同经济和社会发展因素的指标(度量)数据。本例考虑的是能反映一个国家教育水平(或对教育投资)的教育指标[2],例如,政府教育支出、识字率、学校入学率和数十个其他教育成就衡量指标。此数据集的缺陷(.csv文件顶部不必要的行、大量的遗失数据、带有特殊字符的长列名)代表了使用真实数据集时所面临的挑战。本节的所有图形均使用第16章中介绍的ggplot2包构建。此分析的完整代码也可在线从本书的代码库中获得[3]

下载数据后,需要将其加载到R环境中:

第一次加载数据时,每个观测结果(行)代表一个国家的指标(indicator),其特征(列)是该指标(indicator)在给定年份的值(参见图12-3)。注意,许多值(尤其是前几年的值)都丢失了(NA)。另外,由于R不允许列名为数字,read.csv()函数已经为每个列名(在原始的.csv文件中只是一个数字)预先加了一个X字符。

图12-3 12.4节中使用的未转换的世界银行教育数据

就指标(indicator)而言,数据是长格式的,而就指标(indicator)和年份而言,数据是宽格式的——一列包含一年的所有值。此结构允许通过筛选感兴趣的指标来比较各年份的指标。例如,可以将每个国家1990年的教育支出与2014年的教育支出进行如下比较: ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

数据驱动力:企业数据分析实战

数据驱动力:企业数据分析实战

Carl Anderson
写给系统管理员的Python脚本编程指南

写给系统管理员的Python脚本编程指南

Posts & Telecom Press, Ganesh Sanjiv Naik
可编程网络自动化

可编程网络自动化

Jason Edelman, Scott S. Lowe, Matt Oswalt

Publisher Resources

ISBN: 9787111640899