
全局概览
本书这一部分的目标是,让你快速概览数据科学的主要工具:导入 (importing)、整理 (tidying)、转换 (transforming) 和 可视化 (visualizing) 数据,如 Figure 1 所示。 我们希望向你展示数据科学的“全局概览”(whole game),为你提供所有主要环节的必要知识,以便你能够处理真实(尽管简单)的数据集。 本书的后续部分将更深入地探讨这些主题,从而拓宽你能够应对的数据科学挑战的范围。

有四章内容聚焦于数据科学的工具:
可视化是开始 R 编程的绝佳切入点,因为回报非常明确:你可以制作出优雅且信息丰富的图表,帮助你理解数据。 在 1 数据可视化 中,你将深入学习可视化,了解 ggplot2 图形的基本结构,以及将数据转化为图表的强大技术。
通常仅有可视化是不够的,因此在 3 数据转换 中,你将学习一些关键的“动词”,它们可以让你选择重要的变量、筛选出关键的观测、创建新变量以及计算汇总统计量。
在 5 数据整理 中,你将学习整洁数据 (tidy data),这是一种一致的数据存储方式,可以使转换、可视化和建模变得更加容易。 你将学习其基本原则,以及如何将你的数据整理成整洁的形式。
在转换和可视化数据之前,你首先需要将数据导入 R。 在 7 数据导入 中,你将学习将
.csv
文件导入 R 的基础知识。
在这些章节之间,还穿插了另外四章专注于你的 R 工作流程 (workflow) 的内容。 在 2 工作流程:基础、4 工作流:代码风格 和 6 工作流:脚本和项目 中,你将学习编写和组织 R 代码的良好工作流程实践。 从长远来看,这些将为你成功奠定基础,因为它们为你提供了在处理实际项目时保持条理的工具。 最后,8 工作流:获取帮助 将教你如何获取帮助并持续学习。