全局概览

本书这一部分的目标是,让你快速概览数据科学的主要工具:导入 (importing)整理 (tidying)转换 (transforming)可视化 (visualizing) 数据,如 Figure 1 所示。 我们希望向你展示数据科学的“全局概览”(whole game),为你提供所有主要环节的必要知识,以便你能够处理真实(尽管简单)的数据集。 本书的后续部分将更深入地探讨这些主题,从而拓宽你能够应对的数据科学挑战的范围。

一个展示数据科学周期的图表:导入 -> 整理 -> 理解(该阶段包含一个循环:转换 -> 可视化 -> 建模)-> 沟通。所有这些都被“编程”所围绕。导入、整理、转换和可视化部分被高亮显示。
Figure 1: 在本书的这一部分,你将学习如何导入、整理、转换和可视化数据。

有四章内容聚焦于数据科学的工具:

在这些章节之间,还穿插了另外四章专注于你的 R 工作流程 (workflow) 的内容。 在 2  工作流程:基础4  工作流:代码风格6  工作流:脚本和项目 中,你将学习编写和组织 R 代码的良好工作流程实践。 从长远来看,这些将为你成功奠定基础,因为它们为你提供了在处理实际项目时保持条理的工具。 最后,8  工作流:获取帮助 将教你如何获取帮助并持续学习。