
数据转换
本书的第二部分深入探讨了数据可视化。在本书的这一部分,你将学习数据框 (data frame) 中会遇到的最重要变量类型,以及可以用来处理它们的工具。

你可以根据需要阅读这些章节;它们的设计初衷是使其在很大程度上保持独立,因此可以不按顺序阅读。
12 逻辑向量 将教你有关逻辑向量的知识。这是最简单的向量类型,但功能却极其强大。你将学习如何通过数值比较来创建它们,如何用布尔代数 (Boolean algebra) 来组合它们,如何在汇总摘要中使用它们,以及如何利用它们进行条件转换。
13 数值 深入探讨了处理数值向量的工具,数值向量是数据科学的动力源泉。你将学到更多关于计数以及一系列重要的转换和汇总函数的知识。
14 字符串 将为你提供处理字符串的工具:你将对它们进行切片、分割,然后再将它们粘合在一起。本章主要关注 stringr 包,但你也会学到一些用于从字符串中提取数据的 tidyr 函数。
15 正则表达式 向你介绍正则表达式 (regular expressions),这是一种强大的字符串处理工具。本章将带你从看到它们就觉得像是猫踩过键盘一样,到能够读懂并编写复杂的字符串模式。
16 因子 介绍因子 (factor):R 用来存储分类数据的类型。当一个变量具有固定的可能值集合时,或者当你希望使用非字母顺序对字符串进行排序时,你就会使用因子。
17 日期和时间 将为你提供处理日期和日期时间的关键工具。不幸的是,你对日期时间了解得越多,它们似乎就变得越复杂,但在 lubridate 包的帮助下,你将学会如何克服最常见的挑战。
18 缺失值 深入讨论缺失值。我们已经单独讨论过几次缺失值,但现在是时候全面地讨论它们了,帮助你掌握隐式和显式缺失值之间的区别,以及如何在它们之间进行转换以及为什么要这样做。
19 连接 作为本书这一部分的收尾,为你提供了将两个 (或多个) 数据框连接在一起的工具。学习连接操作将迫使你深入理解“键” (key) 的概念,并思考如何识别数据集中的每一行。