
导入
在本书的这一部分,你将学习如何将更广泛的数据导入 R,以及如何将其转化为对分析有用的形式。有时,这只是调用相应数据导入包中的一个函数那么简单。但在更复杂的情况下,为了得到你更喜欢使用的整洁矩形数据,可能需要进行整理和转换。

在本书的这一部分,你将学习如何访问以下列方式存储的数据:
在 20 电子表格 中,你将学习如何从 Excel 电子表格和谷歌表格 (Google Sheets) 导入数据。
在 21 数据库 中,你将学习如何从数据库中获取数据并导入 R(你还将学到一点如何将数据从 R 导出到数据库)。
在 22 Arrow 中,你将学习 Arrow,这是一个处理内存外 (out-of-memory) 数据的强大工具,特别是当数据存储在 parquet 格式中时。
在 23 层级数据 中,你将学习如何处理层级数据,包括由 JSON 格式存储的数据产生的深度嵌套列表。
在 24 网络抓取 中,你将学习网页“抓取” (web scraping),即从网页中提取数据的艺术和科学。
我们在这里没有讨论两个重要的 tidyverse 包:haven 和 xml2。如果你正在处理来自 SPSS、Stata 和 SAS 文件的数据,请查看 haven 包,https://haven.tidyverse.org。如果你正在处理 XML 数据,请查看 xml2 包,https://xml2.r-lib.org。否则,你需要做一些研究来确定你需要使用哪个包;谷歌是你的好朋友 😃。