第 2 版前言
欢迎阅读《R 数据科学》第 2 版! 这是对第 1 版的重大修订,我们删除了不再认为有用的内容,添加了希望在第 1 版中就包含的内容,并全面更新了文本和代码以反映最佳实践的变化。 我们也非常高兴地欢迎一位新作者:Mine Çetinkaya-Rundel,她是一位著名的数据科学教育家,也是我们在 Posit(前身为 RStudio 的公司)的同事。
以下是主要变化的简要总结:
本书的第一部分已重命名为“全局概览” (Whole game)。 本部分的目标是在我们深入细节之前,让你对数据科学的“全局”有一个大致的了解。
本书的第二部分是“可视化” (Visualize)。 与第 1 版相比,这部分更详尽地介绍了数据可视化的工具和最佳实践。 要了解所有细节,最好的资源仍然是 《ggplot2》 这本书,但现在 R4DS 涵盖了更多最重要的技术。
本书的第三部分现在称为“转换” (Transform),并增加了关于数值、逻辑向量和缺失值的新章节。 这些内容以前是数据转换章节的一部分,但需要更多的篇幅来涵盖所有细节。
本书的第四部分称为“导入” (Import)。 这是一组全新的章节,内容超出了读取纯文本文件的范围,涵盖了处理电子表格、从数据库获取数据、处理大数据、整理层次化数据以及从网站抓取数据。
“编程” (Program) 部分仍然保留,但已从头到尾重写,重点关注函数编写和迭代的最重要部分。 函数编写现在包含了如何包装 tidyverse 函数的细节(处理整洁评估 (tidy evaluation) 的挑战),因为在过去几年中,这变得更加容易和重要。 我们还增加了一个新章节,介绍你可能在实际 R 代码中看到的重要基础 R 函数。
“建模” (Modeling) 部分已被移除。 我们始终没有足够的篇幅来充分讲解建模,而且现在有更好的资源可用。 我们通常建议使用 tidymodels 系列包,并阅读 Max Kuhn 和 Julia Silge 撰写的 《Tidy Modeling with R》。
“沟通” (Communicate) 部分仍然保留,但已全面更新,使用 Quarto 代替 R Markdown。 本书的这一版就是用 Quarto 编写的,它显然是未来的工具。