《Spark与Hadoop大数据分析》一一导读-白红宇

Preface　前　　言

本书讲解了Apache Spark和Hadoop的基础知识，以及如何通过简单的方式将它们与最常用的工具和技术集成在一起。所有Spark组件（Spark Core、Spark SQL、DataFrame、Dataset、Conventional Streaming、Structured Streaming、MLlib、GraphX和Hadoop核心组件）、HDFS、MapReduce和Yarn 都在 Spark + Hadoop 集群的实现示例中进行了深入的探讨。

大数据分析行业正在从 MapReduce 转向Spark。因此，本书深入讨论了 Spark 相比 MapReduce 的优势，从而揭示出它在内存计算速度方面的好处。我们还会讲解如何运用 DataFrame API、Data Sources API，以及新的 Dataset API 来构建大数据分析应用程序。书中还讲解了如何使用 Spark Streaming 配合 Apache Kafka 和 HBase 进行实时数据分析，以帮助构建流式应用程序（streaming application）。新的结构化流（Structured Streaming）概念会通过物联网（Internet of Things，IOT）用例来解释。在本书中，机器学习技术会使用 MLLib、机器学习流水线和 SparkR 来实现；图分析则会利用Spark的GraphX 和GraphFrames 组件包来进行。

本书还介绍了基于Web的笔记本（如Jupyter和Apache Zeppelin）和数据流工具Apache NiFi，它们用于分析和可视化数据，以及利用 Livy 服务器把Spark作为一个服务提供给用户。

Preface 前 言

目录

Preface　前　　言