Spark RDDs · Spark 编程指南简体中文版

# 弹性分布式数据集 (RDDs) Spark 核心的概念是 *Resilient Distributed Dataset (RDD)*：一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs：第一种是在你的驱动程序中并行化一个已经存在的集合；另外一种是引用一个外部存储系统的数据集，例如共享的文件系统，HDFS，HBase或其他 Hadoop 数据格式的数据源。 - [并行集合](#) - [外部数据集](#) - [RDD 操作](#) - [传递函数到 Spark](#) - [使用键值对](#) - [Transformations](#) - [Actions](#) - [RDD持久化](#)