合规国际互联网加速 OSASE为企业客户提供高速稳定SD-WAN国际加速解决方案。 广告
### RDD实现详解 RDD时Spark最基本的数据抽象 - 具备像MapReduce等数据流模型的容错性 - 并且允许开发人员在大型集群上执行基于内存的计算。 现有的数据流系统对两种应用的处理并不高效 - 迭代式算法(图应用和机器学习领域) - 交互式数据挖掘工具 这两种情况下,将数据保存在内存中能够极大的提高性能。 为了有效的实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。 > 上面说的有些抽象哦,下面再详细介绍吧 Spark的目标是为了基于工作集的应用(即多个并行操作重用中间结果的应用)提供抽象。 #### 1. 什么是RDD 制度的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。 > RDD的创建 - 由一个已经存在的Scala集合创建 - 由外部存储系统的数据集创建,包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、HBase RDD创建后,就可以在RDD上进行数据处理。 RDD支持两种操作: - 转换(trans-formation):即从现有的数据集创建一个新的数据集 - 动作(action):即在数据集上进行计算后,返回一个值给Driver程序。 > RDD支持的转换: map、filter、flatMap、mapParttions、sample #### 2. RDD的转换和DAG的生成 [Spark 在反作弊聚类场景的实践](https://blog.csdn.net/huangshulang1234/article/details/78828499) [利用spark做文本聚类分析](https://blog.csdn.net/qq_30843221/article/details/54909788) ifast [知乎-该如何做大中型 UGC 平台(如新浪微博)的反垃圾(anti-spam)工作?](https://www.zhihu.com/question/20103086) [Facebook 是怎么做反垃圾信息的 (antispam)? 都有哪些可取之处?](https://www.zhihu.com/question/29814056) [知乎-反垃圾(Anti-Spam)](https://www.zhihu.com/topic/19570555/hot) [反垃圾中的文本相似度对比是怎么做的?](https://www.zhihu.com/question/23945183)