spark算子 · Mechine Learning

### 创建RDD `parallelize`(*c*,*numSlices=None*)[\[source\]](http://spark.apache.org/docs/preview/api/python/_modules/pyspark/context.html#SparkContext.parallelize)[ ](http://spark.apache.org/docs/preview/api/python/pyspark.html?highlight=parallelize#pyspark.SparkContext.parallelize "Permalink to this definition") ```python sc.parallelize([1,2,3,3,4,5]) ``` ### map > 将一个RDD中的每个数据项，通过map中的函数映射变成一根新的元素。 ``` sc.parallelize([1,2,3,3,4,5]).map(lambda x:x+1).collect() ``` ### flatMap > 合并所有的输出为一个list ![](https://box.kancloud.cn/51737bc3d443e70cabb5eb749142abe9_708x73.png) ### distinct > 对RDD元素进行去重操作 ### repartition/coalesce > 对RDD重新分区 ### randomSplit > 该函数根据weights权重，讲一个RDD切分成多个RDD；权重的参数是一个Double数组，第二个参数为random的种子，基本可忽略