### 创建RDD
`parallelize`(*c*,*numSlices=None*)[\[source\]](http://spark.apache.org/docs/preview/api/python/_modules/pyspark/context.html#SparkContext.parallelize)[
](http://spark.apache.org/docs/preview/api/python/pyspark.html?highlight=parallelize#pyspark.SparkContext.parallelize "Permalink to this definition")
```python
sc.parallelize([1,2,3,3,4,5])
```
### map
> 将一个RDD中的每个数据项,通过map中的函数映射变成一根新的元素。
```
sc.parallelize([1,2,3,3,4,5]).map(lambda x:x+1).collect()
```
### flatMap
> 合并所有的输出为一个list
![](https://box.kancloud.cn/51737bc3d443e70cabb5eb749142abe9_708x73.png)
### distinct
> 对RDD元素进行去重操作
### repartition/coalesce
> 对RDD重新分区
### randomSplit
> 该函数根据weights权重,讲一个RDD切分成多个RDD;权重的参数是一个Double数组,第二个参数为random的种子,基本可忽略