ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
### 创建RDD `parallelize`(*c*,*numSlices=None*)[\[source\]](http://spark.apache.org/docs/preview/api/python/_modules/pyspark/context.html#SparkContext.parallelize)[ ](http://spark.apache.org/docs/preview/api/python/pyspark.html?highlight=parallelize#pyspark.SparkContext.parallelize "Permalink to this definition") ```python sc.parallelize([1,2,3,3,4,5]) ``` ### map > 将一个RDD中的每个数据项,通过map中的函数映射变成一根新的元素。 ``` sc.parallelize([1,2,3,3,4,5]).map(lambda x:x+1).collect() ``` ### flatMap > 合并所有的输出为一个list ![](https://box.kancloud.cn/51737bc3d443e70cabb5eb749142abe9_708x73.png) ### distinct > 对RDD元素进行去重操作 ### repartition/coalesce > 对RDD重新分区 ### randomSplit > 该函数根据weights权重,讲一个RDD切分成多个RDD;权重的参数是一个Double数组,第二个参数为random的种子,基本可忽略