多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
`SparkSession.createDataSet`方法的参数可以是:Array、Seq、RDD、List。 <br/> ```scala import org.apache.spark.SparkContext import org.apache.spark.sql.{Dataset, SparkSession} object CreateDataSet { def main(args: Array[String]): Unit = { // Spark编程入口 val spark:SparkSession = SparkSession.builder() .master("local[4]") .appName(this.getClass.getName) .getOrCreate() // 由于SparkSession封装了许多的隐式转换,如RDD->DataSet // 所以当你的SparkSession实例名为spark时,需要如下将隐式导入才能够正常使用spark import spark.implicits._ val dataSet1:Dataset[Int] = spark.createDataset(1 to 5) val dataSet2:Dataset[(String, Int)] = spark.createDataset(List(("a", 1), ("b", 2), ("c", 3))) val sc:SparkContext = spark.sparkContext val dataSet3:Dataset[(String, Int, Int)] = spark.createDataset(sc.parallelize(List(("a", 1, 1), ("b", 2, 2), ("c", 3, 3)))) dataSet1.show() // +-----+ // |value| // +-----+ // | 1| // | 2| // | 3| // | 4| // | 5| // +-----+ dataSet2.show() // +---+---+ // | _1| _2| // +---+---+ // | a| 1| // | b| 2| // | c| 3| // +---+---+ dataSet3.show() // +---+---+---+ // | _1| _2| _3| // +---+---+---+ // | a| 1| 1| // | b| 2| 2| // | c| 3| 3| // +---+---+---+ } } ```