csv/json数据源 · Hadoop2.x

我们可以使用SparkContext或者SparkSession的方法来加载 csv/json 数据源。 ```scala /**********加载csv*************/ // 1. 使用SparkContext val lines = sc.textFile("file:///home/kgc/data/users.csv") val fields = lines.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(l => l.split(",")) val fields = lines.filter(l=>l.startsWith("user_id")==false).map(l=>l.split(",")) //移除首行，效果与上一行相同 // 2. 使用SparkSession val df = spark.read.format("csv").option("header", "true").load("file:///home/kgc/data/users.csv") /**********加载json*************/ // 1. 使用SparkContext val lines = sc.textFile("file:///home/kgc/data/users.json") //scala内置的JSON库 import scala.util.parsing.json.JSON val result=lines.map(l=>JSON.parseFull(l)) // 2. 使用SparkSession val df = spark.read.format("json").load("file:///home/kgc/data/users.json") ```