企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
```scala /** *返回一个新的数据集,其中每个记录都映射到指定的类型 U; * *1. 当 U 是一个类时,该类的字段将映射到同名的列(大小写敏感性由spark.sql.caseSensitive 决定); *2. 当 U 是一个 tuple 时,列将按序号映射(即第一列将分配给_1); *3. 当 U 是基本类型(例如 String、Int 等)时,将使用 DataFrame 的第一列; * *如果数据集的模式不匹配所需的 U 类型,则可以使用 select 和 alias 或 as 根 *据需要重新排列或重命名。 */ def as[U](implicit arg0: Encoder[U]): Dataset[U] /** *默认使用存储级别(MEMORY_AND_DISK)保存此数据集 */ // 使用缓存 def cache(): Dataset.this.type def persist(newLevel: StorageLevel): Dataset.this.type def persist(): Dataset.this.type // 释放缓存 def unpersist(): Dataset.this.type def unpersist(blocking: Boolean): Dataset.this.type /** * 将数据持久化到磁盘中 */ def checkpoint(eager: Boolean): Dataset[T] def checkpoint(): Dataset[T] def localCheckpoint(eager: Boolean): Dataset[T] def localCheckpoint(): Dataset[T] /** *以数组的形式返回所有列名 */ def columns: Array[String] /** *使用给定名称创建(或替换)全局临时视图; * *全局临时视图是跨会话的。它的生存期是 Spark 应用程序的生存期,也就是 *说,当应用程序终止时,它将被自动删除。它与系统保留的数据库 global_temp *绑定,我们必须使用限定名来引用全局临时视图,例如:SELECT * FROM global_temp.view1 */ def createGlobalTempView(viewName: String): Unit def createOrReplaceGlobalTempView(viewName: String): Unit /** *使用给定名称创建本地临时视图 */ def createOrReplaceTempView(viewName: String): Unit def createTempView(viewName: String): Unit def registerTempTable(tableName: String): Unit //已过时 /** *以数组的形式返回所有列名及其数据类型 */ def dtypes: Array[(String, String)] /** *将物理计划打印到控制台以进行调试。extended: true 表示包含逻辑和物理计划 */ def explain(): Unit def explain(extended: Boolean): Unit /** *指定当前数据集上的一些提示 */ def hint(name: String, parameters: Any*): Dataset[T] /** *返回组成此数据集的文件的最佳状态快照。这个方法只是简单地请求每个组 *成部分对应其各自的文件,并获取所有结果的并集。根据源关系,可能无法找到 *所有输入文件。 */ def inputFiles: Array[String] /** *返回 Dataset 是否为空; 如果空返回 true。 */ def isEmpty: Boolean /** *如果 collect 和 take 方法可以在本地运行(需要任何 Spark executors),则返 *回 true。 */ def isLocal: Boolean /** *将 Schema 打印到控制台 */ def printSchema(): Unit /** *将 Dataset 的内容表示为 T 的 RDD */ lazy val rdd: RDD[T] /** *返回 Dataset 的 Schema */ def schema: StructType /** *获取数据集的当前存储级别,即 StorageLevel。不指定为 StorageLevel.NONE */ def storageLevel: StorageLevel /** *将此强类型数据集合转换为通用 Dataframe。与 Dataset 操作处理的强类型对 *象相反,Dataframe 返回允许按序号或名称访问字段的通用行对象。 */ def toDF(colNames: String*): DataFrame def toDF(): DataFrame /** *用于将非流式数据集的内容保存到外部存储的接口。 */ def write: DataFrameWriter[T] /** *用于将流式数据集的内容保存到外部存储的接口。 */ def writeStream: DataStreamWriter[T] ```