ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
```scala /** *返回包含数据集中所有行的数组。运行 collect 需要将所有数据移动到应用 *程序的驱动程序进程中,在非常大的数据集上这样做可能会导致驱动程序进程发 *生 OutOfMemoryError */ def collect(): Array[T] /** *返回数据集中的行数 */ def count(): Long /** *计算数值列和字符串列的基本统计信息,包括 count、mean、stddev、min *和 max。如果没有指定列,则此函数计算所有数值列或字符串列的统计信息 */ def describe(cols: String*): DataFrame //示例 ds.describe("age", "height").show() // output: // summary age height // count 10.0 10.0 // mean 53.3 178.05 // stddev 11.6 15.7 // min 18.0 163.0 // max 92.0 192.0 /** *返回第一行,同 head() */ def first(): T /** *在 Dataset 的所有行上应用函数 f */ def foreach(f: (T) => Unit): Unit /** *在 Dataset 的每个分区上应用函数 f */ def foreachPartition(f: (Iterator[T]) => Unit): Unit /** *返回头 n 行 */ def head(): T def head(n: Int): Array[T] /** *同 RDD reduce,使用函数 func(它接受两个参数并返回一个)聚合数据集的元素 */ def reduce(func: (T, T) => T): T /** *以表格形式显示数据集。超过 20 个字符的字符串将被截断,所有单元格将右对齐. * numRows:默认 20 行。 * truncate:截断,如果设置为大于 0,则截断字符串以截断字符,所有单元格将右对齐。 * vertical:是否对齐,如果设置为 true,则垂直打印输出行(每个列值一行)。 */ def show(numRows: Int, truncate: Int, vertical: Boolean): Unit def show(numRows: Int, truncate: Int): Unit def show(numRows: Int, truncate: Boolean): Unit def show(truncate: Boolean): Unit def show(): Unit def show(numRows: Int): Unit /** *计算数值列和字符串列的指定统计信息。如果没有给出统计信息,这个函数 *计算 count、mean、stddev、min、近似四分位数(25%、50%和 75%的百分比)和max。 */ def summary(statistics: String*): DataFrame //示例 ds.summary().show() // output: // summary age height // count 10.0 10.0 // mean 53.3 178.05 // stddev 11.6 15.7 // min 18.0 163.0 // 25% 24.0 176.0 // 50% 24.0 176.0 // 75% 32.0 180.0 // max 92.0 192.0 //指定某些统计信息 ds.summary("count", "min", "25%", "75%", "max").show() ds.select("age", "height").summary().show() /** *返回头 n 行 */ def take(n: Int): Array[T] ```