Spark MLib是Spark提供的机器学习库,它提供了如下工具:
(1)ML 算法:通用学习算法,如分类,回归,聚类和协同过滤;
(2)特征工程:特征提取,转换,降维和选择;
(3)管道:用于构建,评估和调整 ML 管道的工具;
(4)持久性:保存和加载算法,模型和管道;
(5)实用程序:线性代数,统计,数据处理等;
:-: ![](https://img.kancloud.cn/95/31/9531285d26fadaa364dcf0f4020256b0_450x253.png)
官方文档:http://spark.apache.org/docs/latest/ml-guide.html