多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用
码云13.8K
广告
从 Spark 1.2 版本之后引入了 ML Pipeline,经过多个版本的发展,Spark ML克服了 MLlib 在处理复杂机器学习问题的一些不足(如工作比较复杂,流程不清晰等),<mark>向用户提供基于 DataFrame 之上的更加高层次的 API 库</mark>,以更加方便的构建复杂的机器学习工作流式应用,使整个机器学习过程变得更加易用、简洁、规范和高效。 Spark 的 Pipeline 与 Scikit 中 Pipeline 的功能相近、理念相同。
Spark MLib
Spark MLib是什么?
Spark MLib与Spark ML
Spark MLib数据类型
本地向量
向量标签
本地矩阵
分布式矩阵
Spark MLib常用算法
分类算法
回归算法
聚类算法
协同过滤
Spark ML
Spark ML是什么
Pipeline概念
DataFrame
Transformer
Estimator
Parameters
Pipeline
ML使用案例
推测模型案例
随机森林
项目代码实现