ML 提倡使用 Pipeline,一般翻译为流水线,以便将多种算法更容易地组合成单个流水线或工作流程。
<br/>
一个 Pipeline 在结构上会包含一个或多个 Stage,每一个 Stage 都会完成一个任务,如数据处理、数据转化、模型训练、参数设置,或数据预测等,其中两个主要的 Stage 为 **Transformer** 和 **Estimator**。
<br/>
**Transformer** 主 要 是 用 来 操 作 一 个 DataFrame 数 据 并 生 成 另 外 一 个DataFrame 数据,比如决策树模型、一个特征提取工具,都可以抽象为一Transformer。
**Estimator** 则主要是用来做模型拟合,用来生成一个 Transformer。这些 Stage有序组成一个 Pipeline。与 Pipeline 相关的概念有: DataFrame、Transformer、Estimator、Parameter 等。