💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
# 温和地介绍预测建模 > 原文: [https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/](https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/) 当你是一个绝对的初学者时,它会非常混乱。令人沮丧的是。 当您第一次遇到它们时,即使是回想起来如此简单的想法也是陌生的。有一种全新的语言需要学习。 我最近收到了这个问题: > 因此,如果我从花园采摘一朵花,那么使用[虹膜练习](http://machinelearningmastery.com/how-to-run-your-first-classifier-in-weka/)作为一个例子我将如何使用该算法来预测它是什么? 这是一个很好的问题。 在这篇文章中,我想对预测建模进行温和的介绍。 ![Basics of Predictive Modeling](img/9449cc72b3ce4703b63997a40be662c3.jpg) 预测建模基础知识 [Steve Jurvetson](https://www.flickr.com/photos/jurvetson/2542450115/) 的照片,保留一些权利。 ## 1.样本数据 数据是有关您正在处理的问题的信息。 想象一下,我们想要从花的尺寸来识别花的种类。 数据由以厘米为单位的四个花测量值组成,这些是数据列。 每行数据都是已经测量过的花的一个例子,它是已知的物种。 我们要解决的问题是从样本数据中创建一个模型,该模型可以告诉我们花朵属于哪个物种。 ![Sample of Iris flower data](img/09c0c9871d048ec3f2fcaa81a9363728.jpg) 虹膜花数据样本 ## 2.学习模型 上述问题称为监督学习。 监督学习算法的目标是获取具有已知关系的一些数据(实际花卉测量和花的种类)并创建这些关系的模型。 在这种情况下,输出是一个类别(花种),我们称这种类型的问题是分类问题。如果输出是一个数值,我们称之为回归问题。 该算法进行学习。该模型包含学习的关系。 模型本身可能是少数数字以及使用这些数字将输入(以厘米为单位的花测量)与输出(花的种类)相关联的方式。 在我们从样本数据中学习之后,我们希望保留模型。 [![Create a Predictive Model](img/2e10b6f7551052800e6fb3990f7df639.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2015/09/Create-a-Predictive-Model.png) 根据训练数据和算法创建预测模型。 ## 3.做出预测 我们不需要热衷于训练数据,因为模型已经总结了其中包含的关系。 我们保持从数据中学习模型的原因是因为我们想用它来进行预测。 在这个例子中,我们通过测量不知道物种的特定花来使用该模型。 我们的模型将读取输入(新测量),用它的内部数字执行某种计算,并预测它恰好是哪种花。 预测可能并不完美,但如果您拥有良好的样本数据和从该数据中学习的稳健模型,那么它将非常准确。 ![Make Predictions](img/7ec09f0c88d369a27af0af1b19d38155.jpg) 使用该模型对新数据进行预测。 ## 摘要 在这篇文章中,我们对预测建模进行了非常温和的介绍。 我们研究的预测建模的三个方面是: 1. **样本数据**:我们收集的数据描述了输入和输出之间已知关系的问题。 2. **学习模型**:我们在样本数据上使用的算法,用于创建我们以后可以反复使用的模型。 3. **制作预测**:将我们学习的模型用于我们不知道输出的新数据。 我们使用基于花卉测量来分类植物物种的实例。 这实际上是机器学习中[着名的例子](https://en.wikipedia.org/wiki/Iris_flower_data_set),因为它是一个很好的干净数据集,问题很容易理解。 ## 行动步骤 花一点时间,真正了解这些概念。 它们是您在机器学习中可能做的任何思考或工作的基础。 您的行动步骤是考虑三个方面(数据,模型,预测)并将它们与您想要处理的问题联系起来。 如有任何问题,请在评论中提问。我在这里帮忙。