有监督和无监督的机器学习算法 · Machine Learning Mastery 博客文章翻译

# 有监督和无监督的机器学习算法 > 原文： [https://machinelearningmastery.com/supervised-and-unsupervised-machine-learning-algorithms/](https://machinelearningmastery.com/supervised-and-unsupervised-machine-learning-algorithms/) 什么是监督机器学习以及它与无监督机器学习有什么关系？在这篇文章中，您将发现有监督的学习，无监督学习和半监督学习。阅读这篇文章后你会知道： * 关于分类和回归监督学习问题。 * 关于聚类和关联无监督学习问题。 * 用于监督和非监督问题的示例算法。 * 存在于有监督和无监督学习之间的问题称为半监督学习。让我们开始吧。 ![Supervised and Unsupervised Machine Learning Algorithms](img/259640f34dce726fb9e0f22625037c10.jpg) 监督和非监督机器学习算法照片由[美国教育部](https://www.flickr.com/photos/departmentofed/9599312337/)，保留一些权利。 ## 监督机器学习大多数实际机器学习使用监督学习。监督学习是输入变量（x）和输出变量（Y）的地方，您可以使用算法来学习从输入到输出的映射函数。 Y = f（X）目标是很好地近似映射函数，当您有新的输入数据（x）时，您可以预测该数据的输出变量（Y）。它被称为监督学习，因为从训练数据集学习算法的过程可以被认为是监督学习过程的教师。我们知道正确的答案，算法迭代地对训练数据进行预测，并由教师纠正。当算法达到可接受的表现水平时，学习停止。 ## 获取免费算法思维导图 ![Machine Learning Algorithms Mind Map](img/2ce1275c2a1cac30a9f4eea6edd42d61.jpg) 方便的机器学习算法思维导图的样本。我已经创建了一个由类型组织的60多种算法的方便思维导图。下载，打印并使用它。监督学习问题可以进一步分为回归和分类问题。 * **分类**：分类问题是输出变量是一个类别，例如“红色”或“蓝色”或“疾病”和“无疾病”。 * **回归**：回归问题是当输出变量是实数值时，例如“美元”或“重量”。在分类和回归之上构建的一些常见类型的问题分别包括推荐和时间序列预测。监督机器学习算法的一些流行示例是： * 回归问题的线性回归。 * 随机森林的分类和回归问题。 * 支持向量机用于分类问题。 ## 无监督机器学习无监督学习是指您只有输入数据（X）且没有相应的输出变量的地方。无监督学习的目标是对数据中的基础结构或分布进行建模，以便更多地了解数据。这些被称为无监督学习，因为与上面的监督学习不同，没有正确的答案，也没有教师。算法由他们自己设计，以发现并呈现数据中的有趣结构。无监督学习问题可以进一步分为聚类和关联问题。 * **群集**：群集问题是您希望发现数据中固有分组的位置，例如通过购买行为对客户进行分组。 * **协会**：关联规则学习问题是您想要发现描述大部分数据的规则，例如购买X的人也倾向于购买Y. 一些流行的无监督学习算法的例子是： * k-用于聚类问题的手段。 * 关联规则学习问题的Apriori算法。 ## 半监督机器学习您有大量输入数据（X）且只有部分数据标记为（Y）的问题称为半监督学习问题。这些问题介于有监督和无监督学习之间。一个很好的例子是照片档案，其中只有一些图像被标记（例如狗，猫，人）并且大多数是未标记的。许多现实世界的机器学习问题属于这个领域。这是因为标记数据可能是昂贵或耗时的，因为它可能需要访问域专家。而未标记的数据便宜且易于收集和存储。您可以使用无监督学习技术来发现和学习输入变量中的结构。您还可以使用监督学习技术对未标记数据进行最佳猜测预测，将该数据作为训练数据反馈到监督学习算法中，并使用该模型对新看不见的数据进行预测。 ## 摘要在这篇文章中，您了解了有监督，无监督和半监督学习之间的区别。你现在知道： * **监督**：标记所有数据，算法学习预测输入数据的输出。 * **无监督**：所有数据都是未标记的，算法从输入数据中学习固有结构。 * **半监督**：标记了一些数据，但大部分都是未标记的，可以使用监督和非监督技术的混合。您对有监督，无监督或半监督学习有任何疑问吗？发表评论并提出您的问题，我会尽力回答。