企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# 什么是统计(为什么它在机器学习中很重要)? > 原文: [https://machinelearningmastery.com/what-is-statistics/](https://machinelearningmastery.com/what-is-statistics/) 统计信息是一组工具,可用于获取有关数据的重要问题的答案。 您可以使用描述性统计方法将原始观察转换为您可以理解和共享的信息。您可以使用推论统计方法从小数据样本到整个域进行推理。 在这篇文章中,您将清楚地发现为什么统计数据在一般情况下以及机器学习以及通常可用的方法类型中都很重要。 阅读这篇文章后,你会知道: * 统计通常被认为是应用机器学习领域的先决条件。 * 我们需要统计数据来帮助将观测结果转化为信息并回答有关观测样本的问题。 * 统计数据是一组数百年来开发的工具,用于总结数据并根据观察样本量化域的属性。 让我们开始吧。 ![A Gentle Introduction to Statistics](img/b0e9734a5001a5cdecd649edb782013f.jpg) 统计数据的温和介绍 [Mike Sutherland](https://www.flickr.com/photos/156015048@N08/35241004781/) 的照片,保留一些权利。 ## 统计是必需的先决条件 机器学习和统计是两个紧密相关的研究领域。因此,统计学家将机器学习称为“_应用统计_”或“_统计学习_”,而不是以计算机科学为中心的名称。 假设读者具有统计学背景,机器学习几乎普遍呈现给初学者。我们可以通过一些樱桃选择的例子来具体化。 从一本名为“ _Applied Predictive Modeling_ ”的流行应用机器学习书的开头看一下这句话: > ......读者应具备一些基本统计知识,包括方差,相关性,简单线性回归和基本假设检验(例如p值和检验统计)。 - 第vii页, [Applied Predictive Modeling](https://amzn.to/2InAS0T) ,2013 这是流行的“_统计学习简介_”一书中的另一个例子: > 我们希望读者至少有一门基础课程。 - 第9页, [R](https://amzn.to/2Gvhkqz) ,2013年“应用统计学习导论”。 即使统计学不是先决条件,也需要一些原始的先验知识,这可以从广泛阅读的“_编程集体智慧_”中引用: > ......本书不假设您对[...]或统计数据有任何先验知识。 [...]但掌握一些三角学和基本统计​​知识将有助于您理解算法。 - 第xiii页,[编程集体智慧:构建智能Web 2.0应用程序](https://amzn.to/2GIN9jc),2007。 为了能够理解机器学习,需要对统计学有一些基本的了解。 要了解为什么会这样,我们必须首先理解为什么我们首先需要统计领域。 ## 为何学习统计? 仅原始观察是数据,但它们不是信息或知识。 数据提出了一些问题,例如: * 什么是最常见或预期的观察? * 观察的限制是什么? * 数据是什么样的? 虽然它们看似简单,但必须回答这些问题才能将原始观察结果转化为我们可以使用和分享的信息。 除了原始数据,我们可以设计实验以收集观察结果。从这些实验结果中我们可能会有更复杂的问题,例如: * 哪些变量最相关? * 两个实验之间的结果有什么不同? * 数据中的差异是真实的还是噪声的结果? 这类问题很重要。结果对项目,利益相关者和有效决策至关重要。 需要统计方法来找到我们对数据的问题的答案。 我们可以看到,为了理解用于训练机器学习模型的数据并解释测试不同机器学习模型的结果,需要统计方法。 这只是冰山一角,因为预测建模项目中的每一步都需要使用统计方法。 ## 什么是统计? 统计学是数学的一个子领域。 它指的是一组处理数据和使用数据来回答问题的方法。 > 统计学是关于令人费解的问题的数字猜想的艺术。 [...]这些方法是由寻求问题答案的人们开发了数百年。 - 第xiii页,[统计](https://amzn.to/2pUA0tU),第四版,2007年。 这是因为该领域包含一系列用于处理数据的方法,对于初学者而言,这些方法看起来很大且无定形。很难看到属于统计的方法和属于其他研究领域的方法之间的界限。通常,技术既可以是统计学的经典方法,也可以是用于特征选择或建模的现代算法。 虽然统计学的工作知识不需要深入的理论知识,但统计学和概率之间关系的一些重要且易于理解的定理可以提供有价值的基础。 两个例子包括大数定律和中心极限定理;第一个有助于理解为什么更大的样本通常更好,第二个为我们如何比较样本之间的预期值(例如平均值)提供了基础。 当谈到我们在实践中使用的统计工具时,将统计领域划分为两大类方法可能会有所帮助:用于汇总数据的描述性统计和用于从数据样本中得出结论的推论统计。 > 统计数据允许研究人员从大量人员那里收集信息或数据,然后总结他们的典型经验。 [...]统计数据也用于得出关于群体之间一般差异的结论。 [...]统计数据也可用于查看两个变量的得分是否相关并进行预测。 页面ix-x,[统计英文统计](https://amzn.to/2Gv0A2V),第三版,2010。 ### 描述性统计 [描述性统计](https://en.wikipedia.org/wiki/Descriptive_statistics)是指将原始观察汇总为我们可以理解和分享的信息的方法。 通常,我们将描述性统计视为计算数据样本的统计值,以便总结数据样本的属性,例如共同的预期值(例如平均值或中位数)和数据的传播(例如,方差或标准差)。 描述性统计还可以包括可用于可视化数据样本的图形方法。图表和图形可以对观察的形状或分布以及变量如何相互关联提供有用的定性理解。 ### 推论统计 [推论统计](https://en.wikipedia.org/wiki/Statistical_inference)是一种奇特的名称,用于帮助从较小的一组获得的观察结果(称为样本)中量化域或种群的属性。 通常,我们将推论统计视为人口分布中的数量估计,例如预期值或传播量。 可以使用更复杂的统计推断工具来量化在给定假设的情况下观察数据样本的可能性。这些通常被称为统计假设检验的工具,其中测试的基本假设称为零假设。 考虑到我们可能假设的假设范围以及我们可能对数据施加的约束以增加测试结果的正确性或可能性,推论统计方法有很多例子。 ## 进一步阅读 如果您希望深入了解,本节将提供有关该主题的更多资源。 ### 图书 * [Applied Predictive Modeling](https://amzn.to/2InAS0T) ,2013 * [R](https://amzn.to/2Gvhkqz) ,2013年“统计学习与应用简介”。 * [编程集体智慧:构建智能Web 2.0应用程序](https://amzn.to/2GIN9jc),2007。 * [统计](https://amzn.to/2pUA0tU),第四版,2007年。 * [所有统计:统计推断的简明课程](https://amzn.to/2H224Tp),2004。 * [普通英语统计](https://amzn.to/2Gv0A2V),第三版,2010年。 ### 用品 * [维基百科统计](https://en.wikipedia.org/wiki/Statistics) * [门户网站:维基百科的统计数据](https://en.wikipedia.org/wiki/Portal:Statistics) * [维基百科上的统计文章清单](https://en.wikipedia.org/wiki/List_of_statistics_articles) * [维基百科上的数学统计](https://en.wikipedia.org/wiki/Mathematical_statistics) * [维基百科的统计历史](https://en.wikipedia.org/wiki/History_of_statistics) * [维基百科上的描述性统计](https://en.wikipedia.org/wiki/Descriptive_statistics) * [维基百科上的统计推断](https://en.wikipedia.org/wiki/Statistical_inference) ## 摘要 在这篇文章中,您清楚地发现了为什么统计数据在一般情况下以及机器学习中的重要性,以及通常可用的方法类型。 具体来说,你学到了: * 统计通常被认为是应用机器学习领域的先决条件。 * 我们需要统计数据来帮助将观测结果转化为信息并回答有关观测样本的问题。 * 统计数据是一组数百年来开发的工具,用于总结数据并根据观察样本量化域的属性。 你有任何问题吗? 在下面的评论中提出您的问题,我会尽力回答。