# 探索 Kaggle 大师的方法论和心态:对 Diogo Ferreira 的采访
> 原文: [https://machinelearningmastery.com/discover-the-methodology-and-mindset-of-a-kaggle-master-an-interview-with-diogo-ferreira/](https://machinelearningmastery.com/discover-the-methodology-and-mindset-of-a-kaggle-master-an-interview-with-diogo-ferreira/)
在竞争机器学习中做得好怎么办?要真正深入研究这个问题,你需要挖掘那些做得好的人。
2010 年,我参加了一场 Kaggle 比赛,以预测未来国际象棋比赛的结果。这是一个令人着迷的问题,因为它要求你从历史游戏中对玩家的评级进行建模,并将这些评级传播到未来以进行预测。
我在比赛中做到了这样(第 17 或 10%),但迪奥戈·费雷拉获得第 4 名。迪奥戈是一个迷人的人,也是一个出色的沟通者,2011 年我有机会采访他,了解他参加比赛的情况。这篇文章是该访谈的编辑版本。
采访分为四个部分:
* **第 1 部分**探讨了 Diogo 的问题解决背景和方法
* **第 2 部分**关于 Kaggle 国际象棋评级比赛
* **第 3 部分**潜入迪奥戈的国际象棋评级竞赛解决方案
* **第 4 部分**给我们留下了一些关于竞争机器学习从业者的最终想法(最好的部分!)
喝一杯,坐下来享受吧!
## 第 1 部分:背景和方法
[![Diogo Ferreira](img/295643de0d31ba9cba731e02dcb77364.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/Diogo-Ferreira.jpg)
迪奥戈·费雷拉
**杰森**:你能介绍一下自己吗?
**Diogo** :我的名字是 Diogo R. Ferreira,我是里斯本技术大学(葡萄牙)的信息系统教授,在那里我教数据库系统,企业集成和业务流程管理(BPM) 。我也是 BPM 领域的活跃研究员,特别关注过程挖掘,即与从信息系统记录的事件日志中提取过程模型相关的技术。
**Jason** :您的教育和工作经历中有哪些经验,如果有的话,有助于您参与国际象棋评级竞赛并获得成功?
Process Mining,我的研究领域,与商业智能和数据挖掘领域相关,这使我接触到一系列技术,这些技术通常可以被调整或作为解决不同问题的灵感。
至于国际象棋评级比赛,我对国际象棋有着长期的兴趣,这让我对这场比赛特别感兴趣。
**Jason** :您对流程挖掘的描述激发了挖掘 Web 服务器日志的想法,并将结果与流经网站相关联。
确切地说,这是我们所做的事情,只有事件日志(即信息系统记录的事件)才能来自过程感知系统(例如工作流/ BPM 系统)或其他(例如应用服务器日志)
**Jason** :像我这样熟悉的流程挖掘的例子是什么,例如,是否有规范的案例研究或用例?
有关介绍,我或许可以引导您阅读最近发布的 [Process Mining Manifesto](http://www.win.tue.nl/ieeetfpm/lib/exe/fetch.php?media=shared:process_mining_manifesto-small.pdf) (PDF)。
对于一些案例研究示例,我可以引导您访问[我自己的一些出版物](http://web.ist.utl.pt/diogo.ferreira/)。 [流程挖掘网站](http://www.processmining.org)还有更多内容。
**Jason** :最近有哪些 BI 和数据挖掘技术的例子,你已经适应了你的努力,如果有的话,以及你试图解决的问题类型?
序列聚类,期望最大化,序列分析,图形分析,是我已经使用或适用于过程挖掘应用程序的技术。
**杰森**:一般来说,当提出新的数据集,评级或其他时,你从哪里开始,你的方法是什么?
首先,我通常会开发一组简单的程序来从数据集中提取特征,以便更好地理解它。通常情况下,数据集对于手动检查而言太大,因此开始使用一些基本工具非常有用,以便找出应该进一步的方向。
然后,在我对数据有感觉之后,我通常尝试一些相当简单,甚至是微不足道的方法来执行“健全性检查”,即只是为了验证结果是我期望的,以便获得对数据集。
在我充满信心之后,我开始尝试更精细的方法。这些方法通常都是我自己做的。在稍后阶段,我通常将我的结果与众所周知的秘籍或技术进行比较。
**杰森**:我发现你的方法论描述引人入胜,谢谢你。您最近使用哪些工具或技术从新数据集中提取要素?
为了从新数据集中提取特征,我主要使用 ad-hoc 自定义代码,我发现使用 Python 和相关库(如 numpy,matplotlib,networkx 等)非常有效。
**Jason** :在谈到这种情况下的功能时,你是什么意思? (汇总统计数据?数据中的结构?预测规则?)
精确汇总统计数据和/或在数据集中查找共性和频繁行为的方法。
**Jason** :如果您可以手动检查数据集,那么您使用了哪些示例或工具?
我只是使用简单的搜索和查找/查找所有/ find-in-files / grep 功能,例如大多数文本编辑器中提供的功能。
**Jason** :在处理数据问题时,你会准备什么类型的任务来定制代码和脚本,以及你会将哪些类型的任务转向工具和库?
我经常自己编写代码,即使有相似的代码可用。这是因为逐步开发代码也是了解有关数据的更多信息的一种方式。
我转向工具和库,特别是当我想将我的结果与其他人的结果或竞争方法进行比较时。
**Jason** :你提到:“_ 逐步开发代码是一种了解数据 _ 的方法,这非常有趣。如果可能的话,请你详细说明一下吗? (例如,你指的是什么具体的东西,如:原型创意?犯错误?探索死胡同?时间思考?发现边缘情况?)
当我开始处理数据时,我通常会花时间检查每个中间步骤(编码)是否按预期工作,并且在该过程中,人们学习了很多关于数据本身的知识。我通常不会探索死胡同或边缘情况,我只是抓住机会在路上停下来(即如果将编码与驾驶进行比较,我会说我会偶尔停下来看看周围看看景观,而不仅仅是直接开往目的地)
**杰森**:你对拼图,机器学习,算法,编程,统计学,数学,心理学有多大程度的兴趣?
我对所有这些方面都有兴趣,但我常常受到手头特定问题的激励,无论面积如何。我对这些领域的每个问题都不感兴趣,但我可能对来自不同领域的一些特殊问题感兴趣。
**Jason** :一般来说,你会发现哪些方法可以返回常见的数据任务?
我会说,由于我的研究领域(过程挖掘),我反复回到文本/字符串处理和图形分析,我发现这些技能在不同的问题中经常有用。
**Jason** :您认为哪些技术,工具和/或库对于 a)文本/字符串处理和 b)图表分析有用?
对于文本/弹簧处理,我使用标准 Python 模块中提供的简单函数(查找,拆分等)
对于图形分析,使用诸如 networkx 和 Graphviz 之类的专用库通常很有用。
**Jason** :您在不同的问题中使用过文本/字符串处理和/或图形分析的一些创造性方法或最近的例子是什么?
最近我一直在分析来自两家不同医院的事件日志,我正在使用那些工具/技术。
**杰森**:一般来说,当你的方法没有给出你期望的结果时,你如何保持动力?
我可能觉得这种方法有问题,在这种情况下我会尝试修复它。或者,如果它没有任何问题,那么我就开始考虑对同一问题采用完全不同的方法。无论哪种方式,这往往让我有动力。
**Jason** :您认为哪些技能能够成为此类数据竞赛的参与者?
我认为竞争参与者必须有一些坚定和不可动摇的动力,而不是技能。我见过非常熟练的人甚至没有付出努力,也没有那些技术娴熟的人诉诸各种各样的东西,其中一些人最终证明是有效的。所以这不是一个人知道多少的问题,而是一个人愿意付出多少努力。
**Jason** :我有兴趣更多地探索你的动机与技能哲学。你能否谈谈“创造力和/或思想的多样性”和“尝试不同事物的适应性”比“原始技能,智慧,经验”更有用(请原谅我的简洁解释)?
一个基本事实是,最重要的是,事情是否已经完成。技能意味着可以做到这一点,但只有动力才能让人开始这样做。
事情通过其结果进行评估这一事实意味着在某些情况下会产生不幸的后果,例如投入了大量时间并且最终没有得到结果的人。这就是技能发挥作用的地方:它使人们更有可能从投资中获得一些成果。
但仅靠技能还不足以应对某些挑战的复杂性。即使有技巧,手头的任务也可能很难,所以这就是动力再次出现的地方。这是一个开始,它让人继续前进。当然,法拉利(更多的技能)会更快地获得一辆,但这并不意味着用一辆装备较少的车辆,甚至是不能在同一条道路/路径上行驶的车辆也不可能到达那里。如果到达那里是最重要的,那么无论是哪辆车还是路径都无关紧要。拥有汽油(动力)到达那里变得比拥有快速汽车(技能)更重要。
**Jason** :在解决数据问题时,调整模型可能在某个地方占有一席之地,在尝试新模型和调整有希望的模型之间可以做些什么来寻求富有成效的平衡?
改善的速度告诉我们何时改变策略。当改善率开始下降时,是时候开始考虑新模型了。
**Jason** :一般来说,您是否更愿意花时间调整给定模型的数据问题或尝试不同的模型?
就我个人而言,我宁愿花时间尝试不同的模型,但实际上发生的情况是,当模型开始看起来很有前途时,我经常投入大量时间来调整它,这让我花费的时间少于我想要尝试不同模型的时间。这种情况发生在国际象棋比赛中,尽管我考虑过尝试其他方法,但最终我花了大部分时间来调整和改进单一模型。
**杰森**:为什么你认为模型调整不如探索新模型(例如,增量增益与替代范式)相比不那么令人满意?
因为人们可能会花费大量时间进行调整,并且最终仍然受到原始模型假设的限制。比如说,通过调整可以获得 20%的改进,而使用新模型可以得到 50%。如果可能的话,突破性思维往往带来更多回报 - 至少这是我个人的感受。
## 第 2 部分:国际象棋评级竞赛
[![White vs Black](img/d5f4f4a6855e0b062f01b6155f3d5065.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/White-versus-Black.jpg)
白色与黑色
摄影: [Gideon](https://www.flickr.com/photos/malias/73169727/) ,保留一些权利
**Jason** :你提到了国际象棋的长期兴趣,长期兴趣是什么?你有多长时间了?
在我十几岁的时候,我曾经参加国际象棋比赛,今天我仍然关注国际象棋界的情况,尽管我不再是一名活跃的球员。有一段时间,我仍然在线玩,这是我希望在我十几岁时可以使用的东西。
**杰森**:用你自己的话来说,国际象棋评级竞赛需要解决的问题是什么?
在我看来,国际象棋评级竞赛的目的是设计一个评级系统,以便为评级玩家之间的游戏结果提供更准确的预测。
**Jason** :我读到你是从铅笔和纸开始的,当你第一次参加比赛时你在考虑或探索什么?你是如何抵制跳上电脑和制作剧本的?
当我第一次开始考虑比赛时,我正在寻找一个合适的概率模型,我在纸上划了一些东西,有时相同的公式会一遍又一遍地出现。
与此同时,我开始编写一些简单的任务,例如读取/解析数据和获取一些摘要统计信息。
过了一段时间,我经常从编码切换到在纸上抓东西,两个阵营的事情都开始快速发展。
**杰森**:从高级别来看,请总结一下你在比赛过程中的线性步骤?
我的方法的基础模型开发得相当快,在整个竞赛过程中我使用了基本相同的模型,偶尔会有一些变化。
花费我时间开发的是一个合适的加权函数来计算时间因素(即最近的游戏比旧游戏更重要的事实)
我一直在尝试几个选项,在私人数据集中,我观察到了一些改进,尽管公开得分对我是否走上正确的轨道几乎没有信心。
**杰森**:你在比赛过程中与谁合作过什么? (电子邮件交流,形式讨论等)
我与一位同事进行了几次简短的对话,关于竞争以及有关数据挖掘,过度拟合等的一般情况。在这些对话中,我们主要讨论了竞争的建立方式,而不是特定的方法。我还记得在加权函数中使用正态分布的一些建议,但最终我设计了自己的函数。
**杰森**:我读到你希望在比赛上花几天时间,让你参与这么久的事情是什么?
这有两个有力的原因:
1. 每天在公共排行榜上看到其他人的进步,并将其与我自己的排行榜进行比较,让我对这场比赛感到非常激动。
2. 事实上,我自己的交叉验证结果与公共排行榜上的结果之间几乎没有相关性。这让我忙了一段时间,因为我不确定我的方法到底会如何实际表现。
**杰森**:用简单的话来说,你(最成功的)解决竞争问题的方法是什么?
我认为这是最简单的一个,即当我将代码简化为真正基本的东西时,我认为它是一个坚实的基础。其他想法,例如获得一些改进的智能修复,被证明是非常耗时的,并且几乎没有提供额外的奖励。
**Jason** :您在比赛过程中执行了哪些数据汇总和数据可视化,如果有的话?
我使用 networkx Python 库来研究数据集中玩家之间的连接(游戏)。
除此之外,我使用了摘要统计数据,例如每月游戏,每月玩家每月游戏等。
**Jason** :您对数据集的哪些经典方法适用于数据集,如果有的话,以及何时在比赛过程中?
我没用过。我的想法总是为每个玩家获得 0.0 到 1.0 之间的标准化评级。
**Jason** :您已经发布了有关您的方法和源代码的详细说明 - 为什么您在描述中付出了这样的努力并免费发布代码?
好吧,我习惯写科学论文,以这种形式提出描述是有道理的。至于源代码,我认为几乎没有人会遇到实施该方法的麻烦,即使他们这样做也许他们不会采取必要的谨慎措施来确保一切都按照原先的意图实施;这可能会产生关于我的方法的报告,其结果比我用自己的代码获得的结果更糟糕。那么为什么不将源代码作为参考实现发布,就是这样。
**Jason** :回顾一下,您认为计算时间或计算机硬件是否会对您或您的方法产生影响?
肯定是的。我记得我的笔记本电脑连续运行了好几天。在某些时候,我甚至尝试使用我们大学的服务器,却发现它在我的笔记本电脑上运行得更快。参数调整通常需要数小时甚至数天才能完成。我经常发现自己每小时检查事情的进展情况,即使是在半夜,也希望我能有更多的机器可以同时运行。
唯一的原因是这并不是绝对关键的事实是我们每天仅限于 2 次提交,我发现这通常是相当不错的。我记得将实际提交的数量除以同一时期允许的提交总数,并得到接近 50%的数字。总的来说,我认为我设法充分利用了我所拥有的提交数量。
**Jason** :讨论使用排行榜以及您在私有数据集中看到的差异?
如果我没记错的话,我将公共数据集分为 1 到 100 个月的交叉验证数据集:1 到 95(训练)+ 96 到 100(测试)。 (我还和 1 到 90 + 91 到 95,以及其他人一起工作)
发生的事情是,交叉验证数据集上的更好结果通常意味着公共排行榜的结果更糟。也许之前的提交更好,因为过度拟合或只是运气。无论如何,这无助于建立对我所尝试的事物的信心。交叉验证结果表明它肯定会更好,但公共排行榜却表示不然。在某些时候,我(以及其他参与者)可能会开始觉得公共数据集和排行榜存在很大差异。最后,我认为这只是因为排行榜得分是根据相当少量的数据计算的(20%)。
**Jason** :您在私人搜索结果中搜索的统计数据与公共排行榜相比(如果有的话)(例如,您是否探索了两者之间的相关性)?
我没有探索两者之间的任何相关性,因为它似乎没有。
至于统计数据,我记得竞争使用月份汇总的 RMSE 作为误差测量。我记得尝试使用其他测量,例如每场比赛的绝对偏差,每场比赛的 RMSE 等等。所以我做了一些参数调整,试图最小化这些其他错误测量。然而,最终似乎使用月份汇总的 RMSE 更好。
**Jason** :基于您对成功或以后删除的数据的观察,'_ 智能修复 _'有哪些例子?
这是一个例子:在一些游戏中,白色或黑色胜利的预测接近 1.0(例如 0.98 概率)。所以我所做的是设置一个阈值(例如 0.98),高于该阈值,结果将转换为 1.0。这有助于略微降低整体预测误差,问题在于阈值的选择非常敏感,所以最终我放弃了使用这些技巧。
**Jason** :您能否回顾一下有关回顾摘要统计数据和数据探索的有趣观察结果?
我记得的一件事是,最近几个月的游戏比过去几个月还多。我认为这也解释了需要这种快速下降的时间函数。由于游戏很少,很难得出结论,因此旧游戏并不是很有用。然而,即使是最近的游戏也没有那么多(总数),所以老游戏仍然被证明对预测有用。我认为,这是为什么选择时间加权函数如此困难的另一个原因。
**杰森**:为什么你在整个参与过程中专注于标准化评级?
因为我主要是在处理概率,而且直觉上我也希望将玩家的等级表示为概率测量(更多内容见下文)。
**Jason** :您是否记录了您正在考虑或尝试的事情的笔记或日志?
我在单独的文件中保存了每个提交的代码。但是,我有一个单独的参数调整程序,我没有保存它的每个版本。在如此多的提交中(最终 100 多个),有时我不确定我是否已经尝试过某些东西。
## 第 3 部分:有关特定解决方案的问题
[![graphs](img/87a5d52c47f700d58c5363905268238f.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/10/graphs.png)
我使用的时间加权函数的图,Diogo 的报告中对此进行了解释。
**Jason** :你的方法只有 100 多行 Python 代码(没有注释),我认为这是令人难以置信的。你能描述一下你的算法(用简单的语言)吗?
基本上,我估计每个玩家 X 的强度作为对公共参考玩家 Z 的预期得分。(这个参考玩家 Z 是抽象实体,它不存在,它的强度不需要计算,其目的只是将所有球员的实力带到可比较的条件下。)
如果我们将每个玩家 X 的结果与参考玩家 Z 进行比较,那么我们将获得玩家 X 的评级,就是这样。但是我们没有 X 对阵 Z 的结果,我们得到的是 X 对阵一组对手的结果,其实力也是未知数。
在我的方法中,我设计了一种方法来根据对手的力量来计算 X 的强度。我们根据 X 的对手的对手以及 X 的对手的对手的反对者来计算 X 的对手的力量,依此类推;它成为一种迭代算法,其中每个玩家的力量必须同时计算并经过多次迭代,直到它最终收敛。
除此之外,我还添加了时间加权功能,以使旧版游戏对结果的影响更小。
**Jason** :你的方法专注于加权函数,你从哪里开始,它是如何随着时间的推移而改变的?
我开始使用指数函数,然后是正常函数,然后是线性函数等,直到我最终确定了我报告的简单函数和图中(上图)。
**Jason** :你的方法使用 Bradley-Terry 模型,这个模型是什么,你是如何利用它的?
[布拉德利 - 特里模型](http://en.wikipedia.org/wiki/Pairwise_comparison)可能是“配对比较”领域最古老的东西之一(即根据他们之间的比赛估算球员/球队的实力)
这很简单:给定两个玩家 X 和 Y 的强度,一个简单的公式提供一个介于 0 和 1 之间的数字,这可以作为 X 赢得 Y 的“概率”。参见我的报告中的公式(1)。
在我的方法中,我直接使用布拉德利 - 特里公式,在那里我将每个玩家的力量作为赢得虚构参考玩家 Z 的概率,如上所述。
**Jason** :在进行预测之前,你是如何探索玩家初始评级的收敛的?
收敛很慢,这是我的方法中的主要计算问题。我想进行参数调整,但每次尝试不同的参数值时,我都要等待很长时间才能使整个事物(评级)再次收敛。无论如何,我试图忍受它,因为缺乏更快的方法。
**Jason** :鉴于玩家预测评分是基于他们的估计评分,您是否花了更多时间探索模型对评分估计或评级预测的影响?
我花了所有时间试图设计一种方法来估计玩家评分,以便在预测游戏结果时达到最低误差。关于球员评分的不确定性,我没有研究任何方面。但是,我倾向于认为 [TrueSkill](http://research.microsoft.com/en-us/projects/trueskill/) 效果很好,因为它包含了球员评分的不确定性。
**杰森**:你尝试过哪些想法或策略没有成功?
使用绘图扩展 Bradley-Terry 模型不起作用。尽管阅读了很多关于它(其他作者的工作)并实施它,尽管国际象棋结果受到抽奖的困扰,但使用 Bradley-Terry 模型并结合抽签的可能性对我来说并不适用。我认为这是因为,总而言之,我们所拥有的训练数据对于这一目的来说相对稀缺。
**杰森**:您在准备私人交叉验证训练/测试数据集时遇到了哪些问题?
我尝试了几个交叉验证数据集,因为我不确定哪一个与实际测试数据最相似,我担心我的参数调整会过度拟合到交叉验证数据集并且在实际测试数据。
在某些时候,我记得将参数调整作为 6 个交叉验证数据集的平均值!
**Jason** :您是否在准备模型时过滤或排除了任何数据,如果没有,您是否考虑排除旧数据?
我试图抛弃过去历史的一半(最老的一半),但对未来游戏的预测并没有好转。
**Jason** :我读到你使用爬山本地搜索来调整模型参数,你是否手动选择了初始值?
是的,但我经常根据之前的结果选择这些值。
**Jason** :您是否考虑过其他模型调整方法(全局搜索算法,非线性相互依赖假设,分层搜索)?
不,我没有时间阅读和实现其他优化算法,我只是试图达到(本地)最大值,即使这需要使用最粗糙的方法。
**Jason** :我发现你回去并获得新的模型参数以获得最终排名第一的得分令人着迷。你为什么这样做(如果模型不能做得更好的话),你是否考虑进一步探讨这个问题(改变交叉验证套件的假设,重新设计模型的进一步改进)?
我之所以这样做,是因为我确信如果我的模型如此接近第一名,那么它可以通过不同的参数选择超越它。但请注意,这个优于第一的结果是过度拟合实际的测试数据。我相信其他参与者一旦掌握了完整的测试数据,就能够提高他们的分数。
另一方面,在比赛结束后的电子邮件中, [Jeff Sonas](http://en.wikipedia.org/wiki/Jeff_Sonas) 告诉我,最终得分的计算方式实际上存在问题。由于测试数据是如何按玩家月份准备和汇总的,因此一些游戏在公共和私人测试数据之间共享。这可能影响了最终结果(例如,有利于一些过度装配公共测试数据的参与者)
在同一封电子邮件中,杰夫写道,当他从测试数据中拿走共享游戏时,我的方法就达到了第一位。
## 第 4 部分:结局
**Jason** :您参与国际象棋评级竞赛的一般问题解决方法有哪些变化?
总的来说,我觉得参加这次比赛让我对从数据中分析和得出结论变得更加谨慎。
能够预测未来结果可能是发现人们真正了解数据的最佳方式。将模型拟合到数据并得出结论是相当容易的;但要获得足够的知识来进行准确的预测要困难得多。
对数据中的不确定性(相对于一致性的数量)产生一种感觉并不容易,并且可能需要大量的时间和艰苦的工作。
最后,当人们意识到存在的不确定性时,人们也可以形成对任何预测所固有的不确定性的想法。超越某一点,非常准确的预测只能是纯粹运气的产物。
所以看到其他人有更好的预测并不一定意味着他们有更好的方法(即使它是一个很好的指标)。不知何故,在不确定的情况下,他们碰巧更接近现场。
在本次比赛中,从公共排行榜到最终排名的位置变化显示了不确定性在本次比赛中的作用。当我第一次开始怀疑这个时(甚至在比赛结束之前),我感到很震惊,这就是为什么我对数据做出明确陈述变得更加谨慎。
**Jason** :对于开始数据竞赛的人,你有什么建议?
我认为不应该在他/她自己的动机中贬低一个人,直到一个人抓住一个完全岌岌可危的感觉,以及数据发生了什么。
当开始参加这样的比赛时,人们可能会看到快速连续的结果,最好不要考虑这些结果,直到他们自己的想法成熟为止。只有当我们做出体面的尝试时,我们才应该开始关注别人正在做的事情。
**Jason** :鉴于几乎无限的资源(时间,金钱,博士团队),您理想化的数据竞争总体战略或方法是什么? (你将如何善用资源?)
我认为,如果处理器之间的消息传递所需的计算能力明显低于每个节点的实际计算,那么并行计算是值得的。
因此,如果需要始终保持同步,让几个思想(或机器)在同一个问题上一起工作并没有帮助。
我发现真正有用的是思想的交流。因此,当不同的人自己解决同样的问题,并且在他们认真思考了一段时间之后,他们会面交流思想,这往往会为讨论带来新的亮点,并成为突破的源泉。
因此,作为团队努力的策略,我会让每个人都自己工作,一旦他们准备好或需要它们,他们应该会面并交流经验和结果。这些会议可以重复几轮,我期望从一轮到下一轮的结果有一些显着的改进。
**杰森**:你想做出最后的评论吗?
比赛非常有趣,虽然它的实际兴趣仅限于国际象棋评级,但我觉得我正在努力使用。
考虑到这种竞争可以产生的兴趣,我肯定会花时间对这种竞争的设置方式进行双重和三重检查,以确保每个人投入的所有努力都能带来最大利益。对社区。
## 进一步阅读
* 该竞赛的网站名为“[国际象棋评级 - Elo 与世界其他地区](http://www.kaggle.com/c/chess)”,包括最终的私人排行榜
* 迪奥戈的帖子我做了什么帖子标题为“[我是如何做到的:迪奥戈·费雷拉在 Elo 国际象棋评级竞赛中排名第四](http://blog.kaggle.com/2010/11/30/how-i-did-it-diogo-ferreira-on-4th-place-in-elo-chess-ratings-competition/)”。
* 迪奥戈有一个主页他的详细信息和最终提交的页面,包括题为“[根据历史数据](http://web.ist.utl.pt/diogo.ferreira/chess/)预测国际象棋游戏结果”和 Python 代码的论文。
* 迪奥戈在里斯本技术大学有一个[员工网页,其中包括一份出版物清单](http://web.ist.utl.pt/diogo.ferreira/)
- Machine Learning Mastery 应用机器学习教程
- 5竞争机器学习的好处
- 过度拟合的简单直觉,或者为什么测试训练数据是一个坏主意
- 特征选择简介
- 应用机器学习作为一个搜索问题的温和介绍
- 为什么应用机器学习很难
- 为什么我的结果不如我想的那么好?你可能过度拟合了
- 用ROC曲线评估和比较分类器表现
- BigML评论:发现本机学习即服务平台的聪明功能
- BigML教程:开发您的第一个决策树并进行预测
- 构建生产机器学习基础设施
- 分类准确性不够:可以使用更多表现测量
- 一种预测模型的巧妙应用
- 机器学习项目中常见的陷阱
- 数据清理:将凌乱的数据转换为整洁的数据
- 机器学习中的数据泄漏
- 数据,学习和建模
- 数据管理至关重要以及为什么需要认真对待它
- 将预测模型部署到生产中
- 参数和超参数之间有什么区别?
- 测试和验证数据集之间有什么区别?
- 发现特征工程,如何设计特征以及如何获得它
- 如何开始使用Kaggle
- 超越预测
- 如何在评估机器学习算法时选择正确的测试选项
- 如何定义机器学习问题
- 如何评估机器学习算法
- 如何获得基线结果及其重要性
- 如何充分利用机器学习数据
- 如何识别数据中的异常值
- 如何提高机器学习效果
- 如何在竞争机器学习中踢屁股
- 如何知道您的机器学习模型是否具有良好的表现
- 如何布局和管理您的机器学习项目
- 如何为机器学习准备数据
- 如何减少最终机器学习模型中的方差
- 如何使用机器学习结果
- 如何解决像数据科学家这样的问题
- 通过数据预处理提高模型精度
- 处理机器学习的大数据文件的7种方法
- 建立机器学习系统的经验教训
- 如何使用机器学习清单可靠地获得准确的预测(即使您是初学者)
- 机器学习模型运行期间要做什么
- 机器学习表现改进备忘单
- 来自世界级从业者的机器学习技巧:Phil Brierley
- 模型预测精度与机器学习中的解释
- 竞争机器学习的模型选择技巧
- 机器学习需要多少训练数据?
- 如何系统地规划和运行机器学习实验
- 应用机器学习过程
- 默认情况下可重现的机器学习结果
- 10个实践应用机器学习的标准数据集
- 简单的三步法到最佳机器学习算法
- 打击机器学习数据集中不平衡类的8种策略
- 模型表现不匹配问题(以及如何处理)
- 黑箱机器学习的诱惑陷阱
- 如何培养最终的机器学习模型
- 使用探索性数据分析了解您的问题并获得更好的结果
- 什么是数据挖掘和KDD
- 为什么One-Hot在机器学习中编码数据?
- 为什么你应该在你的机器学习问题上进行抽样检查算法
- 所以,你正在研究机器学习问题......
- Machine Learning Mastery Keras 深度学习教程
- Keras 中神经网络模型的 5 步生命周期
- 在 Python 迷你课程中应用深度学习
- Keras 深度学习库的二元分类教程
- 如何用 Keras 构建多层感知器神经网络模型
- 如何在 Keras 中检查深度学习模型
- 10 个用于 Amazon Web Services 深度学习的命令行秘籍
- 机器学习卷积神经网络的速成课程
- 如何在 Python 中使用 Keras 进行深度学习的度量
- 深度学习书籍
- 深度学习课程
- 你所知道的深度学习是一种谎言
- 如何设置 Amazon AWS EC2 GPU 以训练 Keras 深度学习模型(分步)
- 神经网络中批量和迭代之间的区别是什么?
- 在 Keras 展示深度学习模型训练历史
- 基于 Keras 的深度学习模型中的dropout正则化
- 评估 Keras 中深度学习模型的表现
- 如何评价深度学习模型的技巧
- 小批量梯度下降的简要介绍以及如何配置批量大小
- 在 Keras 中获得深度学习帮助的 9 种方法
- 如何使用 Keras 在 Python 中网格搜索深度学习模型的超参数
- 用 Keras 在 Python 中使用卷积神经网络进行手写数字识别
- 如何用 Keras 进行预测
- 用 Keras 进行深度学习的图像增强
- 8 个深度学习的鼓舞人心的应用
- Python 深度学习库 Keras 简介
- Python 深度学习库 TensorFlow 简介
- Python 深度学习库 Theano 简介
- 如何使用 Keras 函数式 API 进行深度学习
- Keras 深度学习库的多类分类教程
- 多层感知器神经网络速成课程
- 基于卷积神经网络的 Keras 深度学习库中的目标识别
- 流行的深度学习库
- 用深度学习预测电影评论的情感
- Python 中的 Keras 深度学习库的回归教程
- 如何使用 Keras 获得可重现的结果
- 如何在 Linux 服务器上运行深度学习实验
- 保存并加载您的 Keras 深度学习模型
- 用 Keras 逐步开发 Python 中的第一个神经网络
- 用 Keras 理解 Python 中的有状态 LSTM 循环神经网络
- 在 Python 中使用 Keras 深度学习模型和 Scikit-Learn
- 如何使用预训练的 VGG 模型对照片中的物体进行分类
- 在 Python 和 Keras 中对深度学习模型使用学习率调度
- 如何在 Keras 中可视化深度学习神经网络模型
- 什么是深度学习?
- 何时使用 MLP,CNN 和 RNN 神经网络
- 为什么用随机权重初始化神经网络?
- Machine Learning Mastery 深度学习 NLP 教程
- 深度学习在自然语言处理中的 7 个应用
- 如何实现自然语言处理的波束搜索解码器
- 深度学习文档分类的最佳实践
- 关于自然语言处理的热门书籍
- 在 Python 中计算文本 BLEU 分数的温和介绍
- 使用编码器 - 解码器模型的用于字幕生成的注入和合并架构
- 如何用 Python 清理机器学习的文本
- 如何配置神经机器翻译的编码器 - 解码器模型
- 如何开始深度学习自然语言处理(7 天迷你课程)
- 自然语言处理的数据集
- 如何开发一种深度学习的词袋模型来预测电影评论情感
- 深度学习字幕生成模型的温和介绍
- 如何在 Keras 中定义神经机器翻译的编码器 - 解码器序列 - 序列模型
- 如何利用小实验在 Keras 中开发字幕生成模型
- 如何从头开发深度学习图片标题生成器
- 如何在 Keras 中开发基于字符的神经语言模型
- 如何开发用于情感分析的 N-gram 多通道卷积神经网络
- 如何从零开始开发神经机器翻译系统
- 如何在 Python 中用 Keras 开发基于单词的神经语言模型
- 如何开发一种预测电影评论情感的词嵌入模型
- 如何使用 Gensim 在 Python 中开发词嵌入
- 用于文本摘要的编码器 - 解码器深度学习模型
- Keras 中文本摘要的编码器 - 解码器模型
- 用于神经机器翻译的编码器 - 解码器循环神经网络模型
- 浅谈词袋模型
- 文本摘要的温和介绍
- 编码器 - 解码器循环神经网络中的注意力如何工作
- 如何利用深度学习自动生成照片的文本描述
- 如何开发一个单词级神经语言模型并用它来生成文本
- 浅谈神经机器翻译
- 什么是自然语言处理?
- 牛津自然语言处理深度学习课程
- 如何为机器翻译准备法语到英语的数据集
- 如何为情感分析准备电影评论数据
- 如何为文本摘要准备新闻文章
- 如何准备照片标题数据集以训练深度学习模型
- 如何使用 Keras 为深度学习准备文本数据
- 如何使用 scikit-learn 为机器学习准备文本数据
- 自然语言处理神经网络模型入门
- 对自然语言处理的深度学习的承诺
- 在 Python 中用 Keras 进行 LSTM 循环神经网络的序列分类
- 斯坦福自然语言处理深度学习课程评价
- 统计语言建模和神经语言模型的简要介绍
- 使用 Keras 在 Python 中进行 LSTM 循环神经网络的文本生成
- 浅谈机器学习中的转换
- 如何使用 Keras 将词嵌入层用于深度学习
- 什么是用于文本的词嵌入
- Machine Learning Mastery 深度学习时间序列教程
- 如何开发人类活动识别的一维卷积神经网络模型
- 人类活动识别的深度学习模型
- 如何评估人类活动识别的机器学习算法
- 时间序列预测的多层感知器网络探索性配置
- 比较经典和机器学习方法进行时间序列预测的结果
- 如何通过深度学习快速获得时间序列预测的结果
- 如何利用 Python 处理序列预测问题中的缺失时间步长
- 如何建立预测大气污染日的概率预测模型
- 如何开发一种熟练的机器学习时间序列预测模型
- 如何构建家庭用电自回归预测模型
- 如何开发多步空气污染时间序列预测的自回归预测模型
- 如何制定多站点多元空气污染时间序列预测的基线预测
- 如何开发时间序列预测的卷积神经网络模型
- 如何开发卷积神经网络用于多步时间序列预测
- 如何开发单变量时间序列预测的深度学习模型
- 如何开发 LSTM 模型用于家庭用电的多步时间序列预测
- 如何开发 LSTM 模型进行时间序列预测
- 如何开发多元多步空气污染时间序列预测的机器学习模型
- 如何开发多层感知器模型进行时间序列预测
- 如何开发人类活动识别时间序列分类的 RNN 模型
- 如何开始深度学习的时间序列预测(7 天迷你课程)
- 如何网格搜索深度学习模型进行时间序列预测
- 如何对单变量时间序列预测的网格搜索朴素方法
- 如何在 Python 中搜索 SARIMA 模型超参数用于时间序列预测
- 如何在 Python 中进行时间序列预测的网格搜索三次指数平滑
- 一个标准的人类活动识别问题的温和介绍
- 如何加载和探索家庭用电数据
- 如何加载,可视化和探索复杂的多变量多步时间序列预测数据集
- 如何从智能手机数据模拟人类活动
- 如何根据环境因素预测房间占用率
- 如何使用脑波预测人眼是开放还是闭合
- 如何在 Python 中扩展长短期内存网络的数据
- 如何使用 TimeseriesGenerator 进行 Keras 中的时间序列预测
- 基于机器学习算法的室内运动时间序列分类
- 用于时间序列预测的状态 LSTM 在线学习的不稳定性
- 用于罕见事件时间序列预测的 LSTM 模型体系结构
- 用于时间序列预测的 4 种通用机器学习数据变换
- Python 中长短期记忆网络的多步时间序列预测
- 家庭用电机器学习的多步时间序列预测
- Keras 中 LSTM 的多变量时间序列预测
- 如何开发和评估朴素的家庭用电量预测方法
- 如何为长短期记忆网络准备单变量时间序列数据
- 循环神经网络在时间序列预测中的应用
- 如何在 Python 中使用差异变换删除趋势和季节性
- 如何在 LSTM 中种子状态用于 Python 中的时间序列预测
- 使用 Python 进行时间序列预测的有状态和无状态 LSTM
- 长短时记忆网络在时间序列预测中的适用性
- 时间序列预测问题的分类
- Python 中长短期记忆网络的时间序列预测
- 基于 Keras 的 Python 中 LSTM 循环神经网络的时间序列预测
- Keras 中深度学习的时间序列预测
- 如何用 Keras 调整 LSTM 超参数进行时间序列预测
- 如何在时间序列预测训练期间更新 LSTM 网络
- 如何使用 LSTM 网络的 Dropout 进行时间序列预测
- 如何使用 LSTM 网络中的特征进行时间序列预测
- 如何在 LSTM 网络中使用时间序列进行时间序列预测
- 如何利用 LSTM 网络进行权重正则化进行时间序列预测
- Machine Learning Mastery 线性代数教程
- 机器学习数学符号的基础知识
- 用 NumPy 阵列轻松介绍广播
- 如何从 Python 中的 Scratch 计算主成分分析(PCA)
- 用于编码器审查的计算线性代数
- 10 机器学习中的线性代数示例
- 线性代数的温和介绍
- 用 NumPy 轻松介绍 Python 中的 N 维数组
- 机器学习向量的温和介绍
- 如何在 Python 中为机器学习索引,切片和重塑 NumPy 数组
- 机器学习的矩阵和矩阵算法简介
- 温和地介绍机器学习的特征分解,特征值和特征向量
- NumPy 对预期价值,方差和协方差的简要介绍
- 机器学习矩阵分解的温和介绍
- 用 NumPy 轻松介绍机器学习的张量
- 用于机器学习的线性代数中的矩阵类型简介
- 用于机器学习的线性代数备忘单
- 线性代数的深度学习
- 用于机器学习的线性代数(7 天迷你课程)
- 机器学习的线性代数
- 机器学习矩阵运算的温和介绍
- 线性代数评论没有废话指南
- 学习机器学习线性代数的主要资源
- 浅谈机器学习的奇异值分解
- 如何用线性代数求解线性回归
- 用于机器学习的稀疏矩阵的温和介绍
- 机器学习中向量规范的温和介绍
- 学习线性代数用于机器学习的 5 个理由
- Machine Learning Mastery LSTM 教程
- Keras中长短期记忆模型的5步生命周期
- 长短时记忆循环神经网络的注意事项
- CNN长短期记忆网络
- 逆向神经网络中的深度学习速成课程
- 可变长度输入序列的数据准备
- 如何用Keras开发用于Python序列分类的双向LSTM
- 如何开发Keras序列到序列预测的编码器 - 解码器模型
- 如何诊断LSTM模型的过度拟合和欠拟合
- 如何开发一种编码器 - 解码器模型,注重Keras中的序列到序列预测
- 编码器 - 解码器长短期存储器网络
- 神经网络中爆炸梯度的温和介绍
- 对时间反向传播的温和介绍
- 生成长短期记忆网络的温和介绍
- 专家对长短期记忆网络的简要介绍
- 在序列预测问题上充分利用LSTM
- 编辑器 - 解码器循环神经网络全局注意的温和介绍
- 如何利用长短时记忆循环神经网络处理很长的序列
- 如何在Python中对一个热编码序列数据
- 如何使用编码器 - 解码器LSTM来回显随机整数序列
- 具有注意力的编码器 - 解码器RNN体系结构的实现模式
- 学习使用编码器解码器LSTM循环神经网络添加数字
- 如何学习长短时记忆循环神经网络回声随机整数
- 具有Keras的长短期记忆循环神经网络的迷你课程
- LSTM自动编码器的温和介绍
- 如何用Keras中的长短期记忆模型进行预测
- 用Python中的长短期内存网络演示内存
- 基于循环神经网络的序列预测模型的简要介绍
- 深度学习的循环神经网络算法之旅
- 如何重塑Keras中长短期存储网络的输入数据
- 了解Keras中LSTM的返回序列和返回状态之间的差异
- RNN展开的温和介绍
- 5学习LSTM循环神经网络的简单序列预测问题的例子
- 使用序列进行预测
- 堆叠长短期内存网络
- 什么是教师强制循环神经网络?
- 如何在Python中使用TimeDistributed Layer for Long Short-Term Memory Networks
- 如何准备Keras中截断反向传播的序列预测
- 如何在使用LSTM进行训练和预测时使用不同的批量大小
- Machine Learning Mastery 机器学习算法教程
- 机器学习算法之旅
- 用于机器学习的装袋和随机森林集合算法
- 从头开始实施机器学习算法的好处
- 更好的朴素贝叶斯:从朴素贝叶斯算法中获取最多的12个技巧
- 机器学习的提升和AdaBoost
- 选择机器学习算法:Microsoft Azure的经验教训
- 机器学习的分类和回归树
- 什么是机器学习中的混淆矩阵
- 如何使用Python从头开始创建算法测试工具
- 通过创建机器学习算法的目标列表来控制
- 从头开始停止编码机器学习算法
- 在实现机器学习算法时,不要从开源代码开始
- 不要使用随机猜测作为基线分类器
- 浅谈机器学习中的概念漂移
- 温和介绍机器学习中的偏差 - 方差权衡
- 机器学习的梯度下降
- 机器学习算法如何工作(他们学习输入到输出的映射)
- 如何建立机器学习算法的直觉
- 如何实现机器学习算法
- 如何研究机器学习算法行为
- 如何学习机器学习算法
- 如何研究机器学习算法
- 如何研究机器学习算法
- 如何在Python中从头开始实现反向传播算法
- 如何用Python从头开始实现Bagging
- 如何用Python从头开始实现基线机器学习算法
- 如何在Python中从头开始实现决策树算法
- 如何用Python从头开始实现学习向量量化
- 如何利用Python从头开始随机梯度下降实现线性回归
- 如何利用Python从头开始随机梯度下降实现Logistic回归
- 如何用Python从头开始实现机器学习算法表现指标
- 如何在Python中从头开始实现感知器算法
- 如何在Python中从零开始实现随机森林
- 如何在Python中从头开始实现重采样方法
- 如何用Python从头开始实现简单线性回归
- 如何用Python从头开始实现堆栈泛化(Stacking)
- K-Nearest Neighbors for Machine Learning
- 学习机器学习的向量量化
- 机器学习的线性判别分析
- 机器学习的线性回归
- 使用梯度下降进行机器学习的线性回归教程
- 如何在Python中从头开始加载机器学习数据
- 机器学习的Logistic回归
- 机器学习的Logistic回归教程
- 机器学习算法迷你课程
- 如何在Python中从头开始实现朴素贝叶斯
- 朴素贝叶斯机器学习
- 朴素贝叶斯机器学习教程
- 机器学习算法的过拟合和欠拟合
- 参数化和非参数机器学习算法
- 理解任何机器学习算法的6个问题
- 在机器学习中拥抱随机性
- 如何使用Python从头开始扩展机器学习数据
- 机器学习的简单线性回归教程
- 有监督和无监督的机器学习算法
- 用于机器学习的支持向量机
- 在没有数学背景的情况下理解机器学习算法的5种技术
- 最好的机器学习算法
- 教程从头开始在Python中实现k-Nearest Neighbors
- 通过从零开始实现它们来理解机器学习算法(以及绕过坏代码的策略)
- 使用随机森林:在121个数据集上测试179个分类器
- 为什么从零开始实现机器学习算法
- Machine Learning Mastery 机器学习入门教程
- 机器学习入门的四个步骤:初学者入门与实践的自上而下策略
- 你应该培养的 5 个机器学习领域
- 一种选择机器学习算法的数据驱动方法
- 机器学习中的分析与数值解
- 应用机器学习是一种精英政治
- 机器学习的基本概念
- 如何成为数据科学家
- 初学者如何在机器学习中弄错
- 机器学习的最佳编程语言
- 构建机器学习组合
- 机器学习中分类与回归的区别
- 评估自己作为数据科学家并利用结果建立惊人的数据科学团队
- 探索 Kaggle 大师的方法论和心态:对 Diogo Ferreira 的采访
- 扩展机器学习工具并展示掌握
- 通过寻找地标开始机器学习
- 温和地介绍预测建模
- 通过提供结果在机器学习中获得梦想的工作
- 如何开始机器学习:自学蓝图
- 开始并在机器学习方面取得进展
- 应用机器学习的 Hello World
- 初学者如何使用小型项目开始机器学习并在 Kaggle 上进行竞争
- 我如何开始机器学习? (简短版)
- 我是如何开始机器学习的
- 如何在机器学习中取得更好的成绩
- 如何从在银行工作到担任 Target 的高级数据科学家
- 如何学习任何机器学习工具
- 使用小型目标项目深入了解机器学习工具
- 获得付费申请机器学习
- 映射机器学习工具的景观
- 机器学习开发环境
- 机器学习金钱
- 程序员的机器学习
- 机器学习很有意思
- 机器学习是 Kaggle 比赛
- 机器学习现在很受欢迎
- 机器学习掌握方法
- 机器学习很重要
- 机器学习 Q& A:概念漂移,更好的结果和学习更快
- 缺乏自学机器学习的路线图
- 机器学习很重要
- 快速了解任何机器学习工具(即使您是初学者)
- 机器学习工具
- 找到你的机器学习部落
- 机器学习在一年
- 通过竞争一致的大师 Kaggle
- 5 程序员在机器学习中开始犯错误
- 哲学毕业生到机器学习从业者(Brian Thomas 采访)
- 机器学习入门的实用建议
- 实用机器学习问题
- 使用来自 UCI 机器学习库的数据集练习机器学习
- 使用秘籍的任何机器学习工具快速启动
- 程序员可以进入机器学习
- 程序员应该进入机器学习
- 项目焦点:Shashank Singh 的人脸识别
- 项目焦点:使用 Mahout 和 Konstantin Slisenko 进行堆栈交换群集
- 机器学习自学指南
- 4 个自学机器学习项目
- ÁlvaroLemos 如何在数据科学团队中获得机器学习实习
- 如何思考机器学习
- 现实世界机器学习问题之旅
- 有关机器学习的有用知识
- 如果我没有学位怎么办?
- 如果我不是一个优秀的程序员怎么办?
- 如果我不擅长数学怎么办?
- 为什么机器学习算法会处理以前从未见过的数据?
- 是什么阻碍了你的机器学习目标?
- 什么是机器学习?
- 机器学习适合哪里?
- 为什么要进入机器学习?
- 研究对您来说很重要的机器学习问题
- 你这样做是错的。为什么机器学习不必如此困难
- Machine Learning Mastery Sklearn 教程
- Scikit-Learn 的温和介绍:Python 机器学习库
- 使用 Python 管道和 scikit-learn 自动化机器学习工作流程
- 如何以及何时使用带有 scikit-learn 的校准分类模型
- 如何比较 Python 中的机器学习算法与 scikit-learn
- 用于机器学习开发人员的 Python 崩溃课程
- 用 scikit-learn 在 Python 中集成机器学习算法
- 使用重采样评估 Python 中机器学习算法的表现
- 使用 Scikit-Learn 在 Python 中进行特征选择
- Python 中机器学习的特征选择
- 如何使用 scikit-learn 在 Python 中生成测试数据集
- scikit-learn 中的机器学习算法秘籍
- 如何使用 Python 处理丢失的数据
- 如何开始使用 Python 进行机器学习
- 如何使用 Scikit-Learn 在 Python 中加载数据
- Python 中概率评分方法的简要介绍
- 如何用 Scikit-Learn 调整算法参数
- 如何在 Mac OS X 上安装 Python 3 环境以进行机器学习和深度学习
- 使用 scikit-learn 进行机器学习简介
- 从 shell 到一本带有 Fernando Perez 单一工具的书的 IPython
- 如何使用 Python 3 为机器学习开发创建 Linux 虚拟机
- 如何在 Python 中加载机器学习数据
- 您在 Python 中的第一个机器学习项目循序渐进
- 如何使用 scikit-learn 进行预测
- 用于评估 Python 中机器学习算法的度量标准
- 使用 Pandas 为 Python 中的机器学习准备数据
- 如何使用 Scikit-Learn 为 Python 机器学习准备数据
- 项目焦点:使用 Artem Yankov 在 Python 中进行事件推荐
- 用于机器学习的 Python 生态系统
- Python 是应用机器学习的成长平台
- Python 机器学习书籍
- Python 机器学习迷你课程
- 使用 Pandas 快速和肮脏的数据分析
- 使用 Scikit-Learn 重新调整 Python 中的机器学习数据
- 如何以及何时使用 ROC 曲线和精确调用曲线进行 Python 分类
- 使用 scikit-learn 在 Python 中保存和加载机器学习模型
- scikit-learn Cookbook 书评
- 如何使用 Anaconda 为机器学习和深度学习设置 Python 环境
- 使用 scikit-learn 在 Python 中进行 Spot-Check 分类机器学习算法
- 如何在 Python 中开发可重复使用的抽样检查算法框架
- 使用 scikit-learn 在 Python 中进行 Spot-Check 回归机器学习算法
- 使用 Python 中的描述性统计来了解您的机器学习数据
- 使用 OpenCV,Python 和模板匹配来播放“哪里是 Waldo?”
- 使用 Pandas 在 Python 中可视化机器学习数据
- Machine Learning Mastery 统计学教程
- 浅谈计算正态汇总统计量
- 非参数统计的温和介绍
- Python中常态测试的温和介绍
- 浅谈Bootstrap方法
- 浅谈机器学习的中心极限定理
- 浅谈机器学习中的大数定律
- 机器学习的所有统计数据
- 如何计算Python中机器学习结果的Bootstrap置信区间
- 浅谈机器学习的Chi-Squared测试
- 机器学习的置信区间
- 随机化在机器学习中解决混杂变量的作用
- 机器学习中的受控实验
- 机器学习统计学速成班
- 统计假设检验的关键值以及如何在Python中计算它们
- 如何在机器学习中谈论数据(统计学和计算机科学术语)
- Python中数据可视化方法的简要介绍
- Python中效果大小度量的温和介绍
- 估计随机机器学习算法的实验重复次数
- 机器学习评估统计的温和介绍
- 如何计算Python中的非参数秩相关性
- 如何在Python中计算数据的5位数摘要
- 如何在Python中从头开始编写学生t检验
- 如何在Python中生成随机数
- 如何转换数据以更好地拟合正态分布
- 如何使用相关来理解变量之间的关系
- 如何使用统计信息识别数据中的异常值
- 用于Python机器学习的随机数生成器简介
- k-fold交叉验证的温和介绍
- 如何计算McNemar的比较两种机器学习量词的测试
- Python中非参数统计显着性测试简介
- 如何在Python中使用参数统计显着性测试
- 机器学习的预测间隔
- 应用统计学与机器学习的密切关系
- 如何使用置信区间报告分类器表现
- 统计数据分布的简要介绍
- 15 Python中的统计假设检验(备忘单)
- 统计假设检验的温和介绍
- 10如何在机器学习项目中使用统计方法的示例
- Python中统计功效和功耗分析的简要介绍
- 统计抽样和重新抽样的简要介绍
- 比较机器学习算法的统计显着性检验
- 机器学习中统计容差区间的温和介绍
- 机器学习统计书籍
- 评估机器学习模型的统计数据
- 机器学习统计(7天迷你课程)
- 用于机器学习的简明英语统计
- 如何使用统计显着性检验来解释机器学习结果
- 什么是统计(为什么它在机器学习中很重要)?
- Machine Learning Mastery 时间序列入门教程
- 如何在 Python 中为时间序列预测创建 ARIMA 模型
- 用 Python 进行时间序列预测的自回归模型
- 如何回溯机器学习模型的时间序列预测
- Python 中基于时间序列数据的基本特征工程
- R 的时间序列预测热门书籍
- 10 挑战机器学习时间序列预测问题
- 如何将时间序列转换为 Python 中的监督学习问题
- 如何将时间序列数据分解为趋势和季节性
- 如何用 ARCH 和 GARCH 模拟波动率进行时间序列预测
- 如何将时间序列数据集与 Python 区分开来
- Python 中时间序列预测的指数平滑的温和介绍
- 用 Python 进行时间序列预测的特征选择
- 浅谈自相关和部分自相关
- 时间序列预测的 Box-Jenkins 方法简介
- 用 Python 简要介绍时间序列的时间序列预测
- 如何使用 Python 网格搜索 ARIMA 模型超参数
- 如何在 Python 中加载和探索时间序列数据
- 如何使用 Python 对 ARIMA 模型进行手动预测
- 如何用 Python 进行时间序列预测的预测
- 如何使用 Python 中的 ARIMA 进行样本外预测
- 如何利用 Python 模拟残差错误来纠正时间序列预测
- 使用 Python 进行数据准备,特征工程和时间序列预测的移动平均平滑
- 多步时间序列预测的 4 种策略
- 如何在 Python 中规范化和标准化时间序列数据
- 如何利用 Python 进行时间序列预测的基线预测
- 如何使用 Python 对时间序列预测数据进行功率变换
- 用于时间序列预测的 Python 环境
- 如何重构时间序列预测问题
- 如何使用 Python 重新采样和插值您的时间序列数据
- 用 Python 编写 SARIMA 时间序列预测
- 如何在 Python 中保存 ARIMA 时间序列预测模型
- 使用 Python 进行季节性持久性预测
- 基于 ARIMA 的 Python 历史规模敏感性预测技巧分析
- 简单的时间序列预测模型进行测试,这样你就不会欺骗自己
- 标准多变量,多步骤和多站点时间序列预测问题
- 如何使用 Python 检查时间序列数据是否是固定的
- 使用 Python 进行时间序列数据可视化
- 7 个机器学习的时间序列数据集
- 时间序列预测案例研究与 Python:波士顿每月武装抢劫案
- Python 的时间序列预测案例研究:巴尔的摩的年度用水量
- 使用 Python 进行时间序列预测研究:法国香槟的月销售额
- 使用 Python 的置信区间理解时间序列预测不确定性
- 11 Python 中的经典时间序列预测方法(备忘单)
- 使用 Python 进行时间序列预测表现测量
- 使用 Python 7 天迷你课程进行时间序列预测
- 时间序列预测作为监督学习
- 什么是时间序列预测?
- 如何使用 Python 识别和删除时间序列数据的季节性
- 如何在 Python 中使用和删除时间序列数据中的趋势信息
- 如何在 Python 中调整 ARIMA 参数
- 如何用 Python 可视化时间序列残差预测错误
- 白噪声时间序列与 Python
- 如何通过时间序列预测项目
- Machine Learning Mastery XGBoost 教程
- 通过在 Python 中使用 XGBoost 提前停止来避免过度拟合
- 如何在 Python 中调优 XGBoost 的多线程支持
- 如何配置梯度提升算法
- 在 Python 中使用 XGBoost 进行梯度提升的数据准备
- 如何使用 scikit-learn 在 Python 中开发您的第一个 XGBoost 模型
- 如何在 Python 中使用 XGBoost 评估梯度提升模型
- 在 Python 中使用 XGBoost 的特征重要性和特征选择
- 浅谈机器学习的梯度提升算法
- 应用机器学习的 XGBoost 简介
- 如何在 macOS 上为 Python 安装 XGBoost
- 如何在 Python 中使用 XGBoost 保存梯度提升模型
- 从梯度提升开始,比较 165 个数据集上的 13 种算法
- 在 Python 中使用 XGBoost 和 scikit-learn 进行随机梯度提升
- 如何使用 Amazon Web Services 在云中训练 XGBoost 模型
- 在 Python 中使用 XGBoost 调整梯度提升的学习率
- 如何在 Python 中使用 XGBoost 调整决策树的数量和大小
- 如何在 Python 中使用 XGBoost 可视化梯度提升决策树
- 在 Python 中开始使用 XGBoost 的 7 步迷你课程