机器学习很重要 · Machine Learning Mastery 博客文章翻译

# 机器学习很重要 > 原文： [https://machinelearningmastery.com/machine-learning-that-matters/](https://machinelearningmastery.com/machine-learning-that-matters/) 阅读引导机器学习，路易斯提到了一篇我不得不去阅读的论文。该论文的标题是来自 JPL 的 [Kiri Wagstaff](http://www.wkiri.com/) 的[机器学习](http://icml.cc/2012/papers/298.pdf)（PDF），并于 2012 年出版。 [![machine learning that matters](img/a08bae3e267278eadd0ba9b5a1c7e8d2.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/05/machine-learning-that-matters.png) 机器学习很重要 Kiri 的论点是机器学习研究社区已经迷失了方向。她建议大部分机器学习都是为了机器学习而做的。她指出了三个关键问题： * **过度关注基准数据**：关注 UCI 存储库中的数据集，但很少有人在正在解决的域中产生影响。她指出缺乏实验可重复性的标准，这使得标准数据集的使用无效以及回归和分类问题的偏差。她评论说使用 UCI 存储库比使用合成 daa 更糟糕，因为我们甚至无法控制数据的创建方式。 * **过度关注抽象度量标准**：强烈关注算法竞争或烘焙以及使用 RMSE 和 F-measure 等通用指标，这些指标在域中没有直接意义。 * **缺乏跟进**：在 Weka 中下载数据集和运行算法非常简单。很难解释结果并将它们与域相关联，但这是产生影响所需要的。问题的关键在于她将机器学习描述为三类活动，而“机器学习贡献”则侧重于算法选择和忽略问题定义和结果解释的实验。 ## 心态的变化 Kiri 建议研究界需要改变其制定，攻击和评估机器学习研究项目的方式。她评论了三个要解决的问题： * **有意义的评估方法**：测量机器学习系统在域中的直接影响。例如，节省了美元，保留了生命，节省了时间或减少了工作量。选择直接影响测量将对实验设计和数据选择产生影响。 * **外部世界的参与**：让域专家参与定义问题和数据，更重要的是使用它们来解释域中结果的重要性。这是为了停止解决意义不大的问题（虹膜植物分类），并开发出足够可靠和有用的系统，以便在实践中采用。 * **关注奖项**：选择研究问题的影响。考虑问题域中的现状，并将结果描述为高于该现状的改进水平。吸引社区并激励采用。 ## 开放挑战 Kiri 抛出了挑战并提出了 6 个问题作为研究项目的例子，其中机器学习可以产生影响： 1. 法律通过或法律决定依赖于 ML 分析的结果。 2. 通过改进 ML 系统提供的决策，节省了 1 亿美元。 3. 国家之间的冲突通过 ML 系统提供的高质量翻译得以避免。 4. 通过 ML 防御将网络安全入侵率降低 50％。 5. 通过 ML 系统推荐的诊断或干预节省人的生命。 6. 一个国家的人类发展指数（HDI）增加 10％，归因于 ML 系统。她特意留下问题，以避免提出单一的问题或技术能力。真正的挑战很难。这些示例旨在激发而不是详尽无遗的优先级问题清单。最后，Kiri 最后评论了可能阻碍有效解决重要研究问题的障碍。 * **术语**：过度使用机器学习术语，这是该领域的一个有用的速记，但基本上是不可穿透的领域。针对更广泛的受众时，需要更通用的语言。 * **风险**：当机器学习系统做出后果决定时，谁在犯错误时犯罪？谁维护系统前进？（我不禁觉得土木工程和安全关键制造业已经解决了类似的问题） * **复杂性**：机器学习方法仍然不是一成不变的，而博士仍然需要理解和使用这些方法。我们需要更好的工具。（我认为商品化的机器学习正在快速发展）。我认为这是一篇很好的论文，可以激励年轻的研究从竞赛算法转向更有影响力的工作。它让我想起 O'reilly 对武器的呼唤“[对重要事项](http://radar.oreilly.com/2009/01/work-on-stuff-that-matters-fir.html)的工作”。我会喜欢一些更具体的例子，可能不那么理想化，更像商业，如 [IBM 的 Watson](http://www.ibm.com/smarterplanet/us/en/ibmwatson/) ， [Siri](http://en.wikipedia.org/wiki/Siri) 和[大规模图像分类](http://googleblog.blogspot.com.au/2012/06/using-large-scale-brain-simulations-for.html)。我也不禁感到有一些问题，初学者可以取得进步并获得直接的个人利益。就像分类他们自己的照片，组织他们的文件或在股票市场交易。