ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
# 机器学习很重要 > 原文: [https://machinelearningmastery.com/machine-learning-that-matters/](https://machinelearningmastery.com/machine-learning-that-matters/) 阅读引导机器学习,路易斯提到了一篇我不得不去阅读的论文。该论文的标题是来自 JPL 的 [Kiri Wagstaff](http://www.wkiri.com/) 的[机器学习](http://icml.cc/2012/papers/298.pdf)(PDF),并于 2012 年出版。 [![machine learning that matters](img/a08bae3e267278eadd0ba9b5a1c7e8d2.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/05/machine-learning-that-matters.png) 机器学习很重要 Kiri 的论点是机器学习研究社区已经迷失了方向。她建议大部分机器学习都是为了机器学习而做的。她指出了三个关键问题: * **过度关注基准数据**:关注 UCI 存储库中的数据集,但很少有人在正在解决的域中产生影响。她指出缺乏实验可重复性的标准,这使得标准数据集的使用无效以及回归和分类问题的偏差。她评论说使用 UCI 存储库比使用合成 daa 更糟糕,因为我们甚至无法控制数据的创建方式。 * **过度关注抽象度量标准**:强烈关注算法竞争或烘焙以及使用 RMSE 和 F-measure 等通用指标,这些指标在域中没有直接意义。 * **缺乏跟进**:在 Weka 中下载数据集和运行算法非常简单。很难解释结果并将它们与域相关联,但这是产生影响所需要的。 问题的关键在于她将机器学习描述为三类活动,而“机器学习贡献”则侧重于算法选择和忽略问题定义和结果解释的实验。 ## 心态的变化 Kiri 建议研究界需要改变其制定,攻击和评估机器学习研究项目的方式。她评论了三个要解决的问题: * **有意义的评估方法**:测量机器学习系统在域中的直接影响。例如,节省了美元,保留了生命,节省了时间或减少了工作量。选择直接影响测量将对实验设计和数据选择产生影响。 * **外部世界的参与**:让域专家参与定义问题和数据,更重要的是使用它们来解释域中结果的重要性。这是为了停止解决意义不大的问题(虹膜植物分类),并开发出足够可靠和有用的系统,以便在实践中采用。 * **关注奖项**:选择研究问题的影响。考虑问题域中的现状,并将结果描述为高于该现状的改进水平。吸引社区并激励采用。 ## 开放挑战 Kiri 抛出了挑战并提出了 6 个问题作为研究项目的例子,其中机器学习可以产生影响: 1. 法律通过或法律决定依赖于 ML 分析的结果。 2. 通过改进 ML 系统提供的决策,节省了 1 亿美元。 3. 国家之间的冲突通过 ML 系统提供的高质量翻译得以避免。 4. 通过 ML 防御将网络安全入侵率降低 50%。 5. 通过 ML 系统推荐的诊断或干预节省人的生命。 6. 一个国家的人类发展指数(HDI)增加 10%,归因于 ML 系统。 她特意留下问题,以避免提出单一的问题或技术能力。真正的挑战很难。这些示例旨在激发而不是详尽无遗的优先级问题清单。 最后,Kiri 最后评论了可能阻碍有效解决重要研究问题的障碍。 * **术语**:过度使用机器学习术语,这是该领域的一个有用的速记,但基本上是不可穿透的领域。针对更广泛的受众时,需要更通用的语言。 * **风险**:当机器学习系统做出后果决定时,谁在犯错误时犯罪?谁维护系统前进? (我不禁觉得土木工程和安全关键制造业已经解决了类似的问题) * **复杂性**:机器学习方法仍然不是一成不变的,而博士仍然需要理解和使用这些方法。我们需要更好的工具。 (我认为商品化的机器学习正在快速发展)。 我认为这是一篇很好的论文,可以激励年轻的研究从竞赛算法转向更有影响力的工作。它让我想起 O'reilly 对武器的呼唤“[对重要事项](http://radar.oreilly.com/2009/01/work-on-stuff-that-matters-fir.html)的工作”。我会喜欢一些更具体的例子,可能不那么理想化,更像商业,如 [IBM 的 Watson](http://www.ibm.com/smarterplanet/us/en/ibmwatson/) , [Siri](http://en.wikipedia.org/wiki/Siri) 和[大规模图像分类](http://googleblog.blogspot.com.au/2012/06/using-large-scale-brain-simulations-for.html)。 我也不禁感到有一些问题,初学者可以取得进步并获得直接的个人利益。就像分类他们自己的照片,组织他们的文件或在股票市场交易。