Apriori算法 (Introduction to data mining) · 小五的算法学习之路

前置概念： **Support**: 支持度 s(X->Y) =(XUY)/N; **Confidence**: 置信度 c(X->Y) =(XUY)/(X); **Frequent ItemSet**: 频繁项集 Support >minSup; **Apriori Principle**: 如果一个项集是频繁的，那它所有的子项集也都是频繁的。 **Frequent Itemset Generation in the AprioriAlgorithm:** Apriori算法是第一个指出使用基于支持度剪枝策略的关联规则挖掘算法，系统地控制候选项集的指数增长。 Ck代表k候选项集, Fk代表频繁k项集 1 算法首先遍历一遍数据集，检测每项的支持度，获取频繁1-项集。Steps (1-2) 2 接下来，循环使用频繁(k-1)-项集派生k-候选项集。Step (5) 3 遍历数据集计算候选项集支持度Steps (6-10) 4 计算支持度后，消除非频繁项集Step (12) 5 当没有新的频繁项集产生的时候，算法结束Step(13) **Frequent itemset generation of the AprioriAlgorithm.** ![](https://box.kancloud.cn/2016-04-21_57187cf96b84e.jpg) **Rule generation:** 若果一个规则X->Y-X不满足置信度阀值，那么所有的X’->Y-X’也不满足阀值, 其中X’⊂ X. **Rule generation of the Apriori algorithm.** ![](https://box.kancloud.cn/2016-04-21_57187cf981aac.jpg) **Procedure ap-genrules(fk, Hm).** ![](https://box.kancloud.cn/2016-04-21_57187cf994462.jpg) **总结：** **核心思想: 基于两阶段频繁项集，挖掘关联规则** **算法优点: 简单、易理解、数据要求低** **算法缺点: I/O负载大，产生过多的候选项集** **Apriori例题（Introduction to data mining）：** ![](https://box.kancloud.cn/2016-04-21_57187cf9b90df.jpg) ![](https://box.kancloud.cn/2016-04-21_57187cf9e7291.jpg) (b)16/32=50% (c)11/32=34.4% (d)5/32=15.6%