前置概念:
**Support**: 支持度 s(X->Y) =(XUY)/N;
**Confidence**: 置信度 c(X->Y) =(XUY)/(X);
**Frequent ItemSet**: 频繁项集 Support >minSup;
**Apriori Principle**: 如果一个项集是频繁的,那它所有的子项集也都是频繁的。
**Frequent Itemset Generation in the AprioriAlgorithm:**
Apriori算法是第一个指出使用基于支持度剪枝策略的关联规则挖掘算法,系统地控制候选项集的指数增长。
Ck代表k候选项集, Fk代表频繁k项集
1 算法首先遍历一遍数据集,检测每项的支持度,获取频繁1-项集。Steps (1-2)
2 接下来,循环使用频繁(k-1)-项集派生k-候选项集。Step (5)
3 遍历数据集计算候选项集支持度Steps (6-10)
4 计算支持度后,消除非频繁项集Step (12)
5 当没有新的频繁项集产生的时候,算法结束Step(13)
**Frequent itemset generation of the AprioriAlgorithm.**
![](https://box.kancloud.cn/2016-04-21_57187cf96b84e.jpg)
**Rule generation:**
若果一个规则X->Y-X不满足置信度阀值,那么所有的X’->Y-X’也不满足阀值, 其中X’⊂ X.
**Rule generation of the Apriori algorithm.**
![](https://box.kancloud.cn/2016-04-21_57187cf981aac.jpg)
**Procedure ap-genrules(fk, Hm).**
![](https://box.kancloud.cn/2016-04-21_57187cf994462.jpg)
**总结:**
**核心思想: 基于两阶段频繁项集,挖掘关联规则**
**算法优点: 简单、易理解、数据要求低**
**算法缺点: I/O负载大,产生过多的候选项集**
**Apriori例题(Introduction to data mining):**
![](https://box.kancloud.cn/2016-04-21_57187cf9b90df.jpg)
![](https://box.kancloud.cn/2016-04-21_57187cf9e7291.jpg)
(b)16/32=50%
(c)11/32=34.4%
(d)5/32=15.6%
- 前言
- 插入排序
- 归并排序
- 快速排序
- 最长公共子序列
- 斐波那契数列-台阶问题
- 求n*n阶矩阵最大子矩阵阶数
- 01背包
- 整数序列合并问题
- 动态规划算法的一般解题思路
- 01背包-近似算法
- 树搜索策略
- 求数组中的逆序对
- 并行机器最短调度问题
- 随机算法
- 判断两多项式之积是否等于另一多项式
- 顶点覆盖问题
- Apriori算法 (Introduction to data mining)
- 聚类算法-DBSCAN-C++实现
- 聚类算法-K-means-C++实现
- 聚类算法-Hierarchical(MIN)-C++
- 爬山法、分支限界法求解哈密顿环问题
- Best-First求解八数码问题
- Naive Bayesian文本分类器