[TOC]
### 1.产生
数据爆炸但知识贫乏\=解决办法\=>数据仓库、OLAP、数据挖掘
### 2.概念
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,寻找其规律的技术,结合统计学、机器学习和人工智能技术的综合的过程
数据\=>消息\=>知识\=>智慧
![](https://img.kancloud.cn/d2/3d/d23de6471991cfb55504373f2bd80c4a_761x433.png)
### 3.数据挖掘的一般过程
![](https://img.kancloud.cn/45/47/454729529fbd308832c9fe1530cbb6b2_761x568.png)
### 4.数据挖掘的基本目标
预测任务的目标是根据自变量属性的值,预测因变量属性的值,用来做预测的属性称为自变量(independent variable)或是特征(features),被预测的属性值称为因变量(dependent variable)或是标签(label)
描述任务的目标是导出概括数据中潜在联系的模式(关联、趋势、聚类、轨迹和异常),本质上,
描述性数据挖掘任务大都是探查性的,并且对导出的模式进行技术验证和解释结果。
### 5.数据挖掘的模型
![](https://img.kancloud.cn/04/64/046494e755936bcad47c48e499708689_721x373.png)
![](https://img.kancloud.cn/48/8f/488f2570e483f7c6f5056037c0ce3ebf_804x470.png)
### 6.工具
* Weka
* Orange
* sklearn
* ...