ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
[TOC] ### 1.产生 数据爆炸但知识贫乏\=解决办法\=>数据仓库、OLAP、数据挖掘 ### 2.概念 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,寻找其规律的技术,结合统计学、机器学习和人工智能技术的综合的过程 数据\=>消息\=>知识\=>智慧 ![](https://img.kancloud.cn/d2/3d/d23de6471991cfb55504373f2bd80c4a_761x433.png) ### 3.数据挖掘的一般过程 ![](https://img.kancloud.cn/45/47/454729529fbd308832c9fe1530cbb6b2_761x568.png) ### 4.数据挖掘的基本目标 预测任务的目标是根据自变量属性的值,预测因变量属性的值,用来做预测的属性称为自变量(independent variable)或是特征(features),被预测的属性值称为因变量(dependent variable)或是标签(label) 描述任务的目标是导出概括数据中潜在联系的模式(关联、趋势、聚类、轨迹和异常),本质上, 描述性数据挖掘任务大都是探查性的,并且对导出的模式进行技术验证和解释结果。 ### 5.数据挖掘的模型 ![](https://img.kancloud.cn/04/64/046494e755936bcad47c48e499708689_721x373.png) ![](https://img.kancloud.cn/48/8f/488f2570e483f7c6f5056037c0ce3ebf_804x470.png) ### 6.工具 * Weka * Orange * sklearn * ...