三、填空题 · 数据挖掘

[TOC] ## 三、填空题 **1\. Pandas的两大核心数据结构是\_\_\_和\_\_\_。** DataFrame Series **2.在决策树算法中用什么指标来选择分裂属性非常关键，其中ID3算法使用\_\_\_\_，C4.5算法使用\_\_\_，CART算法使用\_\_\_。** 信息增益率基尼指数 **3.关联规则的挖掘过程主要包含两个阶段：\_\_\_\_和\_\_\_\_。** 频繁项集的获取强关系规则的发现 **4.回归与分类的区别在于：\_\_\_可用于预测连续的目标变量，\_\_\_可用于预测离散的目标变量。** 回归分类 **5\. SVC在解决线性不可分问题时，主要采取了两种方式来解决：忽略部分不可分数据，引入\_\_\_\_；应用升维的思想，引入了\_\_\_\_。** 松弛系数核函数 **6.线性回归最常见的两种求解方法分别是\_\_\_\_和\_\_\_\_。** 梯度下降最小二乘法 **7.在对文本进行处理时，首先需要对文本进行特征提取，最常用的两种方法是\_\_\_\_和\_\_\_\_。** 单词计数向量 TF-IDF **8\. DBSCAN算法是一种基于密度的聚类算法，它是根据样本在空间分布的稠密程度进行聚类，我们通过定义\_\_\_\_和来检测稠密程度。** Eps MinPts **9.朴素贝叶斯算法成立的前提条件是\_\_\_\_\_\_\_\_\_\_\_。** 特征的类条件独立假设 **10.为了可以把多个评估器链接成一个整体，sklearn中提供了PipeLine机制,管道中的所有评估器，除了最后一个评估器，管道的所有评估器必须都是转换器，即要实现方法\_\_\_\_\_和\_\_\_。** fit transform **11.在sklearn中，要求数据都是数值化的，如果数据中有类别型数据，需要将其转换成数据值，常用的转换方式有\_\_\_\_和\_\_\_\_。** 标签编码独热编码 **12.回归与分类的区别在于：分类可用于预测\_\_的目标变量，回归可用于预测\_\_的目标变量。** 离散连续 **13\. SelectFromModel是一个元转换器，它根据特征的重要性选择特征，要求使用的模型评估器经过fit后一定要带有\_\_\_或者\_\_属性。** ceof\_ feature\_importances **14\. CF是协同过滤的简称，一般分为基于\_\_\_的协同过滤和基于\_\_\_\_的协同过滤。** 用户物品 **15.线性回归最常见的两种求解方法，一种是\_\_，另一种是\_\_。** 梯度下降最小二乘法 **16.数据挖掘中计算向量之间相关性时一般会用到哪些距离？\_\_、\_\_\_、\_\_\_（答对3个即可）** 欧式距离曼哈顿距离闵科夫斯基距离