[TOC]
## 三、填空题
**1\. Pandas的两大核心数据结构是\_\_\_和\_\_\_。** DataFrame Series
**2.在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用\_\_\_\_,C4.5算法使用\_\_\_,CART算法使用\_\_\_。**
信息增益率 基尼指数
**3.关联规则的挖掘过程主要包含两个阶段:\_\_\_\_和\_\_\_\_。**
频繁项集的获取 强关系规则的发现
**4.回归与分类的区别在于:\_\_\_可用于预测连续的目标变量,\_\_\_可用于预测离散的目标变量。**
回归 分类
**5\. SVC在解决线性不可分问题时,主要采取了两种方式来解决:忽略部分不可分数据,引入\_\_\_\_;应用升维的思想,引入了\_\_\_\_。**
松弛系数 核函数
**6.线性回归最常见的两种求解方法分别是\_\_\_\_和\_\_\_\_。**
梯度下降 最小二乘法
**7.在对文本进行处理时,首先需要对文本进行特征提取,最常用的两种方法是\_\_\_\_和\_\_\_\_。**
单词计数向量 TF-IDF
**8\. DBSCAN算法是一种基于密度的聚类算法,它是根据样本在空间分布的稠密程度进行聚类,我们通过定义\_\_\_\_和来检测稠密程度。**
Eps MinPts
**9.朴素贝叶斯算法成立的前提条件是\_\_\_\_\_\_\_\_\_\_\_。**
特征的类条件独立假设
**10.为了可以把多个评估器链接成一个整体,sklearn中提供了PipeLine机制,管道中的所有评估器,除了最后一个评估器,管道的所有评估器必须都是转换器,即要实现方法\_\_\_\_\_和\_\_\_。**
fit transform
**11.在sklearn中,要求数据都是数值化的,如果数据中有类别型数据,需要将其转换成数据值,常用的转换方式有\_\_\_\_和\_\_\_\_。**
标签编码 独热编码
**12.回归与分类的区别在于:分类可用于预测\_\_的目标变量,回归可用于预测\_\_的目标变量。**
离散 连续
**13\. SelectFromModel是一个元转换器,它根据特征的重要性选择特征,要求使用的模型评估器经过fit后一定要带有\_\_\_或者\_\_属性。**
ceof\_ feature\_importances
**14\. CF是协同过滤的简称,一般分为基于\_\_\_的协同过滤和基于\_\_\_\_的协同过滤。**
用户 物品
**15.线性回归最常见的两种求解方法,一种是\_\_,另一种是\_\_。**
梯度下降 最小二乘法
**16.数据挖掘中计算向量之间相关性时一般会用到哪些距离?\_\_、\_\_\_、\_\_\_(答对3个即可)**
欧式距离 曼哈顿距离 闵科夫斯基距离