合规国际互联网加速 OSASE为企业客户提供高速稳定SD-WAN国际加速解决方案。 广告
[TOC] ## 三、填空题 **1\. Pandas的两大核心数据结构是\_\_\_和\_\_\_。** DataFrame   Series **2.在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用\_\_\_\_,C4.5算法使用\_\_\_,CART算法使用\_\_\_。** 信息增益率  基尼指数 **3.关联规则的挖掘过程主要包含两个阶段:\_\_\_\_和\_\_\_\_。** 频繁项集的获取   强关系规则的发现 **4.回归与分类的区别在于:\_\_\_可用于预测连续的目标变量,\_\_\_可用于预测离散的目标变量。** 回归  分类 **5\. SVC在解决线性不可分问题时,主要采取了两种方式来解决:忽略部分不可分数据,引入\_\_\_\_;应用升维的思想,引入了\_\_\_\_。** 松弛系数   核函数 **6.线性回归最常见的两种求解方法分别是\_\_\_\_和\_\_\_\_。** 梯度下降  最小二乘法 **7.在对文本进行处理时,首先需要对文本进行特征提取,最常用的两种方法是\_\_\_\_和\_\_\_\_。** 单词计数向量  TF-IDF **8\. DBSCAN算法是一种基于密度的聚类算法,它是根据样本在空间分布的稠密程度进行聚类,我们通过定义\_\_\_\_和来检测稠密程度。** Eps   MinPts **9.朴素贝叶斯算法成立的前提条件是\_\_\_\_\_\_\_\_\_\_\_。** 特征的类条件独立假设 **10.为了可以把多个评估器链接成一个整体,sklearn中提供了PipeLine机制,管道中的所有评估器,除了最后一个评估器,管道的所有评估器必须都是转换器,即要实现方法\_\_\_\_\_和\_\_\_。** fit   transform **11.在sklearn中,要求数据都是数值化的,如果数据中有类别型数据,需要将其转换成数据值,常用的转换方式有\_\_\_\_和\_\_\_\_。** 标签编码  独热编码 **12.回归与分类的区别在于:分类可用于预测\_\_的目标变量,回归可用于预测\_\_的目标变量。** 离散   连续 **13\. SelectFromModel是一个元转换器,它根据特征的重要性选择特征,要求使用的模型评估器经过fit后一定要带有\_\_\_或者\_\_属性。** ceof\_   feature\_importances **14\. CF是协同过滤的简称,一般分为基于\_\_\_的协同过滤和基于\_\_\_\_的协同过滤。** 用户   物品 **15.线性回归最常见的两种求解方法,一种是\_\_,另一种是\_\_。** 梯度下降   最小二乘法 **16.数据挖掘中计算向量之间相关性时一般会用到哪些距离?\_\_、\_\_\_、\_\_\_(答对3个即可)** 欧式距离   曼哈顿距离  闵科夫斯基距离