[TOC]
## 二、多选题
**1. Pandas的数据结构包括以下哪些( )** AB
A. Series
B. Dataframe
C. dict
D. list
**2. K-Means算法的缺点主要包括( )** ABCD
A.初始点的选择可能会影响最终的结果
B.不能解决非凸数据问题
C.容易受到噪声点的影响
D. K值很难确定
**3.下列关于集成学习描述正确的是( )** ACD
A.集成学习本身并不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,以达到获得比单个学习器更好的学习效果的一种机器学习方法。
B.集成学习的基学习器要求使用不同算法
C.集成学习的基学习器可以使用相同的算法生成
D.集成学习主要分为Bagging、Boosting和Stacking
**4.假设我们要解决一个二类分类问题,我们已经建立好了模型,输出是0或1,初始时设阈值为0.5,超过0.5概率估计,就判别为1,否则就判别为0 ;如果我们现在用另一个大于0.5的阈值,那么现在关于模型说法,正确的是:( )** BC
A.模型分类的召回率会降低或不变
B.模型分类的召回率会升高
C.模型分类精确率(Precision)会升高或不变
D.模型分类精确率(Precision)会发生变化,但不能确定是升高还是降低
**5.以下sklearn中的模型,哪些是解决回归分析的?( )** ABD
A. LinearRegression
B. SVR
C. LogisticRegression
D. Ridge
**6.如下图所示,对同一数据集进行训练,得到3个模型。对于这3个模型的评估,下列说法正确的
是?( )** ACD
![](https://img.kancloud.cn/21/98/2198c28b21eabad8fda497bcba855c7a_612x209.png)
A.第一个模型的训练误差最大
B.第三个模型性能最好,因为其训练误差最小
C.第二个模型最稳健,其在测试集上表现应该最好
D.第三个模型过拟合
**7.影响聚类算法结果的主要因素有( )** ACD
A.特征选取
B.已知类别的样本质量
C.模式相似性测度
D.分类准则
**8.决 策 树 算 法 很 容 易 出 现 过 拟 合 , 我 们 通 常 会 使 用 一 些 剪 枝 手 段 来 改 善 这 一 现 象。 对 于sklearn.tree.DecisionTreeClassifier模型,下面这些参数哪些能起到剪枝的作用( )** BCD
A. criterion
B. max\_depth
C. min\_samples\_split
D. min\_impurity\_split