admin 管理员组文章数量: 1086019
2024年3月12日发(作者:java在线提问)
机器学习_温州大学中国大学mooc课后章节答案期末考试题库2023
年
1. GBDT由哪三个概念组成:( )
参考答案:
Regression Decision Tree(即 DT)_Gradient Boosting(即
GB)_Shrinkage(缩减)
2. 对于非概率模型而言,可按照判别函数线性与否分成线性模型与非线性模型。
下面哪些模型属于线性模型?
参考答案:
K-means_k近邻_感知机
3. 逻辑回归分类的精度不够高,因此在业界很少用到这个算法
参考答案:
错误
4. SMOTE算法是用了上采样的方法。
参考答案:
正确
5. 支持向量是那些最接近决策平面的数据点
参考答案:
正确
6. 100万条数据划分训练集、验证集、测试集,数据可以这样划分:98%,
1%,1% 。
参考答案:
正确
7. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地
确定。
参考答案:
错误
8. 朴素贝叶斯法的基本假设是条件独立性。
参考答案:
正确
9. PCA投影方向可从最大化方差和最小化投影误差这两个角度理解。
参考答案:
正确
10. 相关变量的相关系数可以为零,对吗?
参考答案:
正确
11. Sigmoid函数的范围是(-1,1)
参考答案:
错误
12. 影响KNN算法效果的主要因素包括( )。
参考答案:
决策规则_K的值_距离度量方式
13. 逻辑回归的特征一定是离散的。
参考答案:
错误
14. 闵可夫斯基距离中的p取1或2时的闵氏距离是最为常用的,以下哪项是
正确的:( )。
参考答案:
闵可夫斯基空间不同于牛顿力学的平坦空间_p取1时是曼哈顿距离_p取2
时是欧氏距离_p取无穷时是切比雪夫距离
15. KNN算法的缺点包括以下几点?( )
参考答案:
计算复杂性高;空间复杂性高,尤其是特征数非常多的时候_可解释性差,
无法给出决策树那样的规则_对训练数据依赖度特别大,当样本不平衡的时
候,对少数类的预测准确率低
16. 两个向量的余弦相似度越接近1,说明两者越相似。
参考答案:
正确
17. k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习
算法,可以用于分类,但不能用于回归方法。
参考答案:
错误
18. 一个正例(2,3),一个负例(0,-1),下面哪个是SVM超平面?()
参考答案:
x+2y-3=0
19. 数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些
算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正
确的是
参考答案:
单个模型之间有低相关性
20. KNN没有显示的训练过程,它在训练阶段只是把数据保存下来,训练时间
开销为0,等收到测试样本后进行处理。
参考答案:
正确
21. 在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题?
参考答案:
SVM算法中使用高斯核/RBF核代替线性核
22. 关于L1正则化和L2正则化说法正确的是 ( )。
参考答案:
L1正则化无法有效减低数据存储量
23. BP算法陷入局部极小值的问题可通过更换激活函数解决。
参考答案:
错误
24. BP算法的正向传播是为获取训练误差。
参考答案:
正确
25. BP算法的反向传播是为了对权值进行调整。
参考答案:
正确
26. BP算法“喜新厌旧”,在学习新样本后,会把旧样本逐渐遗忘。
参考答案:
正确
27. 关于BP算法缺点的说法正确的是()。
参考答案:
BP算法很容易陷入局部极小值问题_BP算法更新没有明确的公式,需要不
断试凑,才能决定隐层节点数量_BP算法涉及参数数量很多,因此更新速
度慢
28. 关于BP算法优点说法正确的是( )。
参考答案:
BP算法反向传播采用链式法则,推导过程严谨_BP算法能够自适应学习
_BP算法有很强的非线性映射能力
29. 一般的多层感知器包含几种类型层次的神经元 ( )。
参考答案:
输出层_隐藏层_输入层
30. 隐藏层中常用的激活函数有 (多选) ( )。
参考答案:
Tanh_ReLU_Sigmoid
31. 以下关于极限学习机(ELM)说法错误的是( )。
参考答案:
ELM有多个隐藏层
32. 神经网络算法有时会出现过拟合的情况,那么采取以下哪些方法解决过拟合
更为可行()。
参考答案:
设置一个正则项减小模型的复杂度
33. Minsky在上世纪60年代末指出了神经网络算法的哪种缺点,使得神经网
络算法陷入低潮( )。
参考答案:
早期的神经网络算法无法处理非线性学习问题
34. 为避免BP算法在迭代过程中出现局部极小值的问题,那么采取以下哪种方
法可行( )。
参考答案:
在每一轮迭代中都赋予一定的概率接受次优解,但是概率随迭代不断降低
35. BP算法总结错误的是 ( )。
参考答案:
隐层的阈值梯度只跟本层的神经元输出值有关
36. 以下关于学习率说法错误的是()。
参考答案:
学习率必须是固定不变的
37. 关于BP算法反向传播的说法正确的是( )。
参考答案:
BP算法反向传播进行更新时一般用到微积分的链式传播法则
38. 以下关于Sigmoid的特点说法错误的是 ( )。
参考答案:
Sigmoid函数计算量小
39. 关于BP算法信号前向传播的说法正确的是( )。
参考答案:
C. BP算法在计算正向传播输出值时需要考虑激活函数
40. 关于BP算法优缺点的说法错误的是 ( )。
参考答案:
BP算法不能用于处理非线性分类问题
41. 关于BP算法特点描述错误的是 ( )。
参考答案:
计算之前不需要对训练数据进行归一化
42. 以下关于感知器说法错误的是: ( )。
参考答案:
单层感知器可以用于处理非线性学习问题
43. 以下关于偏差(Bias)和方差(Variance)说法正确的是 ( )。
参考答案:
获取更多的训练数据可解决高方差的问题
44. 以下关于ROC和PR曲线说法不正确的是 ( )。
参考答案:
类别不平衡问题中,ROC曲线比PR曲线估计效果要差
45. 下列哪种方法可以用来缓解过拟合的产生:( )。
参考答案:
正则化
46. 假设有100张照片,其中,猫的照片有60张,狗的照片是40张。识别结
果:TP=40,FN=20,FP=10,TN=30,则可以得到:( )。
参考答案:
Precision=0.8
47. KNN分类的时候,对新的样本,根据其k个最近邻的训练样本的类别,通
过多数表决等方式进行预测。
参考答案:
正确
48. 回归问题和分类问题的区别是什么?
参考答案:
回归问题输出值是连续的,分类问题输出值是离散的
49. 一个计算机程序从经验E中学习任务T,并用P来衡量表现。并且,T的
表现P随着经验E的增加而提高。假设我们给一个学习算法输入了很多历
史天气的数据,让它学会预测天气。什么是P的合理选择?
参考答案:
正确预测未来日期天气的概率
50. 一个包含n类的多分类问题,若采用一对剩余的方法,需要拆分成多少次?
参考答案:
n-1
51. ( )是机器学习的一部分,与神经网络一起工作。
参考答案:
深度学习
52. 谷歌新闻每天收集非常多的新闻,并运用( )方法再将这些新闻分组,组成若
干类有关联的新闻。于是,搜索时同一组新闻事件往往隶属同一主题的,所
以显示到一起。
参考答案:
聚类
53. 7.哪种决策树没有剪枝操作( )。
参考答案:
ID3
54. 关于聚类的说法正确的有 ( )
参考答案:
聚类的算法训练样本往往都不含有标签
55. 降维属于哪种类型的学习问题( )。
参考答案:
无监督学习
56. 关于PCA和SVD比较错误的是 ( )。
参考答案:
PCA无需进行零均值化
57. 给定关联规则A->B,意味着:若A发生,B也会发生。
参考答案:
错误
58. Apriori算法是一种典型的关联规则挖掘算法。
参考答案:
正确
59. 决策树方法通常用于关联规则挖掘。
参考答案:
错误
60. SVD可用于求解矩阵的伪逆。
参考答案:
正确
61. PCA会选取信息量最少的方向进行投影。
参考答案:
错误
62. PCA是一种有效的降维去噪方法。
参考答案:
正确
63. 以下关于PCA说法正确的是 (多选)( )。
参考答案:
PCA运算时需要进行特征值分解_PCA各个主成分之间正交
64. 降维的优点有哪些 ( )。
参考答案:
方便消除冗余特征_方便实现数据可视化_减小训练时间
65. FP-Growth算法的优点包括( )。
参考答案:
数据库存储在内存中的压缩版本中_对长、短频繁模式的挖掘具有高效性和
可扩展性_与Apriori算法相比,该算法只需对数据库进行两次扫描_该算法
不需要对项目进行配对,因此速度更快
66. FP-Growth和Apriori算法的比较,正确的是( )。
参考答案:
FP-growth 的模式生成通过构建FP-Tree_FP-Growth没有候选集_Apriori
使用候选集
67. 以下关于SVD的优化过程说法错误的是 ( )。
参考答案:
奇异值跟特征值性质完全不同
68. 几种常见的降维算法有共同特点有 ( )。
参考答案:
都利用了矩阵分解的思想
69. 哪些类型的数据适合做降维 ( )。
参考答案:
特征之间存在线性关系的数据
70. 降维涉及的投影矩阵一般要求正交,正交矩阵用于投影的优缺点说法正确的
是 ( )。
参考答案:
正交矩阵投影变换之后的矩阵不同坐标之间是不相关的
71. 关于维数灾难的说法错误的是 ( )。
参考答案:
高维度数据可使得算法泛化能力变得越来越强
72. 关联规则使用的主要指标有( )。
参考答案:
支持度 (support)_置信度(confidence)_提升度(lift)
73. 关于关联规则,正确的是:( )。
参考答案:
支持度是衡量关联规则重要性的一个指标_关联规则挖掘的算法主要有:
Apriori和FP-Growth_一个项集满足最小支持度,我们称之为频繁项集
74. 置信度(confidence)是衡量兴趣度度量( )的指标。
参考答案:
确定性
75. 以下属于关联规则分析的是( )。
参考答案:
购物篮分析
76. 分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于( )问题。
参考答案:
关联规则挖掘
77. 关联规则的评价指标是:( )。
参考答案:
支持度、置信度
78. 关于支持向量机中硬间隔和软间隔的说法错误的是()。
参考答案:
硬间隔有利于消除模型的过拟合
79. 可用作数据挖掘分析中的关联规则算法有( )。
参考答案:
Apriori算法、FP-Tree算法
80. 关于PCA特点说法错误的是 ( )。
参考答案:
PCA算法很难去除噪声
81. 以下哪些是PCA算法的主要应用( )。
参考答案:
数据压缩
82. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种
属于数据挖掘的哪类问题?( )
参考答案:
关联规则发现
83. 关于Apriori和FP-growth算法说法正确的是( )。
参考答案:
FP-growth算法在数据库较大时,不适宜共享内存
84. 以下关于FP-Growth算法表述不正确的有 ( )。
参考答案:
FP-growth只需要一次遍历数据,大大提高了效率
85. 下列关于Apriori算法说法错误的是 ( )。
参考答案:
Apriori算法运算过程中不需要找出所有的频繁项集
86. 数据之间的相关关系可以通过以下哪个算法直接挖掘( )。
参考答案:
Apriori
87. 以下关于关联规则说法错误的是 ()。
参考答案:
使用购物车分析的方法,一定可以提高销售额
88. 关于特征选择,下列对Ridge回归和Lasso回归的说法正确的是:( )。
参考答案:
Lasso回归适用于特征选择
89. 某超市研究销售记录发现买啤酒的人很大概率也会买尿布,这属于数据挖掘
的哪类问题?
参考答案:
关联规则发现
90. 以下关于PCA说法正确的是 ( )。
参考答案:
PCA转换后选择的第一个方向是最主要特征
91. 以下关于SVD说法正确的有 ( )。
参考答案:
SVD并不要求分解矩阵必须是方阵
92. 关于数据规范化,下列说法中错误的是( )。
参考答案:
标准化在任何场景下受异常值的影响都很小
93. 市场上某商品来自两个工厂,它们市场占有率分别为60%和40%,有两人
各自买一件,则买到的来自不同工厂之概率为( )。
参考答案:
0.48
94. PCA算法获取的超平面应具有哪些性质 ( )。
参考答案:
最近重构性_最大可分性
95. 下面属于降维常用的技术的有: ( )。
参考答案:
主成分分析_奇异值分解
96. 以下哪些是使用数据规范化(特征缩放)的原因?
参考答案:
它通过减少迭代次数来获得一个好的解,从而加快了梯度下降的速度_它不
能防止梯度下降陷入局部最优
97. 以下关于降维的说法不正确的是?
参考答案:
降维不会对数据产生损伤
98. 以下关于支持向量机的说法正确的是 ( )。
参考答案:
SVM方法简单,鲁棒性较好_SVM分类面取决于支持向量
99. 线性回归中,我们可以使用最小二乘法来求解系数,下列关于最小二乘法说
法正确的是?( )
参考答案:
只适用于线性模型,不适合逻辑回归模型等其他模型_不需要选择学习率_当
特征数量很多的时候,运算速度会很慢_不需要迭代训练
100. 评价指标中,召回率(Recall)的计算需要哪些数值 ( )。
参考答案:
TP_FN
101. 下面关于随机森林和梯度提升集成方法的说法哪个是正确的?(多选) ( )
参考答案:
这两种方法都可以用来做分类_两种方法都可以用来做回归
102. LightGBM与XGBoost相比,主要有以下几个改进:(多选) ( )
参考答案:
基于梯度的单边采样算法(Gradient-based One-Side Sampling, GOSS)_互
斥特征捆绑算法(Exclusive Feature Bundling, EFB)_直方图算法
(Histogram)_基于最大深度的 Leaf-wise 的垂直生长算法
103. 置信度(confidence)是衡量兴趣度度量()的指标。
参考答案:
确定性
104. 大部分的机器学习工程中,数据搜集、数据清洗、特征工程这三个步骤占总
时间比较少,而数据建模,占总时间比较多。
参考答案:
错误
105. 根据肿瘤的体积、患者的年龄来判断良性或恶性,这是一个多分类问题。
参考答案:
错误
106. 哪种开发语言最适合机器学习?( )
参考答案:
Python
107. 机器学习这个术语是由( )定义的?
参考答案:
Arthur Samuel
108. 机器学习方法传统上可以分为( )类。
参考答案:
3
109. 以下关于特征选择的说法正确的是?
参考答案:
选择的特征需尽可能反映不同事物之间的差异
110. 以下哪种方法属于判别模型(discriminative model)
参考答案:
支持向量机
111. 哪一个是机器学习的合理定义?
参考答案:
机器学习能使计算机能够在没有明确编程的情况下学习
112. 当数据分布不平衡时,我们可采取的措施不包括( )。
参考答案:
对数据分布较多的类别赋予更大的权重
113. 以下关于训练集、验证集和测试集说法不正确的是( )。
参考答案:
训练集是用来训练以及评估模型性能
114. 下面关于ID3算法中说法错误的是
参考答案:
ID3算法是一个二叉树模型
115. 逻辑回归与多元回归分析有哪些不同?
参考答案:
以上全选
116. 如果我使用数据集的全部特征并且能够达到100%的准确率,但在测试集上
仅能达到70%左右,这说明
参考答案:
过拟合
117. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种
属于数据挖掘的哪类问题?()
参考答案:
关联规则发现
118. 下列哪种方法可以用来缓解过拟合的产生:()。
参考答案:
正则化
119. 回归问题和分类问题的区别是?
参考答案:
回归问题输出值是连续的,分类问题输出值是离散的
120. bootstrap 数据的含义是
参考答案:
有放回的从整体N中抽样n个样本
121. 一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别
4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此
种应用需求:
参考答案:
多分类问题
122. 在逻辑回归中,如果同时加入L1和L2范数,不会产生什么效果
参考答案:
可以获得更准确的结果
123. C4.5是通过代价复杂度剪枝。
参考答案:
错误
124. 朴素贝叶斯适用于小规模数据集,逻辑回归适用于大规模数据集。
参考答案:
错误
125. 逻辑回归和朴素贝叶斯都有对属性特征独立的要求
参考答案:
错误
126. 逻辑回归是判别模型,朴素贝叶斯是生成模型
参考答案:
正确
127. 判别模型所学内容是决策边界。
参考答案:
正确
128. 朴素贝叶斯对缺失数据较敏感。
参考答案:
正确
129. 朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成
立的,在属性相关性较小时,朴素贝叶斯性能良好。而在属性个数比较多或
者属性之间相关性较大时,分类效果不好。
参考答案:
正确
130. 根据以往经验和分析得到的概率。在这里,我们用P(Y)来代表在没有训练
数据前假设Y拥有的初始概率,因此称其为Y的后验概率,它反映了我们
所拥有的关于Y的背景知识。
参考答案:
错误
131. 公司里有一个人穿了运动鞋,推测是男还是女?已知公司里男性30人,女
性70人,男性穿运动鞋的有25人,穿拖鞋的有5人,女性穿运动鞋的有
40人,穿高跟鞋的有30人。则以下哪项计算错误()?
参考答案:
p(运动鞋|女性)=0.4
132. 掷二枚骰子,事件A为出现的点数之和等于3的概率为( )
参考答案:
1/18
133. 关于朴素贝叶斯,下列说法错误的是:( )
参考答案:
朴素的意义在于它的一个天真的假设:所有特征之间是相互关联的
版权声明:本文标题:机器学习_温州大学中国大学mooc课后章节答案期末考试题库2023年_ 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1710212896a562743.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论