总浏览量:539.52万
南开24春学期(高起本:1803-2103、专升本高起专:2009-2103)《数据科学导论》在线作业【奥鹏100分答案】

时间:2024-08-30 17:50来源:本站作者:点击: 228 次

可做奥鹏院校所有作业、毕业论文咨询请添加 QQ:3082882699
微信:jd958787

24秋学期(高起本:1803-2103、专升本/高起专:2009-2103)《数据科学导论》在线作业-00002

试卷总分:100  得分:100

一、单选题 (共 20 道试题,共 40 分)

1.根据映射关系的不同可以分为线性回归和()。

A.对数回归

B.非线性回归

C.逻辑回归

D.多元回归

 

2.单层感知机是由()层神经元组成。

A.一

B.二

C.三

D.四

 

3.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。

A.自上而下

B.自下而上

C.自左而右

D.自右而左

 

4.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()

A.简单函数变换

B.规范化

C.属性构造

D.连续属性离散化

 

5.哪一项不属于规范化的方法()

A.最小-最大规范化

B.零-均值规范化

C.小数定标规范化

D.中位数规范化

 

6.手肘法的核心指标是()。

A.SES

B.SSE

C.RMSE

D.MSE

 

7.BFR聚类用于在()欧氏空间中对数据进行聚类

A.高维

B.中维

C.低维

D.中高维

 

8.实体识别的常见形式()

A.同名异义

B.异名同义

C.单位不统一

D.属性不同

 

9.在回归分析中,自变量为(),因变量为()。

A.离散型变量,离散型变量

B.连续型变量,离散型变量

C.离散型变量,连续型变量

D.连续型变量,连续型变量

 

10.层次聚类适合规模较()的数据集

A.大

B.中

C.小

D.所有

 

11.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

 

12.以下哪些不是缺失值的影响()

A.数据建模将丢失大量有用信息

B.数据建模的不确定性更加显著

C.对整体总是不产生什么作用

D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出

 

13.以下哪一项不是特征工程的子问题()

A.特征创建

B.特征提取

C.特征选择

D.特征识别

 

14.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。

A.1,线性

B.2,线性

C.1,非线性

D.2,非线性

 

15.置信度(confidence)是衡量兴趣度度量( )的指标。

A.简洁性

B.确定性

C.实用性

D.新颖性

 

16.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。

A.越小

B.越大

C.无关

D.不确定

 

17.以下哪个不是处理缺失值的方法()

A.删除记录

B.按照一定原则补充

C.不处理

D.随意填写

 

18.层次聚类对给定的数据进行()的分解。

A.聚合

B.层次

C.分拆

D.复制

 

19.通过变量标准化计算得到的回归方程称为()。

A.标准化回归方程

B.标准化偏回归方程

C.标准化自回归方程

D.标准化多回归方程

 

20.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )

A.K-means

B.Bayes Network

C.C4.5

D.Apriori

 

二、多选题 (共 10 道试题,共 20 分)

21.层次聚类的方法是()

A.聚合方法

B.分拆方法

C.组合方法

D.比较方法

 

22.下面例子属于分类的是()

A.检测图像中是否有人脸出现

B.对客户按照贷款风险大小进行分类

C.识别手写的数字

D.估计商场客流量

 

23.关联规则的评价度量主要有:()。

A.支持度

B.置信度

C.准确率

D.错误率

 

24.多层感知机的学习过程包含()。

A.信号的正向传播

B.信号的反向传播

C.误差的正向传播

D.误差的反向传播

 

25.距离度量中的距离可以是()

A.欧式距离

B.曼哈顿距离

C.Lp距离

D.Minkowski距离

 

26.下列选项是BFR的对象是()

A.废弃集

B.临时集

C.压缩集

D.留存集

 

27.相关性的分类,按照相关的方向可以分为()。

A.正相关

B.负相关

C.左相关

D.右相关

 

28.系统日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

 

29.k近邻法的基本要素包括()。

A.距离度量

B.k值的选择

C.样本大小

D.分类决策规则

 

30.对于多层感知机,()层拥有激活函数的功能神经元。

A.输入层

B.隐含层

C.输出层

 

三、判断题 (共 20 道试题,共 40 分)

31.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。

 

32.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构

 

33.数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。

 

34.两个对象越相似,他们的相异度就越高。

 

35.k值增大意味着整体模型变得复杂。

 

36.BFR聚类簇的坐标可以与空间的坐标保持一致。

 

37.K均值(K-Means)算法是密度聚类。

 

38.平均减少的不纯度越大,则特征重要度越高。

 

39.支持度是衡量关联规则重要性的一个指标。

 

40.决策树的输入为训练集,输出为以node为根结点的一棵决策树

 

41.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。

 

42.多层感知机的学习能力有限,只能处理线性可分的二分类问题。

 

43.当特征为离散型时,可以使用信息增益作为评价统计量。

 

44.利用K近邻法进行分类时,k值过小容易发生过拟合现象。

 

45.uBFR算法所使用数据中的簇在不同坐标下的标准差有所不同

 

46.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。

 

47.特征的信息增益越大,则其越不重要。

 

48.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。

 

49.信息熵越小,样本结合的纯度越低

 

50.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式


需要奥鹏作业答案请扫二维码,加我QQ

添加微信二维码,了解更多学习技巧,平台作业、毕业论文完成时间友情提醒。不再错过任何作业论文。