23秋学期(仅限-高起专1909、专升本1909)《数据科学导论》在线作业-00003
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
2.实体识别的常见形式()
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
3.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
4.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A.计数属性
B.离散属性
C.非对称的二元属性#对称属性
5.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
6.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
7.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
8.单层感知机是由()层神经元组成。
A.一
B.二
C.三
D.四
9.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
10.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A.自上而下
B.自下而上
C.自左而右
D.自右而左
11.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
12.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
13.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
14.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
15.以下哪一项不是特征选择常见的方法()
A.过滤式
B.封装式
C.嵌入式
D.开放式
16.层次聚类适合规模较()的数据集
A.大
B.中
C.小
D.所有
17.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
18.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A.异常值
B.不一致的值
C.重复值
D.缺失值
19.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
20.聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
二、多选题 (共 10 道试题,共 20 分)
21.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
22.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
23.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
24.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
25.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
26.下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
27.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
28.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
29.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
30.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
三、判断题 (共 20 道试题,共 40 分)
31.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。
32.啤酒与尿布的故事是聚类分析的典型实例。
33.Apriori算法是一种典型的关联规则挖掘算法。
34.分拆方法是自底向上的方法。
35.交叉表被广泛用于调查研究,商业智能,工程和科学研究
36.k值增大意味着整体模型变得复杂。
37.利用K近邻法进行分类时,k值过小容易发生过拟合现象。
38.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式
39.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
40.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
41.多元线性回归模型中,标准化偏回归系数没有单位。
42.由不同的距离度量所确定的最近邻点是不同的
43.决策树内部结点表示一个类,叶结点表示一个特征或属性
44.交叉表可以帮助人们发现变量之间的相互作用。
45.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能
46.随着特征维数的增加,样本间区分度提高。
47.K均值(K-Means)算法是密度聚类。
48.赤池信息准则是衡量统计模型拟合优良性的一种标准。
49.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
50.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。