《数据挖掘》作业(一)
本课程作业由两部分组成。第一部分为“客观题部分”,由5道选择题组成,每题10分,共50分。第二部分为“主观题部分”,简答题1道20分,计算题1道30分。作业总分100分,将作为平时成绩记入课程总成绩。
客观题部分:
一、 选择题(每题10分,共50题)
1、什么是KDD? ( )
A. 数据挖掘与知识发现 B. 领域知识发现
C. 文档知识发现 D. 动态知识发现
2、下面哪种不属于数据预处理的方法? ( )
A. 变量代换 B. 离散化 C. 聚集 D. 估计遗漏值
3、假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等宽划分时(宽度为50),15在哪个箱子里?
( )
A. 第一个 B. 第二个 C. 第三个 D. 第四个
4、min-max规范化方法的值域是什么? ( )
A. [new_min, new_max]
B. (-∞,+∞)
C. (-1.0, 1.0)
D. (0,1)
5、关于数据仓库与数据库的不同点,说法错误的是: ( )
A. 数据库是面向主题设计的;数据仓库是面向事务设计的。
B. 数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。
C. 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
D. 数据库是为捕获数据而设计;数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表
主观题部分:
一、 简答题(20分)
为什么说概念分层在数据挖掘中的是有用的?
答:
二、 计算题(30分)
假设给定的数据集的值已经分组为区间。区间和对应的频率如下:
年龄 频率
1 ~ 5 200
5 ~ 15 450
15 ~ 20 300
20 ~ 50 1500
50 ~ 80 700
80 ~ 110 44
计算数据的近似中位数值。
答: