智能数据分析期末复习(2024春)
【考试形式】:闭卷,90分钟,笔试
【题型分布】:
单选题10题,每题3分,共计30分
判断题10题,每题2分,共计20分
填空题5题,每题3分,共计15分
应用题2题,每题10分,共计20分
程序填空题2大题,共计15分
- 单选
1、以下关于商务数据分析说法中错误的是( B )。
B. 企业正在由“以顾客为中心”转换为“以产品为中心”
2、OLAP技术的核心是( A )。A. 多维分析
3、把数据报表从⼀年展开成四个季度的操作是( C )。C.下钻 D.切片
4、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务( C )。C.数据预处理
5、以下哪种可视化方法能够反应每个数据项所占的比例(D )D.饼图
6、K-means算法要求输入的数据类型必须是( B )。B.数值型
7、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题( A )。A.关联规则挖掘
8、假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到1至100的范围内。对属性income的73600元将被转化为( )。
A. 82.1 B. 12.4 C.14.7 D. 71.9
9、以下哪些算法属于监督学习范畴( B )。D
(1)聚类 (2)关联规则挖掘 (3)决策树 (4) 支持向量机D.(3)(4)
10、可以用于衡量聚类效果的指标是( D )。D. SSE
11、数据仓库是随着时间变化的,下面的描述不正确的是( D )。B
B. 捕捉到的新数据会覆盖原来的快照;
12、关于OLAP的特性,下面说法正确的是( D )。
(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性D. (1)(2)(3)(4)(5)
13、把数据报表中的四个季度合并为一年进行汇总的操作是( A )。A. 上钻
14、在数据挖掘中,( B )往往占据75%的工作量。B. 数据预处理
15、散点图通常是用来呈现什么样的数据( D )。D. 通过点阵展现趋势、集群、模式及相关性数据
16、可以用于衡量聚类效果的指标是( D )。D.SSE
17、只有非零值才重要的二元属性被称作(C )。C. 非对称的二元属性
18、一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是( A )。A.一年级
19、以下哪个算法属于无监督学习范畴( D )。AA. K-modes
A. K-modes B.决策树 C.支持向量机 D.线性回归
20、关联规则挖掘中,强关联规则的定义是( C )。
C. 支持度和置信度均应分别大于用户指定的最小支持度和最小置信度
21、关于大数据的特点,以下说法错误的是( C )。C. 数据价值密度高
22、有关OLAP与OLTP的正确描述是( A )。
A. OLAP使用历史性的数据,OLTP使用当前数据
B. OLAP面向操作⼈员, OLTP面向决策⼈员
C. OLAP经常对数据进⾏插⼊、删除等提作, OLTP仅对数据进⾏汇总和分析
D. OLAP不会从已有数据中发掘新的信息。⽽OLTP可以从已有数据中发掘新的信息
23、选定多维数组中的一个维成员做数据分割的操作称为该维上的一个(A)。
A. 切片 B.下钻 C.选择 D.投影
24、( C )是关于数据的数据。C. 元数据
25、( )可以通过上下四分位数,上边界和下边界等表示数据的总体分布情况。
A.箱线图 B.计数图 C.散点图 D.柱状图
26、以下两种描述分别对应哪两种对分类算法的评价标准?( A)A. Precision, Recall
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
27、患者数据中,儿童患者为300人,青少年患者为280人,中年患者为200人,老年患者为520人。则对于数据中的年龄段属性,其众数应该是(D )。D.老年
28、假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。则属性income的73600元将被转化为( )。
A.0.821 B. 1.224 C.1.458 D.0.716
29、以下哪些算法属于监督学习范畴( A )。C C.贝叶斯分类
A.K-means B.层次聚类 C.贝叶斯分类 D. K-modes
- 判断
1、数据仓库设计中,星型模型的核心是维表,维表把各种不同的事实表连接起来。F
2、数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程。T
3、孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。F T
4、数据挖掘中,通常数据预处理比数据建模花费的工作量更大。T
5、对于数值型变量,曼哈顿距离的计算量显著高于欧式距离。T F
6、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。F
7、对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。T
8、Z-score标准化可以把数据转换为均值为0,标准差为1的正态分布变量。T
9、决策树方法通常用于关联规则挖掘 F
10、聚类可以作为分类等其它任务的预处理步骤。 T
11、由于Excel不具备制作可视化图表的功能,目前常采用Tableau进行数据可视化。F
12、数据挖掘中,通常数据建模比数据预处理花费的工作量更大。F
13、降维是指采用某种映射方法,将高维空间中的数据映射到低维空间。T
14、数据仓库中的ETL指的是数据的抽取、转换和装载的过程。T
15、维是人们观察数据的特定角度,是考虑问题时的一类属性。T
16、分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。T
17、元数据是关于数据的数据。T
18、在K-modes算法中,聚类中出现频率最高的属性值被选为聚类中心 T
19、决策树方法特别适合于处理数值型数据。T F
20、数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。T
21、数据仓库“粒度”越细,记录数越多。T
22、K-means算法适合处理凹型分布的连续数值型数据。T F
23、数据仓库设计的概念模型包括星型模型和雪花模型。T
24、贝叶斯定理提供了由后验概率计算先验概率的方法。T F
25、预测是回归模型最重要的应用。 T
26、在进行数据清洗时,可以采用聚类技术检测孤立点。 T
27、分类和回归都可用于预测,其中回归的输出是离散值。F
- 填空
1、在线性降维方法中, PCA 主成分分析 和 现行判别分析 对于全局线性结构的数据具有很好的降维效果。
2、主成分分析是一种线性 降维 方法。
3、与在线分析处理不同,传统的 数据库 在线事务处理 是事件驱动、面向应用的。
4、企业的数据处理大致分为两类,一类是 事务型 操作型处理 ,另一类是 历史数据 分析型处理。
5、 OLAP 又称作多维分析,其常用操作包括对多维数据的切片、切块、上钻、下钻、旋转等。
6、 元数据 是关于数据的数据。
7、ID3算法是一种 决策树 分类算法,它基于 决策树 信息增益 决定分支节点。
8、数据库的概念模型通常用ER图来表示,而数据仓库则采用 信息包图 来表示。
9、星型模型的核心是事实表,事实表把各种不同的 维表 连接起来。
10、数据仓库中的ETL指的是数据的 抽取 、转换和装载的过程。
11、 标准 z-score 方法可以把数据转换为均值为0,标准差为1的正态分布变量。
- 应用题
1、已知事务集如下
事务ID | 项目 |
T1 | 1,3,4 |
T2 | 2,3,5 |
T3 | 1,2,3,5 |
T4 | 2,3,5 |
现采用关联规则挖掘算法对事务集进行分析,已知最小支持度为50%,请说明频繁项集的判断标准,并列举所有的频繁项集。
答案:
由于事务数为4,则出现次数大于等于4*50%=2的项集均为频繁项集
频繁1-项集包括 {1} {2} {3} {5}
频繁2-项集包括 {1,3} {2,3} {2,5} {3,5}
频繁3-项集包括 {2,3,5}
2、已知事务集如下
事务ID | 项目 |
T1 | 面包,牛奶,啤酒,尿布 |
T2 | 面包,牛奶,啤酒 |
T3 | 啤酒,尿布 |
T4 | 面包,牛奶,花生 |
最小支持度为50%,请列举所有的频繁项集。
参考答案略。
3、已知电商网站交易事务数据集如下,
事务ID | 购买商品 |
T1 | i1,i2,i5 |
T2 | i2,i4 |
T3 | i2,i3 |
T4 | i1,i2,i4 |
T5 | i1,i3 |
T6 | i2,i3 |
T7 | i1,i3 |
T8 | i1,i2,i3,i5 |
T9 | i1,i2,i3 |
最小支持度为2/9,最小置信度为70%,X={i1,i2,i5}是频繁项集。请基于X列举出所有形如{a,b}->{c}以及{a}->{b,c}模式的关联规则,并判断哪些属于强关联规则。
答案:
{i1,i2}->{i5} 置信度为 2/4
{i1,i5}->{i2} 置信度为2/2
{i2,i5}->{i1} 置信度为2/2
{i1}->{i2,i5} 置信度为2/6
{i2}->{i1,i5} 置信度为2/7
{i5}->{i1,i2} 置信度为2/2
置信度大于等于70%的即为强关联规则,因此
强关联规则包括:{i1,i5}->{i2},{i2,i5}->{i1},{i5}->{i1,i2}
4、已知一个二元分类器在测试集中进行测试得到的混淆矩阵如下
| 真实类别 | ||
Positive | Negative | ||
预测类别 | Positive | 80 | 20 |
Negative | 30 | 70 |
请完成下列指标的计算
- 测试集的样本个数
- 准确率
- 查准率
- 查全率
答案:
(1)正例为80+30=110个,反例为20+70=90个,因此样本总数为110+90=200个
(2)准确率=(80+70)/200=0.75
(3)查准率=80/(80+20)=0.8
(4)查全率=80/(80+30)=0.727
5、在决策树算法中采用信息熵度量随机系统的信息量。现有两个随机系统:投掷密度均匀的两面硬币(正,反),投掷密度均匀的六面骰子(1,2,3,4,5,6)。请分别计算它们的信息熵。并解释信息熵的大小与随机系统的不确定性之间的关系。
答案:
对于投掷二面硬币随机系统
对于投掷六面骰子随机系统
信息熵用于衡量系统的不确定性,信息熵越大,则不确定性越高。
6、已知下图为样本点的分布示意图。现利用DBSCAN算法对数据进行聚类。已知半径设置为Eps,最小点数MinPts设置为5。请解释什么是Eps邻域,判断A,B,C三个样本点的类别,并解释原因。
答案:
一个样本点的Eps邻域指的是距离该点的距离小于Eps的所有样本点的集合。
A的Eps邻域内包含的样本数大于5,因此是核心点。
B的Eps邻域内包含的样本数少于5,但是B处在A的Eps邻域内,因此B为边界点。
C的Eps邻域内包含的样本数少于5,并且它不在任何核心点的Eps邻域内,因此C是噪声点。
- 程序填空题
1、已知字典province_time中存放了各省份从2018、2019、2020、2021年四个年度的订单数据,详细内容如下:
{'浙江': [70, 74, 128, 152], '四川': [58, 122, 114, 98], '江苏': [127, 130, 135, 191], '广东': [144, 223, 213, 256], '江西': [26, 18, 32, 63]}
程序中已经导入了matplotlib包,且将其别名命名为plt。现要生成折线图对比四川,江苏两省在2018至2021年之间订单的变化趋势,横轴设置为年份,纵轴设置为订单量,请将代码补充完整。
x=["2018","2019","2020","2021"]
y_sc=province_time["四川"]
y_js=province_time["江苏"]
#将横轴设置为年份
(1) (2分)
#将纵轴设置为订单量
(2) (2分)
plt.title("浙江、上海、北京年度订单量趋势变化对比")
#生成两条折线,label分别设置为四川和江苏
(3) (2分)
(4) (2分)
plt.legend(loc="best")
plt.show()
答案:
(1)plt.xlabel("年份")
(2)plt.ylabel("订单量")
(3)plt.plot(x,y_sc,label="四川")
(4)plt.plot(x,y_js,label="江苏")
2、已知字典catagory中存放了不同类别商品被购买的频率,详细内容如下
{'用品': 600, '信封': 616, '装订机': 882, '器具': 560, '设备': 318, '椅子': 854, '纸张': 552}
程序中已经导入了matplotlib包,且将其别名命名为plt。现要生成柱状图对比各类商品的购买频率,横轴为商品类别,纵轴为购买频率,请将代码补充完整。
#获取商品类别列表
names_catagory= (1) (2分)
#获取商品购买频率列表
values_catagory= (2) (2分)
#生成柱状图,每类别的宽度设置为0.6
(3) (4分)
plt.title('不同类别商品的购买频率')
plt.show()
答案:
(1)list(catagory.keys())
(2)list(catagory.values())
(3)plt.bar( names_catagory,values_catagory,0.6 )
3、已知字典catagory中存放了不同省份的年均销售额数据,详细内容如下{'浙江': 4500, '上海': 6160, '江苏': 8820, '安徽': 3790, '河南': 4560, '陕西': 5420}。程序中已经导入了matplotlib包,且将其别名命名为plt。现要生成柱状图对比各省份的年均销售额,横轴为省份,纵轴为年均销售额,请将代码补充完整。
#获取省份列表
provinces_catagory= (1) (2分)
#获取年均销售额列表
sales_catagory= (2) (2分)
#生成柱状图,每类别的宽度设置为0.3
(3) (4分)
plt.title('各省份年均销售额')
plt.show()
参考答案略
4、已知segment字典中存放不同类别客户的订单量数据,详细内容如下:
{'公司': 3076, '消费者': 5091, '小型企业': 1768}
程序中已经导入了matplotlib包,且将其别名命名为plt。现要生成饼图对比各类客户的订单数量的比例,饼图标题设置为“不同消费群体订单比例”,请根据注释的提示完成程序代码。
#生成饼图
(1) (4分)
#设置图标题
(2) (2分)
#显示饼图
(3) (2分)
答案:
(1)plt.pie(segment.values(),labels=segment.keys())
(2)plt.title('不同消费群体订单比例')
(3)plt.show()
5、已知train为训练集,target为训练数据的类标签,xtest为测试集。现采用支持向量机方法对测试集中的样本进行分类,请根据要求填充代码。
from sklearn.svm import SVC
#利用SVC构建线性分类器
svc= (1) (2分)
#训练模型
clf= (2) (3分)
#对测试集进行预测,分类标签写入predicty
predicty= (3) (2分)
答案:
(1) SVC(kernel='linear')
(2)svc.fit(train,target)
(3)clf.predict(xtest)
6. 已知train为训练集,target为训练数据的类标签,xtest为测试集。现采用支持向量机方法对测试集中的样本进行分类,请根据要求填充代码。
from sklearn.svm import SVC
#利用SVC构建分类器,核函数为高斯核函数
svc= (1) (2分)
#训练模型
clf= (2) (3分)
#对测试集进行预测,分类标签写入predicty
predicty= (3) (2分)
答案:
(1) SVC(kernel='rbf')
(2)svc.fit(train,target)
(3)clf.predict(xtest)
7、已知train为训练集,target为训练数据的类标签,xtest为测试集,ytest为测试集的真实类标签。现采用逻辑回归方法对测试集中的样本进行分类,并对分类效果进行评估。请根据要求填充代码。
from sklearn.linear_model import LogisticRegression
model_lg=LogisticRegression()
#训练模型
clf= (1) (3分)
#预测
predicty=clf.predict(xtest)
#计算并输出accuracy
print( (2) ) (2分)
#计算并输出recall
print( (3) ) (2分)
#计算并输出f1
print(f1_score(ytest,predicty))
答案:
(1) model_lg.fit(train,target)
(2)accuracy_score(ytest,predicty)
(3)recall_score(ytest,predicty)