第四学期-智能数据分析-期末复习题

智能数据分析期末复习(2024春)

【考试形式】:闭卷,90分钟,笔试

【题型分布】:

单选题10题,每题3分,共计30分

判断题10题,每题2分,共计20分

填空题5题,每题3分,共计15分

应用题2题,每题10分,共计20分

程序填空题2大题,共计15分

  • 单选

1、以下关于商务数据分析说法中错误的是( B )。

B. 企业正在由“以顾客为中心”转换为“以产品为中心”

2、OLAP技术的核心是(  A )。A. 多维分析

3、把数据报表从⼀年展开成四个季度的操作是( C )。C.下钻 D.切片

4、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务( C )。C.数据预处理

5、以下哪种可视化方法能够反应每个数据项所占的比例(D )D.饼图

6、K-means算法要求输入的数据类型必须是( B  )。B.数值型

7、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题( A )。A.关联规则挖掘

8、假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到1至100的范围内。对属性income的73600元将被转化为(  )。

A. 82.1          B. 12.4      C.14.7       D. 71.9

9、以下哪些算法属于监督学习范畴( B )。D

(1)聚类 (2)关联规则挖掘  (3)决策树 (4) 支持向量机D.(3)(4)

10、可以用于衡量聚类效果的指标是( D )。D. SSE

11、数据仓库是随着时间变化的,下面的描述不正确的是( D )。B

B. 捕捉到的新数据会覆盖原来的快照;

12、关于OLAP的特性,下面说法正确的是( D )。

(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性D. (1)(2)(3)(4)(5)

13、把数据报表中的四个季度合并为一年进行汇总的操作是(  A )。A. 上钻

14、在数据挖掘中,( B )往往占据75%的工作量。B. 数据预处理

15、散点图通常是用来呈现什么样的数据( D )。D. 通过点阵展现趋势、集群、模式及相关性数据

16、可以用于衡量聚类效果的指标是(  D )。D.SSE

17、只有零值才重要的二元属性被称作(C  )。C. 对称的二元属性

18、一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是( A )。A.一年级

19、以下哪个算法属于无监督学习范畴( D )。AA. K-modes  

A. K-modes   B.决策树     C.支持向量机   D.线性回归

        

20、关联规则挖掘中,强关联规则的定义是( C )。

C. 支持度和置信度均应分别大于用户指定的最小支持度和最小置信

21、关于大数据的特点,以下说法错误的是( C )。C. 数据价值密度高

22、有关OLAP与OLTP的正确描述是( A  )。

A. OLAP使用历史性的数据,OLTP使用当前数据

B. OLAP面向操作⼈员, OLTP面向决策⼈员

C. OLAP经常对数据进⾏插⼊、删除等提作, OLTP仅对数据进⾏汇总和分析

D. OLAP不会从已有数据中发掘新的信息。⽽OLTP可以从已有数据中发掘新的信息

23、选定多维数组中的一个维成员做数据分割的操作称为该维上的一个(A)。

A. 切片           B.下钻               C.选择            D.投影

24、( C )是关于数据的数据。C. 元数据

25、(  )可以通过上下四分位数,上边界和下边界等表示数据的总体分布情况。

A.箱线图          B.计数图            C.散点图          D.柱状图

26、以下两种描述分别对应哪两种对分类算法的评价标准?( A)A. Precision,  Recall

  (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

  (b)描述有多少比例的小偷给警察抓了的标准。

27、患者数据中,儿童患者为300人,青少年患者为280人,中年患者为200人,老年患者为520人。则对于数据中的年龄段属性,其众数应该是(D  )。D.老年

28、假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。则属性income的73600元将被转化为(  )

A.0.821       B. 1.224       C.1.458      D.0.716

29、以下哪些算法属于监督学习范畴(  A  )。C C.贝叶斯分类

A.K-means         B.层次聚类         C.贝叶斯分类      D. K-modes

  • 判断

1、数据仓库设计中,星型模型的核心是维表,维表把各种不同的事实表连接起来。F

2、数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程。T

3、孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。F T

4、数据挖掘中,通常数据预处理比数据建模花费的工作量更大。T

5、对于数值型变量,曼哈顿距离的计算量显著高于欧式距离。T F

6、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。F

7、对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。T

8、Z-score标准化可以把数据转换为均值为0,标准差为1的正态分布变量。T

9、决策树方法通常用于关联规则挖掘 F

10、聚类可以作为分类等其它任务的预处理步骤。 T

11、由于Excel不具备制作可视化图表的功能,目前常采用Tableau进行数据可视化。F

12、数据挖掘中,通常数据建模比数据预处理花费的工作量更大。F

13、降维是指采用某种映射方法,将高维空间中的数据映射到低维空间。T

14、数据仓库中的ETL指的是数据的抽取、转换和装载的过程。T

15、维是人们观察数据的特定角度,是考虑问题时的一类属性。T

16、分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。T

17、元数据是关于数据的数据。T

18、在K-modes算法中,聚类中出现频率最高的属性值被选为聚类中心 T

19、决策树方法特别适合于处理数值型数据。T F

20数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。T

21、数据仓库“粒度”越细,记录数越多。T

22、K-means算法适合处理凹型分布的连续数值型数据。T F

23、数据仓库设计的概念模型包括星型模型和雪花模型。T

24、贝叶斯定理提供了由后验概率计算先验概率的方法。T F

25、预测是回归模型最重要的应用。 T

26、在进行数据清洗时,可以采用聚类技术检测孤立点。 T

27、分类和回归都可用于预测,其中回归的输出是离散值。F

  • 填空

1、在线性降维方法中,        PCA 主成分分析          现行判别分析 对于全局线性结构的数据具有很好的降维效果。

2、主成分分析是一种线性      降维      方法。

3、与在线分析处理不同,传统的       数据库 在线事务处理       是事件驱动、面向应用的。

4、企业的数据处理大致分为两类,一类是    事务型 操作型处理   ,另一类是  历史数据   分析型处理

5、     OLAP      又称作多维分析,其常用操作包括对多维数据的切片、切块、上钻、下钻、旋转等。

6、      元数据        是关于数据的数据。

7、ID3算法是一种      决策树      分类算法,它基于  决策树 信息增益  决定分支节点。

8、数据库的概念模型通常用ER图来表示,而数据仓库则采用    信息包图     来表示。

9、星型模型的核心是事实表,事实表把各种不同的      维表      连接起来。

10、数据仓库中的ETL指的是数据的       抽取        、转换和装载的过程。

11、     标准  z-score    方法可以把数据转换为均值0,标准差为1的正态分布变量。

  • 应用题

1、已知事务集如下

事务ID

项目

T1

1,3,4

T2

2,3,5

T3

1,2,3,5

T4

2,3,5

现采用关联规则挖掘算法对事务集进行分析,已知最小支持度为50%,请说明频繁项集的判断标准,并列举所有的频繁项集。

答案:

由于事务数为4,则出现次数大于等于4*50%=2的项集均为频繁项集   

频繁1-项集包括 {1}  {2} {3} {5}                        

频繁2-项集包括 {1,3} {2,3}  {2,5}  {3,5}                 

频繁3-项集包括 {2,3,5}                             

2、已知事务集如下

事务ID

项目

T1

面包,牛奶,啤酒,尿布

T2

面包,牛奶,啤酒

T3

啤酒,尿布

T4

面包,牛奶,花生

最小支持度为50%,请列举所有的频繁项集。

   参考答案略。

3、已知电商网站交易事务数据集如下,

事务ID

购买商品

T1

i1,i2,i5

T2

i2,i4

T3

i2,i3

T4

i1,i2,i4

T5

i1,i3

T6

i2,i3

T7

i1,i3

T8

i1,i2,i3,i5

T9

i1,i2,i3

最小支持度为2/9,最小置信度为70%,X={i1,i2,i5}是频繁项集。请基于X列举出所有形如{a,b}->{c}以及{a}->{b,c}模式的关联规则,并判断哪些属于强关联规则。

答案:

{i1,i2}->{i5}  置信度为 2/4

{i1,i5}->{i2}  置信度为2/2

{i2,i5}->{i1}  置信度为2/2

{i1}->{i2,i5}  置信度为2/6

{i2}->{i1,i5}  置信度为2/7

{i5}->{i1,i2}  置信度为2/2

置信度大于等于70%的即为强关联规则,因此

强关联规则包括:{i1,i5}->{i2},{i2,i5}->{i1},{i5}->{i1,i2}

4、已知一个二元分类器在测试集中进行测试得到的混淆矩阵如下

   

真实类别

Positive

Negative

预测类别

Positive

80

20

Negative

30

70

请完成下列指标的计算

  1. 测试集的样本个数
  2. 准确率
  3. 查准率
  4. 查全率

答案:

(1)正例为80+30=110个,反例为20+70=90个,因此样本总数为110+90=200个

(2)准确率=(80+70)/200=0.75     

(3)查准率=80/(80+20)=0.8       

(4)查全率=80/(80+30)=0.727     

5、在决策树算法中采用信息熵度量随机系统的信息量。现有两个随机系统:投掷密度均匀的两面硬币(正,反),投掷密度均匀的六面骰子(1,2,3,4,5,6)。请分别计算它们的信息熵。并解释信息熵的大小与随机系统的不确定性之间的关系。

答案:

对于投掷二面硬币随机系统

 

对于投掷六面骰子随机系统

信息熵用于衡量系统的不确定性,信息熵越大,则不确定性越高。

6、已知下图为样本点的分布示意图。现利用DBSCAN算法对数据进行聚类。已知半径设置为Eps,最小点数MinPts设置为5。请解释什么是Eps邻域,判断A,B,C三个样本点的类别,并解释原因。

智能数据分析DBSCAN

答案:

一个样本点的Eps邻域指的是距离该点的距离小于Eps的所有样本点的集合。    

A的Eps邻域内包含的样本数大于5,因此是核心点。   

B的Eps邻域内包含的样本数少于5,但是B处在A的Eps邻域内,因此B为边界点。

C的Eps邻域内包含的样本数少于5,并且它不在任何核心点的Eps邻域内,因此C是噪声点。  

  • 程序填空题

1、已知字典province_time中存放了各省份从2018、2019、2020、2021年四个年度的订单数据,详细内容如下:

{'浙江': [70, 74, 128, 152], '四川': [58, 122, 114, 98], '江苏': [127, 130, 135, 191], '广东': [144, 223, 213, 256], '江西': [26, 18, 32, 63]}

程序中已经导入了matplotlib包,且将其别名命名为plt。现要生成折线图对比四川,江苏两省在2018至2021年之间订单的变化趋势,横轴设置为年份,纵轴设置为订单量,请将代码补充完整。

x=["2018","2019","2020","2021"]

y_sc=province_time["四川"]

y_js=province_time["江苏"]

#将横轴设置为年份

       (1)          (2分)

#将纵轴设置为订单量

       (2)           (2分)

plt.title("浙江、上海、北京年度订单量趋势变化对比")

#生成两条折线,label分别设置为四川和江苏

         (3)             (2分)

         (4)             (2分)

plt.legend(loc="best")

plt.show()

答案:

(1)plt.xlabel("年份")

(2)plt.ylabel("订单量")   

(3)plt.plot(x,y_sc,label="四川")

(4)plt.plot(x,y_js,label="江苏")     

2、已知字典catagory中存放了不同类别商品被购买的频率,详细内容如下

{'用品': 600, '信封': 616, '装订机': 882, '器具': 560, '设备': 318, '椅子': 854, '纸张': 552}

程序中已经导入了matplotlib包,且将其别名命名为plt。现要生成柱状图对比各类商品的购买频率,横轴为商品类别,纵轴为购买频率,请将代码补充完整。

#获取商品类别列表

names_catagory=       (1)         (2分)

#获取商品购买频率列表

values_catagory=       (2)            (2分)

#生成柱状图,每类别的宽度设置为0.6

           (3)                          (4分)

plt.title('不同类别商品的购买频率')

plt.show()

答案:

(1)list(catagory.keys())  

 (2)list(catagory.values())     

  (3)plt.bar( names_catagory,values_catagory,0.6 )

3、已知字典catagory中存放了不同省份的年均销售额数据,详细内容如下{'浙江': 4500, '上海': 6160, '江苏': 8820, '安徽': 3790, '河南': 4560, '陕西': 5420}。程序中已经导入了matplotlib包,且将其别名命名为plt。现要生成柱状图对比各省份的年均销售额,横轴为省份,纵轴为年均销售额,请将代码补充完整。

#获取省份列表

provinces_catagory=       (1)         (2分)

#获取年均销售额列表

sales_catagory=       (2)            (2分)

#生成柱状图,每类别的宽度设置为0.3

           (3)                          (4分)

plt.title('各省份年均销售额')

plt.show()

参考答案略

4、已知segment字典中存放不同类别客户的订单量数据,详细内容如下:

{'公司': 3076, '消费者': 5091, '小型企业': 1768}

程序中已经导入了matplotlib包,且将其别名命名为plt。现要生成饼图对比各类客户的订单数量的比例,饼图标题设置为“不同消费群体订单比例”,请根据注释的提示完成程序代码。

#生成饼图

          (1)                        (4分)

#设置图标题

          (2)                               (2分)

#显示饼图

          (3)                                (2分)

答案:

(1)plt.pie(segment.values(),labels=segment.keys()) 

 (2)plt.title('不同消费群体订单比例')        

 (3)plt.show()                               

5、已知train为训练集,target为训练数据的类标签,xtest为测试集。现采用支持向量机方法对测试集中的样本进行分类,请根据要求填充代码。

from sklearn.svm import SVC

#利用SVC构建线性分类器

svc=      (1)                  (2分)

#训练模型

clf=      (2)                   (3分)

#对测试集进行预测,分类标签写入predicty

predicty=     (3)                (2分)

答案:

(1) SVC(kernel='linear')  

   (2)svc.fit(train,target) 

   (3)clf.predict(xtest)     

6. 已知train为训练集,target为训练数据的类标签,xtest为测试集。现采用支持向量机方法对测试集中的样本进行分类,请根据要求填充代码。

from sklearn.svm import SVC

#利用SVC构建分类器,核函数为高斯核函数

svc=              (1)                      (2分)

#训练模型

clf=             (2)                    (3分)

#对测试集进行预测,分类标签写入predicty

predicty=         (3)                   (2分)

答案:

(1) SVC(kernel='rbf')  

(2)svc.fit(train,target) 

(3)clf.predict(xtest)     

7、已知train为训练集,target为训练数据的类标签,xtest为测试集,ytest为测试集的真实类标签。现采用逻辑回归方法对测试集中的样本进行分类,并对分类效果进行评估。请根据要求填充代码。

from sklearn.linear_model import LogisticRegression

model_lg=LogisticRegression()

#训练模型

clf=        (1)                            (3分)

#预测

predicty=clf.predict(xtest)

#计算并输出accuracy

print(         (2)        )               (2分)

#计算并输出recall

print(        (3)         )               (2分)

#计算并输出f1

print(f1_score(ytest,predicty))    

答案:

(1) model_lg.fit(train,target)  

(2)accuracy_score(ytest,predicty)  

(3)recall_score(ytest,predicty)     

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/35988.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

总结的一些MySql面试题

目录 一:基础篇 二:索引原理和SQL优化 三:事务原理 四:缓存策略 一:基础篇 1:定义:按照数据结构来组织、存储和管理数据的仓库;是一个长期存储在计算机内的、有组织的、可共享 的…

C#实现一个HttpClient集成通义千问-开发前准备

集成一个在线大模型(如通义千问),来开发一个chat对话类型的ai应用,我需要先了解OpenAI的API文档,请求和返回的参数都是以相关接口文档的标准进行的 相关文档 OpenAI API文档 https://platform.openai.com/docs/api-…

python游戏设计---飞机大战

1.前言 上次做飞机大战游戏有人这么说: 好好好!今天必须整一个,今天我们来详细讲解一下,底部找素材文件下载!!! 2.游戏制作 目录如下: 1.导入的包 import pygame import sys imp…

Final Vision Get Picture Pos Send 2 Python Control Robot

import tkinter as tk from tkinter import messagebox, filedialog from tkinter import ttk import socket import threading import subprocess from datetime import datetime from PIL import Image, ImageTk import time # 全局变量 client_socket None connected Fal…

Spring框架-IoC的使用(基于XML和注解两种方式)

一、Spring IoC使用-基于XML 1 IoC使用-基于XML 使用SpringIoC组件创建并管理对象 1.1 创建实体类 package com.feng.ioc.bean;import java.util.Date;/*** program: spring-ioc-demo1* description: 学生实体类* author: FF* create: 2024-12-04 18:53**/ public class Stud…

C++编程控制舵机的实现与应用

在嵌入式编程和物联网应用中,舵机是一种非常重要的执行器,广泛应用于机器人、遥控玩具、机械臂、摄像头云台等多个领域。舵机不仅能够精准地控制角度位置,还能在一定的工作范围内持续保持该位置。在本篇文章中,我们将站在 C 编程教…

对于MySQL中视图的相关实验

以下用该表举例: /*Table structure for table employees */ DROP TABLE IF EXISTS employees; CREATE TABLE employees ( employee_id int(6) NOT NULL DEFAULT 0, first_name varchar(20) DEFAULT NULL, last_name varchar(25) NOT NULL, email varc…

day-90 使数组为空的最少操作次数

思路 统计每个数字出现的次数,计算每个数字的操作次数,将所有操作次数累加返回即可 解题过程 对于每个数字(假设出现次数num),如果num等于1,返回-1;如果num%3等于0,返回num/3;如果num%3不等于0…

6.xftp使用教程

xftp用于windows和linux之间进行文件互传 1.先安装xftp软件,并双击打开 2.文件 – 新建 3.配置参数 4.连接 5.把需要的文件扯到右边

[nmap] 端口扫描工具的下载及详细安装使用过程(附有下载文件)

前言 nmap网络连接端扫描软件,用于主机发现、端口扫描、版本侦测、操作系统侦测 namp 链接:https://pan.quark.cn/s/4ea55a2d62c3 提取码:aXnr 下载压缩包后解压 !!安装路径不要有中文 链接失效(可能被官…

详解组合模式

引言 有一种情况,当一组对象具有“整体—部分”关系时,如果我们处理其中一个对象或对象组合(区别对待),就可能会出现牵一发而动全身的情况,造成代码复杂。这个时候,组合模式就是一种可以用一致的…

计算机网络复习——概念强化作业

物理层负责网络通信的二进制传输 用于将MAC地址解析为IP地址的协议为RARP。 一个交换机接收到一帧,其目的地址在它的MAC地址表中查不到,交换机应该向除了来的端口外的所有其它端口转发。 关于ICMP协议,下面的论述中正确的是ICMP可传送IP通信过程中出现的错误信息。 在B类网络…

SQL语法——DQL查询

1.查询: 基础查询: select 列名1,列名2 from 表名; # 输入列名为*时为全查 条件查询: select 列名 from 表名 where 条件; #条件中含字符串时为字符串

Manus手套动作捕捉AI训练灵巧手

随着人工智能(AI)和机器人技术的融合日益紧密,使用真实动作数据AI扩容训练机器人的方式正在被用于开发更富表现力的机器人。Manus手套凭借精准的动作捕捉技术和导出数据的强大兼容性,在灵巧手的研发和应用中发挥了重要作用。 手部…

Altium Designer学习笔记 29 PCB布线_信号线

基于Altium Designer 23学习版,四层板智能小车PCB 更多AD学习笔记:Altium Designer学习笔记 1-5 工程创建_元件库创建Altium Designer学习笔记 6-10 异性元件库创建_原理图绘制Altium Designer学习笔记 11-15 原理图的封装 编译 检查 _PCB封装库的创建Al…

【02】复用松散型栅格切片

栅格切片分三种类型: 松散型、紧凑型v1紧凑型v2 见链接:https://blog.csdn.net/gislaozhang/article/details/144296963 说明:Linux环境或者Windows环境都可以参考类似的思路复用 前提条件:将旧服务切片服务缓存文件拷贝到新机器…

dd破坏asm磁盘头恢复---惜分飞

有朋友对asm disk的磁盘头dd了2048byte的数据 通过分析,gi软件版本,确认是11.2.0.4 Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production With the Real Application Clusters and Automatic Storage Management options. ORACLE_HOME /u01/app/…

【多线程-第一天-NSThread-互斥锁和自旋锁的区别-练习-异步下载网络图片 Objective-C语言】

一、互斥锁和自旋锁的区别 1.刚刚我们看过了,互斥锁和自旋锁,下边我们来看,互斥锁和自旋锁的一个区别, 1)互斥锁:如果发现其他线程正在执行锁定代码,线程会进入休眠(就绪状态),等其他线程时间片到了,打开锁后,线程会被唤醒(执行) 它是被唤醒的,相当于什么呢,…

【vue3 for beginner】Pinia基本用法:存储user的信息

🌈Don’t worry , just coding! 内耗与overthinking只会削弱你的精力,虚度你的光阴,每天迈出一小步,回头时发现已经走了很远。 📗概念 Pinia 简介 Pinia 是一个用于 Vue.js 应用的状态管理库,是 Vuex 的…

PS的功能学习(钢笔+...)

钢笔工具 转换点工具,就是按住alt就可以转换了,也不用特意去工具列表里找着点 弯度钢笔工具也是比较鸡肋的,钢笔工具熟练之后,控制的也会更精确,弯度虽然简化了,但是也增加了曲线的弯度限制 其他的功能&a…