(Note)机器学习面试题

机器学习

1.两位同事从上海出发前往深圳出差,他们在不同时间出发,搭乘的交通工具也不同,能准确描述两者“上海到深圳”距离差别的是:

A.欧式距离 B.余弦距离 C.曼哈顿距离 D.切比雪夫距离

S:D

1. 欧几里得距离

计算公式(n维空间下)

二维:dis=sqrt( (x1-x2)^2 + (y1-y2)^2 )

三维:dis=sqrt( (x1-x2)^2 + (y1-y2)^2 + (z1-z2)^2 )

2.余弦距离:余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。公式如下:

3.曼哈顿距离:两个点在标准坐标系上的绝对轴距总和

dis=abs(x1-x2)+abs(y1-y2)

4.切比雪夫距离:各坐标数值差的最大值

dis=max(abs(x1-x2),abs(y1-y2))

2.通过监督学习进行二分类模型训练过程中,可能会遇到正负样本数量不平衡的情况(比如正样本有50万但是负样本有100万),以下哪些方法可以对此进行恰当的处理?

A.将所有数据加入训练集,充分利用全部数据

B.从100万负样本中随机抽取50万

C.正样本的权重设置为2,负样本权重设置为1

D.复制两份正样本参与到训练中


S: BCD.

3.在高斯混合分布中,其隐变量的含义是:

A.表示高斯分布的方差 B.表示高斯分布的均值

C.表示数据分布的概率 D.表示数据从某个高斯分布中产生


S: D.

首选依赖GMM的某个高斯分量的系数概率(因为系数取值在0~1之间,因此可以看做是一个概率取值)选择到这个高斯分量,

然后根据这个被选择的高斯分量生成观测数据。然后隐变量就是某个高斯分量是否被选中:选中就为1,否则为0。

4.当训练样本数量趋向于无穷大时,在该数据集上训练的模型变化趋势,对于其描述正确的是()

A.偏差(bias)变小 B.偏差变大 C.偏差不变 D.不变


S: C

偏差大是欠拟合,方差大是过拟合。增大样本数量会降低方差,和偏差没关系。

5.通常来说,哪个模型被认为易于解释? ()

A.SVM B.Logistic Regression C.Decision Tree D.K-nearest Neghbor

S: C

6.假如你使用EM算法对一个有潜变量的模型进行最大似然估计(Maximum likelihood estimate)。这时候要求你将算法进行修改,使得其能找到最大后验分布(Maximum a Posteriori estimation, MAP),你需要修改算法的哪个步骤?

A.Expection B.Maimization C.不需要修改 D.都需要修改

S:A

E step根据当前参数进行估算,M step根据估算结果更新参数。那么修改估算方法自然在E step中。


7.影响基本K-均值算法的主要因素有()

A.样本输入顺序

B.模式相似性测度

C.聚类准则

D.初始类中心的选取

S:ABD

关于A,具体推导详见《模式识别》的动态聚类算法,书中提到,这是一个局部搜索算法,不能保证得到全局最优解,算法结果受初始值和样本调整顺序的影响。也就是说如果在迭代的过程中,数据集不够随机,很容易陷入局部最优。


8.以下哪些函数是凸函数?()

A. f(x) = x

B.f(x) = x^3

C.f(x) = x^4

D.f(x) = x^3+x^4

S: AC.

二阶导数非负

9.假设你有一个非常大的训练集合,如下机器学习算法中,你觉着有哪些是能够使用map-reduce框架并能将训练集划分到多台机器上进行并行训练的()

A.逻辑斯特回归(LR),以及随机梯度下降(SGD)

B.线性回归及批量梯度下降(BGD)

C.神经网络及批量梯度下降(BGD)

D.针对单条样本进行训练的在线学习


S: BC.

LR,SVM,NN,KNN,KMeans,DT,NB都可以用map reduce并行.

10.下列哪几个优化算法适合大规模训练集的场景:

A.minibatch sgd

B.Adam

C.LBFSG

D.FTRL

S: ABD.

FTRL是对每一维单独训练,属于一种在线学习优化算法。由于对参数的每一维单独训练,所以可以用于大规模数据训练。


11.随机变量X ~ N(1, 2),Y ~ N(3, 5),则X+Y ~()

A.N(4, 7) B.N(4,√2+ √5) C.N(1 + √3,7) D.不确定


S:D

主要看两个变量是否独立。独立条件下,正态加正态还是正态。Z=X+Y。均值加均值,方差加方差.


12.下列模型属于机器学习生成式模型的是()

A.朴素贝叶斯

B.隐马尔科夫模型(HMM)

C.马尔科夫随机场(Markov Random Fields)

D.深度信念网络(DBN)


S.ABCD


13.下列关于线性回归说法错误的是()

A.在现有模型上,加入新的变量,所得到的R^2的值总会增加

B.线性回归的前提假设之一是残差必须服从独立正态分布

C.残差的方差无偏估计是SSE/(n-p)

D.自变量和残差不一定保持相互独立


S: D.

R^2越大,拟合效果越好,因此A对。R^2=1-RSS/TSS

RSS数残差平方和 TSS是总的平方和


14.以下方法属于集成方法的是()

A. bagging B.stacking C.blending D.boosting

S: ABCD.

15.SVM(支持向量机)与LR(逻辑回归)的数学本质上的区别是什么

A.损失函数 B.是否有核技巧 C.是否支持多分类 D.其余选项皆错

S: A

LR的损失函数从最大似然的角度理解;

SVM损失函数的原始形式则是从最大化分类间隔的角度出发。


16.SVM(支持向量机)为什么会使用替代损失函数(如hinge损失,指数损失等)?

A.替代损失函数可以扩大SVM的应用场景

B.0/1损失函数非凸、不连续

C.替代损失函数可以减少过拟合

D.其余选项皆错

S: B

直接使用0/1损失函数的话其非凸、非连续,数学性质不好优化起来比较复杂,因此需要使用其他的数学性能较好的函数进行替换,替代损失函数一般有较好的数学性质。常用的三种替代函数:

1、hinge损失;2、指数损失;3、对率损失;

17.L1正则和L2正则的共同点是什么?

A.都会让数据集中的特征数量减少

B.都会增大模型的偏差

C.都会增大模型方差

D.其余选项皆错

S: D


18.以下哪种方法不能防止过拟合?

A.交叉验证 B.低维嵌入 C.剪枝 D.集成学习

S:B

1、交叉检验,通过交叉检验得到较优的模型参数; 2、特征选择,减少特征数或使用较少的特征组合,对于按区间离散化的特征,增大划分的区间。 3、正则化,常用的有 L_1、L_2 正则。而且 L_1 正则还可以自动进行特征选择。 4、如果有正则项则可以考虑增大正则项参数 lambda. 5、增加训练数据可以有限的避免过拟合. 6、Bagging ,将多个弱学习器Bagging 一下效果会好很多,比如随机森林等。

From:

https://zhuanlan.zhihu.com/p/88107877

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/147294.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习之SGD, Batch, and Mini Batch的简单介绍

文章目录 总述SGD(Stochastic Gradient Descent)(随机梯度下降)Batch (批量)mini Batch (迷你批量) 总述 SGD, Batch, and Mini Batch是可用于神经网络的监督学习计算权重更新的方案,即∆wij。 SGD(Stochastic Gradi…

【STM32】IAP升级03关闭总中断,检测栈顶指针

IAP升级方法 IAP升级时需要关闭总中断 TM32在使用时有时需要禁用全局中断,比如MCU在升级过程中需禁用外部中断,防止升级过程中外部中断触发导致升级失败。 ARM MDK中提供了如下两个接口来禁用和开启总中断: __disable_irq(); // 关闭总中…

emacs怎么安装插件

2023年9月26日,周二下午 不得不说,emacs安装插件确实要比vim要方便 虽然我曾经说过要只用vim,但vim安装插件起来太麻烦了 目录 Linux下Emacs的配置文件位置包管理器elpa怎么给elpa换源罗列可安装的插件怎么搜索插件怎么安装插件配置插件 L…

什么是FOSS

FOSS 是指 自由和开放源码软件(Free and Open Source Software)。这并不意味着软件是免费的。它意味着软件的源代码是开放的,任何人都可以自由使用、研究和修改代码。这个原则允许人们像一个社区一样为软件的开发和改进做出贡献。

CentOS密码重置

背景: 我有一个CentOS虚拟机,但是密码忘记了,偶尔记起可以重置密码,于是今天尝试记录一下,又因为我最近记性比较差,所以必须要记录一下。 过程: 1、在引导菜单界面(grub&#xff…

如何实现电脑语音输入功能?

现在的手机都具备语音输入功能,并且识别率非常高,语音输入是目前最快速的文字输入方式,但是电脑上却无语音输入的功能,那么如何实现在电脑端也可进行语音输入的梦想呢?现在介绍一款小工具“书剑电脑语音输入法”&#…

java并发编程 守护线程 用户线程 main

经常使用线程,没有对守护线程和用户线程的区别做彻底了解 下面写4个例子来验证一下 源码如下 /* Whether or not the thread is a daemon thread. */ private boolean daemon false;/*** Marks this thread as either a {linkplain #isDaemon daemon} thread*…

Python|OpenCV-如何给目标图像添加边框(7)

前言 本文是该专栏的第7篇,后面将持续分享OpenCV计算机视觉的干货知识,记得关注。 在使用opencv处理图像的时候,会不可避免的对图像的一些具体区域进行一些操作。比如说,想要给目标图像创建一个围绕图像的边框。简单的来说,就是在图片的周围再填充一个粗线框。具体效果,…

OpenCV实现视频的读取、显示、保存

目录 1,从文件中读取视频并播放 1.2代码实现 1.3效果展示 2,保存视频 2.1 代码实现 2.2 结果展示 1,从文件中读取视频并播放 在OpenCV中我们需要获取一个视频,需要创建一个VideoCapture对象,指定你要读取的视频文件&am…

uni-app 实现凸起的 tabbar 底部导航栏

效果图 在 pages.json 中设置隐藏自带的 tabbar 导航栏 "custom": true, // 开启自定义tabBar(不填每次原来的tabbar在重新加载时都回闪现) 新建一个 custom-tabbar.vue 自定义组件页面 custom-tabbar.vue <!-- 自定义底部导航栏 --> <template><v…

【图像处理】【应用程序设计】加载,编辑和保存图像数据、图像分割、色度键控研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

【Java 进阶篇】JDBC(Java Database Connectivity)详解

JDBC&#xff08;Java Database Connectivity&#xff09;是 Java 中用于连接和操作数据库的标准 API。它允许 Java 应用程序与不同类型的数据库进行交互&#xff0c;执行查询、插入、更新和删除等操作。本文将详细介绍 JDBC 的各个类及其用法&#xff0c;以帮助您更好地理解和…

DDD项目落地之充血模型实践

一、背景 充血模型是DDD分层架构中实体设计的一种方案&#xff0c;可以使关注点聚焦于业务实现&#xff0c;可有效提升开发效率、提升可维护性&#xff1b; 二、DDD项目落地整体调用关系 调用关系图中的Entity为实体&#xff0c;从进入领域服务&#xff08;Domin&#xff09;…

在移动固态硬盘上安装Ubuntu系统和ROS2

目录 原视频准备烧录 原视频 b站鱼香ros 准备 1.在某宝上买一个usb移动固态硬盘或固态U盘&#xff0c;至少64G 2.下载鱼香ros烧录工具 下载第二个就行了&#xff0c;不然某网盘的速度下载全部要一天 下载后&#xff0c;选择FishROS2OS制作工具压缩包&#xff0c;进行解压…

WPS Office for Linux即将面临开源

WPS Office 是一款免费&#xff08;但不开源&#xff09;的办公套件&#xff0c;目前已经在 Windows、macOS、Android、iOS 和 Linux 设备上线&#xff0c;由于在界面和功能上模仿了微软 Office 的部分特性&#xff0c;对于那些轻量办公的用户来说已经能够完全驾驭大部分需求。…

vue3 element-ui-plus Carousel 跑马灯 的使用 及 踩坑记录

vue3 element-ui-plus Carousel 跑马灯 的踩坑记录 Carousel 跑马灯首页跑马灯demo Carousel 跑马灯 首先&#xff0c;打开其官网-跑马灯案例 跑马灯代码&#xff1a; <el-carousel :interval"5000" arrow"always"><el-carousel-item v-for"…

以32bit加法器为核心的加法、减法、乘法和除法计算器(ALU)

1 任务概述 实现一个以加法器为核心的计算器。 加法&#xff1a;能够实现32bit加法 减法&#xff1a;能够实现32bit减法 乘法&#xff1a;能够实现两个32bit数字的乘法&#xff0c;乘积为64bit 除法&#xff1a;能够实现两个32bit无符号数的除法&#xff0c;商为32bit&#xf…

【算法|贪心算法系列No.3】leetcode334. 递增的三元子序列

个人主页&#xff1a;兜里有颗棉花糖 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 兜里有颗棉花糖 原创 收录于专栏【手撕算法系列专栏】【LeetCode】 &#x1f354;本专栏旨在提高自己算法能力的同时&#xff0c;记录一下自己的学习过程&#xff0c;希望…

【MySQL入门到精通-黑马程序员】MySQL基础篇-DML

文章目录 前言一、DML-介绍二、DML-添加数据三、DML-修改数据四、DML-删除数据总结 前言 本专栏文章为观看黑马程序员《MySQL入门到精通》所做笔记&#xff0c;课程地址在这。如有侵权&#xff0c;立即删除。 一、DML-介绍 DML&#xff08;Data Manipulation Language&#xf…

湖南特色农产品销售系统APP /基于android的农产品销售系统/基于android的购物系统

摘 要 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的APP应运而生&#xff0c;各行各业相继进入信息管理时代&#x…