Hadoop的一些高频面试题 --- hdfs、mapreduce以及yarn的面试题

文章目录

  • 一、HDFS
    • 1、Hadoop的三大组成部分
    • 2、本地模式和伪分布模式的区别是什么
    • 3、什么是HDFS
    • 4、如何单独启动namenode
    • 5、hdfs的写入流程
    • 6、hdfs的读取流程
    • 7、hdfs为什么不能存储小文件
    • 8、secondaryNameNode的运行原理
    • 9、hadoop集群启动后离开安全模式的条件
    • 10、hdfs集群的开机启动流程
  • 二、MapReduce
    • 1、MapReduce的原理
    • 2、MapReduce的shuffer过程
    • 3、块和片的区别
    • 4、Combiner
    • 5、环形缓冲区
  • 三、Yarn
    • 1、Yarn的三种调度器


一、HDFS

1、Hadoop的三大组成部分

1、HDFS(分布式文件系统):用于存储大规模的数据,具有高容错性和可扩展性
2、MapReduce(分布式计算框架):用于处理大规模数据的编程模型和计算框架
3、YARN(资源管理框架):负责管理集群中的资源分配和任务调度

2、本地模式和伪分布模式的区别是什么

本地模式是在单个节点上运行所有的进程,资源利用相对简单,通常将数据存储在本地文件系统中
而伪分布模式虽然也是在单个节点上运行,但会模拟出分布式环境,分配和管理多个进程所需的资源,会按照分布式的架构来组织和存储数据

3、什么是HDFS

HDFS(Hadoop 分布式文件系统)是 Hadoop 生态系统中的核心组件之一,它是一种用于大规模数据存储的分布式文件系统,具有高容错性和可扩展性,其中
namenode负责管理datanode节点,记录各个块的信息;
secondarynamenode负责帮助namenode完成fsimage和edits文件的合并
datanode负责存储数据

4、如何单独启动namenode

hdfs --daemon start namenode

5、hdfs的写入流程

在这里插入图片描述

客户端发送写请求,namenode接收后先校验权限,然后通过机架算法,计算出三个节点,将这三个节点发送给客户端,客户端通过pipeline通道向这三个节点写入数据,传递的单位是packet,一个packet大小为64KB,各个节点传递完成后,给客户端响应

6、hdfs的读取流程

在这里插入图片描述

客户端发送读请求,namenode接收后先校验权限,然后从自己内存中查看文件放在哪几个节点,并将其详细信息发送给客户端,客户端到对应datanode节点去拉取数据,然后将拉取的数据整合,再发送给客户端。

7、hdfs为什么不能存储小文件

HDFS文件系统中,默认需要将存储的数据进行切割存储的,每一个块是128M,不管一个块中存放的是大文件还是小文件,都有元数据,这个元数据大约占用内存150字节,如果存放过多的小文件,会占用过多的块,从而消耗过多内存。

8、secondaryNameNode的运行原理

1、SecondaryNameNode 每隔一个小时,去nameNode中拉取数据
2、拉取的时候,会终止当前的edits文件,生成一个新的edits_inprogress_XXX.
3、接着会将edits文件和最新的fsiamge文件拉取到SecondaryNameNode的服务器上进行合并,生成一个最新的fsimage.ckpt
4、将fsimage.ckpt传递给nameNode ,NameNode 修改一下名字,变为新的fsimage ,删除掉之前的倒数第二个文件。因为fsimage只保留两个最新的文件。

9、hadoop集群启动后离开安全模式的条件

解除安全模式需要满足两个条件:

1、每个数据块的副本数量达到了设定的阈值
2、并且加载出来的副本总数和所有数据块的所有副本数之和的比值需要大于99.99%

10、hdfs集群的开机启动流程

  1. 初始化 NameNode:与SecondaryNameNode配合,读取fsimage和edits文件,加载元数据,并重新生成一个新的edits文件
  2. 启动 DataNode,并与NameNode建立心跳机制
  3. 进入安全模式:只读模式,不能删除和修改文件
  4. 达到条件后,解除安全模式

二、MapReduce

1、MapReduce的原理

AppMaster: 整个Job任务的核心协调工具
MapTask: 主要用于Map任务的执行 ReduceTask:
主要用于Reduce任务的执行

一个任务提交 --> AppMaster–> 根据切片的数量统计出需要多少个MapTask任务 -->向ResourceManager(Yarn平台的老大)索要资源 --> 执行Map任务,先读取一个分片的数据,传递给map方法。–> map 方法不断的溢写 --> reduce 方法 --> 将统计的结果存放在磁盘上。

2、MapReduce的shuffer过程

1、Shuffle 过程是 MapReduce 框架中连接 Map 阶段和 Reduce 阶段的中间环节,它的主要作用是对 Map
阶段的输出结果进行整理和分区,以便 Reduce 任务能够高效地获取和处理数据。
2、map端写出数据到环形缓冲区中,环形缓冲区默认阈值为100MB,达到该阈值的80%,就开始溢写数据到磁盘,map会将这些小的磁盘文件进行归并和快排,变成一个大文件。
3、reduce端根据不同的分区,拉取map写到磁盘中对应的数据
4、而这个过程被称为shuffle过程,简单来说就是reduce对map端数据的各种拉取,就是数据的拉来拉去

3、块和片的区别

1、块是物理概念,片是逻辑概念。一般片 = 块,但是到最后一次的时候,有可能片> 块,但是绝对不能超过块的1.1倍。
2、mapreduce 启动多少个MapTask任务跟片有关系,有多少个片,就启动多少个map任务。跟块儿无关。

4、Combiner

Combiner其实就是运行在mapTask中的reducer。 Reducer其实就是合并代码的。Combiner是作用在Map端的。
Combiner 只能用于对统计结果没有影响的场景下。 一般只用于统计之和,统计最大值最小值的场景下。统计平均值等情况是不能用的。

5、环形缓冲区

1、环形缓冲区,其实是一个数组,将数组分为两部分,分割的这个点就称之为轴心。
2、存储KV真实数据,是顺时针存储
3、每一个KV真实数据都有对应的元数据,元数据是逆时针存储。
4、当两者数据占用空间达到80%的时候,需要清理数据,清理完之后,轴心发生了变化

三、Yarn

1、Yarn的三种调度器

1、FIFO Scheduler(FIFO调度器):先进先出,先进去的任务先执行
缺点:假如第一个任务很大,就会阻塞后面的小任务
2、Capacity Scheduler(容量调度器):将cpu资源分为多个队列,将不同类型的任务分到不同队列中
缺点:如果真遇到了大任务,执行的时间会稍微长一些。因为要时刻给小的任务预留资源
3、Fair Scheduler(公平调度器):根据当前正在运行的任务数量和资源使用情况,为新任务分配适当的资源
缺点:资源分配可能不够精准,对小任务响应可能不及时

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1538470.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

九章云极DataCanvas公司荣获2024年服贸会“科技创新服务示范案例”

9月15日,2024年中国国际服务贸易交易会(服贸会)示范案例交流会暨颁奖典礼在北京国家会议中心举行,九章云极DataCanvas 公司自研的DataCanvas Alaya NeW智算操作系统凭借卓越的AI创新实力、前瞻性的市场布局以及突破性的技术革新成…

pc端的屏保实现

背景 偶然间,在使用一款google插件的时候,发现它有一个小功能,只要我停留在它的页面不操作10分钟以上,就会自动给我打开一个屏保界面,这样的 目的 这种华而不实的功能,正好适合个人博客,所以…

Prometheus监控k8s环境构建

传统架构中比较流行的监控工具有 Zabbix、Nagios 等,这些监控工具对于 Kubernetes 这类云平台的监控不是很友好,特别是当 Kubernetes 集群中有了成千上万的容器后更是如此,本章节学习下一代的云原生监控平台---Prometheus。 一、基于kuberne…

医学数据分析实训 项目七 集成学习--空气质量指标--天气质量分析和预测

项目七:集成学习 实践目的 理解集成学习算法原理;熟悉并掌握常用集成学习算法的使用方法;熟悉模型性能评估的方法;掌握模型优化的方法。 实践平台 操作系统:Windows7及以上Python版本:3.8.x及以上集成开…

LineageOS连接网络提示IP配置失败

版权归作者所有,如有转发,请注明文章出处:https://cyrus-studio.github.io/blog/ IP配置失败 连接所有网络都提示IP配置失败,通过配置静态IP也连不上网络,感觉就是WIFI模块不能用了。 使用 Magisk root 后就这样了&am…

LeetCode004-两个有序数组的中位数-最优算法代码讲解

最有帮助的视频讲解 【LeetCode004-两个有序数组的中位数-最优算法代码讲解】 https://www.bilibili.com/video/BV1H5411c7oC/?share_sourcecopy_web&vd_sourceafbacdc02063c57e7a2ef256a4db9d2a 时间复杂度 O ( l o g ( m i n ( m , n ) ) ) O(log(min(m,n))) O(log(min(…

spring security 手机号 短信验证码认证、验证码认证 替换默认的用户名密码认证132

spring security内置的有用户名密码认证规则,还可以调用第三方微信、qq登录接口实现登录认证,这里使用自定义的手机号和短信验证码实现登录认证。 要实现自定义的手机号和短信验证码认证需要了解用户名密码认证的逻辑,仿照该逻辑就可以写出…

Java进阶之集合框架(Set)

【基本内容】 二、Set接口(接上一章) Set是Java集合框架中不允许有重复元素的无序集合,其典型的实现类是HashSet,它完全是遵循Set接口特性规范实现的,无序且不允许元素重复;而Set接口下的实现类还有LinkedHashSet和TreeSort&#…

记录生产环境,通过域名访问的图片展示不全,通过ip+端口的方式访问图片是完整的

原因:部署nginx的服务器硬盘满了 排查发现nginx日志文件占用了大量硬盘 解决方案: 删除该文件,重启nginx服务,问题解决。

AI修手有救了?在comfyui中使用Flux模型实现局部重绘案例

🐱‍🐉背景 局部重绘相关的话题我们已经讨论和测试过很多次了,比如说inpaint模型、brushnet模型、powerpaint模型等等,最近对于flux模型重绘画面的案例也越来越多了,那我们就结合flux模型的重绘来试试看效果。 &…

前端mock了所有……

目录 一、背景描述 二、开发流程 1.引入Mock 2.创建文件 3.需求描述 4.Mock实现 三、总结 一、背景描述 前提: 事情是这样的,老板想要我们写一个demo拿去路演/拉项目,有一些数据,希望前端接一下,写几个表格&a…

qt信号与槽(自定义)

自定义信号与槽 在qt里,我们可以自己去定义信号与槽。 这里举个栗子: 信号的定义 在我们类里边定义一个信号,我们需要用signals:来声明,不用再去cpp文件里边定义。而且返回值必须是void,可以有参数。 槽…

2024年最新测绘地理信息规范在线查看下载

随着科技的飞速发展,测绘地理信息行业也迎来了新的机遇与挑战。 为了确保测绘地理信息的准确性和规范性,每年都会出台了一系列最新的测绘地理信息规范。 本文将历年地形行业发布的相关标准规范,包括现行和一些已经弃用的标准,截…

数据结构与算法——详谈栈和队列

目录 一:栈 1.1:栈的概念结构与实现 1.1.1:栈的概念结构 1.1.2:栈的实现 1.2:栈的各个功能实现 1.2.1:对栈进行初始化 1.2.2:判空栈 1.2.3:入栈 1.2.4:出栈 1.…

一文读懂AI安全治理框架

随着AI的发展以及研究,我们总会提到AI带来的一些潜在威胁,但截止目前我还没有完全的梳理过AI到底有哪些潜在的风险,今天就来一一看一下!陆续补齐。

自动化中验证码的操作笔记,懂的赶紧收藏!

在自动化测试的过程中,验证码一直被视为一个“拦路虎”。很多测试人员在做接口或UI自动化时都会遇到验证码的阻碍,导致测试无法继续进行。今天,我们就来讨论如何在自动化过程中破解验证码,快速绕过这道关卡,轻松完成自…

LVM硬盘挂载

LVM硬盘挂载 一、基础概念 sda/sdb/nvme0n1/nvme0n2: 硬盘的命名方式,中括号的字母为第三位按不同硬盘的加载顺序排序。sda1/sda2/sdb1: 第4位为分区号,数字为不同分区的依序命名lvm: LVM是一种逻辑卷管理器,允许管理…

黑马头条day1 环境搭建 SpringCloud微服务(注册发现,服务调用,网关)

Nacos 环境搭建 Vmvare打开已经安装好的虚拟机镜像环境 使用findshell作为链接工具 和MobaXterm差不多 初始工程搭建 项目导入到idea 里边 这个项目都是用的比较老的东西 jdk1.8 甚至把仓库也提供好了 主体机构 common 就是通用的配置 feign 是对外的接口 model …

css五种定位总结

在 CSS 中,定位(Positioning)主要有五种模式,每种模式的行为和特点不同,以下是 static、relative、absolute、fixed 和 sticky 五种定位方式的对比总结: 1. static(默认定位) 特性…

“中秋快乐”文字横幅的MATLAB代码生成

中秋快乐呀朋友们!!! 给大家带来一个好玩的代码,能够生成“中秋快乐”的横幅文字,比较简单,当然你也可以根据自己的需求去更改文字和背景,废话不多说,直接展示。 文字会一直闪烁&…