HDFS分布式文件系统01-HDFS架构与SHELL操作

HDFS分布式文件系统

    • 学习目标
    • 第一课时
      • 知识点1-文件系统的分类
        • 单机文件系统
        • 网络文件系统
        • 分布式文件系统
      • 知识点2-HDFS架构
      • 知识点3-HDFS的特点
      • 知识点4-HDFS的文件读写流程
      • 知识点5-HDFS的健壮性
    • 第二课时
      • 知识点1-HDFS的Shell介绍
        • HDFS Shell的语法格式如下。
        • HDFS Shell客户端命令中dfs子命令的子命令选项:
          • -ls命令
          • -du
          • -mv
          • -cp
          • -rm
          • -put
          • -cat
          • -help
          • -mkdir
          • -get
        • 知识点2-案例-通过Shell脚本定时采集数据到HDFS

学习目标

使学生了解文件系统的分类,能够描述不同文件系统的特点
使学生熟悉HDFS架构,能够描述HDFS架构的主要组件及其作用
使学生了解HDFS的特点,能够简述HDFS的特点
使学生掌握HDFS的文件读写原理,能够叙述HDFS读写文件的流程
使学生熟悉HDFS的健壮性,能够叙述HDFS心跳机制、副本机制和负载均衡等策略
使学生掌握HDFS的Shell操作,能够灵活运用HDFS Shell命令操作HDFS
使学生掌握HDFS的Java API操作,能够灵活使用Java API编写应用程序操作HDFS
使学生熟悉Federation机制,能够描述Federation机制的结构、特点并实现Federation机制。
使学生了解Erasure Coding,能够简述Erasure Coding节省存储空间的原理

第一课时

知识点1-文件系统的分类

单机文件系统

单机文件系统是所有文件系统的基础,也是我们常用的一种文件系统,它通过单台计算机的本地磁盘存储文件,依靠操作系统提供的文件系统实现文件的存储和管理。随着互联网的兴起,数据对存储容量要求越来越高,单机文件系统的缺点逐渐显现出来。

网络文件系统

网络文件系统可以看作单机文件系统的一个网络抽象,其本质与单机文件系统相似,网络文件系统可以通过网络共享文件,用户可以像访问本地磁盘的文件一样便捷的访问远端计算机的文件。网络文件系统的出现一定程度上解决了单机文件系统存储容量的瓶颈,用户可以将文件存储在网络文件系统和本地文件系统两个位置。网络文件系统没有解决单机文件系统性能低、可靠性低的瓶颈。

分布式文件系统

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

知识点2-HDFS架构

HDFS架构图如下:
在这里插入图片描述

(1)Block

Block是HDFS文件系统中最小的存储单位,通常称之为数据块。
在HDFS文件系统中存储的文件会被拆分成多个Block,每个Block作为独立的单元进行存储,同一文件的多个Block通常存放在不同的DataNode。
在Hadoop 3.x版本中,默认Block大小是128M。
注意:如果文件大小或者文件被拆分后的Block没有达到128MB,则Block的大小也会根据实际情况进行调整。

(2)MetaData

MeataData用于记录HDFS文件系统的相关信息,这些信息称之为元数据。
在HDFS文件系统中,为了确保元数据的快速访问,元数据会保存在内存中。为了防止元数据的丢失,会在本地磁盘中生成Fsimage文件备份元数据。
Hadoop集群运行的过程中,用户频繁操作HDFS文件系统,内存中的元数据变化会非常快。如果内存中的元数据一旦更新,本地磁盘的Fsimage文件会同步更新,这些操作非常消耗NameNode资源。
HDFS文件系统引入了Edits文件,该文件以追加方式记录内存中元数据的每一次变化,如果NameNode宕机,可以通过合并Fsimage文件和Edits文件的方式恢复内存中存储的元数据。

(3)NameNode

NameNode是HDFS集群的名称节点,通常称为主节点。如果NameNode由于故障原因宕机无法使用,那么用户就无法访问HDFS。NameNode作为HDFS的主节点,起着至关重要的作用,主要功能如下:
管理文件系统的命名空间。
处理客户端对文件的读写请求。
维护HDFS的元数据。
维护和管理DataNode,并协调DataNode为客户端发起的读写请求提供服务。

(4)DataNode

DataNode是HDFS集群中的数据节点,通常称为从节点,主要功能如下。
存储Block。
根据NameNode的指令,对Block进行创建、复制、删除等操作。
定期向NameNode汇报自身存储的Block列表以及健康状态。
负责为客户端发起的读写请求提供服务。

(5)SecondaryNameNode

SecondaryNameNode是HDFS集群中的辅助节点;
定期从NameNode拷贝Fsimage文件并合并Edits文件,将合并结果发送给NameNode;
SecondaryNameNode和NameNode保存的Fsimage和Edits文件相同,可以作为NameNode的冷备份,当NameNode宕机无法使用时,可以通过手动操作将SecondaryNameNode切换为NameNode。

知识点3-HDFS的特点

(1)存储大文件
(2)高容错性
(3)简单的一致性模型
(4)移动计算比移动数据更经济
(5)可移植性
在这里插入图片描述

知识点4-HDFS的文件读写流程

客户端向HDFS写文件的具体流程。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

客户端从HDFS读文件的具体流程。

在这里插入图片描述在这里插入图片描述

知识点5-HDFS的健壮性

(1)心跳机制

在这里插入图片描述

(2)副本机制

在这里插入图片描述

(3)数据完整性校验

在这里插入图片描述

(4)安全模式

在这里插入图片描述

(5)快照

在这里插入图片描述

高校教辅平台(http://tch.ityxb.com)发放测试题以巩固本节课的学习内容。

第二课时

知识点1-HDFS的Shell介绍

HDFS Shell类似于Linux操作系统中的Shell,都是一种命令语言,可以完成对HDFS上文件和目录的一系列操作。

HDFS Shell的语法格式如下。
hdfs [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS]

OPTIONS:可选,用来调试Hadoop。
SUBCOMMAND:表示HDFS Shell的子命令,用于操作HDFS。
SUBCOMMAND OPTIONS:表示HDFS Shell子命令的选项。

具体参考:
https://hadoop.apache.ac.cn/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

HDFS Shell客户端命令中dfs子命令的子命令选项:

ls:List files 列文件
du: Disk usage 磁盘使用率
mv: Move file 移动文件
cp: Copy file 复制文件
rm = ReMove
cat: concatenate 连锁 把多个文本连接起来
mkdir:Make Directory(创建目录)
在这里插入图片描述

-ls命令
hdfs dfs –ls [-S][-C][-r][-h][-R] <path>

参数-S:可选,用于根据文件的大小,按照由大到小的顺序显示指定目录的内容。
参数-C:可选,用于显示指定目录下文件和子目录的路径,不显示关于文件和子目录的其他信息。
参数-r:可选,用于根据文件的大小,按照由小到大的顺序显示指定目录的内容。
参数-h:可选,用于将默认的文件大小(字节数)格式化为便于查看的格式进行显示。
参数-R:可选,用于递归显示指定目录及其子目录的信息。
参数path:用于指定查看的目录。

hdfs dfs –ls -S /data

参数-S:可选,用于根据文件的大小,按照由大到小的顺序显示指定目录的内容。

hdfs dfs –ls -r -h /data

参数-r:可选,用于根据文件的大小,按照由小到大的顺序显示指定目录的内容。
参数-h:可选,用于将默认的文件大小(字节数)格式化为便于查看的格式进行显示。

hdfs dfs –ls -R -C /data

递归显示目录/data及其子目录的信息,并且信息中仅显示文件和子目录的路径。
参数-C:可选,用于显示指定目录下文件和子目录的路径,不显示关于文件和子目录的其他信息。
参数-R:可选,用于递归显示指定目录及其子目录的信息。

-du

用于查看HDFS指定目录下每个文件和子目录大小,语法格式如下。

hdfs dfs -du [-s] [-h] <path>

参数-s:可选,用于查看指定目录下所有文件和子目录的总大小。
参数-h:可选,用于将默认的文件和子目录大小(字节数)格式化为便于查看的格式进行显示。

hdfs dfs –du –h /data

查看HDFS的目录/data中,每个文件和子目录的大小,并且将默认的文件和子目录大小格式化为便于查看的格式进行显示。

-mv

-mv用于移动HDFS指定目录或文件,语法格式如下。

hdfs dfs -mv <src> <dst>

参数src:用于指定要移动的目录或文件。
参数dst:用于将目录或文件移动到指定的目录,如果指定的目录不存在,并且与移动的目录或文件处于同一路径下,那么会对文件或者目录进行重命名操作。
注意:移动的目录或文件,在指定的目录中不能存在。

将目录/data中的子目录/dataChild1移动到目录/data/dataChild中。

hdfs dfs –mv /data/dataChild1 /data/dataChild

将目录/data中的文件dataA重命名为dataA_New。

hdfs dfs –mv /data/dataA /data/dataA_New
-cp

-cp用于复制HDFS指定目录或文件,语法格式如下

hdfs dfs -cp <src> <dst>

参数src:用于指定要复制的目录或文件,可以同时复制多个文件或目录,每个文件或目录用空格进行分隔。
参数dst:用于将目录或文件复制到指定的目录,该目录必须已经存在,并且要复制的文件或目录在指定的目录中不能存在。如果复制的是单文件或目录,则可以重新命名复制后的文件或目录名称。

将目录/data下的文件dataA_New和dataB复制到目录/data/dataChild。

hdfs dfs -ls -R /data
hdfs dfs -cp /data/dataA_New /data/dataB /data/dataChild

将目录/data下的文件dataA_New复制到子目录/dataChild,并且重命名为dataA。

hdfs dfs -cp /data/dataA_New /data/dataChild/dataA
-rm

-rm用于删除HDFS指定目录或文件,语法格式如下。

hdfs dfs -rm [-f] [-r] [-skipTrash] [-safely] <src>

参数-f:可选,用于判断删除的目录或文件是否存在。
参数-r:可选,用于递归删除指定目录中的所有子目录和文件。
参数-skipTrash:可选,表示删除的文件或目录不会放入回收站。
参数-safely:可选,用于启动安全确认,当删除目录时会提示是否删除,避免误删。

使用子命令选项-rm删除目录/data的子目录/dataChild。

hdfs dfs –rm –r /data/dataChild
-put

-put用于将本地文件系统中指定文件上传到HDFS指定目录,语法格式如下。

hdfs dfs -put [-f] <localsrc> <dst>

参数-f:可选,用于判断上传的文件在HDFS指定目录是否存在。如果存在则上传的文件会替换HDFS指定目录中已经存在的文件。
参数localsrc:用于指定本地文件系统中上传的文件,可以同时上传多个文件。
参数dst:用于指定上传到HDFS的目录,该目录必须存在。

使用子命令选项-put将本地文件系统中/export/data目录下的文件a.txt和b.txt,上传到HDFS的目录/data。

 hdfs dfs –put /export/data/a.txt /export/data/b.txt /data
-cat

-cat用于查看HDFS指定文件内容,语法格式如下。

hdfs dfs –cat <src>

参数src:用于指定查看的文件。

使用子命令选项-cat查看目录/data中文件a.txt的内容。

hdfs dfs –cat /data/a.txt
-help
-mkdir
hdfs dfs -mkdir [-p] <path>

参数-p:可选,它有两个作用:
第一是创建目录,如果要创建的目录存在,则不会返回错误信息,也不会重新创建。
第二是递归创建目录及其子目录。

在HDFS的目录/data中创建子目录/dataChild1,并在子目录/dataChild1中创建子目录/dataChild2。

hdfs dfs –mkdir –p /data/dataChild1/dataChild2

-get

-get用于将HDFS的指定文件下载到本地文件系统指定目录,语法格式如下。

hdfs dfs -get [-f] <src> <localdst>

参数-f:可选,用于判断下载的文件在本地文件系统的指定目录是否存在。如果存在则下载的文件会替换指定目录中已存在的文件。
参数src:用于指定HDFS中的文件,可以同时下载多个文件。
参数localdst:用于指定下载到本地文件系统的路径,该路径必须存在。

知识点2-案例-通过Shell脚本定时采集数据到HDFS

通过一个案例演示如何通过Shell脚本周期性的将Hadoop的日志文件上传到HDFS,操作步骤如下。

(1)创建Shell脚本

vi uploadHDFS.sh

内容融入

#!/bin/bash
# 添加hadoop环境变量
export HADOOP_HOME=/opt/module/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 指定hadoop日志存放位置
hadoop_log_dir=/opt/module/hadoop-3.3.4/logs/ 
# hadoop日志的存放位置
log_toupload_dir=/opt/data/logs/toupload/
# 获取当前时间
date=`date +%Y_%m_%d_%H_%M` 
# 上传到hdfs上的目录名称
hdfs_dir=/hadoop_log/$date/
# 判断不同服务器的hadoop日志目录是否存在
# -d 判断是否为目录
if [ -d $log_toupload_dir ];
thenecho "$log_toupload_dir exits"
elsemkdir -p $log_toupload_dir
fi
# 将不同虚拟机的hadoop日志文件收集到目录/opt/data/logs/toupload/
ls $hadoop_log_dir | while read fileName
do
# 如果文件名是.log结尾
if [[ $fileName == *.log ]];
thenecho "moving hadoop log to $log_toupload_dir"cp $hadoop_log_dir/*.log $log_toupload_dir# 如果有多台,需要把多个日志都复制到当前节点的的/opt/data/logs/toupload/目录#scp root@node2:$hadoop_log_dir/*.log $log_toupload_dir#scp root@node3:$hadoop_log_dir/*.log $log_toupload_direcho "moving hadoop log willDoing"break
fi
done
echo "create $hdfs_dir"
# 创建hdfs目录
hdfs dfs -mkdir -p $hdfs_dir
ls $log_toupload_dir | while read fileName
doecho "upload hadoop log $fileName to $hdfs_dir"hdfs dfs -put $log_toupload_dir$fileName $hdfs_direcho "upload hadoop log $fileName willDoing"
done
echo "delete $log_toupload_dir log"
# 删除临时目录/opt/data/logs/toupload/ 
rm -fr $log_toupload_dir

(2)执行Shell脚本
启动hadoop集群

start-dfs.sh
sh uploadHDFS.sh

如下:
在这里插入图片描述

(3)验证Hadoop日志文件是否上传成功

http://192.168.100.3:9870/

(4)定时执行Shell脚本文件
检查是否安装crontab

rpm -qa | grep crontab

rpm -qa:rpm 是一个用于管理RPM包的工具,-qa 选项表示列出所有已安装的软件包(其中 -q 表示查询,-a 表示所有包)。这条命令会输出一个包含所有已安装包名称的列表。
|(管道符号):这是一个管道操作符,它将前一个命令的输出作为后一个命令的输入。在这个例子中,rpm -qa 输出的所有包名会被传递给 grep 命令。
grep crontab:grep 是一个强大的文本搜索工具,它可以搜索文件中的指定模式。在这里,crontab 是一个模式,grep 将在管道传入的数据中搜索包含“crontab”的行。这将帮助你找到与crontab相关的已安装包。

若没有安装,可以执行

yum -y install vixie-cronyum -y install crontabs

启动crontab

service crond status
service crond start

为脚本添加权限
查看uploadHDFS.sh的权限
在这里插入图片描述

chmod 777 uploadHDFS.sh

在虚拟机node1执行“crontab -e”命令编辑Crontab文件,配置定时任务,在Crontab文件添加如下内容。

*/2 * * * * /export/data/uploadHDFS.sh

10分钟后,刷新HDFS Web UI界面可以看到,需要上传的日志文件已经按照日期分类上传到HDFS中
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1543856.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

STM32 软件触发ADC采集

0.91寸OLED屏幕大小的音频频谱&#xff0c;炫酷&#xff01; STM32另一个很少人知道的的功能——时钟监测 晶振与软件的关系&#xff08;深度理解&#xff09; STM32单片机一种另类的IO初始化方法 ADC是一个十分重要的功能&#xff0c;几乎任何一款单片机都会包含这个功能&a…

信息安全工程师(13)网络攻击一般过程

前言 网络攻击的一般过程是一个复杂且系统化的行为&#xff0c;其目标往往在于未经授权地访问、破坏或窃取目标系统的信息。 一、侦查与信息收集阶段 开放源情报收集&#xff1a;攻击者首先会通过搜索引擎、社交媒体、论坛等公开渠道获取目标的基本信息&#xff0c;如姓名、地址…

Pytest-如何将allure报告发布至公司内网

原理简介 使用Python启动HTTP服务器&#xff0c;指定一个端口号port&#xff0c;内网用户可以使用ipport访问报告。 本文章继续进阶&#xff0c;简单使用nginx进行一个代理&#xff0c;使用域名可以直接访问报告。 前情概述 Pytest-allure如何在测试完成后自动生成完整报告&am…

Axure大屏可视化模板:跨领域数据分析平台原型案例

随着信息技术的飞速发展&#xff0c;数据可视化已成为各行各业提升管理效率、优化决策过程的重要手段。Axure作为一款强大的原型设计工具&#xff0c;其大屏可视化模板在农业、园区、城市、企业数据可视化、医疗等多个领域得到了广泛应用。本文将通过几个具体案例&#xff0c;展…

生成PPT时支持上传本地的PPT模板了!

制作 PPT 时想要使用特定的 PPT 模板&#xff1f; 现在&#xff0c;歌者 PPT 的「自定义模板功能」已全面升级&#xff01;你可以轻松上传自己的本地 PPT 模板&#xff0c;无论是公司统一风格的模板&#xff0c;还是带有个人设计风格的模板&#xff0c;都能无缝导入歌者 PPT。…

什么是大数据?初学者快速入门手册

“大数据”这个词有点用词不当&#xff0c;因为它意味着预先存在的数据在某种程度上是小的&#xff08;事实并非如此&#xff09;&#xff0c;或者唯一的挑战是其庞大的规模&#xff08;规模是其中之一&#xff0c;但通常还有更多&#xff09;。简而言之&#xff0c;“大数据”…

预计2030年全球GO电工钢市场规模将达到120.6亿美元

GO电工钢&#xff0c;又称为冷轧取向电工钢。GO电工钢按重量计含硅量至少为0.6%&#xff0c;含碳量不超过0.08%&#xff0c;可含有不超过1.0%的铝&#xff0c;所含其他元素的比例并不使其具有其他合金钢的特性&#xff1b;厚度不超过0.56毫米&#xff1b;呈卷状的&#xff0c;则…

Mac端口扫描工具

文章目录 端口扫描工具域名/ip转换Lookupping功能端口扫描 端口扫描工具 Mac内置了一个网络工具 网络使用工具 按住 Command 空格 然后搜索 “网络实用工具” 或 “Network Utility” 即可 域名/ip转换Lookup ping功能 端口扫描 参考文献 端口扫描工具

小柴冲刺软考中级嵌入式系统设计师系列二、嵌入式系统硬件基础知识(1)数字电路基础

目录 一、信号特征 二、组合逻辑电路和时序逻辑电路 1、组合逻辑电路 2、时序逻辑线路 三、信号转换 1、数字集成电路的分类 2、常用电平接口技术 四、可编程逻辑器件 flechazohttps://www.zhihu.com/people/jiu_sheng 小柴冲刺嵌入式系统设计师系列总目录https://blo…

使用 TypeScript 接口优化数据结构

在现代软件开发中&#xff0c;数据结构的设计至关重要&#xff0c;它直接影响到程序的性能和可维护性。TypeScript 作为一种静态类型的超集&#xff0c;为 JavaScript 带来了类型系统&#xff0c;使得开发者可以在编译时期就发现潜在的类型错误。本文将探讨如何利用 TypeScript…

uboot无法使用nfs下载文件的问题

一、系统环境 见这篇博客。 二、问题描述 uboot使用nfs下载文件出现 “T T T”&#xff0c;一直无法下载 三、解决方法 编辑/etc/nfs.conf文件&#xff1a; sudo xed /etc/nfs.conf开启udp: udpy之后重启nfs服务器&#xff1a; sudo /etc/init.d/nfs-kernel-server re…

使用GLib进行C语言编程的实例

本文将讨论使用GLib进行编程的基本步骤&#xff0c;GLib是一个跨平台的&#xff0c;用C语言编写的3个底层库(以前是5个)的集合&#xff0c;GLib提供了多种高级的数据结构&#xff0c;如内存块、双向和单向链表、哈希表等&#xff0c;GLib还实现了线程相关的函数、多线程编程以及…

知识库管理系统的未来趋势:从单一平台到生态系统

在数字化浪潮的推动下&#xff0c;知识库管理系统&#xff08;Knowledge Base Management System, KBMS&#xff09;正逐步从传统的单一平台向更加开放、灵活、智能的生态系统转变。这一转变不仅体现了技术进步的必然结果&#xff0c;也深刻反映了市场需求的变化。本文将分析随…

如何使用GLib的单向链表GSList

单向链表是一种基础的数据结构&#xff0c;也是一种简单而灵活的数据结构&#xff0c;本文讨论单向链表的基本概念及实现方法&#xff0c;并着重介绍使用GLib的GList实现单向链表的方法及步骤&#xff0c;本文给出了多个实际范例源代码&#xff0c;旨在帮助学习基于GLib编程的读…

基于飞腾平台的OpenCV的编译与安装

【写在前面】 飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力&#xff0c;聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域&#xff0c;包含了应用使能套件、软件仓库、软件支持、软件适…

【LIO-SAM】LIO-SAM论文翻译(2020年)

【LIO】LIO-SAM论文翻译&#xff08;2020年&#xff09; 1&#xff0e;Abstract&#xff12;&#xff0e;INTRODUCTION&#xff14;&#xff0e;通过平滑和映射实现激光雷达惯性里程计A. 系统概述B. IMU Preintegration Factor&#xff08;推导过程参阅&#xff09;C. Lidar Od…

【我的 PWN 学习手札】fastbin reverse into tcache —— tcache key 绕过

目录 前言 一、tcache reverse into tcache 二、测试与模板 前言 之前提到过&#xff0c;较高版本的 glibc&#xff0c;设置了 key 对 tcachebin 内的 double free 进行了检查。 除了前面几篇手札罗列的绕过方法&#xff0c;今天又遇到一个&#xff0c;特此记录。之前利用…

Go 1.19.4 序列化和反序列化-Day 16

1. 序列化和反序列化 1.1 序列化 1.1.1 什么是序列化 序列化它是一种将程序中的数据结构&#xff08;map、slice、array等&#xff09;或对象状态转换成一系列字节序列的过程&#xff0c;这些字节可以被存储或通过网络发送。 在GO中&#xff0c;序列化通常涉及到将结构体或其…

VirtualBox+Vagrant快速搭建Centos7系统【最新详细教程】

VirtualBoxVagrant快速搭建Centos7系统 &#x1f4d6;1.安装VirtualBox✅下载VirtualBox✅安装 &#x1f4d6;2.安装Vagrant✅下载Vagrant✅安装 &#x1f4d6;3.搭建Centos7系✅初始化Vagrantfile文件生成✅启动Vagrantfile文件✅解决 vagrant up下载太慢的问题✅配置网络ip地…

Apache Iceberg Architecture—Iceberg 架构详解

Apache Iceberg Architecture Apache Iceberg 的架构可以分为三个主要层次&#xff1a;Iceberg Catalog、元数据层和数据层。 一、 Iceberg Catalog&#xff08;目录&#xff09; Iceberg Catalog 是 Iceberg 的顶层组件&#xff0c;负责管理所有 Iceberg 表的元数据和元数据操…