Hadoop---MapReduce(3)

Hadoop---MapReduce(3)

news/2024/11/7 17:15:04/文章来源:https://blog.csdn.net/zsn99205/article/details/142558475

MapTask工作机制

在这里插入图片描述
（1）Read阶段：MapTask通过InputFormat获得的RecordReader，从输入InputSplit中解析出一个个key/value。
（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。
（3）Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的key/value分区（调用Partitioner），并写入一个环形内存缓冲区中。
（4）Spill阶段：即“溢写”，当环形缓冲区满后，MapReduce会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。
溢写阶段详情：利用快速排序算法
(5）Merge阶段：当所有数据处理完成后，MapTask对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。

Reduce-join案例

在这里插入图片描述
将左边两个表合并为右边的表

数据清洗(ETL)

在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。
原始数据:
在这里插入图片描述
清洗后的数据

Hadoop数据压缩

在这里插入图片描述
Map端输出压缩

运行后不会产生.bzip

reduce端输出压缩
代码更改
在这里插入图片描述
输出结果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/6302.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

相关文章

UI界面设计入门：打造卓越用户体验

UI界面设计入门：打造卓越用户体验

互联网的迅猛发展催生了众多相关职业，其中UI界面设计师成为互联网行业的关键角色之一。UI界面设计无处不在，影响着网站、应用程序以及其他数字平台上的按钮、菜单布局、色彩搭配和字体排版等。UI设计不仅仅是字体、色彩和导航栏的组合，它的意…

阅读更多...

jmeter基础01-3_环境准备-Linux系统安装jdk

jmeter基础01-3_环境准备-Linux系统安装jdk

Step1. 查看系统类型打开终端，命令行输入uname -a，显示所有系统信息，包括内核名称、主机名、内核版本等。如果输出是x86_64，则系统为64位。如果输出是i686 或i386，则系统为32位。 Step2. 官网下载安装包 https://www…

阅读更多...

2024年海淀区中小学生信息学竞赛校级预选赛试题与解析（第二部分程序阅读题（1-4））

2024年海淀区中小学生信息学竞赛校级预选赛试题与解析（第二部分程序阅读题（1-4））

第一题代码： #include<bits/stdc.h> using namespace std; int n, cnt;int main() {cin >> n; // 读取输入的整数 nfor (int i 1; i < n; i) // 从 1 到 n-1 的整数进行遍历if (n % i 0) // 如果 i 是 n 的约数cnt; …

阅读更多...

ELK日志

ELK日志

一，Elastic Stack 在企业的常用架构 1，没有日志收集系统运维工作的日常"痛点"概述如上图所示，简单画了一下互联网常用的一些技术栈相关架构图，请问如果让你对上图中的各组件日志进行收集，分析，存…

阅读更多...

SAP RFC 用户安全授权

SAP RFC 用户安全授权

一、SAP 通讯用户对于RFC接口的用户，使用五种用户类型之一的“通讯”类型，这种类型的用户没有登陆SAPGUI的权限。二、对调用的RFC授权在通讯用户内部，权限对象：S_RFC中，限制进一步可以调用的RFC函数授权&#xff…

阅读更多...

文件操作：Xml转Excel

文件操作：Xml转Excel

1 添加依赖 Spire.Xls.jar <dependency><groupId>e-iceblue</groupId><artifactId>spire.xls</artifactId><version>5.3.3</version></dependency>2 代码使用 package cctd.controller;import com.spire.xls.FileFormat; im…

阅读更多...

【FL0014】基于SpringBoot和微信小程序的个人健康管理系统

【FL0014】基于SpringBoot和微信小程序的个人健康管理系统

🧑‍💻博主介绍🧑‍💻 全网粉丝10W,CSDN全栈领域优质创作者，博客之星、掘金/知乎/b站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发…

阅读更多...

数据库_SQLite3

数据库_SQLite3

下载 1、更新软件源： sudo apt-get update 2、下载SQLite3： sudo apt-get install sqlite3 3、验证： sqlite3启动数据库，出现以下界面代表运行正常。输入 .exit 可以退出数据库 4、安装sqlite3的库 sudo apt-get install l…

阅读更多...

鸿蒙进阶-List组件

鸿蒙进阶-List组件

hello大家好，这里是鸿蒙开天组，今天我们来讲讲常用的List组件，也就是列表组件。 List组件 List 组件的基本用法，可以用它来展示列表，并且实现列表滚动，日常开发的时候还可以用它来实现更为复杂的效果。 …

阅读更多...

EDA技术简介

EDA技术简介

目录可编程逻辑器件 CPLD/FPGA 基于查找表结构的FPGA 硬件描述语言 EDA软件 EDA技术的应用领域电子系统的设计方法 EDA (Electronic Design Automation,电子设计自动化) 以可编程逻辑器件 (Programmable Logic Device,简称PLD)为实现载体、以硬件描述语言 (Hardwar…

阅读更多...

【java】实战-力扣题库：有序数组的平方

【java】实战-力扣题库：有序数组的平方

问题描述给你一个按非递减顺序排序的整数数组 nums，返回每个数字的平方组成的新数组，要求也按非递减顺序排序。问题分析： 既然给定的是一个非递减顺序的数组我们可以使用双指针 ， 一个指向左边，一个指向…

阅读更多...

Java项目实战II基于Java+Spring Boot+MySQL的智能推荐的卫生健康系统（开发文档+数据库+源码）

Java项目实战II基于Java+Spring Boot+MySQL的智能推荐的卫生健康系统（开发文档+数据库+源码）

目录一、前言二、技术介绍三、系统实现四、文档参考五、核心代码六、源码获取全栈码农以及毕业设计实战开发，CSDN平台Java领域新星创作者，专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末一、前言基于Java、…

阅读更多...

Jupyter Notebook添加kernel的解决方案

Jupyter Notebook添加kernel的解决方案

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

阅读更多...

Python Matplotlib 如何绘制股票或金融数据图

Python Matplotlib 如何绘制股票或金融数据图

Python Matplotlib 如何绘制股票或金融数据图在金融领域，数据可视化是分析市场趋势、股票表现和财务健康的重要工具。Python 的 Matplotlib 库为我们提供了强大的功能来绘制股票和金融数据图。本文将详细介绍如何使用 Matplotlib 绘制这些图表，并且结合…

阅读更多...

Chrome离线安装包下载

Chrome离线安装包下载

微软的Bing屏蔽了Chrome的搜索结果，需要通过百度搜索。或者直接访问Chrome的官网：Google Chrome 网络浏览器直接下载的是在线安装包，安装需要联网。如果需要在无法联网的设备上安装Chrome，需要在上面的地址后面加上?standalon…

阅读更多...

C++__XCode工程中Debug版本库向Release版本库的切换

C++__XCode工程中Debug版本库向Release版本库的切换

Debug和Release版本分别设置编译后，就分别得到了对应的lib库，如下图： 再生成Release后如下图：

阅读更多...

masm汇编键盘读取字符串换行输出演示

masm汇编键盘读取字符串换行输出演示

从键盘输入字符串按回车后换行输出 ASSUME CS:CODE, DS:DATA DATA SEGMENT BUFFER DB 20DB ?DB 20 DUP(0) CRLF DB 0AH, 0DH,$ DATA ENDS CODE SEGMENT …

阅读更多...

python爬取m3u8视频（思路到实现全讲解！！！）

python爬取m3u8视频（思路到实现全讲解！！！）

文章目录抓取m3u8视频1、思路分析2、实现分析index.m3u8 3、代码实现3.1 获取最后一个m3u8的url地址3.2 多线程下载ts文件与视频合并3.3 合并获取上面俩个代码段的代码 4、注意事项4.1 说明4.2 使用代码进行处理4.3 完整代码 5、解密处理处理m3u8文件中的url问题抓取m3u8视频…

阅读更多...

html语法

html语法

网站是指在因特网上根据一定规则，使用html等制作的用于展示特定内容相关的网页集合网站由很多网页组成，网页是构成网站的基本元素，通常由图片、连接、视频、声音、文字等元素组成，一般用.htm和.html做后缀，又被称为h…

阅读更多...

WPF使用Prism框架首页界面

WPF使用Prism框架首页界面

1. 首先确保已经下载了NuGet包MaterialDesignThemes 2.我们通过包的项目URL可以跳转到Github上查看源码 3.找到首页所在的代码位置 4.将代码复制下来，删除掉自己不需要的东西，最终如下 <materialDesign:DialogHostDialogTheme"Inherit"Ide…

阅读更多...

最新文章