当前位置: 首页 > news >正文

Hadoop的三大结构及各自的作用?

1.HDFS 作用:

  • 存储海量数据,支持高容错(数据自动备份)和高吞吐量(适合大文件读写)。

  • 采用主从架构

    • NameNode:管理文件系统的元数据(如文件目录结构)。

    • DataNode:存储实际数据块(默认128MB/块,3副本)。

适用场景

  • 存储日志、视频、大型数据集等非结构化或半结构化数据

2.YARN 作用:

  • 资源管理:统一分配集群的CPU、内存等资源。

  • 任务调度:支持多种计算框架(如MapReduce、Spark、Flink)在同一个集群上运行。

  • 核心组件

    • ResourceManager(RM):全局资源调度。

    • NodeManager(NM):单节点资源管理。

    • ApplicationMaster(AM):单个作业的任务协调。

优势

  • 提高集群资源利用率,避免传统MapReduce的单一任务调度瓶颈。

3.MapReduce 作用:

  • 分布式批处理计算框架,通过MapReduce两个阶段处理数据。

    • Map阶段:并行处理输入数据,生成键值对(<key, value>)。

    • Reduce阶段:汇总Map的结果,输出最终数据。

特点

  • 高容错:自动处理节点故障。

  • 离线计算:适合大规模静态数据集(如日志分析、ETL)。

示例

  • 词频统计(WordCount)、数据清洗、聚合分析等。

http://www.xdnf.cn/news/13267.html

相关文章:

  • TDengine Restful 接口API
  • excel解析图片pdf附件不怕
  • ESP8266简单介绍
  • 2025年山东燃气瓶装送气工考试真题练习
  • MCP协议量子加密实践:基于QKD的下一代安全通信(2025深度解析版)
  • 从数字化到智能化,百度 SRE 数智免疫系统的演进和实践
  • MCP(Model Context Protocol 模型上下文协议)科普
  • vue 中formatter
  • 2025-04-18 李沐深度学习3 —— 线性代数
  • yarn的三大组件及各自作用
  • easyexcel使用模板填充excel坑点总结
  • Kotlin协程Semaphore withPermit约束并发任务数量
  • chili3d调试笔记3 加入c++ 大模型对话方法 cmakelists精读
  • PY32F003+TIM+外部中断实现对1527解码
  • 【Test Test】灰度化和二值化处理图像
  • 6TOPS算力NPU加持!RK3588如何重塑8K显示的边缘计算新边界
  • 嵌入式音视频开发指南:从MPP框架到QT实战全解析
  • 3D 视觉赋能仓储精准高效:ID Logistics 与 Stereolabs 的创新合作之旅
  • Java开发中的常用注解
  • 字符串系列一>最长回文子串
  • 给予FLUX更好的控制:FLUX.1-dev-ControlNet-Union-Pro-2.0
  • Redis——网络模型之IO讲解
  • 大模型微服务架构模块实现方案,基于LLaMA Factory和Nebius Cloud实现模型精调的标准流程及代码
  • Android——动画
  • IPTV电视信息发布直播点播系统:营造数字化个性化融合化多媒体IPTV电视信息发布平台
  • 预训练与微调:大模型如何“学习知识”?
  • Python 网络爬虫基础理论与实战指南
  • 【每日八股】复习计算机网络 Day1:TCP 的头部结构 + TCP 确保可靠传输 + TCP 的三次握手
  • 【漫话机器学习系列】209.均值的标准误差(Standard Error of the Mean)
  • 完整的 .NET 6 分布式定时任务实现(Hangfire + Redis 分布式锁)