当前位置: 首页 > news >正文

学习spark总结

一、Spark Core

• 核心功能:基于内存计算的分布式计算框架,提供RDD弹性分布式数据集,支持转换(如map、filter)和动作(如collect、save)操作。

• 关键特性:高容错性(Lineage机制)、高效内存管理、支持多种部署模式(本地/集群)。

二、Spark SQL

• 数据处理:支持结构化数据(JSON/Parquet等)处理,通过DataFrame/Dataset API简化操作。

• 组件集成:可与Hive兼容,通过Spark SQL查询Hive表,支持ANSI SQL语法。

• 性能优势:优化器(Catalyst)自动优化执行计划,提升查询效率。

三、Spark Streaming

• 流处理模型:基于微批处理(Micro-Batch),将实时流分割为小批次处理,支持Kafka、Flume等数据源。

• 关键概念:DStream(离散流)、窗口操作(Window)、状态管理(如updateStateByKey)。

• 容错机制:通过检查点(Checkpoint)确保故障恢复时的 Exactly-Once 语义。

四、Kafka 集成

• 数据源:作为分布式消息队列,为Spark Streaming提供高吞吐量、持久化的实时数据。

• 消费模式:基于Direct API(非Receiver方式),直接从Kafka分区读取数据,保证高效且精准一次消费。

• 集成场景:常用于日志采集、实时监控等需要高可靠性的流处理场景。

五、Flume 集成

• 数据采集:轻量级日志收集框架,支持多源数据(如文件、网络端口)采集,汇聚到HDFS/Spark等系统。

• 与Spark结合:Flume可将数据写入Kafka,再由Spark Streaming消费;或直接通过Flume Sink将数据发送至Spark Streaming。

• 特点:配置灵活、可靠性高,适合构建复杂的日志采集管道。

http://www.xdnf.cn/news/179209.html

相关文章:

  • 基于SSM的“融资租赁管理系统”的设计与实现(源码+数据库+文档)
  • QT开发技术【QChart添加跟随鼠标的十字线】
  • 信号量函数
  • MySQL快速入门篇---增删改查(下)
  • Neowise Labs Contest 1 (Codeforces Round 1018, Div. 1 + Div. 2)
  • HTML基础完全解析
  • Astah Professional反向建模C++类图
  • 【记录解决问题】--vue select下拉框排除已选择option
  • MCP协议:AI生态的统一标准
  • LeetCode 24 两两交换链表中的节点
  • 半导体行业如何开展风险管理?有没有半导体风控案例参考?
  • 反序列化漏洞2
  • 贪吃蛇游戏demo
  • 计网二。。
  • css响应式布局设置子元素高度和宽度一样
  • Maven项目细节
  • re题(48)BUUCTF-[网鼎杯 2020 青龙组]singal
  • vue项目页面适配
  • Java学习--HashMap
  • 科技打头阵,创新赢未来——中科视界携千眼狼超高速摄像机亮相第三届科交会
  • 【HPC存储性能测试】02-ior带宽性能测试
  • acwing532. 货币系统
  • 【操作系统原理07】输入/输出系统
  • 常用的多传感器数据融合方法
  • 安卓屏播放语音失败,报错TextToSpeech: speak failed: not bound to TTS engine
  • risc-V学习日记(4):RV32I指令集
  • 开关电源实战(六)ADDC反激电源
  • 说一下Drop与delete区别
  • 在java中实现protobuf自定义协议
  • 通过ThreadLocal存储登录用户信息