当前位置：首页 > news >正文

学习spark总结

news 2025/4/28 7:29:57

一、Spark Core

• 核心功能：基于内存计算的分布式计算框架，提供RDD弹性分布式数据集，支持转换（如map、filter）和动作（如collect、save）操作。

• 关键特性：高容错性（Lineage机制）、高效内存管理、支持多种部署模式（本地/集群）。

二、Spark SQL

• 数据处理：支持结构化数据（JSON/Parquet等）处理，通过DataFrame/Dataset API简化操作。

• 组件集成：可与Hive兼容，通过Spark SQL查询Hive表，支持ANSI SQL语法。

• 性能优势：优化器（Catalyst）自动优化执行计划，提升查询效率。

三、Spark Streaming

• 流处理模型：基于微批处理（Micro-Batch），将实时流分割为小批次处理，支持Kafka、Flume等数据源。

• 关键概念：DStream（离散流）、窗口操作（Window）、状态管理（如updateStateByKey）。

• 容错机制：通过检查点（Checkpoint）确保故障恢复时的 Exactly-Once 语义。

四、Kafka 集成

• 数据源：作为分布式消息队列，为Spark Streaming提供高吞吐量、持久化的实时数据。

• 消费模式：基于Direct API（非Receiver方式），直接从Kafka分区读取数据，保证高效且精准一次消费。

• 集成场景：常用于日志采集、实时监控等需要高可靠性的流处理场景。

五、Flume 集成

• 数据采集：轻量级日志收集框架，支持多源数据（如文件、网络端口）采集，汇聚到HDFS/Spark等系统。

• 与Spark结合：Flume可将数据写入Kafka，再由Spark Streaming消费；或直接通过Flume Sink将数据发送至Spark Streaming。

• 特点：配置灵活、可靠性高，适合构建复杂的日志采集管道。

查看全文

http://www.xdnf.cn/news/179209.html

基于SSM的“融资租赁管理系统”的设计与实现（源码+数据库+文档)

QT开发技术【QChart添加跟随鼠标的十字线】

信号量函数

MySQL快速入门篇---增删改查（下）

Neowise Labs Contest 1 (Codeforces Round 1018, Div. 1 + Div. 2)

HTML基础完全解析

Astah Professional反向建模C++类图

【记录解决问题】--vue select下拉框排除已选择option

MCP协议：AI生态的统一标准

LeetCode 24 两两交换链表中的节点

半导体行业如何开展风险管理？有没有半导体风控案例参考？

re题(48)BUUCTF-[网鼎杯 2020 青龙组]singal

vue项目页面适配

Java学习--HashMap

科技打头阵，创新赢未来——中科视界携千眼狼超高速摄像机亮相第三届科交会

【HPC存储性能测试】02-ior带宽性能测试

acwing532. 货币系统

【操作系统原理07】输入/输出系统

常用的多传感器数据融合方法

安卓屏播放语音失败，报错TextToSpeech: speak failed: not bound to TTS engine

risc-V学习日记（4）：RV32I指令集

开关电源实战（六）ADDC反激电源

说一下Drop与delete区别

在java中实现protobuf自定义协议

通过ThreadLocal存储登录用户信息

一、Spark Core

二、Spark SQL

三、Spark Streaming

四、Kafka 集成

五、Flume 集成

相关文章：