当前位置: 首页 > news >正文

spark学习总结

一、Spark概述

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎
二、核心组件
1. Spark Core 中提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL,Spark Streaming,GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的 
2. Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。 

3. Spark Streaming:实现实时流数据处理,能将流数据按时间间隔划分成小批次进行处理。

4.MLlib 是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等额外的功能,还提供了一些更底层的机器学习原语。

三、Spark编程模型
RDD(弹性分布式数据集)
特性:
不可变(immutable)
分区(partitioned)
可并行操作
可持久化(persist/cache)
容错性(通过lineage血统恢复)
创建方式:
从集合创建: `sc.parallelize()`
从外部存储系统: `sc.textFile()`
从其他RDD转换
总体而言,Spark编程模型围绕RDD、DataFrame和Dataset展开,开发者可根据具体的数据特点和处理需求灵活选择使用,利用它们进行数据的转换、分析和获取结果等操作,以实现高效的大数据处理任务。

四. 应用场景
 1.与人工智能深度融合:进一步优化MLlib,支持更复杂的深度学习框架和算法,推动人工智能技术在大数据处理中的广泛应用,实现更智能的数据分析和决策。例如,在医疗领域可基于Spark和MLlib对大量病历及基因数据进行分析,建立更精准的疾病预测模型。
2.完善云原生架构:随着云计算的普及,Spark将更好地适应云原生环境,提高在公有云、私有云和混合云场景下的部署和运行效率,降低企业的运维成本,使企业能更便捷地在云环境中利用Spark进行大数据处理。
3.提升实时计算性能:在实时计算领域,Spark将不断优化流处理性能,降低延迟,提高吞吐量,满足金融、物联网等对实时性要求极高的行业需求。如在金融领域,可更及时地处理股票交易数据、银行转账记录等实时数据流,快速检测异常交易行为。

http://www.xdnf.cn/news/182917.html

相关文章:

  • C++/SDL 进阶游戏开发 —— 双人塔防(代号:村庄保卫战 14)
  • Java大厂面试:互联网医疗场景中的Spring Boot与微服务应用
  • 第42周:文献阅读
  • 杭州小红书代运营公司-品融电商:专业赋能品牌社交增长
  • Java + Spring Boot + MyBatis获取以及持久化sql语句的方法
  • 单片机之间的双向通信
  • 可视化图解算法: 二叉搜索树转双向排序链表
  • Spdlog 日志组件的安装及使用
  • 【C语言】程序分配的区域
  • spring框架学习(下)
  • 现场问题排查-postgresql某表索引损坏导致指定数据无法更新影响卷宗材料上传
  • Java异常处理全面指南:从基础到高级实践
  • (done) 吴恩达版提示词工程 6. 转换 (翻译,通用翻译,语气风格变换,文本格式转换,拼写检查和语法检查)
  • 关于定时任务原理
  • Python实例题:Python气象数据分析
  • 猿人学web端爬虫攻防大赛赛题第15题——备周则意怠-常见则不疑
  • Linux Centos8使用yum命令安装mysql8
  • 《100天精通Python——基础篇 2025 第9天:字典操作全解析与哈希原理揭秘》
  • SAE 实现应用发布全过程可观测
  • 将你的本地项目发布到 GitHub (新手指南)
  • 00-算法打卡-目录
  • Using the NCCL Library: A Practical Guide
  • Ubuntu安装SSH服务
  • android Observable 和Observer 是什么
  • 全金属机柜散热风扇:高效散热的核心装备
  • 英文中日期读法
  • Spring Boot 中多线程的基础使用
  • madvise MADV_FREE对文件页统计的影响及原理
  • SALOME源码分析:Geomtry模块
  • Flutter Dart中的抽象类 多态 和接口