【流计算】流计算概论

前言

作者在之前写过一个大数据的专栏,包含GFS、BigTable、MapReduce、HDFS、Hadoop、LSM树、HBase、Spark,专栏地址:

https://blog.csdn.net/joker_zjn/category_12631789.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12631789&sharerefer=PC&sharesource=Joker_ZJN&sharefrom=from_link

流计算和大数据是紧密相关的,现在接那个大数据专栏,继续向下写流计算专栏。这是第一篇。

目录

1.什么是流计算

2.流计算的架构


1.什么是流计算

流计算,就是对流式数据的计算,是专门用来处理流式数据的。因此在聊流计算之前,我们要先明白什么是静态数据和流式数据。

静态数据:

静态数据不是实时产生的,是有一定历史的数据,静态数据一般是用来进行一些统计分析的,比如数据仓库中的数据就是典型的静态数据。再比如MapReduce做统计分析,存在HDFS中的数据也是静态数据。

流式数据:

流式数据其实就是动态数据,是实时产生的,其应用场景对实时性要求很高,基本上是要求需要对其做实时处理的数据。比如:

  • 物联网中的实时监测设备,诸如烟感、PM2.5监测、安防等设备,要对实时的流式数据做实时的分析,从而判断是否触发报警之类的操作。

  • 购物网站上的“可能感兴趣”的推荐,就是基于用户实时点击浏览产生的流式数据来给客户进行推荐的。

上面这样说只是一方面,其实仔细思考就会发现静态数据、动态数据之间没有很明确的边界,静态数据也会有新的数据进来,流式数据的业务场景中也有对历史数据计算的需求。

其实从业务场景上能更好的区分是不是流计算的场景,流计算的场景一句话就能概括:

大量数据实时产生,涌过来,从这些大量实时数据中计算出实时结果。

流式数据的特征:

  • 快速持续的到达

  • 来源众多、格式复杂

  • 数据量大,不太关注存储,一旦经过处理后,要么被丢弃,要么被归档存储。

2.流计算的架构

流数据的量大、产生的速度快、来源和格式杂,这些特点都是会拉低计算速度的点,所以流计算的核心就是要就是要稳定可靠高效的处理流式数据。市面上的各种流计算框架针对这些核心问题,各自给出了自己的解法,常用的流计算框架:

  • twitter storm

  • spark strem

流计算是整个大系统的一环,接下来我们看看引入流计算的系统架构一般长什么样子。

以flink为例,展示一下流计算常见架构:

观察上面系统,可以发现引入流计算的系统架构一般有以下部分组成:

  • 数据采集

  • 数据传输

  • 数据处理

  • 数据存储

  • 数据展现

数据采集:

传感器、各个服务模块上的各个日志代理等。

数据采集在软件层面无非就是从浏览器、手机终端等设备将数据发给采集服务器。

采集服务器要接收数据,在性能上要有所考虑,关于性能无非以下点:

  • 吞吐量(TPS),要在IO模型上有所抉择,阻塞?非阻塞

  • 时延,有时延要求时首先要报时延,再说拉高吞吐量的事儿

  • TCP连接,当有大量连接需要维持时,用非阻塞IO服务器,如netty;当连接数量较少时,用长连接和连接池

数据传输:

负责数据的流转,数据总线,一般用MQ来实现,数据传输要关注的点:

  • 吞吐量,流式数据的量大,吞吐量肯定要跟上,不能造成数据积压,数据才有实时性。
  • 可靠性,可靠性肯定要跟上,数据尽可能不要丢。

数据处理:

流计算的核心,也是流计算框架主要工作的环节,用计算引擎来对流进行:

  • 转化、清洗、转换

  • 计数、求和、均值、标准差、极值、聚合、关联、直方图等

数据存储:

根据自己的业务场景来决定计算出来的结果是否需要存储?如果要存储就要考虑自己业务场景的需求:

  • 数据量大不大?

  • 时延要求如何?

  • 吞吐量大不大?

然后来选择对应的存储介质,内存?关系型数据库?非关系型数据库?分布式文件系统?等等等等

3.常见流计算场景

以下是流式计算的一些典型应用场景:

  • 实时数据分析
    •  金融交易:实时监测市场波动、交易异常和欺诈检测。
    • 物联网(IoT):实时处理传感器数据,监控设备状态,触发警报。
  • 日志处理与监控
    • 系统监控:实时监控服务器日志,快速发现并处理系统故障。
    • 应用性能管理(APM):实时分析应用日志,优化性能瓶颈。
  • 社交媒体分析
    • 趋势分析:实时分析社交媒体上的热点话题和用户情绪。
    • 推荐系统:根据用户实时行为更新推荐内容。
  • 网络安全
    • 入侵检测:实时分析网络流量,识别潜在的安全威胁。
    • 异常检测:监控网络活动,及时发现异常行为。
  • 电子商务
    • 库存管理:实时更新库存信息,避免超卖情况。
    • 订单处理:实时跟踪订单状态,提高客户满意度。
  • 智能制造
    • 生产监控:实时监控生产线状态,提高生产效率。
    • 预测性维护:通过分析机器运行数据,提前预测并预防故障。
  • 交通与物流
    • 交通管理:实时分析交通流量,优化交通信号控制。
    • 物流追踪:实时更新货物位置,提高物流效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1550129.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

常用激活函数总结

文章目录 什么是激活函数激活函数的作用常用激活函数1.Sigmoid函数2.Softmax函数3.Tanh函数4.Relu函数5.LeakyRelu函数6.PRelu函数7.ELU函数8.SELU函数 什么是激活函数 激活函数,通俗讲,就是一个函数,针对某个神经元,就是将输入经…

智慧园区与智能城市融合发展的关键举措

随着科技的快速发展和城市化进程的加速,智慧园区和智能城市作为未来城市发展的重要方向备受关注。智慧园区注重企业创新与产业升级,而智能城市着眼于城市管理与居民生活的便利。它们之间的融合将促进城市发展的智能化、可持续化和协同化。以下是实现智慧…

【web开发网页制作】Html+Css郑州大学保卫处学校网页制作(5页面附源码)

HTMLCSS学校主题网页目录 🍔涉及知识🥤写在前面🍧一、网页主题🌳二、网页效果Page1、首页Page2、通知公告Page3、公告详情页Page4、新闻动态页Page5、服务专区 🐋三、网页架构与技术3.1 脑海构思3.2 整体布局3.3 技术说…

华为OD机试 - 匿名信(Python/JS/C/C++ 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试真题(Python/JS/C/C)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加入华为OD刷题交流群,…

【网络安全 白帽子】用技术合法挖漏洞,一个月能拿多少钱

现在很多白帽子(网安工程师/渗透测试工程师)都会在下班之后利用业余时间去补天之类的漏洞赏金平台挖漏洞,用技术合法给企业找出威胁存在,拿到漏洞赏金。 那么现在,一般人用网安技术挖漏洞一个月能拿多少钱&#xff1f…

C++进阶:AVL树保持平衡的秘诀

✨✨所属专栏:C✨✨ ✨✨作者主页:嶔某✨✨ AVL树的底层实现代码:BSTree.h 钦某/Clearning 什么是AVL树? • AVL树是最先发明的⾃平衡⼆叉查找树,AVL是⼀颗空树,或者具备下列性质的⼆叉搜索树&#xff1…

【Linux基础IO】Linux IO编程入门:揭秘动态库与静态库的秘密

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:Linux “ 登神长阶 ” 🤡往期回顾🤡:Linux Shell 🌹🌹期待您的关注 🌹🌹 ❀Linux基础IO 📒1. …

在编写vue3项目过程中,不希望ts校验怎么设置

问: 现在我查询了很多设置 可以看到,设置了很多关闭校验,但是仍然有报错提示,提示当前类型不正确,应该怎么办? 回答: 从其他人的博客中获取灵感,因为vscode的自己的设置了类型检查…

DL_语义分割(学习笔记)

文章目录 图像分割1 常见分类1.1 语义分割1.2 实例分割1.3 全景分割 2 语义分割2.1 模型评价指标2.2 常用数据集2.3 转置卷积2.4 膨胀卷积2.5 感受野2.6 双线性插值2.7 FCN 图像分割 1 常见分类 1.1 语义分割 定义:【只判断类别,无法区分个体】 语义分…

Tableau 瀑布图应用示例

通过探索 10 个示例,将瀑布图的应用拓展到更深层次的业务分析! 作为一种直观展示数据变化的图表,瀑布图被广泛应用在业务分析中。同时,借助 Tableau 2024.2 中的 Viz Extensions,如今我们可以快速在 Tableau 中实现瀑布…

【YashanDB知识库】崖山数据库Outline功能验证

本文内容来自YashanDB官网,具体内容请见(https://www.yashandb.com/newsinfo/7488286.html?templateId1718516) 测试验证环境说明 测试用例说明 1、相同版本下,新增表数据量,使统计信息失效。优化器优先使用outline的计划。 2、相同版本下…

CHI trans简介--Retry

总目录: CHI协议简读汇总-CSDN博客 Retry trans flow requester发送一个请求,该请求没有protocol credit(P-Credit); 也就是说,该请求不保证completer一定能够接收该trans;completer返回一个retry resp, RetryAck, 给到Requester;completer再…

逻辑回归(上):函数求导过程自推 LaTex 语法

背景 闲来无事翻了一下之前买的一个机器学习课程及之前记录的网络笔记,发现遇到公式都是截图,甚至是在纸上用笔推导的。重新整理一遍之前逻辑回归函数的学习笔记,主要是为了玩一下 LaTex 语法,写公式挺有意思的。 整理之前三篇笔…

A股收复3000点!外资积极看涨,对冲基金净买入量创三年来新高

9月27日,A股开盘后跳空上涨,连续四天的大幅上涨,9月26日,上证指数收复3000点大关,让一些温州股民感到兴奋不已,一些炒股群里沸腾了。但对于行情走势,股民们产生了分歧,有人是逢高减仓…

SWAP、AquaCrop、FVCOM、Delft3D、SWAT、R+VIC、HSPF、HEC-HMS......

全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程&…

源2.0全面适配百度PaddleNLP,大模型开发开箱即用

近日,源2.0开源大模型与百度PaddleNLP完成全面适配。用户通过PaddleNLP,可快速调用源2.0预训练大模型,使用源2.0在语义、数学、推理、代码、知识等方面的推理能力,也可以使用特定领域的数据集对源2.0 进行微调,训练出适…

爬虫及数据可视化——运用Hadoop和MongoDB数据进行分析

作品详情  运用Hadoop和MongoDB对得分能力数据进行分析;  运用python进行机器学习的模型调理,利用Pytorch框架对爬取的评论进行情感分析预测;  利用python和MySQL对网站的数据进行爬取、数据清洗及可视化。

win10如何禁止指定程序运行?推荐这4个好用的方法,小白必入哦!(轻松拿捏!)

在Windows 10系统中,管理程序运行权限是维护系统安全和提升工作效率的重要手段。 无论是出于防止恶意软件入侵的考虑,还是为了规范员工的软件使用行为,禁止指定程序运行都是一项必备技能。 本文将为您介绍四种简单实用的方法,即便…

校企合作 | 宝兰德与西安航空职业技术学院共筑智慧教育新高地

在教育领域持续变革的今天,智慧教育作为提升教学质量、优化资源配置的关键策略,正逐步成为教育发展的主流趋势。近日,西安航空职业技术学院副校长郭红星、信息中心副主任李畅及主任李永锋等领导莅临宝兰德西安研发中心,双方就智慧…

el-upload不显示进度条

原因:我并没有用el-upload上面的action设置上传url,也没有用他自带的方法上传 这里我使用的是通过自定义接口手动上传,即点击外部按钮,将文件转换后调用接口将文件传参,拿到存储后转换回来的文件url,直接调…