Apache Flink窗口详解

Apache Flink窗口详解

在这里插入图片描述

Apache Flink 的核心功能之一是窗口处理,它允许开发人员以基于时间或基于计数的方式分组和处理数据流。

窗口技术是一种根据某些标准将数据流划分为有限块(称为窗口)的技术。

窗口(Window)是处理无界流的关键所在。窗口可以将数据流装入大小有限的“桶”中,再对每个“桶”加以处理。

在这里插入图片描述

例如,您可以根据时间间隔(每 5 分钟)、事件计数(每 100 个事件)或会话边界(不活动间隙)定义窗口。

在每个窗口内,您可以对数据进行各种操作,如聚合(总和、平均、计数)、转换(映射、过滤、连接)或复杂的业务逻辑。


窗口的分类

1.按照驱动类型分类

Flink中窗口并不是静态准备好的,而是动态创建——当有落在这个窗口区间范围的数据达到时,才创建对应的窗口。(事件驱动型)

在这里插入图片描述


2. 按照窗口分配数据的规则分类

(1)滚动窗口(Tumbling Window

对滚动窗口是一种对数据流进行均匀切片的方式,窗口之间没有重叠,每个数据元素只能属于一个窗口。

在这里插入图片描述

这种窗口形式最简单,适用于需要固定大小窗口的场景,而且每个数据元素都会被准确地分配到一个唯一的窗口中。

eg. 实时统计:例如每5分钟统计一次用户在线人数,使用5分钟的滚动窗口来进行累加计算。

在这里插入图片描述

  1. 固定的大小:滚动窗口有固定的窗口大小,例如每5分钟一个窗口。

  2. 无重叠:不同于滑动窗口,滚动窗口之间没有重叠部分。

  3. 首尾相接:窗口是连续的,每个窗口的开始和结束时间是紧密相连的,便于实现时间段内数据的精确统计。

  4. 唯一归属:每个数据元素只能属于一个窗口,不会被分配到多个窗口中。


(2)滑动窗口(Sliding Window

  • 滑动窗口的大小也是固定的。
  • 但是窗口之间并不是首尾相接的,而是可以“错开”一定的位置。

在这里插入图片描述

  • 定义滑动窗口的参数有两个:除去窗口大小(window size)之外,还有一个“滑动步长”(window slide)它其实就代表了窗口计算的频率。

  • 窗口在结束时间触发计算输出结果,那么滑动步长就代表了计算频率

  • 当滑动步长小于窗口大小时,滑动窗口就会出现重叠,这时数据也可能会被同时分配到多个窗口中。而具体的个数就由窗口大小和滑动步长的比值(size/slide)来决定。

在这里插入图片描述

滑动窗口 vs 滚动窗口:

  1. 窗口关系

    • 滚动窗口:窗口之间是连续且不重叠的,每个数据元素只属于一个窗口。窗口大小等于滑动步长,因此没有重叠。
    • 滑动窗口:窗口可以重叠,窗口的开始时间和结束时间可以错开一定的位置。窗口大小和滑动步长是两个独立的参数,滑动步长决定了窗口之间的间隔和计算频率。
  2. 数据分配

    • 滚动窗口:每个数据元素只属于一个窗口,不会被分配到多个窗口中。
    • 滑动窗口:窗口可以重叠,数据元素可能会被同时分配到多个窗口中,具体取决于窗口大小和滑动步长的比值。
  3. 适用场景

    • 滚动窗口:适合于需要按固定时间间隔进行数据统计和汇总的场景,例如每5分钟计算一次平均值。
    • 滑动窗口:适合于需要频繁更新计算结果的场景,允许在较短时间内连续进行数据分析和计算,例如每1分钟计算一次最近10分钟的数据趋势。

(3)会话窗口(Session Window

  • 会话窗口根据数据元素的到达时间来动态定义窗口边界,而不是固定的时间间隔。这些窗口根据数据之间的会话超时时间(session timeout)来确定。

  • 如果相邻两个数据元素的到达时间间隔小于设定的超时时间(size),它们被视为属于同一个会话窗口。超过超时时间的数据则被视为新的会话开始。

  • 会话窗口的长度和位置是动态的,取决于数据元素到达的时间模式。因此,起始和结束时间是不确定的,窗口的边界会根据数据的到达时间自动调整。

  • 不同会话窗口之间是不会重叠的,每个会话窗口都会有一定的间隔(session gap),保证相邻的会话窗口不会重叠。

在这里插入图片描述


(4)全局窗口(Global Window

  1. 全局有效性

    • 全局窗口会将所有具有相同key的数据分配到同一个窗口中,无论它们到达的时间点如何。这保证了所有相关数据可以被视为一个整体进行处理。
  2. 没有固定结束时间

    • 与时间窗口不同,全局窗口没有预定义的结束时间点。它会持续收集数据,直到触发条件满足并触发计算。
    • Flink中的计数窗日(Count Window)底层就是用全局窗口实现的。
      在这里插入图片描述
  3. 触发器的自定义需求

    • 为了触发全局窗口中的计算,需要定义一个触发器(Trigger)。触发器可以基于多种条件来决定何时触发对窗口中数据的计算操作,例如数据量达到一定阈值或者时间间隔超过一定时间等。

在这里插入图片描述

eg:

假设有一个实时数据流,需要计算每个用户的累计点击次数,但不想每隔固定时间进行计算,而是希望在某个用户的点击次数达到一定数量时立即计算。这时可以使用全局窗口和相应的触发器来实现:

  • 定义一个全局窗口,确保所有属于同一用户的数据都被收集到同一个窗口中。
  • 配置一个触发器,当某个用户的点击次数达到设定的阈值时,触发对该用户数据的计算操作,例如计算累计点击次数。

窗口化的好处

窗口化对于流处理至关重要,因为它使我们能够处理两个主要挑战:无限数据和无序数据。

  • 与批处理不同,批处理有一组固定且有限的数据要处理,而流处理处理的是连续到达的无限数据。这意味着我们不能等待所有数据到达后再处理它,因为我们永远不会完成。

  • 相反,我们需要在数据到达时以增量方式处理数据,并产生部分或近似结果。窗口化通过将流分解为可以独立处理的可管理块来帮助我们做到这一点。

流处理的另一个挑战是数据可能无序到达,这意味着事件可能与其时间戳不一致。这可能是由于网络延迟、时钟偏差或其他原因造成的。

  • 无序数据会影响结果的正确性和一致性,尤其是在我们依赖基于时间的窗口时。
  • 例如,如果我们想从传感器读数流中计算每小时的平均温度,我们可能会错过一些迟到且属于前一小时的读数。窗口化通过提供为事件分配时间戳和水印的机制,以及指定如何处理延迟事件,帮助我们处理无序数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1489289.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

活动报名小程序

#活动报名工具# # 活动报名小程序 ## 项目简介 一款通用的活动报名工具,包含活动展示,微信支付,订单管理,分享评价等功能。 品客聚精彩,有你才精彩!不只有线下活动还可以进行线上裂变活动。 …

HTTP ESP8266 获取天气请求 单片机,嵌入式 2024/7/26 日志

通过http请求获取天气信息: 这里借鉴一下 中国气象局网站举例 首先根据网址 分析: http://weather.cma.cn/ 通过vscode插件:REST Client 发送请求我们会得到内容 首先我们的打开浏览器调试工具查看请求格式 筛选以下几个关键的格式,试着用插件发送请求 GET /web/weather…

【项目日记(三)】梦幻笔耕-前端模块

❣博主主页: 33的博客❣ ▶️文章专栏分类:项目日记◀️ 🚚我的代码仓库: 33的代码仓库🚚 🫵🫵🫵关注我带你了解更多项目内容 目录 1.前言,2.登录界面3.注册界面4.博客列表界面5.博客编辑页6.博客详情页7.博客更新界面…

Java 8 中 20 个高频面试题及答案

文章目录 前言20 道高频题问题 1:给定一个整数列表,使用 Stream 函数找出列表中所有的偶数?问题 2:给定一个整数列表,使用 Stream 函数找出所有以 1 开头的数字?问题 3:如何使用 Stream 函数在给…

stm32入门-----TIM定时器(输入捕获模式——下)

目录 前言 一、C语言编程初始化步骤 1.开启时钟 2.配置GPIO口 3.配置时基单元 4.配置输入捕获单元(主模式) 5.配置触发源于从模式 6.开启定时器 二、项目实操(测周法) 1.定时器测量方波 2.定时器测量方波的占空比 前言 接…

el-table表格 及其el-pagination分页 封装及其使用

1、首页在components文件夹中新建table文件夹 table文件夹下table.vue全部代码&#xff1a; <template><el-table:stripe"stripe":row-key"handlerRowKey()":tree-props"treeProps":border"border":show-summary"showS…

无人机之降落操作及紧急情况处理

一、无人机降落操作 1、选择降落地点 a.提前选择一个平坦且没有障碍物的降落点&#xff1b; b.确认降落点周围没有行人或障碍物&#xff0c;保证降落的安全性。 2、降低飞行高度 a.缓慢降低飞行高度&#xff0c;尽量保持匀速下降&#xff0c;防止因下降过快导致无人机受损…

Android 软键盘挡住输入框

Android原生输入法软键盘挡住输入框,网上各种解法,但不起效。 输入框都是被挡住了,第二张图的小点,实际就是输入法的光标。 解法: packages\inputmethods\LatinIME\java\res\values-land config.xml <!-- <fraction name="config_min_keyboard_height"&g…

数据库变更导致的 Salesforce 史上最严重安全事故

这两天的 Windows 全球蓝屏事件让大家又一次看到了光鲜软件背后的脆落。借此我们也来回顾另一个软件巨头 Salesforce 史上最严重的一次安全事故。 1 事件回顾 事情发生在 2019 年 5 月 19 日&#xff0c;同样是一个周五。 Salesforce 的工程师往旗下产品 Pardot (B2B Marketi…

董宇辉离职,我一点都不意外!只不过感觉来的太快

下面这张图&#xff0c;是我在半年多前写的一段随笔&#xff0c;没想到来的这么快&#xff01; 碰巧的是今天中午&#xff0c;在开发者群里有两位老铁自曝&#xff0c;本以为能公司干到老&#xff0c;但公司却不给机会&#xff0c;已经不在是公司员工了。 最近&#xff0c;晓衡…

加速下载,揭秘Internet Download Manager2024下载器的威力!

1. Internet Download Manager&#xff08;IDM&#xff09;是一款广受欢迎的下载管理软件&#xff0c;以其强大的下载加速功能和用户友好的界面著称。 IDM马丁正版下载如下: https://wm.makeding.com/iclk/?zoneid34275 idm最新绿色版一键安装包链接&#xff1a;抓紧保存以…

学习在测试时学习(Learning at Test Time): 具有表达性隐藏状态的循环神经网络(RNNs)

摘要 https://arxiv.org/pdf/2407.04620 自注意力机制在长文本语境中表现良好&#xff0c;但其复杂度为二次方。现有的循环神经网络&#xff08;RNN&#xff09;层具有线性复杂度&#xff0c;但其在长文本语境中的性能受到隐藏状态表达能力的限制。我们提出了一种新的序列建模…

Django Form表单,常用表单字段

在Django中&#xff0c;表单&#xff08;Forms&#xff09;是处理用户输入数据的重要工具。Django提供了两种主要方式来创建和处理表单&#xff1a;使用Django的表单API手动创建表单&#xff0c;或者使用模型表单&#xff08;ModelForms&#xff09;自动从数据库模型生成表单。…

[SaaS] 盒马设计->AI如何为企业经营创造价值

D20【AIGC x 零售】AI设计如何为企业经营创造价值&#xff1f;AIGC能力不仅仅是设计师的效率工具&#xff0c;也可以当好企业的大脑&#xff0c;帮助构建企业自己的数字化设计工作流&#xff0c;让设计资产和数据发挥更大价值https://mp.weixin.qq.com/s/tk1ahorN_yQ0N-RTZ2U9x…

【告别截图烦恼】4款超神截图软件,让你的设计工作飞起来!

你是否还在为截图时的繁琐操作头疼&#xff1f;网页内容截不全&#xff0c;图片模糊不清&#xff0c;或是在图层中翻找素材时手忙脚乱&#xff1f;今天&#xff0c;米兔要带你摆脱这些烦恼&#xff0c;介绍四款让你事半功倍的截图软件&#xff01; 1. Snipaste&#xff1a;简单…

ArrayList底层原理

1. ArrayList 的基本结构 ArrayList 内部使用一个 Object 类型的数组 elementData 来存储所有的元素。数组的长度可以动态调整。 2. 初始容量和扩容机制 初始容量&#xff1a;当使用无参构造创建一个 ArrayList 实例时会在底层创建一个默认长度为0的数组&#xff0c;可以通过…

解决vscode+UE5中vscode无法识别头文件,无法函数无法跳转,也无法自动补全的问题。

一、概述 接上一条博客&#xff0c;虽然解决了报错的问题&#xff0c;但是实际上的问题却没有解决&#xff0c;无论我怎么点击&#xff0c;其都无法完成跳转&#xff0c;也无法完成自动补全的问题。 在网络上搜索了很多资料后&#xff0c;发现是在使用vscode时候UE5在vscode中的…

masscan 端口扫描——(Golang 简单使用总结)

1. 前言 最近要做一个扫描 ip 端口的功能 扫描的工具有很多&#xff0c;但是如何做到短时间扫描大量的 ip 是个相对困难的事情。 市场上比较出名的工具有 masscan和nmap masscan 支持异步扫描&#xff0c;对多线程的利用很好&#xff0c;同时仅仅支持 syn 半开扫描&#xff…

大模型深度神经网络(Deep Neural Network, DNN)

大模型深度神经网络&#xff08;Deep Neural Network, DNN&#xff09;是一种复杂的机器学习模型&#xff0c;其特点在于包含多个隐藏层&#xff0c;从而赋予模型强大的非线性表达能力和对复杂数据模式的学习能力。以下是对大模型DNN的详细介绍&#xff1a; 一、基本概念 深度…

AR 眼镜之-充电动画定制-实现方案

目录 &#x1f4c2; 前言 AR 眼镜系统版本 充电动画 1. &#x1f531; 技术方案 1.1 方案介绍 1.2 实现方案 关机充电动画 亮屏/锁屏充电动画 2. &#x1f4a0; 关机充电动画 2.1 关机充电动画核心处理类与路径 2.2 实现细节 步骤一&#xff1a;1&#xff09;定制 …