实时数据的处理一致性

实时数据一致性的定义以及面临的挑战‍‍‍‍‍

数据一致性通常指的是数据在整个系统或多个系统中保持准确、可靠和同步的状态。在实时数据处理中,一致性包括但不限于数据的准确性、完整性、时效性和顺序性。
下图是典型的实时/流式数据处理的流程:
在这里插入图片描述
1、流式数据以各种方式推送到kafka中。
2、flink流式数据处理引擎将数据处理。
3、处理完成的数据写入到Mpp数据库。

由于整个数据链条是动态变化,因此,实时数据的一致性面临一些挑战。

  • 高并发处理:实时系统需要处理大量并发数据流,增加了一致性维护的难度。主要是在分布式数据库端,如何处理高并发的写入?
  • 网络延迟和故障:网络问题可能导致数据传输中断或延迟,影响数据同步。主要是在数据处理过程中如何保障数据处理的一致性?

实时数据处理系统如何保障一致性‍‍‍‍‍?

一、数据源和数据处理之间采用消息队列

  • 缓冲机制:使用消息队列作为缓冲,平衡数据生产者和消费者之间的速度差异。
  • 顺序保证:确保消息按照发送顺序被处理。

二、Flink引擎在故障‍下保持数据一致性策略
数据重放(Data Replay)
1、概念:数据重放是指在发生故障后,系统能够重新处理之前已经处理过的数据,以确保数据的完整性和一致性。
2、实现:Flink 通过保存输入数据流的快照(snapshots),在发生故障时,可以从快照中恢复数据,并重新处理从故障点之后的数据。

状态恢复(State Recovery)
1、概念:Flink 作业由多个操作符组成,每个操作符可能有自己的状态(例如,计数器、聚合结果等)。状态恢复是指在故障发生后,能够恢复这些状态到故障前的状态。
2、实现:Flink 定期对操作符的状态进行快照(checkpointing),并将快照存储在持久化存储中。如果作业失败,Flink 可以从最近的快照中恢复状态,并从故障点继续处理。

通过状态恢复和数据重放,Flink 确保即使在发生故障的情况下,也能保持数据处理的端到端一致性。并且Flink 提供了端到端的精确一次(exactly-once)处理语义,确保每条数据在系统中只被处理一次,即使在故障发生时也是如此。

故障处理流程
1、故障检测:Flink 监控作业的运行状态,一旦检测到节点故障,立即启动故障恢复流程。
2、状态恢复:Flink 从最近的快照中恢复作业的状态,包括每个操作符的内部状态。
3、数据重放:Flink 重新处理从故障点之后的数据,确保所有数据都被正确处理。
4、作业重启:在状态和数据恢复之后,Flink 重启作业,从故障点继续执行。

Flink引擎在网络延迟下保持数据一致性策略

Flink 引擎解决数据延迟到达的现象主要通过以下几种策略:
1、时间语义:Flink 支持不同的时间语义(事件时间、处理时间和摄取时间),允许开发者根据业务需求处理数据的时效性问题。
2、水印机制(Watermarks):Flink 使用水印来处理事件时间的数据流。水印是一种用于表示时间进度的机制,可以告诉 Flink 在特定时间之前的所有事件都已到达,可以进行处理。这允许系统处理乱序事件或延迟到达的数据。
3、窗口技术:Flink 提供了多种窗口操作,如滚动窗口(tumbling windows)、滑动窗口(sliding windows)和会话窗口(session windows),这些窗口可以对数据进行分组并在指定的时间范围内聚合,从而处理数据到达的延迟。
4、状态管理:Flink 允许操作符维护状态,即使数据延迟到达,也可以在状态中保留必要的信息,直到数据真正到达时再进行处理。
5、允许乱序和延迟的 API:Flink 提供了 allowedLateness 参数,允许在窗口操作中指定一定的延迟容忍度,窗口会为延迟数据保留状态,直到延迟数据到达后进行处理。

MPP数据库在高并发情况下保持数据一致性策略

分布式数据库在设计的时候会考虑高并发情况下保持数据一致性的策略,主要有使用事务管理,数据分区分片,数据版本控制,以及采用最终一致性原理。

1、使用事务管理:MPP数据库一般会提供ACID事务属性,确保事务具有原子性,一致性、隔离性和持久性,另外在分布式系统中支持分布式事务,使用两阶段提交等协议来维护事务一致性。
2、数据分区分片:将数据分布到不同的分区或分片上,减少单个节点的负载,提高并发处理能力。数据分区分片时采用一致性哈希算法来分配数据到不同的节点,即使在节点增减的情况下也能保持数据分布的一致性。
3、 数据版本控制:当多个事务或操作可能同时对同一数据进行修改时,数据版本控制可以确保数据库的一致性和完整性。另外,数据版本控制可以实现多版本并发控制(MVCC),允许在不锁定资源的情况下执行读取和写入操作,从而提高系统的并发性能。在分布式系统中,不同节点可能会对同一数据产生冲突的更新,版本控制机制可以帮助识别和解决这些冲突。
4、采用最终一致性模型:大部分分布式数据库采用CAP定理,接受短暂的数据不一致,最终一致性。

在实时数据处理流程中,从技术架构的设计到数据处理引擎的实现,再到分布式数据库在面对高并发、系统故障和网络异常等挑战时确保数据一致性的机制,都需要开发人员在开发和部署阶段进行精心的规划和应用。通过合理利用这些功能,可以有效地维护数据的完整性和一致性。
一、分布式数据库的设计和操作深受CAP定理的影响,该定理指出在分布式系统中,以下三个特性不可能同时得到完全满足:
1、一致性(Consistency):在分布式系统中的所有数据副本上,对于任何更新操作,都能保证所有节点在同一时间看到最新的数据。
2、可用性(Availability):每个请求接收到一个响应,无论是成功还是失败的响应。
3、分区容错性(Partition Tolerance):在网络分区(即系统的一部分被网络故障隔离)发生的情况下,系统仍然能够继续运行。

二、在CAP定理的框架下,分布式数据库需要在这三个特性之间做出权衡:

  • 强一致性与可用性的权衡:如果一个分布式数据库优先考虑一致性,那么在更新数据时可能需要锁定相关的数据副本,直到所有副本都更新完毕。这可能会降低系统的可用性,因为在更新过程中,其他操作可能需要等待。
  • 最终一致性:在这种模型下,分布式数据库接受在数据更新后的短时间内数据可能不一致,但保证系统最终会达到一个数据一致的状态。这种模型通常通过版本控制、数据版本控制、冲突解决策略等技术实现,允许系统在更新过程中继续处理请求,但返回的数据可能是旧版本。
  • 分区容错性:对于分布式数据库来说,网络分区是一种常见情况,因此数据库需要设计为即使在分区发生时也能继续提供服务。这通常意味着牺牲一定程度的一致性或可用性,例如,通过使用最终一致性模型来保证系统的持续运行。

三、在实际应用中,分布式数据库可能采用以下策略来实现CAP定理中的权衡:

  • 数据副本和同步策略:选择合适的数据副本数量和同步方式,以平衡一致性和可用性。
  • 读写分离:通过分离读操作和写操作,可以在保持高可用性的同时,通过异步复制机制逐步达到数据一致性。
  • 冲突解决机制:在检测到数据冲突时,使用预定义的策略来解决冲突,如“最后写入胜出”或基于特定业务逻辑的自定义策略。
  • 智能路由和负载均衡:在网络分区发生时,智能地路由请求到可用的节点,并在后台同步数据,以保持系统的可用性和一致性。
  • 使用不同的一致性模型:根据业务需求,选择强一致性、最终一致性或其他一致性模型,以适应不同的应用场景。

最终,分布式数据库的设计者和运维人员需要根据具体的业务需求、系统特点和预期的工作负载来决定如何在CAP定理的三个特性之间做出最佳权衡。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1543038.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

基于单片机多点无线温度监控系统设计

本设计STC89C52RC单片机作为主控芯片,能够远程监控多个位置的温度变化。使用一个主机来接收和监控三个从机收集到的温度信息,利用DS18B20温度传感器采集温度信息,采用GL24S无线通讯模块将数据传输给主机进行接收,信息显示在主机连…

SM2无证书及隐式证书公钥机制签名和加密过程详解(一)

前面介绍SM2无证书及隐式证书公钥机制下用户公私密钥对的Python实现(具体参看SM2隐式证书用户公私钥生成python代码实现_sm2 python 密钥生成-CSDN博客),可以看到需由用户和KGC(可信密钥生成中心)共同参与才能计算得到…

钢表面缺陷识别

钢表面缺陷识别是指通过计算机视觉技术对钢材表面缺陷进行检测和分类的过程。这一技术在钢铁制造行业具有重要的工业价值,旨在提高产品质量、降低生产损失以及提升生产效率。钢表面缺陷可能包括裂纹、凹坑、气泡等,这些瑕疵会影响产品的性能和安全性&…

Transformer动画讲解

**Transformer工作原理**** **一、**** ******GPT的核心是Transformer******** *GPT* : **GPT(Generative Pre-trained Transformer)**** ****是一种基于单向Transformer解码器的预训练语言模型,它通过在大规模语料库上的无监督…

数字人会被封杀?不!看国家政策打破谣言

数字人会被封? 数字人发展没有前景? 数字人直播何去何从? 是不是大家入局数字人,都在纠结数字人使用和前景的问题?首先,大家放心,数字人广泛使用已经是大势所趋。下面给大家分享最新政策&…

多模态大模型应用开发技术学习

前篇提到多模态模型应用是未来的应用方向,本篇就聊聊技术学习方面的内容。 应用场景 多模态大模型技术的应用场景非常广泛,涵盖了从日常生活到专业领域的各个方面。以下是一些主要的应用场景: 办公自动化:多模态大模型可以用于…

Java线程的创建与使用

线程的概念 线程是‌操作系统能够进行运算调度的最小单位,是进程中的实际运作单位‌。一个进程可以包含多个线程,每个线程是进程中一个单一顺序的控制流,并行执行不同的任务。 线程生命周期 线程的状态是指线程在执行过程中的不同阶段。以…

数位dp(算法篇)

算法篇之数位dp 数位dp 概念: 数位dp是一种计数用的dp,一般是要统计一个区级[l,r]内满足一些条件的数的个数所谓数位dp,就是对数位进行dp,也就是个位、十位等相对于普通的暴力枚举,数位dp快就快在它的记忆化&#x…

打印机问题故障处理_十大打印机故障大全及处理方法

日常办公和生活中,打印机是不可或缺的重要设备。然而,在添加共享或使用共享打印机过程中,经常会遇各种问题。有遇到无法添加打印机、访问共享打印机报错,打印机无法打印等问题,然后这几种错误分别的原因不同&#xff0…

博睿谷IT认证-订阅试学习

在这个信息爆炸的时代,拥有一张IT认证证书,就像拿到了职场晋升的通行证。博睿谷,作为IT认证培训的佼佼者,帮你轻松拿下华为、Oracle等热门认证。下面,让我们一起看看博睿谷如何助你一臂之力。 学习时间,你说…

Fanuc modbusTcp 配置(Robo只能做从站)

需要刷modbusTcp功能包 581800 两个包 插口位置 1CD38A或2CD38B,ip地址可以是固定IP或DHCP IP的设置 MODB_ENBLIO1 才能读写io 注意通讯fanuc是 小端 DI DO都可以

C# 关于“您与该网站的连接不是私密连接...”的问题

目录 问题现象 范例运行环境 WebService 类 类介绍 增加参数 实现 小结 问题现象 最近在访问开发的微信支付功能时遇到了无法访问令牌的错误,这个错误是公司内部应用程序接口返回的访问错误。经过排查是访问 HTTPS 站点遇到的错误,提示证书风险…

MyBatis深度剖析:从入门到精通的实践指南

前言 什么是mybatis? MyBatis是一款优秀的持久层框架,用于简化Java应用程序与数据库之间的交互 什么是框架,为什么需要框架技术? 框架技术 是一个应用程序的半成品提供可重用的公共结构按一定规则组织的一组组件框架优势&#x…

Linux之实战命令05:find应用实例(三十九)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【…

node.js居家养老服务系统—计算机毕业设计源码35247

目 录 摘要 1 绪论 1.1选题的背景 1.2研究的意义 1.3国内外居家养老信息化管理现状分析 1.4 express框架介绍 1.5node.js功能模块 1.6论文结构与章节安排 2 居家养老服务系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1数据增加流程 2.2.2数据修改流程 2.2.…

jvm中的程序计数器、虚拟机栈和本地方法栈

引言 本文主要介绍一下jvm虚拟机中的程序计数器、虚拟机栈和本地方法栈。 程序计数器 作用 作用:记录下一条jvm指令的执行地址。 下面具体描述一下程序计数器的作用。 这里有两个代码,右边的为源代码,左边为编译之后的字节码。 当我们…

ElasticSearch分页查询性能及封装实现

Es的分页方式 fromsize 最基本的分页方式,类似于SQL中的Limit语法: //查询年龄在12到32之间的前15条数据 {"query":{"bool":{"must":{"range":{"user_age":{"gte":12,"lte":3…

vue实现数据栏无缝滚动实现方式-demo

效果 方式一 通过实现两个item 进行循环 <!--* Author: Jackie* Date: 2023-08-16 21:27:42* LastEditTime: 2023-08-16 21:41:51* LastEditors: Jackie* Description: scroll 水平滚动 - 效果基本满足需求* FilePath: /vue3-swiper-demo/src/components/scroll/Scroll12.…

Linux线程同步与互斥

&#x1f30e;Linux线程同步与互斥 文章目录&#xff1a; Linux线程同步与互斥 Linux线程互斥 线程锁       互斥量Mutex         初始化互斥量的两种方式         申请锁方式         解除与销毁锁 问题解决及线程饥饿       互斥锁的底…

MWD天气图像多分类数据集,用于图像分类总共6个类别,多云,下雨,下雪,雾天,正常天气,共60000张图像数据

MWD天气图像多分类数据集&#xff0c;用于图像分类 总共6个类别&#xff0c;多云&#xff0c;下雨&#xff0c;下雪&#xff0c;雾天&#xff0c;正常天气&#xff0c;共60000张图像数据 MWD天气图像多分类数据集 (Multi-Weather Dataset, MWD) 数据集描述 MWD天气图像多分类…