基于梧桐数据库的实时数据分析解决方案

一、背景

在当今信息时代,数据的价值不言而喻。然而,处理海量数据并将其转化为有意义的洞察力是一项艰巨的任务。传统的数据处理方法已经无法满足我们日益增长的需求。为了满足这一挑战,实时数据处理系统应运而生。 ​ 实时数据处理系统是一种处理和分析实时数据流的技术。它可以同时进行数据的收集、转换、过滤和聚合等处理过程。与传统的数据处理方式相比,实时数据处理系统能够以接近实时的速度处理和分析数据。

二、实时数据处理系统的特点

  • 高速处理:实时数据处理系统可以在毫秒或亚秒级别内处理数据。
  • 流式处理:系统能够以流式方式接收和处理连续产生的数据。
  • 可扩展性:系统可以轻松地扩展以处理大数据量和高并发。
  • 容错性:系统能够在节点故障或其他异常情况下保持稳定运行。
  • 智能分析:系统能够实时分析数据并提供有关业务趋势、用户行为等方面的洞察力。

场景:主要应对海量数据实时查询场景,弥补传统hadoop或离线数仓在该场景下的不足,时延可以做到秒级,提供实时场景下的即席查询的能力或实时跟离线数据关联分析的能力,毫秒或亚秒级或十万级以上并发等更高的时延要求可能不太适合。

三、实时数据处理面临的挑战

传统数据平台的数据处理流程一般是这样的。首先,从业务系统 CRMERP 或者其他数据源把这些业务数据收集过来,然后经过离线数据 ETL 对数据进行数据清洗、数据加工。在这个过程中会涉及数据建模和分层,最终会把加工后的数据提供给 BI 工具,或者写到数据库并推到一个在线服务系统,供用户进行访问,这些用户包括客户、运营人员或管理团队等等。 ​ 目前主要采用传统 LambdaKappa 架构。以 Lambda 架构的实现方法为例,Lambda 以传统的离线数仓为主,然后引入了实时数据的处理链路。T+1 数据仍然是走传统离线数仓链路,然后再加上一个实时的数据链路,把这些实时数据和离线数据汇总到一起,然后再通过一个服务层提供数据服务,对外提供的服务可能是点查询,也可能是做复杂分析。

其中,kappa架构的优缺点分析,差异化说明梧桐Omega架构对比两种常用架构的优势对比,见下图:

omega架构主要优势是用更少的组件和更简单的链路实现批流一体的处理能力,减少大数据组件建设维护成本、提升业务处理效率。主要价值特点如下:

全实时:该架构能够支持实时流处理、实时交互式查询、微批及离线批处理,满足固定需求和灵活需求,实现全实时数据处理,让用户快速响应市场和业务变化,并提供即时的数据分析和决策支持。

数据一致Omega架构巧妙的设计思路结合梧桐数据库极致产品性能,保证了T+0实时数据区,和T+x离线数据区的数据一致性,让数据不同场景的数据应用都能得到一致的查询分析结果。

入库快Omega架构设计结合流计算引擎实现了高效的数据摄取,能够快速接收和处理来自各种数据源的大量数据。通过偶数在自研存储上的不断优化,Omega架构加速数据的写入速度,实现快速入库。

简化架构:通过整合不同的数据处理技术,Omega架构提供了一个统一的数据平台,相比传统数据架构数十个组件配合,大大简化了整个数据处理流程,减少了系统的复杂性,从而降低了维护成本和操作难度。

降低成本:通过减少对多个独立系统的依赖,Omega架构有助于降低总体拥有成本(Total Cost of Ownership)

离线链路用 Hive/Spark,实时用 Flink 。但在实际的落地中,如果需要引入实时查询,可能要再加上 ClickHouse/Drill/Presto ;如果需要做数据的离线归档,还需要 Hive ;为了满足一些高并发点查询需求,还要再引入了 HBaseMySQL 。引入这么多产品组件,本质原因还是缺少一个在并发、性能和开放性兼顾的产品。

因此 Lambda 架构并没有从源头上解决传统离线数仓的问题,而是在传统离线数仓上加了一条链路,让整个系统变得更加复杂。数据可能会存两份或者存多份,实时链路和离线链路数据也不统一。除此之外,架构维护复杂,学习和开发成本也非常高。

四、基于梧桐数据库的实时数据处理

为了实现实时数据处理,很多企业不惜选择冗长的数据处理链路,造成多份数据和多个计算引擎烟囱林立。基于梧桐数据库的 Omega 架构是基于实时数据管理和数据分析的框架,它涵盖了从数据收集、存储、处理到分析和应用的全过程。利用梧桐数据库实时数仓的优势,Omega 超越 LambdaKappa 架构的局限,更强调对实时能力的边界拓展,兼容传统数据湖和数据仓库,主张对全部数据(结构化和非机构化数据)进行实时处理,以满足企业的实时企业由离线数据分析逐步转向实时数据分析需求。

该架构通过着陆层、整合层和交付层三个数据层次,以及元数据和业务数据两个维度去进行架构的设计,进而实现实时数据处理和传统离线数据处理。结合如下的架构图,概括 Omega 的实时数据架构的实现方式和特点。

  1. 流计算引擎可以实时 ETL ,也可以实时做汇聚后结果输出到湖仓
  2. 湖仓平台每个数据层次都可以分为 T+0 实时数据和 T+x 批量数据。
  3. 每个数据层次的 T+0 数据和 T+x 数据可以根据业务需求(尤其是对历史数据的分析需求)采取不同的数据存储更新策略(增量追加表、变更日志表 、拉链表)
  4. 每个数据层次的 T+x 数据可以通过定时调度计划或者 SQL 视图方式算从前一层 T+x 得到;每个数据层次的 T+0 可以通过实时 Flink 计算从前一层 T+0 得到。
  5. 数据应用可以直接访问着陆数据层、明细数据层、汇总数据层和交付数据层中的任意一层。

Omega 架构无需额外引入 MySQLHBase 等组件,极大简化了数据架构,实现了湖仓市一体化(数据湖、数仓、集市一体化)。实现了全实时 Omega 架构的湖仓一体,我们也称之为实时湖仓一体。该架构兼容了离线和实时处理的数据架构,在实现层面,可以细分为时间驱动的微批架构、事件驱动架构、全场景架构。

注:基于梧桐数据库的实时处理不依赖redis,主要应对于OLAP场景使用,比如分钟级、小时级指标计算,基于实时数据的即席查询,实时场景下的高并发查询等(目前并发因magma存储性能受限,建议再并发小于10万的场景下使用)

梧桐数据库的实时处理架构:

五、解决方案应用场景

  1. 基于关系型数据库(oraclemysql等传统关系型数据库)的CDC实时数据,通过同步日志的方式以梧桐数据库作为目标库进行更新还原,实现库内的实时按需查询,可以做到秒级时延,数据量无限制。

  2. 基于海量日志流数据,进行微批处理,可以满足分钟级到小时计的T+0计算,满足更高的业务时延要求。

    注:具体应用场景依赖特定行业落地需求,目前积累相对较少,目前解决方案主要解决技术问题,业务问题需要跟进客户场景化需求进行分析,跟当前技术条件进行匹配落地。

项目背景:随着金融 APP业务迅猛,对数据处理实时需求的升级,业务实时性成为了提升金融竞争力的核心手段。

业务需求:

  • 运营层面 :实时业务变化,实时营销效果,当日分时业务趋势分析等 ;
  • C端用户层面 :搜索推荐排序,实时行为等特征变量的生产,给用户推荐 更精准的内容 ;风控层面 :实时风险识别、反欺诈、异常交易等,都是大量应用实时数据 的场景 ;
  • 生产层面:实时监控系统的稳定性和健康状况等。

解决方案:

提供新一代Omega 全实时架构,同时满足实时流处理、实时按需 分析和离线分析。 Omega 架构由流数据处理系统和实时数仓构成。实现多个源库汇集后的跨库查询,比如一个保险用户的权益视图;也可实现按任意时间粒度的分析查询,比如最近5分钟交易量、最近10分钟的信用卡开卡总量等等。任意时间点的历史数据都可以通过T+0快照得到,实现离线数据查询也可以在实时数仓中完成。

从用户角度,实时数据处理在营销、风控、运营和物联网等不同细分场景中都有应用。举例如下: 实时营销:实时事件营销、实时产品推荐、实时画像 实时风控:实时授信申请、实时反欺诈、实时舆情监控等 实时运营:实时业务统计、实时监控、动态定价 实时 IoT:设备质量预测、设备异常检测、产品缺陷检测

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/6964.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

一个git相关的cve:CVE-2024-32002

最近听说一个与自己相关的CVE, CVE-2024-32002 文章目录 前言Description二、PATCH总结 前言 cve git windows hook submodule 利用submodule和hook,实现对.git目录注入hook的目标。 影响windows和mac os下的大部分git版本。 提示:以下是本篇文章正文内…

电商API:开启电商新时代的关键钥匙

一、电商API:定义与发展 电商API,即应用程序编程接口,是连接不同软件系统的桥梁,在电商领域中发挥着至关重要的作用。电商API的发展历程可以追溯到20世纪90年代,当时电子商务刚刚兴起,企业开始意识到通过A…

科技成果跃然“屏”上,虚拟展厅引领科技展示新风尚

一、沉浸式互动体验增强吸引力 虚拟科技展厅利用虚拟现实等先进技术,为科技成果打造了一个沉浸式的展示空间。用户可以通过手机、平板、电脑等设备,身临其境地浏览科技成果,感受其独特魅力。与传统的线下展厅相比,虚拟展厅不受物…

Linux学习笔记

九月二十六号: 三种网络连接的区别: 克隆的虚拟机文件可以放在另一台电脑上一样使用 LINUX目录结构: 查看linux IP地址的指令: ifconfig 查看ens33对应的 通过Xshell输入reboot会使linux重启 vim使用: 关机&重启命令&用户登录和注销: 用户管理: pwd: 显示当前在哪个…

数字信号处理-FPGA插入不同误码率的模拟源

module data_error_injector (input clk, // 时钟信号,50MHzinput reset, // 复位信号,高有效input DIN_EN, // 数据输入使能,高有效input [7:0] ERROR_LEVEL, // 错误等级…

华为OD机试 - 学生排名(Java 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(E卷D卷A卷B卷C卷)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加…

快速学习Django框架以开发Web API

简介 Django是一个高级Python Web框架,它鼓励快速开发和简洁实用的设计。由经验丰富的开发者构建,Django可以为你处理大量的Web开发任务,使你能够专注于编写应用的关键组件。Django的模块化设计、可复用性和广泛的社区支持,使其成为开发Web应用和API的理想选择。 在本文中…

真·香!深度体验 zCloud 数据库云管平台 -- DBA日常管理篇

点击蓝字 关注我们 zCloud 作为一款业界领先的数据库云管平台,通过云化自治的部署能力、智能巡检和诊断能力、知识即代码的沉淀能力,为DBA的日常管理工作带来了革新式的简化与优化。经过一周的深度体验,今天笔者与您深入探讨 zCloud 在数据库…

探索PickleDB:Python中的轻量级数据存储利器

文章目录 探索PickleDB:Python中的轻量级数据存储利器1. 背景:为什么选择PickleDB?2. PickleDB是什么?3. 如何安装PickleDB?4. 简单的库函数使用方法创建和打开数据库设置数据获取数据删除数据保存数据库 5. 应用场景与…

PPT文件设置了修改权限,如何取消权?

不知道大家在使用PPT文件的时候,是否遇到过下面的提示框,这就是PPT文件设置了修改权限,只有输入密码才可以编辑文件。 如果我们没有输入密码,以只读方式进入,那么我们会发现功能栏中的按钮全是灰色,无法使用…

【测试工具篇一】全网最强保姆级教程抓包工具Fiddler(2)

本文接上篇Fiddler介绍,开始讲fiddler如何使用之前,给大家讲讲http以及web方面的小知识,方便大家后面更好得理解fiddler使用。 目录 一、软件体系结构---B/S与C/S架构 B/S架构 C/S架构 二、HTTP基础知识 什么是http请求和响应? http协…

健身房管理新纪元:SpringBoot技术应用

4系统概要设计 4.1概述 本系统采用B/S结构(Browser/Server,浏览器/服务器结构)和基于Web服务两种模式,是一个适用于Internet环境下的模型结构。只要用户能连上Internet,便可以在任何时间、任何地点使用。系统工作原理图如图4-1所示: 图4-1系统工作原理…

vue3 ref,shallowRef,reactive,shallowReactive使用的简单异同点说明

1、这几个都是负责data的存储及读取的&#xff0c;我们常用的是ref,reactive。 2、看一下shallowRef这个,shallowReactive与其类似。 说明&#xff1a;以官网的说明&#xff0c;这个state.value.count 2是不会触发视图更新的&#xff0c;但是如果直接在<script setup lang…

6.0、静态路由

路由器最主要的功能就是转发数据包。路由器转发数据包时需要查找路由表&#xff08;你可以理解为地图&#xff09;&#xff0c;管理员可以直接手动配置路由表&#xff0c;这就是静态路由。 1.什么是路由&#xff1f; 在网络世界中&#xff0c;路由是指数据包在网络中的传输路…

分分钟让你了解Web接口测试!

01 什么是接口 百度说&#xff1a;接口泛指实体把自己提供给外界的一种抽象化物&#xff08;可以为另一实体&#xff09;&#xff0c;用以由内部操作分离出外部沟通方法&#xff0c;使其能被内部修改而不影响外界其他实体与其交互的方式 上面这句有点抽象&#xff0c;网上的资…

Java8新特性/java

1.lambda表达式 区别于js的箭头函数&#xff0c;python、cpp的lambda表达式&#xff0c;java8的lambda是一个匿名函数&#xff0c;java8运行把函数作为参数传递进方法中。 语法格式 (parameters) -> expression 或 (parameters...) ->{ statements; }实战 替代匿名内部类…

如何在 uniapp 中实现图形验证码

全篇大概2000 字&#xff08;含代码&#xff09;&#xff0c;建议阅读时间10分钟。 什么是图形验证码&#xff1f; 图形验证码&#xff08;也称为图片验证码或验证码图像&#xff09;通常用于防止机器人自动提交表单&#xff0c;确保用户是人工操作。 一、需求 我们希望在一个…

基于 Java(SpringBoot)+MySQL 开发古诗词学习网站

古诗词系统设计与实现 引言 编写目的 为了保证项目团队按时保质地完成项目目标&#xff0c;便于项目团队成员更好地了解项目情况&#xff0c;使项目工作开展的各个过程合理有序&#xff0c;有必要以文件化的形式&#xff0c;把对于在项目生命周期内的工作任务范围、各项工作…

基于JavaWeb+MySQL实现口算题卡

爱 math 口算题卡 1. 总体要求 综合运用软件工程的思想&#xff0c;协同完成一个软件项目的开发&#xff0c;掌软件工程相关的技术和方法&#xff1b;组成小组进行选题&#xff0c;通过调研完成项目的需求分析&#xff0c;并详细说明小组成员的分工、项目的时间管理等方面。根…

Sibyl:提升复杂现实世界推理能力的LLM智能体框架

人工智能咨询培训老师叶梓 转载标明出处 大模型&#xff08;LLMs&#xff09;以其卓越的问题解决能力而闻名&#xff0c;这主要归功于它们内在的知识储备、强大的上下文学习能力以及零样本&#xff08;zero-shot&#xff09;能力。然而&#xff0c;这些基于LLM的智能体在长期推…