怎样摆脱繁重的“物理集中”,轻松连接与交付全域数据,真正实现“敏捷用数”?

Data Fabric(数据编织),作为新一代的数据管理策略,其核心在于通过逻辑层面的数据整合与加工,打破物理集中的局限,实现数据的无缝共享与高效利用。以往,我们更多地从理论层面探讨数据编织的技术与数据编织产品的设计理念。今天,我们将深入具体场景,剖析数据编织如何有效解决企业在实际业务中遭遇的挑战。

场景一:如何低代价打破混合多云、多湖仓、跨组织的数据孤岛?

对于拥有多个子分公司、多湖仓并存的大型企业而言,数据共享是一个棘手的问题。例如,企业中的各子分公司都可能拥有自己独立且完整的数据仓库以及数据处理团队,当集团试图整合所有数据时,若采用传统数仓方案,要将全域数据物理复制到集团共享数据平台进行存储,其中的各项挑战让人望而却步:

  • 数据权责难以转移
    数据同步会导致权责转移。在很多情况下,出于合规限制、数据安全及组织原因,数据出域流程涉及沟通讨论环节多,导致子分公司的数据无法出域或者出域很麻烦,这让跨组织的数据集中无法实现;

  • 海量数据同步与拷贝产生巨量成本
    对于子分机构已独立建设了数据中台的大型集团型企业,在集团层面再统一建设一套“超级中台”,物理集中子分公司的全部数据意味着极其高昂的成本,投资收益很难论证;

  • 数据同步会引发时效问题和数据质量问题
    比如数据按天产出,下游同步后产出周期可能从 T + 1 变为 T + 2。大量数据同步也存在着一定的同步失败概率,同步失败会进一步导致数据时效降低和数据质量下降;

  • 数据安全与权限管理面临挑战
    当子公司的核心数据同步至集团后,集团人员可能难以准确判断数据的开放范围与对象,导致安全管理边界和职责范围模糊不清。

逻辑数据编织实现低成本、高效率的跨湖仓数据共享


逻辑整合全域数据,快速实现数据查询

Aloudata AIR 逻辑数据编织平台不再通过物理同步的方式进行数据集成,而是采用数据编织的方式,快速连接多源异构数据进行逻辑集成。无需像传统方式那样等待数据同步成功,源端数据立即可用。通过逻辑视图的方法,用户能高效地从海量源端数据中加工出真正需要的资产,加快数据探查与集成流程。逻辑集成极大降低了数据同步和物理集中的成本,避免了数据同步导致的时效性和数据质量问题。

海量数据的查询性能保障

在数据查询方面,Aloudata AIR 采用多项关键技术保障性能。

  1. 灵活的查询下推技术,支持根据查询场景需求做灵活的下推策略,可以实现对源端的全下推、部分下推或者不下推策略配置,通过不同的查询下推策略将过滤、聚合、关联等算子(甚至是整个SQL)下推到数据源端执行,充分复用源端湖仓的基础设施算力,并且极大减少了大量数据的网络传输;

  2. 对查询透明的数据加速技术:通过 RP(关系投影)技术对核心的 VDS(逻辑视图)或者公共算子抽取实现数据加速。在查询过程中,数据虚拟化引擎接收用户输入的统一 SQL 语法,经过 Parser 过程提取逻辑算子,自动匹配可命中的 RP,并对查询进行改写。在面对亿级甚至百亿级数据量的时候,也能够支持跨数据仓库进行高效、快速的分析和访问。

多租户隔离与统一数据安全管控

Aloudata AIR 支持多租户隔离。跨租户数据共享时,数据提供方在自己的租户中创建账号并分配权限,其他租户根据租户权限访问指定的资产,既保留了数据拥有方对数据进行管理、监控的权利,又完美地解决了传统物理搬运数据带来的数据安全问题。

场景二:如何保障跨境数据的安全合规查询?

大部分跨国企业面临着跨云和跨境的数据共享难题。不同国家和地区对数据安全管控有着不同的政策,例如欧洲的 GDPR 数据管控策略和国内的个人信息保护法都会严格限定敏感数据不能出境或者出域。企业在进行跨域分析时,由于数据不能随意拷贝,跨源关联计算存在各类安全合规风险,导致跨域分析难以实现,进一步限制了企业对全球数据资源的利用。这导致企业只能在本地完成数据查询后通过线下手工汇总结果,效率低下且易出错。

同时,海外数据还面临着网络带宽的问题,将数据全部拉回成本极高。对于那些拥有多个子分公司的企业,子公司服务器机房分布在不同地点、不同网段,同时企业内部数据可能分布在云上和自有机房,数据集成难度较大。

逻辑数据编织方案实现合规跨境数据查询

在跨境的数据安全合规场景中,Aloudata AIR 主要通过以下策略来确保数据不出境的同时满足业务分析需求。

  • 第一,提供敏感字段拦截能力。假设存在一张用户表,包含姓名、年龄和资产三个字段。如果年龄和资产为敏感数据,且不允许其出境,就可以在源表对其进行打标,并配置对应的安全管控策略,例如确定其是可用不可见还是完全不可用。例如使用 SQL 查询,“当年龄大于 35 的数据”,查询会根据拦截策略自动过滤掉敏感数据,数据不可见,但查询仍可进行,也可以进行统计操作;例如“统计年龄大于 30 的人数”,如果策略允许基于敏感字段进行数据统计,那么数据仍能被统计出来,但明细数据不能查询;如果策略设定为不允许敏感数据进行统计或查询,那么整个查询就会自动拦截。

  • 第二,非敏感字段跨源聚合计算。例如假设有场景对 DomainA、DomainB 、DomainC 三张不同域的表,进行关联聚合计算。如果源端表中的字段,如员工 ID、产品 ID 进行了敏感数据打标。当 SQL 语句下发后,会根据敏感策略自动生成相应安全管控的 SQL,最终实现查询结果的返回。这意味着即使设置了敏感字段,仍然可以在非敏感字段的跨域计算中使用它们,但如果要查询 Product ID 这个明细数据,则无法查到。

  • 第三,敏感字段的关联计算。有些敏感字段可以作为维度字段参与聚合计算。例如可以基于敏感字段进行 Group by 操作,但如果 Group by 的明细中出现了这个敏感字段,又会被拦截掉。当然,敏感字段的度量也可以基于策略参与聚合计算,但理论上存在一定的泄露风险。所以这个策略取决于具体企业的安全管控需要,可以拦截也可以不拦截。

场景三:如何摆脱数据中台持续高投入、低产出的黑洞,获取更高 ROI?

传统数据中台以数据的物理集中为前提,随着时间的推移,数据同步、物理建模、数据开发、资产管理与数据治理导致越来越重的人力负担与成本投资。

数据集成通常涉及复杂的数据传输和存储过程,需要大量的计算资源和网络带宽和人工配置同步作业。而且,一旦同步任务出现问题,就需要重新建立同步任务,这不仅浪费了之前投入的时间和资源,还可能导致数据不一致与不完整,影响业务决策的准确性。

在研发方式上,传统数据中台的研发方式是面向物理表的数据加工方式。随着作业的增多,作业调度变得越来越复杂,表面上看,数据开发只是编写 SQL 代码层面的操作,但因其操作对象是物理数据,ETL 工程师还要熟悉不同引擎的特性,配置作业的调度和监控执行过程,系统调优、作业监控与基线运维等工作量占比越来越高,直接导致数据交付效率的下降。同时,由于这种面向大量底层不同物理组件的数据处理方式,导致数据处理门槛变得极高。

在物理建模时,为避免成本失控,需要充分考虑模型的复用性和扩展性。然而,这又与追求交付效率产生了矛盾。为了快速满足业务需求,可能需要牺牲模型的复用性,一次性资产的不断增加又会导致事后的数据治理困难重重。这种矛盾使得企业在数据中台建设过程中难以平衡交付效率、数据质量与存算成本。

在数据查询和消费性能方面,随着数据量的不断增长,企业可能会考虑引入新的引擎或技术来提升数据查询的性能,但这又会带来数据体系复杂度的增加。新引擎的集成和管理需要专业的技术知识和经验,这极大地增加了整套系统的维护成本和风险。

而且,一旦企业选定了特定的数据中台、引擎与数据集成方式,日后若想切换到更好的平台或引擎,由于作业编写基于特定引擎,技术更新迭代的成本极高。

逻辑数仓实现极致性价比的敏捷数据交付

逻辑集成与秒级数据探查

在数据集成方面,数据源接入 Aloudata AIR 逻辑数据编织平台后会自动形成 PDS 层。与传统物理集成方式相比,数据源接入后,其内部所有表即可在平台中立即使用,无需像过去那样等待数据同步成功。通过逻辑化的方法,可以极大地加快数据探查与集成过程,提升业务或者 ETL 人员处理数据的效率。

一套 SQL 实现集成、加工与查询

Aloudata AIR 提供了统一的抽象层,使得使用者在面对数据集成、加工和消费查询时,语法与引擎都是统一的。只需一种 SQL 即可实现多源异构数据的集成、加工与查询操作,极大地降低了使用难度和成本。

作业自动编排,统一流批转换

为实现高效的数据处理,Aloudata AIR 采用 RP(关系投影)技术。创建 RP 时,可根据需求勾选时效性(跑批或实时),底层作业的生成与翻译由虚拟化引擎代持完成,NoETL 自动实现统一流批处理。这不仅节省了人力成本,还提高了任务执行的准确性和及时性。

自适应查询加速

在查询加速方面,数据虚拟化引擎接收用户输入的统一 SQL 语法后会经过 Parser 过程,提取出真正的逻辑算子。然后自动在 RP 库中匹配可命中的 RP。例如,在一个复杂的 SQL 语句中,从代码片段中找出特定表的 Join 条件与字段,如果在 RP 中能找到匹配,就会进行查询改写,从而极大降低 SQL 查询响应时间。

与传统 BI 工具的完整查询结果缓存不同,RP 的查询改写机制范围更广。RP 改写基于 Query SQL 的逻辑算子来进行改写,通过改写、执行计划优化,最终基于 CBO 和 RBO 机制对查询优化,从而构建出最佳的查询方案。确定命中方案后,虚拟化引擎进行路由选择,确定将查询分配给哪个引擎执行更合理、更快速。在执行过程中,根据不同场景采用不同的查询下推策略来进一步优化查询性能。

智能 RP 回收

Aloudata AIR 可以根据访问热度和管理员预先配置的既定策略,对热度不足的 RP 进行资源回收。同时,智能 RP 回收不会影响用户原有的数据处理逻辑和资产,确保了用户侧加工好数据的完整性和可用性。在数据处理过程中,随着业务需求的变化和数据访问模式的调整,系统能够自动优化资源分配,降低成本。


回顾三个场景:Aloudata AIR 逻辑数据编织平台的价值总结

其一,企业多湖仓数据共享场景。当企业拥有多套数据中台/湖仓时,关键在于如何实现这些数据的融合共享,而非必须将数据物理集中在一起才能进行跨湖仓的数据查询。在此场景下,通过 Aloudata AIR 逻辑数据编织平台,无需物理集中,即可实现高效、安全且可控的数据共享。这样的方式避免了传统数据集中可能带来的高昂成本,也一举解决了数据权责不清、时效性降低、安全风险增加等一系列业务取数用数过程中面临问题。

其二,跨国或跨域的安全合规类数据融合场景。企业可能拥有多个国家和地区的业务数据,跨境场景下的数据访问与移动会面临一定的法律约束。或者企业内部不同子公司之间,有些数据比较敏感,不希望被他人随意使用,但又希望这些数据能够为业务发挥价值。 Aloudata AIR 能够在确保数据安全合规的前提下,实现企业内部跨域的数据融合和共享。通过配置相应的安全管控策略,可以实现对敏感数据进行自动化的拦截和内部脱敏计算,确保敏感数据不出域的同时,又能很好的满足业务的查询和分析需求。

其三,针对企业规划建设数据仓库的场景。Aloudata AIR 逻辑数据编织平台提供了一种 NoETL 的逻辑数仓思路。相比传统数仓建设,逻辑数仓以更低的建设成本和使用成本与快速的交付周期实现 ROI 的显著提升。无论是对人员的专业性要求,还是管理维护的难度以及存储成本等方面,都比传统数仓至少降低一个量级。对于那些没有数仓但又有数据管理和分析需求的企业来说,逻辑数据编织平台提供了一种高效、便捷且经济的解决方案,使企业能够在较短的时间内建立起自己的逻辑数仓,满足业务发展的需求。

综上,Aloudata AIR 逻辑数据编织平台具有重要的价值。首先,它具有及时性,能够非常快速、实时地拿到原始数据,满足企业对数据时效性的要求。其次,它能做到准确性,不存在物理复制数据导致不一致的问题,确保数据的可靠性和一致性。第三,它具有全面性。物理集中数据往往很难做到全面,而逻辑集中由于成本低,可以很轻松地连接企业全域的数据。通过这种及时、准确、全面的能力特性,企业可以轻松实现全域的敏捷用数。

Q&A

1.逻辑数据编织平台如何保障查询性能?

通过自适应的查询加速能力以及灵活可配置的查询下推技术,实现了在大规模逻辑数据编织的情况下,仍然可以很好的保障业务所有场景对数据查询性能的要求。

2.Aloudata AIR 和 Presto 有什么区别?

从产品定位上来看:Aloudata AIR 不是支持跨源查询的 OLAP 引擎,而是一个纯粹的数据虚拟化引擎,数据虚拟化引擎通过统一数据处理语言、数据加速、查询下推和执行优化等技术,对上层用户提供了一套基于逻辑数据模型进行数据加工处理的能力。通过数据虚拟化层,用户可以摆脱传统面向底层物理引擎来处理数据方式;另外一方面,虚拟化引擎可以将逻辑数据模型的加工和查询代码转义成底层具体物理引擎的执行代码,通过在虚拟化引擎接入相应的跨源查询引擎、跑批引擎和 OLAP 引擎,从而实现数据的处理和即时查询,通过逻辑和物理层的解耦的技术,可以实现在用户代码不改变的情况下,进行物理引擎的替换和升级。而 Presto 是一个支持跨源查询的 OLAP 引擎;

3.逻辑数据编织平台的价值如何量化?

数据交付效率 10 倍提升

数据交付涉及复杂的 ETL 工作,主要分成 5 个部分:业务需求理解、业务数据建模、物理数据建模、ETL 代码开发、ETL 任务运维,其中前面 4 个部分是一次性投入,最后 ETL 任务运维这个部分是长期投入,通常能够占到所有成本的 40%~70% 以上。

Aloudata AIR 逻辑数据编织平台本身并不改变业务需求,但会屏蔽企业内各种数据源、计算引擎和存储引擎的差异性,通过一套 SQL 实现数据的集成、加工与查询。并通过自适应关系投影技术实现自动化的作业编排和统一流批转换,大幅降低 ETL 链路优化和运维的成本。

因此 Aloudata AIR 在上述 5 个 ETL 工作环节中,物理数据建模、ETL 代码开发和 ETL 任务运维这三个环节会有极大的效率提升,尤其是 ETL 任务运维从人工运维变成自动化运维,结合真实案例效果,整体带来 10 倍数据交付效率提升。

存算成本至少节省 30%

基于数据物理集中的数据平台由于每一个 ETL 步骤都会搬运和拷贝数据,是一个“先生产后消费”、“生产跟不上消费”的模式。比如在数据仓库分层设计的时候,在每一层都会保留数据,在面向不同场景的时候会提供不同的宽表、汇总表。一个 5 年以上的数据平台内部当天生产的数据在未来 30 天内被消费的比率通常不到 50%,天然存在大量的数据计算和存储浪费的问题。

Aloudata AIR 逻辑数据编织平台默认不会搬运和拷贝数据,系统是依据不同场景的查询性能要求,提供人工或自动构建关系投影的方式进行最小化的数据计算和存储,是一个“以消定产”、“无消费不生产”的模式,会极大地减少不必要的“无用计算”和“冗余计算”,通常会有至少 30% 的存算成本节省。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1544585.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

RK3229 MS8416 MS8406调试

1、I2S做从机模式&#xff0c;音频芯片做主模式 由于音频芯片做从模式声音可能会失真&#xff0c;所以必须使得I2S1做从模式&#xff0c;音频芯片做主模式 ms84x6 {compatible "rockchip,ms84x6";pinctrl-0 <&lk_ms84x6_io>;//ms84x6_sda <&gpi…

目标检测系列(三)yolov2的全面讲解

YOLOv2&#xff08;论文原名《YOLO9000: Better, Faster, Stronger》&#xff09;作为该系列的第二个版本&#xff0c;对原始YOLO进行了显著的改进&#xff0c;进一步提高了检测速度和准确度。在精度上利用一些列训练技巧&#xff0c;在速度上应用了新的网络模型DarkNet19&…

小阿轩yx-Ansible部署与应用基础

小阿轩yx-Ansible部署与应用基础 前言 由于互联网的快速发展导致产品更新换代速度逐步增长&#xff0c;运维人员每天都要进行大量的维护操作&#xff0c;按照传统方式进行维护使得工作效率低下。这时部署自动化运维就可以尽可能安全、高效的完成这些工作。 Ansible 概述 什…

自闭症寄宿学校陕西:提供综合发展的教育环境

星贝育园&#xff1a;自闭症儿童的综合发展摇篮 在自闭症儿童教育的广阔领域里&#xff0c;寄宿制学校以其独特的康复环境和全方位的支持体系&#xff0c;为这些特殊的孩子点亮了希望之灯。广州的星贝育园自闭症儿童寄宿制学校&#xff0c;正是这样一所充满爱心与专业的机构&a…

探索自闭症寄宿学校:为孩子的未来铺设坚实基石

探索自闭症寄宿学校&#xff1a;星贝育园——为孩子的未来铺设坚实基石 在自闭症儿童成长的道路上&#xff0c;选择一所合适的学校&#xff0c;无疑是为他们铺设坚实基石的关键一步。广州的星贝育园自闭症儿童寄宿制学校&#xff0c;以其专业的教育理念、全面的支持体系和温馨…

使用PLSQL Developer快速连接数据库

文章目录 前言一、定义设置方式二、固定用户设置方式三、连接设置方式总结前言 PLSQL Developer是一个集成开发环境,由Allround Automations公司开发,专门面向Oracle数据库存储的程序单元的开发。该工具提供了多种设置方式,便于使用者在不需要输入用户名称、密码的情况下,…

鸿蒙 如何退出 APP

terminateSelf() 停止Ability自身 在EntryAbility中这么使用 this.context.terminateSelf()在Pages页面中这么使用 import { common } from kit.AbilityKit (getContext(this) as common.UIAbilityContext)?.terminateSelf() 也可以直接封装&#xff1a; import common f…

查了好几天的问题终于画上了句号

问题背景&#xff1a; 产品接到前方实施反馈9月02日有些订单查不到签名值&#xff0c;对于医院验签查不到签名值&#xff0c;就无法完成验签数据归档。 问题追踪过程&#xff1a; 1 首先查数据库&#xff0c;发现订单id确实查不到对应的detail数据&#xff1b; 第一直觉是否是…

如何使用ssm实现基于Java web的高校学生课堂考勤系统的设计与实现+vue

TOC ssm686基于Java web的高校学生课堂考勤系统的设计与实现vue 第一章 课题背景及研究内容 1.1 课题背景 信息数据从传统到当代&#xff0c;是一直在变革当中&#xff0c;突如其来的互联网让传统的信息管理看到了革命性的曙光&#xff0c;因为传统信息管理从时效性&#x…

SpringBoot集成微信小程序Demo

一、前言 小程序是一种全新的连接用户与服务的方式&#xff0c;它可以在微信内被便捷地获取和传播&#xff0c;同时具有出色的使用体验。 微信小程序官方文档&#xff1a;https://developers.weixin.qq.com/miniprogram/dev/framework/ 二、技术栈 SpringBoot 2.0MyBatis-P…

不同类型的企业该如何挑选适合的供应商管理系统?

供应商管理对企业降低成本、维持稳定的货品来源起着重要的作用&#xff0c;在选择供应商管理系统时&#xff0c;需要考虑多重因素&#xff0c;正所谓没有最好只有最合适&#xff0c;需要结合企业自身需求进行多方面考量才能做出明智的决策。 本文将对国内外制造业都在使用的供…

找最小数 - 华为OD统一考试(E卷)

2024华为OD机试&#xff08;E卷D卷C卷&#xff09;最新题库【超值优惠】Java/Python/C合集 题目描述 给一个正整数NUM1&#xff0c;计算出新正整数NUM2&#xff0c;NUM2为NUM1中移除N位数字后的结果需要使得NUM2的值最小。 输入描述 输入的第一行为一个字符串&#xff0c;字…

一款前后端分离设计的企业级快速开发平台,支持单体服务与微服务之间灵活切换(附源码)

前言 当前软件开发面临诸多挑战&#xff0c;诸如开发效率低下、重复工作多、维护成-本高等问题&#xff0c;这些问题在一定程度上阻碍了项目的进展。针对这些痛点&#xff0c;我们迫切需要一款既能提升开发效率又能降低维护成-本的处理方案。由此&#xff0c;一款基于前后端分…

【Day20240924】联邦学习中的方法 改进

文章目录 前言一、FedAvg二、FedProx三、MOON四、FedDyn五、FedAsync六、PORT七、ASO-Fed八、FedBuff九、FedSA 前言 几种异步的方法&#xff1a; FedAsync PORT ASO-Fed FedBuff FedSA 几种同步的方法&#xff1a; FedAvg FedProx MOON FedDyn 一、FedAvg FedAvg基本步骤&a…

大模型开发应用实战:真实项目实战对标各类大厂大模型算法岗技术

一、引言 在人工智能领域&#xff0c;大模型已经成为推动技术进步和应用创新的重要力量。随着技术的不断发展&#xff0c;各大厂商纷纷投入大量资源研发大模型&#xff0c;并尝试将其应用于各种实际场景中。为了培养具备大模型开发与应用能力的高级技术人才&#xff0c;我们组织…

cuda算子优化-transpose

transpose 参考链接 方法一&#xff1a;每个线程负责一个元素的转置 cuda代码实现 ncu分析&#xff08;矩阵维度采用m1024&#xff0c;n512&#xff1b;grid和block维度见下图最上方&#xff09; 这种方法对读global mem比较友好&#xff0c;可以做到合并访存&#xff0c;但…

知识产权 ABS 企业融资新渠道

在当今知识经济时代&#xff0c;知识产权作为企业的核心资产&#xff0c;其价值日益凸显。知识产权资产证券化&#xff08;Intellectual Property Asset-Backed Securitization&#xff0c;简称知识产权ABS&#xff09;作为一种创新的金融工具&#xff0c;为企业盘活知识产权资…

Cpp类和对象(下)(6)

文章目录 前言一、初始化列表概念使用注意实际运用explicit关键字初始化列表的总结 二、static成员static成员的概念static成员的特性static的一个实用场景 三、友元友元函数友元类 四、内部类概念特性 五、匿名对象六、再次理解封装和面向对象总结 前言 Hello&#xff0c;本篇…

【Oauth2整合gateway网关实现微服务单点登录】

文章目录 一.什么是单点登录&#xff1f;二.Oauth2整合网关实现微服务单点登录三.时序图四.代码实现思路1.基于OAuth2独立一个认证中心服务出来2.网关微服务3产品微服务4.订单微服务5.开始测试单点登录 一.什么是单点登录&#xff1f; 单点登录&#xff08;Single Sign On&…

权威期刊Cell Discovery新成果!上海交大洪亮团队提出CPDiffusion模型,超低成本、全自动设计功能型蛋白质

蛋白质是生命活动的主要执行者&#xff0c;其结构与功能之间的关系一直是生命科学领域研究的核心议题。近年来&#xff0c;随着深度学习的兴起&#xff0c;借助其强大的数据处理能力&#xff0c;让模型学习蛋白质序列、结构及其功能之间的映射关系&#xff0c;设计出具备更高稳…