终于有人把数据中台讲明白了

在大数据发展的黄金期,几乎所有的高科技企业都在思考一个问题:海量数据作为大多数企业发展不可避免的一个趋势之后,企业该怎么去应用这部分数据资产,会对其商业产生什么影响,如何使数据对企业产生正面的推动而不是成为企业的负担。

作为国内的主要大数据玩家,阿里在2015年提出了“大中台、小前台”的战略,奠定了其内部发展数据中台的基础。2018 年因为“腾讯数据中台论”,中台再度成为了人们谈论的焦点。至此,关于“数据中台”的讨论从未停歇,大概没有什么大数据概念像数据中台一样,这般具有争议争议吧!那么数据中台究竟是“新瓶装旧酒”,还是真正可以助力企业的“大杀器”?本文主要从数据中台的本质和价值,到典型企业的数据中台架构,再到企业究竟需要什么样子的数据中台,多个视角对数据中台进行解读。

数据中台是什么?

数据中台,可以把它想象成一个数据服务工厂,核心功能是将原始数据转化为对企业有价值的、可复用的数据智能服务。为了方便理解,我们对物理世界里工厂的概念,把数据中台的概念抽象和分解一下。

● 原材料(源数据):数据中台的原材料包括企业内部生成的数据和外部获取的数据。这些数据是数据中台进行加工和分析的基础。

● 数据质量控制(数据湖):数据湖是存储大量原始数据的地方,类似于原材料仓库。在这里,数据需要经过清洗、转换和质量检查,以确保其可用性和准确性。

● 生产厂房(数据管道):数据管道是数据流动和处理的通道,负责将数据从数据湖传输到需要它们的地方,进行进一步的加工和分析。

● 半成品/产品仓库(数据集市):数据集市是数据产品和数据服务的存储地,类似于工厂的成品仓库。这里存放着经过加工的数据,可供企业内部不同部门或外部客户使用。

● 智能创新实验室(数据产品和服务创新):智能创新实验室是数据中台进行新数据产品和新数据服务研发的地方,推动企业数据能力的持续创新和优化。

● 治理和办公室(数据治理和服务治理):数据治理和服务治理确保数据中台的运作符合企业的标准和法规要求,提高数据的质量和安全性,减少浪费,提高效率。

企业为什么需要数据中台

● 企业希望数据距离业务更近

以前的数据部门离业务部门有距离,业务部门不能直接使用数据,也不能直接地在数据当中发现价值,业务迫切希望距离数据更近,这是最大的一个需求。

● 企业希望数据中台能够提供数据服务

过去数据部门提供的都是可视化辅助决策类的服务,而企业希望数据中台能够提供高响应更实时的数据服务。

● 企业希望数据中台能直接提供业务价值

如何能够让数据直接产生业务价值,是企业非常关心的问题。

● 企业希望数据中台能够快速开发数据服务

如何能够让数据的开发,利用更快速?

当然,还有其他的期待:

● 企业希望数据中台和数据能够围绕业务场景来开展工作

● 提供统一数据

还有诸如:赋能业务更智慧、构建统一数据资产、打通数据孤岛等企业方面的迫切需求。总的来说,很明显能看到企业对于数据中台这个概念承载的重大期待。

在此基础之上,我们把数据中台抽象成6大价值,在六大能力基础之上支撑的就是数据中台的使命和愿景:构建数据驱动的智能企业。

1.  数据资产的规划和治理

现在很多企业在做数字化转型,有的企业还不具备基本的信息化系统,是不是就意味着不需要考虑数据了?或者等数据先有了,把后台建好,再来做中台?

不是这样的。因为数据是无时无刻不在产生的。重要的是:只要业务在生产,或者只要你的业务模式已形成,企业运转起来,你的数据就会时时产生。而且用什么数据也很清晰,区别只是到时候是用人工去处理这些数据,还是用系统去处理这些数据?

所以我们认为数据是不依赖于你的系统是否构建的,它是客观存在的,只是你没有通过技术的手段把它存储,采集下来而已。在这样的情况下,数据要早于应用规划。

构建数据中台,首先要有清晰的数据战略、数据资产的规划。企业需要清晰的知道自己要的是什么数据?现在需要什么数据?未来需要什么数据?可能会产生什么数据?数据未来在哪个系统里面去产生?他们之间的关系是什么?这个很重要。

这就是你要构建的数据资产目录,这个目录是一个逻辑结构,当你清晰的知道了这些结构以后,再去建设你的系统,这样的话,脑子就会非常清晰,只有这样才能从根本上去解决数据质量的问题、数据不一致的问题。

所以我们数据全景图、数据资产目录、数据的战略,这才是企业现在数字化转型的非常重要的第一步。

2.  数据资产的获取和存储

数据的全景图,实际上映射的是你的业务全景图。在这个基础之上,构建你的应用,同时采集数据资产。先采集什么数据后采集什么数据?数据之间的关系,采集数据用的工具,这些都是数据平台需要去解决的问题。

3.  数据资产的共享和协作

数据资产获取和采集以后,就要去让数据产生新的价值,把数据用起来。

这种情况下,一个非常重要的点是:数据一定要被企业所有的员工,乃至于企业价值链上的所有的人共享、开放和协作。

要让企业的每一个员工都清晰的知道有什么数据,数据的业务含义是什么?数据存放在哪里?只有这样,才不会出现数据的重复建设。如何把业务人员的想法变成数据的产品、协作?如何提高数据创新的速度?

每个企业都需要一个数据资产的协作平台,在这个平台上,业务需求提出人员,数据采集人员、数据开发人员,算法工程师,数据分析工程师,大家能够在一个平台自动化的协作,而不需要线下的这种协作。在同样的版本的数据基础上,用共同的沟通语言去交流协作,这样才能加快企业数据资产开发的速度。

4.  业务价值的探索和发现

业务人员提想法,然后在数据资产的这种探索平台里面去做实验,快速的在公有的数据中台的数据集、数据湖的基础之上,构建不同的数据沙箱。用不同的数据版本,去探索和挖掘业务价值。

5.  数据服务的构建和治理

当你发现一个数据集对业务很有价值,并且通过了验证以后,就要把它成开发成数据服务,让数据服务能够被更多的人使用。

6.  数据服务的度量和运营

有数据开发者,有数据消费者,这样的话就面临一个问题,哪些数据有价值?哪些数据服务有价值?

因为计算资源、存储资源都是有限的,不可能无限制的去开发和存储。所以要识别出有价值的服务,让它被更多的人所使用。让那些没有价值的数据服务,沉淀在底层,然后被销毁和释放。

这就是一个运营体系,让数据能够持续的运营产生价值。只有这6点都具备了,企业才是一个有数据驱动能力的这样的一个智能企业。

企业的数据中台架构 

上图是阿里数据中台发展至今的一张全景图,大家应该在云栖大会等多个场合有看到过这张图。阿里数据中台的整体核心其实是位于中间的三层数据中心:垂直数据中心、公共数据中心和萃取数据中心。

● 垂直数据中心:阿里通过将包括淘宝、天猫、聚划算、阿里妈妈广告、优酷土豆、高德等来自不同BU的数据进行采集,在清洗和结构化处理后形成垂直数据中心。

● 公共数据中心:在垂直数据中心已采集数据作为原料的基础之上,采用维度建模的方式,以业务过程作为粒度切分,处理成不因业务特别是组织架构变动而轻易推翻的数据中间层,由DWD明细层和DWS汇总层共同构成。

● 萃取数据中心:更进一步以客观业务实体(如人、货、场、企业等)为对象,围绕其建立起以统计指标、标签、关系等数据为主的数据体系,作为直接面向业务的萃取数据中心。

仅从这三层数据中心构成的数据资产体系来看,阿里的架构似乎并无太多先进之处,除萃取数据中心外,垂直数据中心和公共数据中心都能在数仓建模中找到其对应的架构,即便是萃取数据中心,在一些企业的商业智能或者大数据平台层面也能找到相应的雏形。所以,阿里数据中台的核心竞争力究竟是什么呢?

答案就是——产品+技术+方法论

历经阿里生态内各种实战历练后,云上数据中台从业务视角而非纯技术视角出发,智能化构建数据、管理数据资产,并提供数椐调用、数据监控、数据分析与数据展现等多种服务。

承技术启业务,是建设智能数据和催生数据智能的引擎。在OneData、OneEntity、OneService三大体系,特别是其方法论的指导下,云上数据中台本身的内核能力在不断积累和沉淀。在阿里巴巴,几乎所有人都知道云上数据中台的三大体系。

OneData致力干统一数据标准,让数据成为资产而非成本,其中包括OneModel,用于指导数据采集、数据建模、数据开发的规范性;OneEntity致力于统一实体,让数据融通而以非孤岛存在;OneService致力于统一数据服务,让数据复用而非复制,用于指导如何提供数据服务,包括质量安全、资产管理、数据交换、组织协作等流程的规范性。

这三大体系不仅有方法论,还有深刻的技术沉淀和不断优化的产品沉淀,从而形成了阿里巴巴云上数据中台内核能力框架体系。有了这套核心框架,对于阿里来讲,无论对其自身数据中台建设,还是对外输出解决方案,都提供了非常大的助力。

除了阿里,无论是华为、OPPO为代表的高科技制造行业,还是网易、滴滴为代表的互联网行业,都纷纷在自建或者提出了数据中台的解决方案,但是我们又发现,每一家企业似乎对数据中台都有自己不同的理解,这点从四家企业的数据中台架构图就可以看出。

可以解答最初的问题了,数据中台究竟是什么,或者说企业想要的数据中台究竟是什么样子的。数据中台不是技术体系,也不是一个具象的产品工具,它没有标准化的架构,但是一个成功的数据中台必然有其核心要素:

1.  数据中台不是纯粹的技术定义,应是管理+技术+业务的混合输出

2.  数据中台应该是数据资产的载体,提供基础的计算和存储平台,使数据可存可查可复用可共享可变现

3.  数据中台存储的每一笔数据都理应有业务的价值,所以需要完善的数据治理体系对其进行规范和管理

4.  数据中台应提供友好、自动化的工具来降低数据开发处理的门槛,让业务专注于业务

5.  数据中台需要指导方向的方法论,其建设和实施上不能再只是满足建设起一套IT系统,搭建起指导方向和持续演进的方法论才能事半功倍

作者来源: 数据集成与治理 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1522670.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

mysql高级知识之集群

一、安装 源码编译MySQL,若需要MySQLtar包可私信我 #创建数据目录 mkdir /data/mysql -p#安装相关依赖 yum install libtirpc-devel-0.2.4-0.16.el7.x86_64.rpm yum install cmake gcc-c++ openssl-devel ncurses-devel.x86_64 libtirpc-devel-1.3.3-8.el9_4.x86_64.rpm rpcgen…

安防视频综合管理系统EasyCVR视频汇聚平台集群部署出现状态不同步的情况是什么原因?

随着视频监控技术的快速发展,各类视频资源的整合、管理与分发成为了安防行业的重要挑战。视频综合管理系统EasyCVR视频汇聚平台通过集群部署,实现了视频资源的高效整合与管理。集群部署不仅能够提升系统的处理能力和稳定性,还能有效避免单点故…

JVM面试(四)类加载器和双亲委派机制

什么是类加载器? 简单来说的话,是用于实现“类加载动作”的加载器 “通过一个类的全限定名来获取描述该类的二进制字节流”这个动作放到Java虚拟机外部去实现,以便让应用程序自己决定如何去获取所需的类。实现这个动作的代码被称为“类加载器…

Ollama拉起本地模型以及rag系统部署。

什么是 Ollama ? Ollama 是一个简明易用的本地大模型运行框架。能在本地启动并运行 Llama、qwen、Gemma 及其他大语言模型,没有GPU资源照样可以拉起模型,和LocalAI 比较类似,但是加载模型更容易。 1.安装 安装后运行&#xff0c…

解剖学上合理的分割:通过先验变形显式保持拓扑结构|文献速递--基于深度学习的医学影像病灶分割

Title 题目 Anatomically plausible segmentations: Explicitly preserving topology through prior deformations 解剖学上合理的分割:通过先验变形显式保持拓扑结构 01 文献速递介绍 进行环向应变或壁厚度的计算,这些测量通常用于诊断肥厚性心肌病…

Vue前端路由详解——以Ruoyi框架为案例学习

Vue路由 Vue路由详解_vue 页面路由-CSDN博客 路由模式 Vue 的路由模式:hash 模式和 history 模式的区别_vue路由history和hash的区别-CSDN博客 URL格式: Hash模式:URL中包含#号,用于区分页面部分,实际请求的页面地址…

【深度学习与NLP】——词嵌入Embedding技术

目录 1.词嵌入的作用 2.嵌入矩阵的计算 3.Embedding层的代码实验 词嵌入(Embedding)技术是一种将词汇映射到低维连续向量空间的方法。将离散的单词数据处理成连续且固定长度的向量,使模型可以学习和处理语义信息。 假设需要将["Are&…

【MySQL00】【 杂七杂八】

文章目录 一、前言二、MySQL 文件1. 参数文件2. 日志文件3. 套接字文件4. pid 文件5. 表结构定义文件6. InnoDB 存储引擎文件 二、BTree 索引排序三、InnoDB 关键特性1. 插入缓冲1.1 Insert Buffer 和 Change Buffer1.1 缓冲合并 2. 两次写2. 自适应哈希索引3. 异步IO4. 刷新邻…

关于武汉芯景科技有限公司的A/D转换芯片XJ3021开发指南(兼容MCP3021)

一、芯片引脚介绍 1.芯片引脚 2.引脚描述 二、系统结构图 三、时序(IIC通信) 四、程序代码 XJ3021.C /** XJ3021.c** Created on: 2024年8月23日* Author: Administrator*/ #include "softiic.h" #include "XJ3021.h" #inc…

《Cloud Native Data Center Networking》(云原生数据中心网络设计)读书笔记 -- 09部署OSPF

本章的目的是帮助网络工程师确定网络的理想 OSPF 配置。本章将回答以下问题 应何时在数据中使用OSPF ?配置 OSPF 的关键设计原则是什么?OSPFv2 和 OSPFv3 之间有什么区别,应如何使用?如何在路由协议栈中配置 OSPF ?如何在服务器上配置 OSPF,例如为容…

【MySQL08】【死锁】

文章目录 一、前言二、查看事务加锁情况1. 使用 information_schema 数据库中表获取锁信息1.1 INNODB_TRX1.2 INNODB_LOCKS1.3 INNODB_LOCK_WAITS 2. 使用 SHOW ENGIN INNODB STATUS 获取锁信息 三、死锁四、参考内容 一、前言 最近在读《MySQL 是怎样运行的》、《MySQL技术内…

Android之Handler的post方法和sendMessage的区别

目录 post 方法方法特点 sendMessage 方法方法特点 使用场景区别总结 Handler 类在 Android 中用于在不同线程之间传递消息和执行代码。它提供了两种主要的方式来执行任务:通过 post 方法和通过 sendMessage 方法。这两种方法有不同的使用场景和特点。 post 方法 方…

浅谈架构实战

目录 背景 1 架构演变 2 如何实现高层的复用 2 中台产生案例 3 技术架构的核心要点 4 技术架构的高可用案例 背景 业务架构、数据架构、应用架构和技术架构它们是相互关联和相互支持的,共同构成了企业的总体架构,业务架构是源头,然后才…

自动生成对话视频!如何使用Captions的AI视频生成与编辑API工具?

Captions公司最近发布了一套AI驱动的视频生成和编辑API工具,为创作者和开发者提供了一个强大的视频创作生态系统。这个系统包含AI Creator、AI Twin、AI Edit、和AI Translate四大核心功能,每个工具都针对不同的创作需求进行优化。下面我们就一起来详细测…

第九周:机器学习

目录 摘要 Abstract 一、RNN 1、引入 2、RNN的分类 二、LSTM 1、基本结构 2、具体步骤 3、举例说明 4、原理理解 总结 摘要 本周主要围绕RNN进行探讨,从为什么需要这类”循环网络“入手,提到了”slot filling“技术,接着又对R…

AT3340:支持BDS/GPS双模授时板数据手册

AT3340采用ATGM331C-5T31授时模块,是高授时精度的BDS/GPS双模接收机板卡,包含32个跟踪通道,支持GPS和BDS的单系统授时定位和双系统联合授时定位,可以通过上位机命令切换。其中的射频前端芯片和基带芯片全部由杭州中科微独立研发&a…

RAG数据集自动构造探索, 附prompt

从文档中手动创建数百个 QA(问题-上下文-答案)样本可能非常耗时且劳动密集。此外,人工生成的问题可能难以达到全面评估所需的复杂程度,最终影响评估的质量。通过使用合成数据生成,开发人员在数据聚合过程中的时间可以减…

嵌入式Linux:常见信号的默认行为

信号是一种软件中断,用于通知进程发生了某种异步事件。信号可以由用户、其他进程或操作系统内核产生。进程可以选择捕获并处理这些信号,或者忽略它们,让系统执行默认操作。 不可靠信号(非实时信号):编号为 …

观测云核心技术解密:eBPF Tracing 实现原理

前言 eBPF 是一种强大的内核技术,允许在内核中安全地执行自定义代码。通过 eBPF,开发者可以在不修改内核源码的情况下,对内核功能进行扩展和监控。eBPF Tracing 利用这一技术,对系统调用、内核函数等进行跟踪,从而实现…