大数据时代,数据治理

一、大数据时代还需要数据治理吗?

数据平台发展过程中随处可见的数据问题

大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,相对数据仓库来说我还是个年轻人。而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到现在已经经历了近20年的时间。

在这20年的时间里,国内数据平台实施者可以说是受尽折磨,数据项目一直不受待见,是出了名的脏活累活。

可以说,忽视数据治理给数据平台建设带来了不少问题。随处可见的数据不统一,难以提升的数据质量,难以完成的数据模型梳理等源源不断的基础性数据问题,限制了数据平台发展,导致数据应用不能在商业上快速展示效果。

举一个典型商业智能应用的例子,管理驾驶舱可能大家都听说过,很多企业建设了管理驾驶舱,但是建设完之后往往成为摆设,只有当领导需要看的时候,大家才去拼命改数据。

为什么数据平台的建设遇到这么多“坎”,而且难以真正发挥其商业价值?其实核心问题还是数据本身不统一,数据内容准确度不高。

数据治理逐渐受到各行业认识

我国最早意识到数据治理重要性的行业银行是金融行业。由于对数据的强依赖,金融业一直非常重视数据平台的建设,经过几代数据平台的验证,发现数据治理是平台建设的主要限制因素,而且随着投资和建设的投入增加,对数据治理的重要性的认识也越来越深刻。

央行与银监会也非常重视数据治理,早在2008年开始,在全国银行业推行统一的数据标准,控制行业的数据质量。工行、建行、国开等大型银行,对数据治理都非常重视,下图是某大型银行针对数据全生命周期的数据管控。

现阶段各领域都开始了大数据平台的搭建,期望运用大数据的能力,来实现数字化转型。大数据平台的搭建实际上还是数据信息的搭建,传统型数据平台遇到的全部难题大数据平台都会有可能遇到,鉴于数据信息量级的发生变化,大数据平台必定还会出现新的难题。

大数据时代下需用新一代的数据治理能力

现阶段大数据平台的重要难题具体体现在下列四个方面:

数据信息不可知:用户不了解大数据平台中有什么数据信息,也不知道这一些数据信息和业务的关联性有哪些,尽管认识到大数据的重要性,但平台中是否有能化解自个所面对业务难题的关键数据信息?该到哪里寻找这一些数据信息?

数据信息不可控:数据信息不可控是在传统型数据平台开端就一直存在的不足,在大数据时代体现得更加显著。并没有统一的数据标准致使数据信息很难集成和统一,并没有质量控制致使大量数据因质量过低而很难被运用,并没有能有效的管控整体大数据平台的流程管理。

数据信息不可取:用户即便 知道自个业务所需用的是那些数据信息,也无法方便自助式地取得数据信息,反之,获取数据需用较长的研发过程,致使业务剖析的需求很难被迅速满足需要,而在大数据时代,业务寻求的是针对于特定业务难题的迅速剖析,这类漫长的需求处理速度是很难满足需要业务需求的。

数据信息不可联:大数据时代,企业有着着大量数据,但企业数据知识相互间的关联性还较为弱,并没有把数据信息和知识结构关联性起来,企业员工很难作到数据信息与知识相互间的迅速转换,无法对数据信息开展自助式的的探索和挖掘,数据信息的深层次价值很难体现。

通过剖析上述四种难题,能够发现传统型数据平台面对的难题,在大数据时代不但并没有消失,还不断涌现而出更新的难题,传统型的数据治理需用提升能力,来化解大数据平台搭建过程中的这一些难题。

在传统型数据平台阶段,数据治理的目标主要是做管控,为数据信息部门创建1个的治理办公环境,涉及范畴、质量等。

在大数据平台阶段,用户对数据信息的需求持续上升,用户范畴从数据信息部门拓展到全企业,数据治理无法再仅仅面向数据信息部门了,需用变为面向全企业用户的办公环境,需用以全企业用户为中心,从给用户提供服务的角度,管控好数据信息的同时为用户提供自助式获得大数据的能力,幫助企业实现数字化转型。

二、如何面向用户开展大数据治理?

面向用户的大数据治理实践案例

很多企业经过一段时间的摸索,已经看到了用户对大数据治理的这种需求,大数据治理也持续在各行业的大数据平台建设中得到关注。

以某公司数据治理平台建设为例,该公司以元数据为基础,实现了贯穿数据设计、产生、存储、迁移、使用、归档等环节的数据全生命周期管理,以及数据从源端到数据中心,再到应用端的全过程的管理,做到了以用户为中心,通过大数据治理,为用户提供了更便捷、更灵活、更准确地获得企业大数据资产的能力。

该公司的大数据治理的起点是先以元数据为基础,构建数据资产管理体系。从用户的视角说明白企业数据有哪些,哪些用户能够使用。在该公司的数据资产定义过程中,选择了贴近业务用户的数据分类方案,梳理和识别企业运营数据资源。

基于第一步形成的数据分类管理体系框架,梳理、整合各级各类数据资源,建立了数据资产树,按照不同数据细类制定相应的工作模板,对指标数据和明细数据进行梳理和归并。

所有资产梳理和控制的最终目标都是为了用户能够使用数据,通过L0–L1–L2三个层次的定义,以业务驱动为导向提高数据查询的实用性。

L0:按照公司行业业务域–业务主题–业务活动的结构化方法,对查询进行分类导航。

L1:依据业务和数据源中数据资源情况,按业务主题对数据进行预处理和定义。

L2:将数据库表字段等技术元数据转换为业务人员可以理解的业务元数据。

通过梳理数据、管理数据、提供数据、关联业务,形成了一整套以用户为中心的大数据治理能力,最终为用户直接使用数据提供了帮助,从而使数据治理完成了从以管控为中心到以业务为中心的转变。

面向用户的大数据治理的四个阶段

面向用户的大数据治理该如何做,总结为以下四个阶段:

(1)第一阶段:全面梳理企业信息,自动化构建企业的数据资产库

在第一阶段,主要是对企业大数据的梳理,从而全面掌握企业大数据的情况,主要有以下三个方面。

梳理全企业数据架构,对企业的数据模型、数据关系、数据处理有清晰化的认识。

对数据资产形成统一的自动化管理,形成企业的元数据库。

对企业数据资产形成多种视图,使数据资产能够让不同用户,有不同视角的展示。

(2)第二阶段:建立管理流程,落地数据标准,提升数据质量

在第二阶段,需要建立大数据管控能力,包括从业务的角度梳理企业数据质量问题,形成质量控制能力,形成核心数据标准,并抓标准落地。针对关键问题,建立数据的管理流程,少而精,控制核心问题。

在这个阶段主要是为数据部门形成一套管理大数据的能力,同时为数据部门形成数据管理的工作环境。

(3)第三阶段:直接为用户提供价值,向用户提供数据微服务

通过前两个阶段,企业能够建立基本的数据治理的能力,在此基础上,还需要以用户为中心,为用户提供直接获取数据的能力。

第三阶段依赖于前两个阶段能力的建设,在这个阶段的目标是向用户提供自助化的数据服务,使用户能够自助地获取和使用数据,并且在用户的使用过程中再反过去进一步落地标准、控制质量。

(4)第四阶段:智能化企业知识图谱,为全企业提供数据价值

最后一个阶段是将数据沉淀成为知识,形成企业的知识图谱,提供从“关系”的角度去分析问题的能力。

一般来说,数据搜索是通过业务术语(知识)来搜索的,而知识之间是有相互联系的,例如水果和西红柿是上下位关系(后者是前者的具体体现),好的搜索除了要列出直接结果,还需要显示与之关联的知识,这就要建立知识图谱。

简单说知识图谱就是概念、属性以及概念之间的关联关系,这个关系可以手工建立,也能通过自然语言处理等方法,对政策、法规、需求、数据库comments、界面等多种来源进行分析,自动化建立起企业知识图谱。从而使数据治理成为整个企业的数据工作环境,强化企业数据与知识体系之间的关联,加快企业员工数据与知识之间的转换效率,让数据的深层价值得以体现。

通过这四个阶段的建设,使数据治理平台由数据部门的工作环境,转变成为全企业的数据工作环境,以用户为中心,让用户能够直接使用大数据,并通过用户的使用来管理数据,持续优化数据质量,在达到治理数据目标的同时,也最大限度发挥了数据的价值。

三、面向用户的自服务大数据治理架构

自服务大数据治理架构

以用户为中心的自服务大数据治理技术架构包括5部分:数据资产管理、数据监控管理、数据准备平台、数据服务总线,消息与流数据管理。

整个平台分为5块核心能力:数据资产、数据准备、数据服务总线、消息&流数据管理、数据监控管理。

数据资产管理是对企业数据信息统一管理也是整个平台的基础,数据准备平台是资产服务化的加工厂,它不但能将原始数据通过服务形式以用户能看懂的方式提供,也可以通过在线数据模型设计实现最终数据产品的发布,起到承上启下的作用。

数据服务总线和消息&流数据管理的价值层次是一致的,只是从数据时效性上面对数据进行了区分,去适应用户不同的管理和应用诉求。起到数据通道和安全管理两个核心内容。

数据监控管理有别于大数据中的数据节点管理,而是从数据管理的视角切入对数据的结构的变化、关系的变化进行管理和控制,它是数据持续发挥价值的监管者。

自服务大数据治理的关键技术

(1)人工智能的知识图谱构建

知识图谱的构建,主要有以下三个步骤:

a、基于企业元数据信息,通过自然语言处理、机器学习、模式识别等算法,以及业务规则过滤,实现知识提取。

b、以本体形式表示和存储知识,自动构建成起资产知识图谱。

c、通过知识图谱关系,利用智能搜索、关联查询手段,为最终用户提供更加精确的数据。

(2)细粒度的敏感信息控制

数据内容安全管理包括对IT系统和数据进行敏感度等级划分的定义、浏览、检核,辅助安全规则在业务、技术领域的应用。

从功能上包括数据敏感性分级、系统敏感性分级,数据安全策略定义管理,安全策略输出,安全管理报告,数据安全检核,敏感数据角色管理,敏感数据权鉴管理及相关电子审批流程。

(3)自助化的大数据服务生产线

这里有4个关键点:

a、自助的查询到想要的数据。

b、自动的生成数据服务。

c、及时稳定的获得数据通道。

d、数据安全有保证。

通过自助化的数据生产线,数据使用方(业务人员)大大减少了对开发人员依赖,80%以上的数据需求,都能通过自己进行整合开发,最终获取数据。让所有用数据的人能方便得到想要的数据。

(4)多维度实时的数据资产信息的展示

数据治理平台提供实时、全面的数据监控,不仅能从作业、模型、物理资源等各方面进行全面的数据资产盘点,还能对数据及时性、问题数据量等方面的数据健康环境进行全面的预警。

(5)以业务元模型为核心的数据微服务

数据需要以服务的形式提供给最终用户,在服务的提供上不能再采用传统的方式,而需要用微服务的方式提供,每个单独数据微服务自己对所提供数据做缓存,在其中利用元数据能力,把知识(业务模型)与技术(数据模型)相结合,从而向最终数据用户提供多种数据能力,使用户能够以多种方式使用数据。

最后在整个大数据治理平台的构建中还需要满足一系列原则,包括元数据、数据标准和数据质量,总结起来一共12个原则。

四、总结

大数据时代,企业急需建立以用户为中心的自服务大数据治理,信息梳理、数据管控、连接用户、智能化是实现自服务大数据治理的四个主要阶段,掌握一系列关键技术和技术原则,是实现自服务大数据治理的重要基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/142057.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

ToBeWritten之攻击者模拟

也许每个人出生的时候都以为这世界都是为他一个人而存在的,当他发现自己错的时候,他便开始长大 少走了弯路,也就错过了风景,无论如何,感谢经历 转移发布平台通知:将不再在CSDN博客发布新文章,敬…

Word | 简单可操作的快捷公式编号、右对齐和引用方法

1. 问题描述 在理工科论文的写作中,涉及到大量的公式输入,我们希望能够按照章节为公式进行编号,并且实现公式居中,编号右对齐的效果。网上有各种各样的方法来实现,操作繁琐和简单的混在一起,让没有接触过公…

路由综合实验

RIP配置 在R1上配置 rip 1 #此处的1表示进程号,非版本号 version 2 #选择rip版本2 network 100.0.0.0 network 12.0.0.0 network 13.0.0.0 #rip宣告时只能宣告主类网络,实际上是对内宣告为主类网络,对外转发时时携带子网掩码的在R2上…

【postgresql】 ERROR: multiple assignments to same column “XXX“

Cause: org.postgresql.util.PSQLException: ERROR: multiple assignments to same column "XXX"; bad SQL grammar []; nested exception is org.postgresql.util.PSQLException: ERROR: multiple assignments to same column "XXX"; 原因:or…

Java开发需要的网络基础知识,搞清楚计算机网络底层原理

作者:逍遥Sean 简介:一个主修Java的Web网站\游戏服务器后端开发者 主页:https://blog.csdn.net/Ureliable 觉得博主文章不错的话,可以三连支持一下~ 如有需要我的支持,请私信或评论留言! 前言 计算机基础是…

变电站运维服务方案

一、背景与目标 随着电力行业的快速发展,变电站的数量和规模不断扩大,运维服务的需求也日益增长。为了确保变电站的安全、稳定、高效运行,提高运维服务质量,本文档旨在提供一套全面的变电站运维服务方案。 二、服务范围 …

lv5 嵌入式开发-6 线程的取消和互斥

目录 1 线程通信 – 互斥 2 互斥锁初始化 – pthread_mutex_init 3 互斥锁销毁 pthread_mutex_destroy 4 申请锁 – pthread_mutex_lock 5 释放锁 – pthread_mutex_unlock 6 读写锁 7 死锁的避免 8 条件变量(信号量) 9 线程池概念和实现 9.1 …

CCS介绍

CCS介绍 设置主体颜色 修改字体的颜色和大小 安装一些插件 CCS中的App中心 切换工作空间 导入工程

el-table-column默认选中一个复选框和只能单选事件

表格代码 <el-table ref"contractTable" v-loading"loading" :data"contractList" selection-change"contractSelectionChange" style"margin-top: 10%;"><el-table-column type"selection" width"…

【分享】Word文档如何批量转换成PDF?

Word格式比较容易编辑&#xff0c;是工作中经常用到的文档工具&#xff0c;有时候为了避免文档在传送中出现乱码&#xff0c;或者防止被随意更改&#xff0c;很多人会把Word文档转换成PDF&#xff0c;那Word文档要怎样转成PDF呢&#xff1f;如果Word文档很多&#xff0c;有没有…

uniapp获取一周日期和星期

UniApp可以使用JavaScript中的Date对象来获取当前日期和星期几。以下是一个示例代码&#xff0c;可以获取当前日期和星期几&#xff0c;并输出在一周内的每天早上和晚上&#xff1a; // 获取当前日期和星期 let date new Date(); let weekdays ["Sunday", "M…

云安全【阿里云ECS攻防】

关于VPC的概念还请看&#xff1a;记录一下弹性计算云服务的一些词汇概念 - 火线 Zone-安全攻防社区 一、初始化访问 1、元数据 1.1、SSRF导致读取元数据 如果管理员给ECS配置了RAM角色&#xff0c;那么就可以获得临时凭证 如果配置RAM角色 在获取ram临时凭证的时候&#xff…

Three.js后期处理简明教程

后期处理&#xff08;Post Processing&#xff09;通常是指对 2D 图像应用某种效果或滤镜。 在 THREE.js 中我们有一个包含一堆网格物体的场景。 我们将该场景渲染为 2D 图像。 通常&#xff0c;该图像会直接渲染到画布中并显示在浏览器中&#xff0c;但我们可以将其渲染到渲染…

人机逻辑中的家族相似性与非家族相似性

维特根斯坦的家族相似性理论是他在《哲学研究》中提出的一个重要概念。他认为&#xff0c;语言游戏是一种人们使用语言的方式&#xff0c;不同的语言游戏之间可能存在相似性&#xff0c;就像一个家族的成员之间存在相似性一样。维特根斯坦认为&#xff0c;相似性不是通过一个共…

Quartz 体系结构

Quartz的体系结构 Quartz的重要组件 Scheduler 用于与调度程序交互的主程序接口。 Scheduler调度程序-任务执行计划表&#xff0c;只有安排进执行计划的任务Job&#xff08;通过scheduler.scheduleJob方法安排进执行计划&#xff09;&#xff0c;当它预先定义的执行时间到了的时…

mac 解决 vscode 权限不足问题,Insufficient permissions

commod 空格&#xff0c;输入终端并打开写入指令 sudo chown -R xxxxxx1 xxxxx2&#xff08;例如我的sudo chown -R admin Desktop&#xff0c;具体参数查看下方&#xff09; x1: 用户名&#xff0c;可通过左上角查看 x2: 目标文件夹。可以另起一个终端&#xff0c;用cd 和 l…

Unity当中的灯光类型

文章目录 前言一、Directional平行光二、Point点灯三、Spot 聚光灯四、Area面光灯&#xff0c;只用于烘培 前言 Unity当中的灯光类型 一、Directional平行光 Unity当中最重要的灯管类型&#xff0c;类似现实中的太阳光 二、Point点灯 类似现实中的灯泡&#xff0c;萤火虫&a…

内存对齐--面试常问问题和笔试常考问题

1.内存对齐的意义 C 内存对齐的主要意义可以简练概括为以下几点&#xff1a; 提高访问效率&#xff1a;内存对齐可以使数据在内存中以更加紧凑的方式存储&#xff0c;从而提高了数据的访问效率。处理器通常能够更快地访问内存中对齐的数据&#xff0c;而不需要额外的字节偏移计…

oracle

title: “Oracle” createTime: 2021-12-13T16:35:4108:00 updateTime: 2021-12-13T16:35:4108:00 draft: false author: “name” tags: [“oracle”] categories: [“db”] description: “测试的” 时间字段分析 timestamp 精确到秒后面6位 createTime: 2021-12-13T16:35:…

vue3基础

141.用vite创建vue3项目 142.项目目录 vue3中&#xff0c;直接导入组件就能用 不再要求唯一根元素 //createApp(App)是创建实例&#xff0c;.mount(#app)是在将实例往id为app的盒子上挂载 createApp(App).mount(#app)//挂载就是让实例接管一片区域 assets是存放图片或样式的…