终于有人把数据中台讲明白了

在大数据发展的黄金期，几乎所有的高科技企业都在思考一个问题：海量数据作为大多数企业发展不可避免的一个趋势之后，企业该怎么去应用这部分数据资产，会对其商业产生什么影响，如何使数据对企业产生正面的推动而不是成为企业的负担。

作为国内的主要大数据玩家，阿里在2015年提出了“大中台、小前台”的战略，奠定了其内部发展数据中台的基础。2018 年因为“腾讯数据中台论”，中台再度成为了人们谈论的焦点。至此，关于“数据中台”的讨论从未停歇，大概没有什么大数据概念像数据中台一样，这般具有争议争议吧！那么数据中台究竟是“新瓶装旧酒”，还是真正可以助力企业的“大杀器”？本文主要从数据中台的本质和价值，到典型企业的数据中台架构，再到企业究竟需要什么样子的数据中台，多个视角对数据中台进行解读。

数据中台是什么？

数据中台，可以把它想象成一个数据服务工厂，核心功能是将原始数据转化为对企业有价值的、可复用的数据智能服务。为了方便理解，我们对物理世界里工厂的概念，把数据中台的概念抽象和分解一下。

● 原材料（源数据）：数据中台的原材料包括企业内部生成的数据和外部获取的数据。这些数据是数据中台进行加工和分析的基础。

● 数据质量控制（数据湖）：数据湖是存储大量原始数据的地方，类似于原材料仓库。在这里，数据需要经过清洗、转换和质量检查，以确保其可用性和准确性。

● 生产厂房（数据管道）：数据管道是数据流动和处理的通道，负责将数据从数据湖传输到需要它们的地方，进行进一步的加工和分析。

● 半成品/产品仓库（数据集市）：数据集市是数据产品和数据服务的存储地，类似于工厂的成品仓库。这里存放着经过加工的数据，可供企业内部不同部门或外部客户使用。

● 智能创新实验室（数据产品和服务创新）：智能创新实验室是数据中台进行新数据产品和新数据服务研发的地方，推动企业数据能力的持续创新和优化。

● 治理和办公室（数据治理和服务治理）：数据治理和服务治理确保数据中台的运作符合企业的标准和法规要求，提高数据的质量和安全性，减少浪费，提高效率。

企业为什么需要数据中台

● 企业希望数据距离业务更近

以前的数据部门离业务部门有距离，业务部门不能直接使用数据，也不能直接地在数据当中发现价值，业务迫切希望距离数据更近，这是最大的一个需求。

● 企业希望数据中台能够提供数据服务

过去数据部门提供的都是可视化辅助决策类的服务，而企业希望数据中台能够提供高响应更实时的数据服务。

● 企业希望数据中台能直接提供业务价值

如何能够让数据直接产生业务价值，是企业非常关心的问题。

● 企业希望数据中台能够快速开发数据服务

如何能够让数据的开发，利用更快速？

当然，还有其他的期待：

● 企业希望数据中台和数据能够围绕业务场景来开展工作

● 提供统一数据

还有诸如：赋能业务更智慧、构建统一数据资产、打通数据孤岛等企业方面的迫切需求。总的来说，很明显能看到企业对于数据中台这个概念承载的重大期待。

在此基础之上，我们把数据中台抽象成6大价值，在六大能力基础之上支撑的就是数据中台的使命和愿景：构建数据驱动的智能企业。

1. 数据资产的规划和治理

现在很多企业在做数字化转型，有的企业还不具备基本的信息化系统，是不是就意味着不需要考虑数据了？或者等数据先有了，把后台建好，再来做中台？

不是这样的。因为数据是无时无刻不在产生的。重要的是：只要业务在生产，或者只要你的业务模式已形成，企业运转起来，你的数据就会时时产生。而且用什么数据也很清晰，区别只是到时候是用人工去处理这些数据，还是用系统去处理这些数据？

所以我们认为数据是不依赖于你的系统是否构建的，它是客观存在的，只是你没有通过技术的手段把它存储，采集下来而已。在这样的情况下，数据要早于应用规划。

构建数据中台，首先要有清晰的数据战略、数据资产的规划。企业需要清晰的知道自己要的是什么数据？现在需要什么数据？未来需要什么数据？可能会产生什么数据？数据未来在哪个系统里面去产生？他们之间的关系是什么？这个很重要。

这就是你要构建的数据资产目录，这个目录是一个逻辑结构，当你清晰的知道了这些结构以后，再去建设你的系统，这样的话，脑子就会非常清晰，只有这样才能从根本上去解决数据质量的问题、数据不一致的问题。

所以我们数据全景图、数据资产目录、数据的战略，这才是企业现在数字化转型的非常重要的第一步。

2. 数据资产的获取和存储

数据的全景图，实际上映射的是你的业务全景图。在这个基础之上，构建你的应用，同时采集数据资产。先采集什么数据后采集什么数据？数据之间的关系，采集数据用的工具，这些都是数据平台需要去解决的问题。

3. 数据资产的共享和协作

数据资产获取和采集以后，就要去让数据产生新的价值，把数据用起来。

这种情况下，一个非常重要的点是：数据一定要被企业所有的员工，乃至于企业价值链上的所有的人共享、开放和协作。

要让企业的每一个员工都清晰的知道有什么数据，数据的业务含义是什么？数据存放在哪里？只有这样，才不会出现数据的重复建设。如何把业务人员的想法变成数据的产品、协作？如何提高数据创新的速度？

每个企业都需要一个数据资产的协作平台，在这个平台上，业务需求提出人员，数据采集人员、数据开发人员，算法工程师，数据分析工程师，大家能够在一个平台自动化的协作，而不需要线下的这种协作。在同样的版本的数据基础上，用共同的沟通语言去交流协作，这样才能加快企业数据资产开发的速度。

4. 业务价值的探索和发现

业务人员提想法，然后在数据资产的这种探索平台里面去做实验，快速的在公有的数据中台的数据集、数据湖的基础之上，构建不同的数据沙箱。用不同的数据版本，去探索和挖掘业务价值。

5. 数据服务的构建和治理

当你发现一个数据集对业务很有价值，并且通过了验证以后，就要把它成开发成数据服务，让数据服务能够被更多的人使用。

6. 数据服务的度量和运营

有数据开发者，有数据消费者，这样的话就面临一个问题，哪些数据有价值？哪些数据服务有价值？

因为计算资源、存储资源都是有限的，不可能无限制的去开发和存储。所以要识别出有价值的服务，让它被更多的人所使用。让那些没有价值的数据服务，沉淀在底层，然后被销毁和释放。

这就是一个运营体系，让数据能够持续的运营产生价值。只有这6点都具备了，企业才是一个有数据驱动能力的这样的一个智能企业。

企业的数据中台架构

上图是阿里数据中台发展至今的一张全景图，大家应该在云栖大会等多个场合有看到过这张图。阿里数据中台的整体核心其实是位于中间的三层数据中心：垂直数据中心、公共数据中心和萃取数据中心。

● 垂直数据中心：阿里通过将包括淘宝、天猫、聚划算、阿里妈妈广告、优酷土豆、高德等来自不同BU的数据进行采集，在清洗和结构化处理后形成垂直数据中心。

● 公共数据中心：在垂直数据中心已采集数据作为原料的基础之上，采用维度建模的方式，以业务过程作为粒度切分，处理成不因业务特别是组织架构变动而轻易推翻的数据中间层，由DWD明细层和DWS汇总层共同构成。

● 萃取数据中心：更进一步以客观业务实体（如人、货、场、企业等）为对象，围绕其建立起以统计指标、标签、关系等数据为主的数据体系，作为直接面向业务的萃取数据中心。

仅从这三层数据中心构成的数据资产体系来看，阿里的架构似乎并无太多先进之处，除萃取数据中心外，垂直数据中心和公共数据中心都能在数仓建模中找到其对应的架构，即便是萃取数据中心，在一些企业的商业智能或者大数据平台层面也能找到相应的雏形。所以，阿里数据中台的核心竞争力究竟是什么呢？

答案就是——产品+技术+方法论

历经阿里生态内各种实战历练后，云上数据中台从业务视角而非纯技术视角出发，智能化构建数据、管理数据资产，并提供数椐调用、数据监控、数据分析与数据展现等多种服务。

承技术启业务，是建设智能数据和催生数据智能的引擎。在OneData、OneEntity、OneService三大体系，特别是其方法论的指导下，云上数据中台本身的内核能力在不断积累和沉淀。在阿里巴巴，几乎所有人都知道云上数据中台的三大体系。

OneData致力干统一数据标准，让数据成为资产而非成本，其中包括OneModel，用于指导数据采集、数据建模、数据开发的规范性；OneEntity致力于统一实体，让数据融通而以非孤岛存在；OneService致力于统一数据服务，让数据复用而非复制，用于指导如何提供数据服务，包括质量安全、资产管理、数据交换、组织协作等流程的规范性。

这三大体系不仅有方法论，还有深刻的技术沉淀和不断优化的产品沉淀，从而形成了阿里巴巴云上数据中台内核能力框架体系。有了这套核心框架，对于阿里来讲，无论对其自身数据中台建设，还是对外输出解决方案，都提供了非常大的助力。