数据湖 Data Lake-概述

Data Lake

在这里插入图片描述

1. 数据湖的定义

数据湖是一种存储系统,用于集中存储大量的原始数据,可以按数据本来的原始格式进行存储,用户可以在需要时提取和分析这些数据。

在这里插入图片描述
A data lake is a centralized repository designed to hold vast volumes of data in its native, raw format — be it structured, semi-structured, or unstructured.

Data Lake不仅支持结构化数据(如关系数据库中的数据),还支持半结构化(如JSON、XML)和非结构化数据(如文本、图片、视频等)。
在这里插入图片描述


2. 数据湖的架构

(1)Data sources 数据源

在这里插入图片描述
In a data lake architecture, the data journey starts at the source.

  • 结构化数据:如关系数据库中的数据,通常以表格形式存储,便于处理和查询。常见的来源包括ERP系统、CRM系统等。

  • 半结构化数据:如JSON、XML等格式的数据,虽然没有严格的模式,但仍然包含一定的结构,便于解析。这类数据源通常来自于Web服务、社交媒体等。

  • 非结构化数据:如文本、图片、音频和视频文件等,这些数据没有固定格式,需要特定的技术进行处理和分析。来源包括文档管理系统、传感器数据等。

(2)Data ingestion 数据摄取

在这里插入图片描述
Data ingestion is the process of importing data into the data lake from various sources.数据摄取是将数据导入数据湖的过程。

  • 批处理:定期将数据从源系统批量导入数据湖,适用于数据变化频率较低的情况。这种方式可以在低峰时段进行,提高效率。

  • 实时摄取:通过流处理技术(如Apache Kafka)实时收集数据,适用于需要即时分析的场景,如金融交易监控或社交媒体实时分析。

  • 数据预处理:在摄取过程中,可能会应用一些轻量级的转换,但数据通常保持原始格式。


(3) Data storage and processing 数据存储和处理

在这里插入图片描述

原始数据存储区 Raw data store section

  • 数据以原始格式存放,未经过任何清理或转化。
  • 使用存储解决方案如Hadoop HDFS、Amazon S3或Azure Blob Storage。

转化区 Transformation section

  • 数据经过多种处理,提升其质量。
    • 数据清理:去除或修正不准确的记录。
    • 数据增强:增加额外信息以提升价值。
    • 规范化:统一数据格式,确保一致性。
    • 结构化:将非结构化数据转化为结构化格式。

处理数据区 Processed data section

  • 可信数据可移动到精细或一致数据区。
  • 进一步转化以适应特定业务需求,供分析师和数据科学家使用,便于分析和机器学习。

(4)分析沙箱 Analytical sandboxes

在这里插入图片描述
分析沙箱是隔离的环境,确保实验活动不会干扰主数据存储。

用于数据探索和分析,提供一个不影响主数据流的实验环境,促进假设测试和模型开发,推动数据驱动的创新和敏捷分析文化。

  • 数据摄取
    • 原始数据:保留数据的原始上下文,便于进行初步的探索性分析。
    • 处理数据:经过清洗和转换的数据,适合用于更复杂的分析和机器学习模型。
  • 数据发现
    • 分析师和数据科学家在此阶段探索数据的结构、质量和潜在价值,通常通过描述性统计和数据可视化工具进行。
  • 机器学习与预测建模
    • 在对数据有充分理解后,应用机器学习算法创建预测或分类模型,使用如TensorFlow、PyTorch或Scikit-learn等库。
  • 探索性数据分析(EDA)
    • 通过统计图形和信息表分析变量之间的关系、模式或异常,无需事先假设。

(5) 数据消费 Data Consumption

数据消费层是将所有前期努力的成果展示给最终用户的地方。
在这里插入图片描述

  • 数据展示

    • 打磨过的、可靠的数据通过商业智能工具(如Tableau或Power BI)对外展现,便于用户分析和决策。
  • 角色参与

    • 数据分析师、商业分析师和决策者在此阶段利用处理过的数据驱动业务决策,提供关键洞察。

(6) 交叉治理、安全和监控层(Crosscutting Governance, Security, and Monitoring Layer)

在这里插入图片描述
这一层贯穿整个数据流,是确保数据湖有效性和安全性的基础.

  • 治理

    • 确立并执行数据访问、质量和可用性的规则和政策,确保信息一致性和责任使用。工具如Apache Atlas和Collibra可用于实现数据治理。
  • 安全性

    • 实施安全协议防止未经授权的数据访问,确保遵守数据保护法规。可以集成如Varonis或McAfee等解决方案。
  • 监控和ELT流程

    • 负责监督数据从原始形式到可用格式的流转,使用Talend或Apache NiFi等工具来优化流程并维持性能标准。
  • 数据管理与监护

    • 由专门团队或指定的数据所有者进行,使用Alation或Waterline Data等平台追踪数据的增改删,管理元数据。

5. 数据湖与数据仓库的比较

在这里插入图片描述

  1. 数据处理
    • 数据湖:支持多种数据类型(结构化、半结构化、非结构化),存储原始数据。
    • 数据仓库:主要处理结构化数据,经过严格的清洗和处理。

在这里插入图片描述

  1. 存储

    • 数据湖:设计为低成本存储,适合处理海量数据。
    • 数据仓库:存储成本相对较高,适合经过处理的数据。
  2. 灵活性(敏捷性)

    • 数据湖:高度灵活,可随时配置和重新配置。
    • 数据仓库:较为固定,调整配置较为复杂。

在这里插入图片描述

  1. 安全性

    • 数据湖:安全机制仍在完善中,治理相对较新。
    • 数据仓库:安全性和治理措施较为成熟且规范。
  2. 用户

    • 数据湖:主要面向数据科学家和分析师,支持探索性分析。
    • 数据仓库:主要服务于业务专业人士,提供稳定的报表和分析。
  3. 模式

    • 数据湖:采用“读取时模式”(schema-on-read),在数据读取时定义结构。
    • 数据仓库:采用“写入时模式”(schema-on-write),在数据写入时定义结构。
      在这里插入图片描述

在这里插入图片描述

仅供学习使用哈~

整理不易,一键三连呀列位彦祖😂

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1541842.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript高级进阶(三)

DOM-改变HTML 语法与说明 document.write() //改变HTML输出流,整个页面进行重绘。 操作对象.innerHTML新的HTML //改变HTML内容 操作对象.attribute新属性值 //改变HTML属性 对象.style.property新样式 //改变操作样式的属性 注意: document.write(),优先级太高&am…

Th:1.1 建立连接

基础讲解 1.TCP通信流程 基于TCP通信的Socket基本流程: 1.1 Socket 函数返回值&#xff1a;一个文件描述符&#xff1a; 特别的两个队列。 #include <sys/types.h> #include <sys/socket.h> //create an endpoint for communication int socket(int …

vue循环渲染动态展示内容案例(“更多”按钮功能)

当我们在网页浏览时&#xff0c;常常会有以下情况&#xff1a;要展示的内容太多&#xff0c;但展示空间有限&#xff0c;比如我们要在页面的一部分空间中展示较多的内容放不下&#xff0c;通常会有两种解决方式&#xff1a;分页&#xff0c;“更多”按钮。 今天我们的案例用于…

MyBatis-config.xml核心配置

MyBatis-config.xml 包含了会深深影响MyBatis行为的设置和属性信息&#xff0c;配置文档的顶层结构如下 environments&#xff08;环境配置&#xff09; environments用于配置数据库的URL信息&#xff0c;MyBatis-config可以动态配置多个数据源&#xff0c;用于连生产、预发、…

python:编写一个函数查找字符串中的最长公共前缀

最近在csdn网站上刷到一个题目&#xff0c;题目要求编写一个函数查找字符串中的最长公共前缀&#xff0c;题目如下&#xff1a; 给出的答案如下&#xff1a; from typing import List def longestCommonPrefix(strs:List[str]) -> str:if len(strs) 0:return i 0 #代…

矩阵系统源码搭建抖音矩阵批量剪辑矩阵分发,矩阵系统可开源或oem

揭秘抖音矩阵系统源码搭建秘籍 在短视频平台迅猛增长的背景下&#xff0c;抖音矩阵系统已变成扩大创作者及企业影响力的有效工具。构建这样一个系统需要精通多种编程技术&#xff0c;本文将探讨这些关键技术点。 矩阵营销系统通过集成多项功能如跨平台的账户管理、自动化任务生…

AI周报(9.15-9.21)

AI应用-宇宙建筑师&#xff1a;AI探索宇宙结构 近日&#xff0c;来自马克斯普朗克研究所等机构&#xff0c;利用宇宙学和红移依赖性对宇宙结构形成进行了场级仿真。 AI版“宇宙闪电侠”&#xff1a;若以传统宇宙模拟的缓慢行进比作悠然自得的蜗牛&#xff0c;那么AI便宛如宇宙…

Observability:构建下一代托管接入服务

作者&#xff1a;来自 Elastic Vishal Raj, Marc Lopez Rubio 随着无服务器&#xff08;serverless&#xff09;的引入&#xff0c;向 Elastic Cloud 发送可观察性数据变得越来越容易。你可以在 Elastic Cloud Serverless 中创建一个可观察性无服务器项目&#xff0c;并将可观察…

LeetCode 每周算法 7(二分查找)

LeetCode 每周算法 7&#xff08;二分查找&#xff09; 二分查找算法&#xff1a; class Solution { public: // 定义一个函数&#xff0c;接收一个整数向量nums和一个整数target&#xff0c;返回目标值在数组中的插入位置 int searchInsert(vector<int>& nums,…

golang学习笔记4-基本数据类型

声明&#xff1a;本人已有C&#xff0c;C,Python基础&#xff0c;只写本人认为的重点&#xff0c;方便自己回顾。 go的数据类型如下 由于bool和c类似&#xff0c;和go的区别是&#xff0c;bool的值只能取true和false&#xff0c;不能取整数&#xff0c;而且有默认值false。 一…

让C#程序在linux环境运行

今晚花一些时间&#xff0c;总结net程序如何在linux环境运行的一些技术路线。 1、采用.Net Core框架 NET Core 使用了 .NET Core Runtime&#xff0c;它可以在 Windows、Linux 和 macOS 等多个操作系统上运行。可以采用Visual Studio生成Linux版本的dll。 在Linux系统中&…

系统架构笔记-2-计算机系统基础知识

知识要点-2.6计算机语言 UML 对系统架构的定义是系统的组织结构&#xff0c;包括系统分解的组成部分以及它们的关联性、交互机制和指导原则等&#xff0c;提供系统设计的信息。 具体有以下 5 个系统视图&#xff1a; 1. 逻辑视图&#xff1a;也称为设计视图&#xff0c;表示…

【WEB】EZ_Host

1、 2、解答 http://8762a9b0-5aa3-49f8-b8d2-54e4cb0746cc.www.polarctf.com:8090/?hostlocalhost;lshttp://8762a9b0-5aa3-49f8-b8d2-54e4cb0746cc.www.polarctf.com:8090/?hostlocalhost;cat flag即可看到答案

【亿美软通-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞…

14.面试算法-字符串常见算法题(三)

1. 字符串回文问题 1.1 LeetCode.125. 验证回文串 回文问题在链表中是重点&#xff0c;在字符串中同样是个重点。当初我去美团面试第一轮技术面的第一个算法题就是让写判断字符串回文的问题。 这个本身还是比较简单的&#xff0c;只要先转换成字符数组&#xff0c;然后使用双…

OctoSQL 查询大量数据库和文件格式

OctoSQL 主要是一款 CLI 工具&#xff0c;可让你通过统一界面使用 SQL 查询大量数据库和文件格式&#xff0c;甚至在它们之间进行连接。同时&#xff0c;它还是一个易于扩展的完整数据流引擎&#xff0c;你可以用它为自己的应用程序添加 SQL 接口 OctoSQL是一款功能强大的SQL查…

Git从了解到操作

Git常用命令 基本的linux命令 ls / ll 查看当前目录( ls 是查看目录有哪些文件夹&#xff0c;ll 是查看隐藏文件)cat 查看文件内容touch 创建文件vi vi编辑器 (使用 vi 编辑器是为了方便展示效果&#xff0c;也可以记事本、editPlus、notPad等其它编辑器) 备注 Git GUl: Gi…

docker基本(仅供自己参考)

一、大型项目部署的问题&#xff1a; 1、大型项目的组件比较多&#xff0c;运行环境很复杂&#xff0c;部署通常会遇到各种问题&#xff1a; &#xff08;1&#xff09;&#xff1a;依赖关系复杂&#xff0c;容易出现兼容性问题 &#xff08;2&#xff09;&#xff1a;开发、…

雪花算法Snowflake

雪花算法常用于分布式的项目中&#xff0c;是为了解决大数据产生的多表分表中&#xff0c;保证id的唯一性。 1.分布式的特点 全局唯一性&#xff1a;不能出现有重复ID的标识&#xff1b;地增性&#xff1a;确保生成的ID对用于用户或业务是递增的&#xff1b;高可用性&#xf…

施耐德EcoStruxure Machine SCADA Expert(EMSE)与SQL数据库连接(十五)

我习惯使用SQL Server 数据库与EMSE进行连接。 用的是sql 2017 关于数据库软件的安装教程 网上一大把。 1.新建数据库 打开数据库管理工具&#xff0c;新建数据库 2.新建表单 &#xff08;ps:这里先做一个小测试-----目的是验证与EMSE软件的链接是否顺畅。) 添加两个元素进去…