读数据湖仓04数据架构与数据工程

1. 大容量存储器

1.1. 几乎是到最后时刻,大容量存储器才被引入基础数据的基础设施中

  • 1.1.1. 分析人员通常不会直接在大容量存储器中进行数据分析

  • 1.1.2. 大容量存储器在基础数据中扮演的角色也特别重要,它能够在许多方面支持数据分析人员自由灵活地完成工作,也为数据湖仓的高效使用奠定了基础

1.2. 大容量存储器可以利用大量廉价的存储介质存储数据

1.3. 尽管大容量存储器的访问速度不够快,效率也不够高,但大容量存储器可以持久保存数据,而且还可以通过应用程序直接访问

1.4. 大容量存储器在许多方面与棒球比赛中的替补投手角色类似,尽管大容量存储器在系统架构中可能不会起到突出作用,但也是绝对必要的

1.5. 优势

  • 1.5.1. 由于数据是以数字化形式存储的,因此用户仍然可以随时访问数据,并且能够长期存储

  • 1.5.2. 在大多数情况下不会随着时间的推移而产生数据异常问题

  • 1.5.3. 大容量存储器的真正优势在于价格便宜

    • 1.5.3.1. 采用大容量存储器方案的用户则可以承担几乎无限量的数据存储

    • 1.5.3.2. 大容量存储器能够有效降低整个组织的存储成本

1.6. 缺点

  • 1.6.1. 通常无法直接访问数据

    • 1.6.1.1. 在大容量存储器中检索数据时,我们需要按顺序访问
  • 1.6.2. 当需要在大容量存储器中检索数据时,通常需要开发大量自定义应用程序,这严重限制了对大容量存储器的使用

    • 1.6.2.1. 不应该使用大容量存储器来支持OLTP

1.7. 大容量存储器适合存储访问概率较低的数据

1.8. 许多类型的数据都属于低访问概率的范畴

  • 1.8.1. 法律要求组织长期存储相关数据,即使这些数据被访问的可能性很低

  • 1.8.2. 在其他情况下,数据只是随着时间的推移而变得陈旧和过时

1.9. 大容量存储器也是存储大多数机器生成数据的理想选择,这些数据很可能不会被频繁访问或以其他方式用于分析,因为当机器正常运行并生成正常结果时,所生成的测量数据并不重要

1.10. 尽管大容量存储器并非基础数据的核心关注点,但它仍然是基础数据重要和必要的组成部分

  • 1.10.1. 大容量存储器是高性能存储器的基础和补充

2. 访问概率

2.1. 将访问概率较低的数据存储在大容量存储器中,这样,当系统需要检索访问概率较高的数据时,就无需检索大容量存储器中的数据,从而提高工作效率

2.2. 在实际场景中,当需要处理大量数据时,访问概率较高的数据可能会“隐藏”在其他数据之后

2.3. 在低访问概率的数据丛林中,确保高访问概率的数据不被埋没则非常重要

2.4. 提供高访问概率的可用数据可以简化分析人员的操作,加快检索速度,降低数据检索的处理成本

2.5. 通过区分数据访问概率的高低,可以实现更高的收益

  • 2.5.1. 需要确定哪些数据被访问的概率高,哪些数据被访问的概率低

2.6. 使用词语并非确定访问概率的唯一标准,更常见的方法是通过数据的年龄(Age of Data)来衡量

  • 2.6.1. 随着时间的推移,数据被访问的概率会逐渐降低,不同数据降低的速度可能不同

  • 2.6.2. 所有数据的访问概率都会降低,当访问概率降低时,就应该考虑采用大容量存储器进行归档

3. 索引

3.1. 索引的作用是更高效地访问数据,如果我们对数据的访问概率有较高的预期,则可以为对应数据生成索引

3.2. 尽管大容量存储器中数据的访问概率较低,但仍然存在被访问的可能性

  • 3.2.1. 需要为大容量存储器中的数据创建索引,这都是为了“以防万一”

  • 3.2.2. 这种类型的索引通常可以创建在有空闲的机器上

  • 3.2.3. 如果需要检索大容量存储器中的数据,创建索引能够节省大量时间

3.3. 当需要检索大量数据时,检索过程必须快速完成,而直接在大容量存储器中进行检索则无法满足这个需求,因为这种方式是无法快速完成的

  • 3.3.1. 在这种情况下,使用索引则可能解决这个问题

4. 元数据

4.1. 大容量存储器的另一个重要特点是对元数据的需求

4.2. 虽然大容量存储器中数据的访问概率不高,但并不意味着大容量存储器不需要元数据

4.3. 如果我们在没有元数据的情况下将数据转存到大容量存储器中,那么将很难再次找到并使用这些数据

4.4. 元数据描述对于大容量存储器和高性能存储器同样必不可少

5. 数据架构与数据工程

5.1. 数据架构与数据工程就像是技术领域的阴阳两面

5.2. 没有数据架构的数据工程就像没有舵的船

  • 5.2.1. 没有数据架构的数据工程毫无意义

5.3. 架构师与工程师会共同构建复杂的信息系统

  • 5.3.1. 架构师注重考虑长期因素

  • 5.3.2. 工程师则更关注战术性的问题

5.4. 数据架构师与数据工程师之间同样也是合作互补的关系,他们能够融合彼此的技能和视角,共同创建一个现代化的信息系统环境

5.5. 数据架构师和数据工程师共同合作创建了数据基础——数据湖仓

  • 5.5.1. 创建一个成功的信息系统环境

  • 5.5.2. 将自己的工作建立在另一角色所创造的基础之上

6. 数据架构师和数据工程师共同兴趣点

6.1. 结构化数据只是数据架构师与数据工程师的第一个共同兴趣点

  • 6.1.1. 数据架构师着眼于项目的大局和长期视野

    • 6.1.1.1. 是在最高级别的模型中定义的

    • 6.1.1.2. 在需要转换时可以进行转换

    • 6.1.1.3. 具有完整的数据血缘

    • 6.1.1.4. 被正确归档

    • 6.1.1.5. 被设计用于容纳大量数据

  • 6.1.2. 数据工程师要关注项目的具体细节,包括代码、数据库以及操作系统等方面的实现细节

    • 6.1.2.1. 数据的标准化

    • 6.1.2.2. 汇总和派生数据

    • 6.1.2.3. 选择正确的数据源

    • 6.1.2.4. 明确定义的转换

6.2. 第二个共同兴趣点是文本数据

  • 6.2.1. 数据架构师与数据工程师在本体、分类标准、情感分析、相关性分析、语言、多义词和缩略语等方面有共同的兴趣点

  • 6.2.2. 数据架构师对本体的完整性、大容量存储器的使用以及将数据转换为基础数据等方面感兴趣

    • 6.2.2.1. 本体的来源

    • 6.2.2.2. 分类标准的相互关系

    • 6.2.2.3. 分类标准的重叠部分

    • 6.2.2.4. 分类标准的层次级别

    • 6.2.2.5. 分类标准的维护

  • 6.2.3. 数据工程师对将文本转换为数据库的ETL、将要使用的数据库、数据从大容量存储器到高性能存储器的流动等方面感兴趣

    • 6.2.3.1. 分类标准的新鲜度

    • 6.2.3.2. 本体与组织实体之间的关系

    • 6.2.3.3. 分类标准的完整性

    • 6.2.3.4. 分类标准的具体程度

6.3. 第三个共同兴趣点是组织中的模拟/物联网数据

  • 6.3.1. 都对用于数据蒸馏的算法、模拟/物联网环境中不同类型数据的数据结构和组成部分、大容量存储器管理等方面感兴趣

  • 6.3.2. 数据架构师关注的方面包括即将面对的数据量、用于蒸馏的算法、存储在高性能存储器中的数据内容和结构等

    • 6.3.2.1. 模拟/物联网数据创建的速率

    • 6.3.2.2. 模拟/物联网数据的粒度级别

    • 6.3.2.3. 模拟/物联网数据满足的业务需求

    • 6.3.2.4. 蒸馏算法的效率

  • 6.3.3. 数据工程师关注蒸馏算法的实际编码、将数据加载到大容量存储器和高性能存储器的过程、将高性能存储器提供给终端用户使用等方面

    • 6.3.3.1. 对蒸馏后的数据进行维护的能力

    • 6.3.3.2. 蒸馏算法的精度

    • 6.3.3.3. 蒸馏后的数据所经历的分析处理过程

    • 6.3.3.4. 偶尔需要重新定义蒸馏的参数

6.4. 第四个共同兴趣点是跨不同数据类型跟踪和移动数据的能力

  • 6.4.1. 尽管并非所有数据都可以被用于跨数据类型的应用,但如果数据能够在不同数据类型之间流动,就存在巨大的可能性

6.5. 第五个共同兴趣点是数据血缘

  • 6.5.1. 数据在组织内通常是流动的

  • 6.5.2. 当我们移动数据时,就会发生数据转换,而且一些数据会被反复移动

  • 6.5.3. 在整个组织的数据流中,我们需要考虑进行数据转换的算法和选择用于转换的数据

    • 6.5.3.1. 当数据从一种数据类型转换为另一种数据类型时,就会引发许多问题,这也是数据架构师与数据工程师都非常关心的问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1552797.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

从零开始搭建UVM平台(七)-加入monitor

书接上回: 从零开始搭建UVM平台(一)-只有uvm_driver的验证平台 从零开始搭建UVM平台(二)-加入factory机制 从零开始搭建UVM平台(三)-加入objection机制 从零开始搭建UVM平台(四&…

Github 2024-10-02C开源项目日报 Top9

根据Github Trendings的统计,今日(2024-10-02统计)共有9个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量C项目9BitBake项目1Netdata: 开源实时监控平台 创建周期:4020 天开发语言:C协议类型:GNU General Public License v3.0Star数量:68982 个For…

JAVA开源项目 周边产品销售网站 计算机毕业设计

本文项目编号 T 061 ,文末自助获取源码 \color{red}{T061,文末自助获取源码} T061,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

【算法】0/1背包问题

背包中有一些物品,每件物品有它的价值与重量,给定一个重量,在该重量范围内取物品(每件物品不可重复取),求最大价值。 将需求转化为表格,每一行中的每个格子代表可选哪些下标的物品在总重量限额内…

VMware Aria Operations 8.18 发布,新增功能概览

VMware Aria Operations 8.18 - 多云 IT 运维管理 通过统一的高性能平台,实现跨私有云、混合云和多云环境的 IT 运维管理。 请访问原文链接:https://sysin.org/blog/vmware-aria-operations/,查看最新版。原创作品,转载请保留出…

营业执照显示经营异常怎么回事

经营异常是怎么回事?是什么意思?首先,我们要明确什么是公司经营异常。简单来说,就是公司在经营过程中出现了一些问题,导致公司无法正常运营。这些问题可能包括未按规定报送年度报告、未按规定公示有关信息等。那么&…

资源《Arduino 扩展板1-LED灯》说明。

资源链接:Arduino 扩展板1-LED灯 1.文件明细: 2.文件内容说明 包含:AD工程、原理图、PCB。 3.内容展示 4.简述 该文件为PCB工程,采用AD做的。 该文件打板后配合Arduino使用,属于Arduino的扩展板。 该文件主要有…

Vue 路由设置

为了防止遗忘,记录一下用Vue写前端配置路由时的过程,方便后续再需要用到时回忆。 一、举个例子 假如需要实现这样的界面逻辑: 在HomePage中有一组选项卡按钮用于导航到子页面,而子页面Page1中有一个按钮,其响应事件是…

C++继承的三种方式[ACCESS]

C继承的定义 两个类的继承关系在派生类中声明,派生类定义使用以下语法: class DerivedClass: [ACCESS] BaseClass{ /…/ }; 冒号(:)后的[ACCESS]是继承的最高权限级别符,可以是以下三个值(存取权限级别&am…

业务封装与映射 -- ODUflex

ODUflex,即灵活速率光数字单元,带宽范围1.25G~100G。目前ITU-T G.709定义了两种形式的ODUflex,基于固定比特速率业务的ODUflex (CBR)和基于包业务的ODUflex (GFP)。 ODUflex特点 高效承载 提供灵活可变的速率适应机制。用户可根据业务大小&…

5. 常用开源数据集快速导入Linux服务器(AutoDL)——深度学习·科研实践·从0到1

目录 1. 查找公开数据 2. 解压到自己的数据盘中 3. 解压常用指令 1. 查找公开数据 参考文档:AutoDL帮助文档-公开数据查找和导入 AutoDL提供了部分常用开源数据,供咱在实例中进行使用,免去下载上传的烦恼(直接解压到咱的服务…

OpenAi FunctionCalling 案例详解

源码详细讲解 pdf 及教学视频下载链接:点击这里下载 FunctionCalling的单一函数调用 天气预报查询(今天长沙的天气如何?) import json import requests from openai import OpenAIclient OpenAI()location "长沙"…

鸿蒙开发知识点速记全解

入门 1、API涵盖应用框架、系统、媒体、图形、应用服务、AI六大领域。 应用框架相关Kit开放能力:Ability Kit(程序框架服务)、ArkUI(方舟UI框架)等。系统相关Kit开放能力:Universal Keystore Kit&#xf…

24-10-1-读书笔记(二十一)-《契诃夫文集》(四)下([俄] 契诃夫 [译] 汝龙) 我爱你,娜坚卡。

文章目录 《契诃夫文集》(四)下([俄] 契诃夫 [译] 汝龙 )目录阅读笔记记录总结 《契诃夫文集》(四)下([俄] 契诃夫 [译] 汝龙 ) 十月第一篇,放假了,挺高兴的&…

四、I/O控制方式

1.程序直接控制方式 完成一次读/写的过程 CPU千预频率 每次I/O的数据传输单位 数据流向 优缺点 CPU发出I/0命令后需要不断轮询 极高 字 设备→CPU→内存 内存→CPU→设备 优点:实现简单。在读/写指令之后,加上实现循环检查的一系列指令即可(因此才称为“程…

WaterCloud:一套基于.NET 8.0 + LayUI的快速开发框架,完全开源免费!

前言 今天大姚给大家分享一套基于.NET 8.0 LayUI的快速开发框架,项目完全开源、免费(MIT License)且开箱即用:WaterCloud。 可完全实现二次开发让开发更多关注业务逻辑。既能快速提高开发效率,帮助公司节省人力成本&…

Stable Diffusion绘画 | 来训练属于自己的模型:打标处理与优化

上一篇完成的打标工作,是为了获取提示词,让AI认识和学习图片的特征。 因此,合适、恰当、无误的提示词,对最终模型效果是相当重要的。 Tag 如何优化 通过软件自动生成的 Tag 只是起到快速建立大体架构的作用,里面会涉…

某大型公园定岗定编项目成功案例纪实

某大型公园定岗定编项目成功案例纪实 ——优化人力配置,实施灵活化人员调整策略,解决忙闲不均问题 【客户行业】文旅行业;事业单位;公园 【问题类型】定岗定编 【客户背景】 某大型公园随着上级政策的改变,公园取…

探索 PixiJS:强大的 2D 图形渲染库

探索 PixiJS:强大的 2D 图形渲染库 演示地址 演示地址 源码地址 源码地址 获取更多 获取更多 随着 Web 技术的发展,越来越多的开发者希望在网页中实现丰富的视觉效果和动画。PixiJS 作为一个高性能的 2D 渲染库,凭借其强大的功能和易用性…

文件名:\\?\C:\Windows\system32\inetsrv\config\applicationHost.config错误:无法写入配置文件

文件名: \\?\C:\Windows\system32\inetsrv\config\applicationHost.config 错误:无法写入配置文件 解决办法: 到C:\inetpub\history中找到最近一次的【CFGHISTORY_00000000XX】文件,点击进去找到applicationHost.config文件,用其覆盖C:\Win…