通过强大的语义层增强现代数据湖

在现代数据湖架构中,语义层通过向数据添加有意义的上下文来发挥至关重要的作用,否则这些上下文会丢失。此层充当现代数据湖(数据仓库和查询引擎)处理层中未整理的原始数据与利用此数据的工具和应用程序之间的桥梁。此服务对 AI 特别有用,因为这些关系和模式对于训练准确的模型至关重要。强大的语义层可确保数据干净且经过整理,为模型训练做好准备。如果需要进一步的特征工程,语义层可以为特征存储提供信息,在其中可以共享工程特征。问题在于,要使通用语义层真正扎根,整个组织需要发展以使用它的语义——工具链中的每个工具都需要与所述语义层紧密耦合。如果只有少数数据源使用语义层,那么您又回到了原点,有了另一个工具来照看。因此,为工作选择合适的工具至关重要。这篇博文简要概述了专为现代数据湖设计或与现代数据湖配合使用的工具。

语义层的作用

语义层通过提供数据视图来增强现代数据湖,其中大部分复杂性已被抽象化。此层中数据产品的主要功能包括:

  • 元数据管理:此功能对数据资产进行编目,跟踪其来源、格式、使用情况以及随时间的变化。在 AI 中,元数据管理对于理解数据沿袭至关重要,这是训练和优化机器学习模型的关键因素。准确的元数据可确保 AI 系统获得可靠的数据,从而促进更好的预测和见解。

  • 数据治理和安全:语义层是强制执行数据访问策略并保护敏感信息的地方。这些功能对于保持对现代数据保护法规的遵守至关重要。在 AI 的背景下,强大的治理和安全性对于管理 AI 应用程序的道德影响和防止未经授权访问 AI 模型至关重要。合成数据的最新创新也在数据治理方面取得了长足的进步,实现了数据共享,而不会危及敏感信息。

  • 质量和一致性:此功能可确保整个组织的数据保持一致且高质量,这对于可靠的 AI 操作至关重要。人工智能系统需要高质量的数据来避免“垃圾进,垃圾出”的困境,即糟糕的输入数据会导致有缺陷的输出。通过减少冗余和增强数据可靠性,语义层支持更准确、更有效的 AI 分析。

这一层中的一些产品专注于一个特定的功能,而另一些产品则声称提供一套工具来解决多个问题。需要注意的是,虽然对象存储可以支持广泛的数据,但通常语义层中的产品只能对结构化数据进行操作。

语义层的实际应用示例

1 . Amundsen:由 Lyft 开发的开源数据发现和元数据引擎。Amundsen 帮助索引数据集、管理元数据,并为跨现代数据湖的数据发现提供搜索界面。它与 Delta Lake 和 Apache Iceberg 等开放表格式集成。

2 . DataHub:一个开源元数据平台,用于数据资产的发现、自动化和操作化。DataHub支持元数据收集和搜索功能,与开放表格式集成,以提供对数据沿袭和使用情况的可见性。

3 . DBT(数据构建工具):一种数据转换工具,允许数据分析师和工程师更有效地转换仓库中的数据。它可以使用开放表格式,并确保记录数据转换并进行版本控制。

4 . Apache Atlas:一组可扩展且可扩展的核心基础治理服务,使企业能够在开放表格式的数据仓库中有效且高效地满足其合规性要求。Atlas提供元数据管理和治理功能。

5 . Collibra:用于数据治理、编目和数据质量管理的数据智能云平台。Collibra 与开放表格式集成,有助于管理数据策略、跟踪数据沿袭并确保数据质量和合规性。

与他人合作良好

无论您为语义层选择哪种工具,要使其成功,都需要在组织的数据生态系统中完全集成。通过采用统一的数据策略,组织可以提高其语义层的有效性,确保所有数据源都有助于形成一个有凝聚力和治理良好的数据环境。成功集成的一部分要求工具链中的所有工具都在云运营模型下进行设计。这意味着,无论您的工具位于私有云、公有云还是边缘,它都是可扩展的、高性能的,并且专为现代工作负载而构建。这个工具链的一个重要基础是现代数据湖,它使用高性能的 Kubernetes 原生对象存储(如 MinIO)构建。

湖中的背景

语义层是现代数据湖架构的重要组成部分。它不仅简化了数据管理,还增强了数据的安全性、质量和可用性;成功实施 AI 的关键特征。借助此架构,组织可以确保其现代数据湖不仅是信息存储库,而且是推动业务增长和创新的宝贵资产。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1488750.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【Golang 面试基础题】每日 5 题(七)

✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/UWz06 📚专栏简介:在这个专栏中,我将会分享 Golang 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏…

【中项】系统集成项目管理工程师-第5章 软件工程-5.6软件质量管理与5.7软件过程能力成熟度

前言:系统集成项目管理工程师专业,现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 软考同样是国家人社部和工信部组织的国家级考试,全称为“全国计算机与软件专业技术资格(水平)考试”&…

ROS机械臂——rviz+gazebo仿真环境搭建

纲要 ROS的控制插件 常用控制器 完善机器人模型 为link添加惯性参数和碰撞属性 为joint添加传动装置 添加gazebo控制插件 加载机器人模型 启动仿真环境 问题:gazebo加载的模型只有一层阴影 解决方案:关闭虚拟机,设置虚拟机属性,…

【数据结构-前缀和】力扣2550.统计范围内的元音字符串数

给你一个下标从 0 开始的字符串数组 words 以及一个二维整数数组 queries 。 每个查询 queries[i] [li, ri] 会要求我们统计在 words 中下标在 li 到 ri 范围内(包含 这两个值)并且以元音开头和结尾的字符串的数目。 返回一个整数数组,其中…

springboot实战(十二)之通过注解的方式记录接口出入参log入库

前言 生产过程中,为了更好的辅助线上问题排查避免不了对接口出入参进行日志输出的时候,并且为了分析接口数据效果需要将每次请求接口的出入参进行落库方便后续的数据分析,这时总不能每个接口入参之后、出参之前都打印一遍日志吧?如…

C++第十弹 ---- vector的介绍及使用

目录 前言vector的介绍及使用1. vector的使用1.1 vector的定义1.2 iterator的使用1.3 vector空间增长问题1.4 vector增删查改 2. vector迭代器失效问题(重点) 总结 前言 本文介绍了C中的vector数据结构及其使用方法。 更多好文, 持续关注 ~ 酷酷学!!! 正文开始 vector的介绍…

基本类型的包装类,面向对象三大特性,继承(inherit).一道力扣分享。

>>>基本类型的包装类 拆包–>封包 拆包–>包装类型转换为基本数据类型 封包—>基本数据类型转换为包装类型 编号基本数据类型包装类型1byteByte2shortShort3charCharacter4intInteger5longLong6floatFloat7doubleDouble8booleanBoolean 为何要用包装类型…

【echarts】中如何设置曲线展示最新值、最大值、最小值

需要用到的属性:图表标注 series-line. markPoint 默认可以通过 type直接标注:‘min’ 最小值、‘max’ 最大值、‘average’ 平均值。 markPoint: {data: [{type: max},{type: min}]}如何展示最新值 如果要展示最新值得话,需要设置 标注…

昇思25天学习打卡营第19天|DCGAN生成漫画头像

DCGAN生成漫画头像总结 实验概述 本实验旨在利用深度卷积生成对抗网络(DCGAN)生成动漫头像,通过设置网络、优化器以及损失函数,使用MindSpore进行实现。 实验目的 学习和掌握DCGAN的基本原理和应用。熟悉使用MindSpore进行图像…

Vue3时间选择器datetimerange在数据库存开始时间和结束时间

♥️作者:小宋1021 🤵‍♂️个人主页:小宋1021主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!! 🎈🎈加油! 加油&#xff01…

[算法]归并排序(C语言实现)

一、归并排序的定义 归并排序(Merge sort)是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。 二、归并排序的算法原理 归并排序的算法可以用递归法和非递归法来实现…

介绍一下TCP/IP 模型和 OSI 模型的区别

OSI 模型是由国际标准化组织制定的一个用于计算机或通信系统间互联的标准体系,一共有七层,由上而下分别为应用层,表示层,会话层,传输层,网络层,数据链路层和物理层,虽然 OSI 模型理论…

华为网络模拟器eNSP安装部署教程

eNSP是图形化网络仿真平台,该平台通过对真实网络设备的仿真模拟,帮助广大ICT从业者和客户快速熟悉华为数通系列产品,了解并掌握相关产品的操作和配置、提升对企业ICT网络的规划、建设、运维能力,从而帮助企业构建更高效&#xff0…

Geoscene Pro的数据管理

GeoScene Pro是为新一代WebGIS平台而全新打造的一款具有高效、强大生产力且为全面国产的的高级桌面应用程序,可以对来自本地、GeoScene Online、或者GeoScene Portal的数据进行可视化、编辑、分析,可以同时在2D和3D中制作内容,并发布为要素服…

医疗器械维修行业发展及趋势

医疗器械维修的前景是广阔的。‌ 随着医疗技术的不断发展和进步,‌医疗器械的种类和数量持续增加,‌对专业维修人员的需求也在不断上升。‌无论是医院、‌诊所等医疗机构,‌还是医疗器械生产企业、‌销售企业等,‌都需要专业的维修…

Spark+实例解读

第一部分 Spark入门 学习教程:Spark 教程 | Spark 教程 Spark 集成了许多大数据工具,例如 Spark 可以处理任何 Hadoop 数据源,也能在 Hadoop 集群上执行。大数据业内有个共识认为,Spark 只是Hadoop MapReduce 的扩展&#xff08…

C语言常见字符函数和字符串函数精讲

目录 引言 一、字符函数 1.字符分类函数 2.字符转换函数 二、字符串函数 1.gets、puts 2.strlen 3.strcpy 4.strncpy 5.strcat 6.strncat 7.strcmp 8.strncmp 9.strstr 10.strchr 11.strtok 12.strlwr 13.strupr 引言 在C语言编程中,字符函数…

Rancher 快照备份至 S3 及备份恢复

AWS S3(Simple Storage Service)是亚马逊云服务提供的一种高度可扩展、安全且经济高效的对象存储服务。它允许用户在任何位置存储和检索任意数量的数据,非常适合存储和分发静态文件、备份数据以及作为数据湖的存储层。 集群备份 一、创建S3桶 1、登录…

PyTorch学习(1)

PyTorch学习(1) CIFAR-10数据集-图像分类 数据集来源是官方提供的: torchvision.datasets.CIFAR10()共有十类物品,需要用CNN实现图像分类问题。 代码如下:(CIFAR_10_Classifier_Self_1.py) import torch import t…

【Linux】玩转操作系统,深入刨析进程状态与调度机制

目录 1. 进程排队2. 进程状态的表述2.1. 进程状态2.2 运行状态2.3. 阻塞状态2.4. 挂起状态 3. Linux下具体的进程状态3.1. 运行状态R3.2. 可中断睡眠状态S3.3. 不可中断睡眠状态D3.4. 停止状态T3.5. 死亡状态X3.6. 僵尸状态Z 4. 孤儿进程5. 优先级6. Linux的调度与切换6.1. 四个…