数据质量指标:如何衡量数据的准确性

数据质量是任何数据驱动运营的重要组成部分。即使对于不打算将数据集出售给其他公司的企业,数据的质量和准确性也会极大地影响决策效率。

不幸的是,没有单一指标可以确保数据质量达到标准。您必须跟踪多个指标并不断关注它们。因此,维护数据质量是一个需要时间和精力的持续过程。

一、什么是数据质量?

数据质量是一个通用术语,指的是信息在其预期用途上的可用性。数据质量的一个简单例子是企业的会计信息。如果你查看每月的收入成本报告,它是否准确反映了实际支出和资金流入?

数据质量差会对整体业务绩效和决策产生巨大影响。如果收入成本报告不准确,企业可能会花费过多资金或不当再投资利润。

类似的情况也可能出现在其他领域,并导致决策者关注错误的产品、营销工作等。因此,数据质量指标对于维护信息来源和决策者的信任和信心至关重要。

另一方面,一流的数据质量将为有效的组织行动提供基础。决策者可以更轻松地选择营销活动和畅销产品,这可能会继续提高企业的盈利能力。

二、数据质量指标是什么?

大多数数据完整性和质量研究人员定义了两类数据质量指标(有时也称为维度)——内在和外在。

内在数据质量指标衡量准确性、完整性、一致性等内部因素。外在数据质量指标通过及时性、相关性、可靠性、可用性等方面衡量信息与现实世界的契合程度。

这两个类别对于高质量数据都至关重要。如果没有内在指标,数据可能难以分析,假设可能难以测试或验证。如果没有外在指标,数据可能难以适应现实世界的条件和决策。

内在数据质量维度通常由收集或分析团队管理和处理。数据值的准确性和完整性等因素完全独立于任何实际用例。换句话说,这些都是纯粹的分析概念。

因此,任何数据收集工作的早期阶段都必须实施数据质量控制。例如,管理数据源和验证是否收到准确信息就是控制要素之一。

此外,还应聘用数据工程师来管理数据仓库并规范化和清理信息。仓库通常会从众多内部和外部来源提取数据,其中所有内容的存储方式可能不同,从格式化到完全非结构化的信息。

外部数据质量维度由业务的另一端——利益相关者进行管理。他们应该能够清晰准确地定义用例,以避免低效的工作量和冗余数据的使用。虽然他们对提高数据质量几乎没有影响,但利益相关者必须确保信息得到适当利用。

三、数据质量指标的类型

有许多数据质量维度可以改进。虽然高质量数据理想情况下可以管理所有维度,但有时组织一次只能专注于改进其中几个维度。选择正确的数据质量维度对于数据质量评估至关重要。

内在

1.准确性

数据准确性衡量所收集信息对现实世界的描述程度。例如,发票是描述所提供服务、提供日期和付款的数据源。如果这些数据点中的任何一个不正确,则数据准确性就会下降。

但需要注意的是,数据准确性是有限的。如果只是发票上的日期有误,发票仍然是宝贵的数据来源。为了提高数据准确性,请创建参考集,通过其他人进行验证,或根据防止数据错误的规则进行检查。

2.完整性

数据完整性定义描述的总体性而非准确性。一张发票无法描述企业的全部收入和成本,但会计系统中的所有内容却可以。

完整性问题可以通过查找缺失字段或数据点来发现。也可以通过查看输入机制并衡量所提供的描述是否令人满意来验证。

3.一致性

数据一致性衡量值和数据点是否内部一致。在存在冗余数据点的情况下,可以通过查看值是否相同来验证。

一致性指标通常与数据集中值或实体的唯一性相关。此外,一致性方面的数据质量可以通过各种方法检查,例如引用数据完整性检查。

外在

1.可靠性

与数据完整性类似,可靠性是一种数据质量测量,它定义了来源和资源管理的信任度和可信度。可靠性的良好数据质量指标包括验证的难易程度、是否有足够的血统信息以及偏差是否已最小化。

还可以通过检查有多少用户尝试访问数据源以及在开展新项目时有多少用户出现或新创建来进行跟踪。

2.可用性

可用性定义了访问和查看数据的难易程度。例如,数据完整性和清晰度高的仪表板将具有良好的可用性。如果存在数据错误、歧义或解释困难,则表明可用性较低。

作为更实用的数据质量指标之一,大多数验证都是通过定性过程进行的。这些可能是要求以不同的方式呈现数据,要求提供解释帮助等。

四、如何开始使用正确的数据质量指标

很少有企业拥有开始实施上述所有数据质量措施所需的资源。如果我们添加一些较少提及的数据质量指标(有效性、充分性、偏差、简洁性等),那么所有企业可能都必须选择一些指标开始关注。

虽然内在数据质量指标的好处在于由较小的团队管理,因为没有利益相关者参与,但它们主要用于清晰度、优化和安全目的。

因此,最好从数据的用例和实际应用开始。如果一家公司收集和管理大量数据,那么他们很可能有一些实际应用。

在着手实施数据质量标准之前,您应该首先考虑哪些应用程序最有用,并努力提高其性能。

确定用例后,寻找利益相关者最常提出的问题。这些数据质量问题将为潜在改进领域提供指导。例如,低质量的数据可能会迫使用户不断手动验证信息。

提出的问题将与数据质量指标直接相关。例如,不断需要验证信息表明准确性和完整性方面存在数据质量问题。另一方面,不一致的数据值表明存在内部一致性问题。

一旦确定了这些领域,重要的是要建立衡量数据质量改进的方法。例如,如果用户通过自己访问仓库不断验证信息,那么此类操作的减少表明有所改进。

数据质量是任何使用信息支持决策的组织的命脉。数据质量差可能导致结论不准确、战略制定不当,甚至收入损失。

虽然有些人可能认为低质量意味着数据值不一致和管理不善,但这个过程远不止于此。管理数据质量意味着与各个部门密切合作,以确保信息可信、清晰、简洁。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1560245.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

阅读摘抄(七)——The best approach to address the misuse of body ideals

adj.道德的,伦理的,环保的,(药品)凭处方出售的 n/v.误用,滥用 v.虐待,不公平对待Relying on ethical persuasion rather than law to address the misuse of body ideals may bev.相信,依赖 n.说服力 persuade v.说服,劝服,使相信,使信服 …

【案例】—— 基于OpenCV方法的指纹验证

一、案例整体介绍 下图中上面一张指纹图片与下面两张图片中的其中一个指纹是同一个指纹分别将上面的指纹图片与下面的两张图片进行匹配验证在model(模板指纹图片)与验证的两张指纹图片的2次匹配中,分别需要提取出模板指纹图片与验证指纹图片的特征(特征检测)&#…

【论文阅读】SRCNN

学习资料论文题目:Learning a Deep Convolutional Network for Image Super-Resolution(学习深度卷积网络用于图像超分辨率)论文地址:link.springer.com/content/pdf/10.1007/978-3-319-10593-2_13.pdf代码:作者提出的…

Vue检测获取最新资源 解决浏览器缓存问题

Vue检测获取最新资源 解决浏览器缓存问题 1、在public文件夹下创建version.json文件2、vue.config.js中,每次打包动态更新version.json内容3、App.vue中使用定时器去检测版本号和本地是否有差异 背景:由于浏览器缓存问题,vue2项目发布后&…

【HTML】defer 和 async 属性在 script 标签中分别有什么作用?

需要这两个属性的原因? 首先我们要知道的是,浏览器在解析 HTML 的过程中,遇到了 script 元素是不能继续构建 DOM 树的。 它会停止解析构建,首先去下载 js 代码,并且执行 js 的脚本;只有在等到 js 脚本执行…

selenium自动化测试之Junit

1. 常用的注解 将junit的索引添加到pom文件&#xff1a; <!-- https://mvnrepository.com/artifact/org.junit.jupiter/junit-jupiter-api --><dependency><groupId>org.junit.jupiter</groupId><artifactId>junit-jupiter-api</artifactId&…

CPU超线程技术是什么,怎么启用超线程技术

超线程技术是一种允许单个物理CPU核心模拟成两个逻辑核心的技术&#xff0c;从而提升处理器的并行性能和效率。以下是对超线程技术的详细介绍&#xff1a; 基本概念&#xff1a;超线程&#xff08;Hyper-Threading&#xff0c;HT&#xff09;是Intel公司研发的一种技术&#x…

QD1-P12 HTML常用标签:表格

本节学习 HTML常用标签&#xff1a;表格标签table ‍ 本节视频 www.bilibili.com/video/BV1n64y1U7oj?p12 ‍ 知识点1 表格的基本结构 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>P12-表格标签</title><…

SpringBoot整合web中使用jsp

1、在pom.xml文件中导入jsp依赖的jar包&#xff0c;一个是jstl标签&#xff0c;一个是jsp的引擎 <dependency><groupId>org.apache.taglibs</groupId><artifactId>taglibs-standard-spec</artifactId><version>1.2.5</version> <…

如何在RuoYi-Vue项目中去除`/dev-api`前缀

前言 在使用RuoYi-Vue框架进行Web应用开发时&#xff0c;有时会遇到API路径需要特定前缀的问题。例如&#xff0c;在某些情况下&#xff0c;开发者可能希望移除或更改默认的/dev-api前缀。 问题描述 当使用YApi直接请求后台接口时&#xff0c;无需添加/dev-api前缀。在生成和…

Java入门——变量

变量和内存紧密联系在一起&#xff0c;主要通过以下方式实现关联&#xff1a; 一、变量的定义与内存分配 变量声明&#xff1a; 当在编程语言中声明一个变量时&#xff0c;编译器或解释器会根据变量的类型在内存中为其分配一块特定大小的空间。 例如&#xff0c;在 C 语言中声明…

包材推荐中的算法应用|得物技术

目录 一、业务背景 二、算法架构 规则算法 三、算法原理 装箱装袋 四、衍生应用 切箱合包箱型设计包装方案推荐 五、作者结语 一、业务背景 任何一家电商的商品出库场景中&#xff0c;都涉及到打包——即把订单中的商品用包材进行包裹&#xff0c;常见的打包方式有装袋和装箱。…

算法复杂度 (数据结构)

一. 数据结构前言 1.1 什么是数据结构 数据结构(Data Structure)是计算机存储、组织数据的方式&#xff0c;指相互之间存在一种或多种特定关系的数据元素的集合。没有一种单一的数据结构对所有用途都有用&#xff0c;所以我们要学各式各样的数据结构&#xff0c;如&#xff1…

[Qt] 信号与槽:深入浅出跨UI与跨线程的信号发送

文章目录 如何自定义信号并使用自定义信号的步骤1.使用 signals 声明信号2. 信号的返回值是 void3. 在需要发送信号的地方使用 emit4. 使用 connect 链接信号和槽5. 完整代码示例总结 如何跨UI发送信号Qt跨UI发送信号机制详解案例概述Qt 信号与槽机制简介代码逻辑详解主窗口 Wi…

进程通讯方式区别(从不同角度看)

*常用到的不同主机间进程通讯&#xff1a;Socket。比如&#xff1a;host和引擎间socket指令通讯、分派和复判之间指令通讯&#xff1b; *共享内存&#xff1a;在Windows系统中&#xff0c;共享内存的实现通常有以下几种方式&#xff1a; 1.内存映射文件(最常用)&#xff1a;(…

计算机毕业设计 医院预约挂号系统的设计与实现 Python毕业设计 Python毕业设计选题【附源码+安装调试】

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

【01】手把手教你0基础部署SpringCloud微服务商城教学-Mybatis篇(上)

序言&#xff1a; 微服务是一种软件架构风格&#xff0c;它是以专注于单一职责的很多小型项目为基础&#xff0c;组合出复杂的大型应用。 想学习SpringCloud搭建项目&#xff0c;首先我们需要学习的就是Mybatis和Docker。 大家在日常开发中应该能发现&#xff0c;单表的CRUD…

没人告诉你的职场人情世故

看到前同事在群里分享的新年开工遭遇&#xff0c;真是让人感同身受。 第一天就遇到挫折&#xff0c;因为工作做得太快、太早交付&#xff0c;结果反被领导批评&#xff0c;还得重做&#xff0c;头大如斗。这不就提醒我们得时时刻刻记着职场里的那些不成文的规矩吗&#xff1f;…

【C++】常用数据结构纲要(简易版)

非静无以成学。——诸葛亮 数据结构概括 1、什么是数据结构呢&#xff1f;2、讲述过的结构2、1、前言2、2、树->二叉树->两种平衡二叉树2、3、单链表->双链表->带有哨兵位的链表 3、B树3、1、概念及图示3、2、B树数据处理3、2、1、查找3、2、2、插入 4、哈希表4、1…

测试点总结 | 搜索功能如何测试?

这里仅针对通用搜索框的常见测试点进行总结分享&#xff0c;实际工作中需结合搜索功能的背景业务需求及其他依赖条件来综合设计测试点。 一、功能实现部分 &#xff08;1&#xff09;如果支持模糊查询&#xff0c;搜索名称中任意一个字符是否能搜索到 对于支持模糊查询的搜索…