什么是大数据?初学者快速入门手册

在这里插入图片描述
“大数据”这个词有点用词不当,因为它意味着预先存在的数据在某种程度上是小的(事实并非如此),或者唯一的挑战是其庞大的规模(规模是其中之一,但通常还有更多)。简而言之,“大数据”一词适用于无法使用传统流程或工具处理或分析的信息。在本文中,我们将探讨大数据的概念及其含义。我们还将详细探讨大数据的三个主要特征。

如今,企业正日益面临越来越多的大数据挑战。他们可以接触到大量的信息,但他们不知道如何从中获得价值,因为这些信息都是最原始的形式,或者是半结构化或非结构化的形式。因此,他们甚至不知道它是否值得保留(甚至不知道是否能够保留)。大数据平台为这些问题提供了解决方案。

什么是大数据?

IBM的一项调查发现,如今超过一半的商业领袖意识到,他们无法获得敏锐的洞察力。企业正面临着这些挑战,因为它们有能力存储任何东西,它们正在以前所未有的方式生成数据;综合起来,这是一个真正的信息挑战。

这是一个难题:今天的业务比以往任何时候都有更多的机会获得潜在的洞察力,然而随着这个潜在的数据的积累,业务可以处理的数据百分比正在迅速下降。很简单,大数据时代在今天全面展开,因为世界正在发生变化。

通过仪器,我们能够感知更多的东西,如果我们能感知到它,我们倾向于尝试存储它。随着通信技术的进步,人和物之间的联系越来越紧密,而且不仅仅是在某些时候,而是一直如此。这种互联速度就像一列失控的火车。通常被称为机器对机器(M2M)的互连,是造成数据年增长率达到两位数的原因。

大数据应用实例

由于小型集成电路现在如此便宜,我们几乎可以为所有东西添加智能设备。即使是像火车车厢这样普通的东西也有数百个传感器。在铁路车厢上,这些传感器跟踪诸如铁路车厢所经历的状况、单个部件的状态以及用于货物跟踪和物流的基于GPS的数据。在火车脱轨造成大量人员伤亡后,各国政府出台了相关法规来存储和分析这类数据,以防止未来发生灾难。

轨道车辆也变得越来越智能。火车上的处理器现在可以解读诸如轴承等易磨损部件的传感器数据,便在部件出现故障并造成进一步损坏 —— 或者更糟糕的是,灾难 —— 之前识别出需要维修的部件。但不仅仅是轨道车辆是智能的——实际的轨道每隔几英尺就有传感器。此外,数据存储需求是针对整个生态系统的:车厢、铁轨、铁路道口传感器、导致铁轨移动的天气模式等等。

现在把传感器添加到跟踪火车车厢的货物装载和到达和离开时间中,你很快就会发现这是一个大数据问题。即使所有这些数据都是有关系的(但实际上并非如此),它们也都是原始数据,并且具有非常不同的格式,使得在传统的关系型系统中处理这些数据变得不切实际甚至不可能。铁路车厢只是一个例子,但我们看到,在我们目光所及之处,速度、容量和多样性结合在一起,在各个领域都造成了大数据问题。

大数据的特点是什么?

定义大数据的三个特征:数量、种类和速度。

这些特征共同定义了“大数据”。它们创造了对一类新功能的需求,以增强当今事物的处理方式。这为我们提供了对现有知识领域更好的洞察力和控制力,以及对其采取行动的能力。

  1. 数据量

如今存储的数据量正呈爆炸式增长。2000年,全世界存储了80万兆字节(PB)的数据。当然,今天创建的许多数据根本没有经过分析,这是另一个需要考虑的问题。2020年,这一数字达到35泽字节(ZB)。仅Twitter每天就产生超过7TB的数据,Facebook每天产生10TB的数据,而一些企业在一年中的每一天每小时都会产生TB的数据。单个企业拥有存储PB级数据的存储集群已不再是闻所未闻。

当你停下来思考时,我们淹没在数据中也就不足为奇了。我们存储所有的数据:环境数据、金融数据、医疗数据、监控数据等等。例如,办理登机手续、打卡上班、在 iTunes 上购买一首歌曲、更换电视频道、走电子收费道路 —— 这些行动中的每一个都会产生数据。

好了,你明白我的意思了:现在的数据比以往任何时候都多,你所要做的就是看看个人家用电脑的TB级渗透率就知道了。大约十年前,我们曾经列出我们所知道的所有超过 TB 级的数据仓库 —— 可以说,在数据量方面,情况已经发生了变化。

正如“大数据”一词所暗示的那样,组织正面临着海量的数据。不知道如何管理这些数据的组织会被其淹没。但是,有了合适的技术平台,就有机会分析几乎所有的数据(或者至少通过识别对您有用的数据来分析更多的数据),从而更好地了解您的业务、客户和市场。这就导致了当今各行各业的企业所面临的难题。

随着企业可用的数据量不断增加,企业可以处理、理解和分析的数据百分比却在下降,从而产生了盲区。

盲区里有什么?

你不知道:它可能是非常有价值的东西,也可能什么都不是,但 “不知道” 就是问题所在(或者说是机会所在,这取决于你如何看待它)。关于数据量的讨论已经从 TB 级别转变为 PB 级别,并且不可避免地会向 ZB 级别转变,而所有这些数据都无法存储在传统的系统中。

  1. 数据的多样性

与大数据现象相关的数据量给试图处理它的数据中心带来了新的挑战:它的多样性。

随着传感器、智能设备和社会协作技术的爆炸式增长,企业中的数据变得越来越复杂。它包括传统的关系型数据以及原始的半结构化数据。它还包括来自网页、weblog文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等的非结构化数据。

此外,传统系统可能难以存储和执行所需的分析,以了解这些日志的内容。这是因为生成的许多信息本身不适合传统的数据库技术。根据我的经验,虽然一些公司正在沿着这条路走下去,但总的来说,大多数公司才刚刚开始理解大数据带来的机遇。

简单地说,多样性代表了所有类型的数据——这是分析需求从传统结构化数据向包括原始、半结构化和非结构化数据的根本转变。传统的分析平台无法处理多样性。然而,一个组织的成功将依赖于它从各种可用的数据中获取见解的能力,这些数据包括传统的和非传统的。

当我们回顾我们的数据库生涯时,有时会很惭愧地发现,我们花了更多的时间在20%的数据上:关系型数据格式整齐,非常适合我们严格的模式。但事实是,世界上80%的数据(越来越多的数据创造了新的速度和容量记录)最多是非结构化或半结构化的。如果您查看Twitter提要,您将看到JSON格式的结构—但是实际文本不是结构化的,理解这一点是有益的。

视频和图片图像不容易或有效地存储在关系数据库中。某些事件信息可以动态更改(例如天气模式),这并不适合严格的模式等等。为了利用大数据的机会,企业必须能够分析所有类型的数据,包括关系数据和非关系数据:文本、传感器数据、音频、视频、交易数据等等。

  1. 数据的速度

正如我们收集和存储的数据的绝对数量和多样性发生了变化一样,数据生成的速度以及需要处理的速度也发生了变化。对速度的传统理解通常考虑数据到达和存储的速度以及相关的检索速率。虽然快速管理所有这些是好事 —— 而我们所关注的数据量是数据到达速度的结果。

为了适应速度,思考问题的新方法必须从数据的初始点开始。与其将速度的概念局限于与数据存储库相关的增长率,不如将此定义应用于动态数据:数据流动的速度。

毕竟,我们一致认为,今天的企业正在处理pb级而不是tb级的数据,RFID传感器和其他信息流的增加导致了数据的持续流动,这使得传统系统无法处理。有时候,想要在竞争中获得优势,可能意味着比别人早几秒,甚至几微秒就能发现趋势、问题或机会。

如今,越来越多的数据的保质期都很短,因此,如果企业希望深入了解这些数据,就必须能够近乎实时地分析这些数据。在传统处理中,您可以考虑对相对静态的数据运行查询:例如,查询“Show me all people living In the ABC flood zone”将产生一个结果集,用作即将到来的天气模式的警告列表。使用流计算,您可以执行一个类似于连续查询的过程,识别当前“在ABC洪泛区”的人,但是您会得到持续更新的结果,因为来自GPS数据的位置信息是实时刷新的。

有效地处理大数据需要你在数据处于运动状态时就对数据量和多样性进行分析,而不是在数据静止后才进行分析。考虑从跟踪新生儿健康到金融市场的例子;在每种情况下,它们都需要以新的方式处理大量和各种数据。

结论

您无法在传统流程中筛选所有可用的数据。只是有太多的数据,而已知的价值却太少,而且风险太大。大数据平台允许您以经济的方式存储和处理所有数据,并发现有价值和值得开发的内容。此外,由于我们讨论了静态数据和动态数据的分析,因此您可以从中发现价值的实际数据不仅范围更广,而且您可以更快地实时使用和分析它。

本文转载自 雪兽软件
更多精彩推荐请访问 雪兽软件官网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1543848.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

预计2030年全球GO电工钢市场规模将达到120.6亿美元

GO电工钢,又称为冷轧取向电工钢。GO电工钢按重量计含硅量至少为0.6%,含碳量不超过0.08%,可含有不超过1.0%的铝,所含其他元素的比例并不使其具有其他合金钢的特性;厚度不超过0.56毫米;呈卷状的,则…

Mac端口扫描工具

文章目录 端口扫描工具域名/ip转换Lookupping功能端口扫描 端口扫描工具 Mac内置了一个网络工具 网络使用工具 按住 Command 空格 然后搜索 “网络实用工具” 或 “Network Utility” 即可 域名/ip转换Lookup ping功能 端口扫描 参考文献 端口扫描工具

小柴冲刺软考中级嵌入式系统设计师系列二、嵌入式系统硬件基础知识(1)数字电路基础

目录 一、信号特征 二、组合逻辑电路和时序逻辑电路 1、组合逻辑电路 2、时序逻辑线路 三、信号转换 1、数字集成电路的分类 2、常用电平接口技术 四、可编程逻辑器件 flechazohttps://www.zhihu.com/people/jiu_sheng 小柴冲刺嵌入式系统设计师系列总目录https://blo…

使用 TypeScript 接口优化数据结构

在现代软件开发中,数据结构的设计至关重要,它直接影响到程序的性能和可维护性。TypeScript 作为一种静态类型的超集,为 JavaScript 带来了类型系统,使得开发者可以在编译时期就发现潜在的类型错误。本文将探讨如何利用 TypeScript…

uboot无法使用nfs下载文件的问题

一、系统环境 见这篇博客。 二、问题描述 uboot使用nfs下载文件出现 “T T T”,一直无法下载 三、解决方法 编辑/etc/nfs.conf文件: sudo xed /etc/nfs.conf开启udp: udpy之后重启nfs服务器: sudo /etc/init.d/nfs-kernel-server re…

使用GLib进行C语言编程的实例

本文将讨论使用GLib进行编程的基本步骤,GLib是一个跨平台的,用C语言编写的3个底层库(以前是5个)的集合,GLib提供了多种高级的数据结构,如内存块、双向和单向链表、哈希表等,GLib还实现了线程相关的函数、多线程编程以及…

知识库管理系统的未来趋势:从单一平台到生态系统

在数字化浪潮的推动下,知识库管理系统(Knowledge Base Management System, KBMS)正逐步从传统的单一平台向更加开放、灵活、智能的生态系统转变。这一转变不仅体现了技术进步的必然结果,也深刻反映了市场需求的变化。本文将分析随…

如何使用GLib的单向链表GSList

单向链表是一种基础的数据结构,也是一种简单而灵活的数据结构,本文讨论单向链表的基本概念及实现方法,并着重介绍使用GLib的GList实现单向链表的方法及步骤,本文给出了多个实际范例源代码,旨在帮助学习基于GLib编程的读…

基于飞腾平台的OpenCV的编译与安装

【写在前面】 飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力,聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域,包含了应用使能套件、软件仓库、软件支持、软件适…

【LIO-SAM】LIO-SAM论文翻译(2020年)

【LIO】LIO-SAM论文翻译(2020年) 1.Abstract2.INTRODUCTION4.通过平滑和映射实现激光雷达惯性里程计A. 系统概述B. IMU Preintegration Factor(推导过程参阅)C. Lidar Od…

【我的 PWN 学习手札】fastbin reverse into tcache —— tcache key 绕过

目录 前言 一、tcache reverse into tcache 二、测试与模板 前言 之前提到过,较高版本的 glibc,设置了 key 对 tcachebin 内的 double free 进行了检查。 除了前面几篇手札罗列的绕过方法,今天又遇到一个,特此记录。之前利用…

Go 1.19.4 序列化和反序列化-Day 16

1. 序列化和反序列化 1.1 序列化 1.1.1 什么是序列化 序列化它是一种将程序中的数据结构(map、slice、array等)或对象状态转换成一系列字节序列的过程,这些字节可以被存储或通过网络发送。 在GO中,序列化通常涉及到将结构体或其…

VirtualBox+Vagrant快速搭建Centos7系统【最新详细教程】

VirtualBoxVagrant快速搭建Centos7系统 📖1.安装VirtualBox✅下载VirtualBox✅安装 📖2.安装Vagrant✅下载Vagrant✅安装 📖3.搭建Centos7系✅初始化Vagrantfile文件生成✅启动Vagrantfile文件✅解决 vagrant up下载太慢的问题✅配置网络ip地…

Apache Iceberg Architecture—Iceberg 架构详解

Apache Iceberg Architecture Apache Iceberg 的架构可以分为三个主要层次:Iceberg Catalog、元数据层和数据层。 一、 Iceberg Catalog(目录) Iceberg Catalog 是 Iceberg 的顶层组件,负责管理所有 Iceberg 表的元数据和元数据操…

HTML常用的文本标签

常用文本标签 <span>: 元素没有特定含义 <b>: 定义粗体文字 <i>: 定义斜体文字 <em>: 定义着重文字 <strong>: 定义加重语气 <del>: 定义删除字 <span>文本标签</span><br><b>文本标签</b><b…

Java框架学习(Spring)(tx)(03)

简介&#xff1a;以本片记录在尚硅谷学习ssm-spring-tx时遇到的小知识 详情移步&#xff1a;想参考的朋友建议全部打开相互配合学习&#xff01; 视频&#xff1a; 057-spring-tx-编程式和声明式事务理解_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1AP411s7D7?p5…

MySQL tinyint(1)类型数据在经过flink cdc同步到doris后只有0/1问题定位与解决

背景&#xff1a; 近期在负责公司数据仓库搭建事宜&#xff0c;踩了一些坑后&#xff0c;终于通了&#xff0c;目标报表也成功迁移到了新方案上&#xff0c;可在数据验收的时候发现&#xff0c;同一个订单查询出了多条记录&#xff0c;原本以为只是简单的left join出多条记录问…

Unreal Engine 5 C++: 插件编写03 | MessageDialog

在虚幻引擎编辑器中编写Warning弹窗 准备工作 FMessageDialog These functions open a message dialog and display the specified informations there. EAppReturnType::Type 是 Unreal Engine 中用于表示应用程序对话框&#xff08;如消息对话框&#xff09;返回结果的枚举…

【算法笔记】二分查找 红蓝染色法

目录 二分查找 红蓝染色法&#xff08;感谢灵神&#xff09;闭区间[left, right]左闭右开区间[left, right)开区间(left, right)变式 二分查找 红蓝染色法&#xff08;感谢灵神&#xff09; 这里是灵神的教学视频&#xff1a;二分查找 红蓝染色法_哔哩哔哩_ bilibili 学了二分…

ubuntu中通过源码安装pointnet2_ops_lib

注&#xff1a;本帖所用环境为&#xff1a;ubuntu 24.04、 cuda 12.04 文章目录 1. 克隆 PointNet 源码库2. 安装依赖3. 编译 pointnet2_ops_lib4. 测试安装 1. 克隆 PointNet 源码库 首先&#xff0c;克隆 PointNet 的 GitHub 仓库&#xff1a; git clone https://github.co…