什么是大数据?一文讲清大数据的概念、演进、趋势、产业链及关键技术!

前言

数字经济浪潮下,数据已成为当今最为核心的资源之一,数据成为推动企业和社会发展、转型、创新的新型生产要素。

大数据这个词,不管您是不是相关行业的从业者,也都听过无数遍了,但对于大多数人来说,并不能清楚的讲出什么是大数据。今天小兵尝试通过通俗的语言,结合贴近生活的例子,将大数据及相关的概念一次讲清楚。

图片

01 基本概念

1.1 大数据的定义

大数据:是指规模巨大、类型复杂多样,在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。

大数据技术:是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。

1.2 大数据的特征

图片

  • 规模巨大(Volume):大数据集合的规模通常超出传统数据库管理系统的处理能力,数据量可能达到TB、PB甚至EB级别。这种规模的数据需要强大的存储和处理能力,以确保数据的高效管理和分析。

  • 类型多样(Variety):大数据的多样性指的是数据的来源和格式多种多样,包括结构化数据、半结构化数据和非结构化数据。传统的数据库和数据管理解决方案缺乏灵活性且功能范围有限,根本无法应对大数据中各种不同且复杂的数据集。

  • 处理速度快(Velocity):大数据的生成、传输和处理的速度非常快,借助大数据技术(如分布式技术、流处理技术等),能极大的增加数据处理速度,确保系统能够实时响应。

  • 价值密度低(Value):大数据的数据量很大,但是价值密度很低。需要通过深度分析和挖掘才能发现和发挥大数据的价值。

1.3 大数据的级别

先通过表格介绍一下数据的级别:

1 KB=1024 B1个TXT文本文件的大小为几KB
1 MB=1024 KB1份word文档或1首音乐的大小为几MB
1 GB=1024 MB一部720P的电影大小约为5GB
1 TB=1024 GB电脑主流的硬盘为1TB/2TB/4TB
1 PB=1024 TB约21万部720P的电影
1 EB=1024 PB约2000个机柜的硬盘存储设备总容量
1 ZB=1024 EB全球已存储的所有数据总规模约几十ZB

上表中蓝色字体部分,也就是1PB以上规模的,我们通常算作大数据级别。举一些大数据级别的例子:

  • 1辆自动驾驶汽车每天可以产生的数据:60 TB

  • 1个智慧工厂每天可以产出的数据:1 PB

  • 1座智慧城市每天可以产出的数据:2.5 PB

  • 大型强子对撞机实验每年产出的数据:25 PB

  • 谷歌搜索引擎的数据总规模(2021年)为:62 PB

  • 预计到2025年,全球数据量将达到:175 ZB

图片

1.4 大数据的来源

  • 传统企业数据:

    包括CRM用户数据、ERP 数据、库存数据、人事数据、财务数据等。

  • 机器和传感器数据:

    包括设备日志、智能仪表、工业传感器、环境传感器、摄像头等。

  • 社交数据:

    包括用户行为记录、访问记录、UGC内容、反馈数据等。

1.5 大数据的类型

数据按照结构可以分为结构化数据、非结构化数据、半结构化数据

图片

数据按照访问频率可以分为热数据、温数据、冷数据

图片

  • 热数据:约占整体数据的5%,访问频率极高,需要能够快速读写,实时响应业务系统

  • 温数据:约占整体数据的15%,访问频率适中,读写性能要求一般。

  • 冷数据:约占整体数据的80%,可以说大部分数据均属于冷数据,很少被访问,对读写性能要求较低,通常为归档存储的一些历史数据,需要长期进行保存。

1.6 大数据与传统数据的区别

通过表格对传统数据和大数据进行对比:

图片

02 大数据的发展演进

2.1 大数据的发展(国际)

  • 1980年,美国作家阿尔文 ·托夫勒在《第三次浪潮》书中,将“大数据”称为“第三次浪潮的华彩乐章”。

  • 1997年,美国宇航局研究员迈克尔 ·考克斯和大卫 ·埃尔斯沃斯首次使用“大数据”这一术语来描述海量数据带来的挑战。数据之大,超出了存储器的承载能力,称之为“大数据问题”。

  • 2006年,云计算出现。2007-2008年,社交网络激增,刺激了大数据技术的发展。

  • 2011年6月,麦肯锡发布报告,正式定义了大数据的概念,后逐渐受到了各行各业关注。

  • 2012年1月瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》宣称,数据已经成为一种新的经济资产类别。

  • 2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。

2.2 大数据的发展(国内)

  • 2011年12月,工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这些是大数据的重要组成部分。

  • 2014年,“大数据”首次出现在当年的《政府工作报告》中。《报告》中指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。

  • 2015年,大数据上升到国家战略层面,我国政府于2015年8月通过了《关于促进大数据发展的行动纲要》。

  • 2015年10月26日至29日,党的十八届五中全会召开,公报提出要实施“国家大数据战略”,这是大数据第一次写入党的全会决议,标志着大数据战略正式上升为国家战略,五中全会开启了大数据建设的新篇章。

  • 2022年,中共中央国务院《关于构建数据基础制度更好发挥数据要素作用的意见》,初步搭建我国数据基础制度20条政策举措,简称“数据二十条”。

  • 2023年10月,国家数据局正式挂牌成立,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设。

图片

2.3 大数据面临的挑战

  • 需求模糊

    业务部门需求模糊,企业处于观望状态,担心投入回报。

  • 数据孤岛

    政府部门或企业内部数据碎片化,无法相互打通,没有进行关联和整合,无法发挥数据价值。

  • 数据流失

    企业保存数据的成本较高,导致大量的有价值历史数据被遗弃,数据资产流失。

  • 数据质量差

    企业忽视了大数据的预处理阶段,导致数据处理很不规范,影响了数据的准确率和可用性。

  • 数据安全隐患

    安全威胁日益增加,对系统和数据进行保护的难度也随之增加。

  • 隐私保护

    隐私权益保护的法律法规越来越严格,企业需要进行合规审计,合理合法地进行数据收集和利用。

  • 人才缺乏

    大数据相关人才的欠缺,对大数据技术和市场发展形成了一定阻碍。

2.4 大数据的未来趋势

图片

03 大数据的产业链

3.1 产业架构

图片

来源:艾瑞咨询

  • 基础层:是大数据技术的底层支撑环境,包括计算、存储、网络等基础硬件和数据库、中间件及相关系统等软件。

  • 技术层:包括大数据平台和数据中台,为大数据提供采集、集成、存储、组织、处理、分析、可视化等能力,并以数据服务的方式提供给应用层。

  • 应用层:是面向各行业和场景的应用系统和解决方案。

3.2 大数据产业链

图片

3.3 大数据的应用领域

图片

04 大数据的关键技术

4.1 大数据的技术演进

我们可以把大数据的技术演进理解为数据存储技术与数据计算技术的演进,这两个领域的技术是大数据技术的核心。

图片

  • 1960年代,能够统一管理和共享数据的数据库管理系统(DBMS)  诞生;

  • 1990年代,为满足企业数据分析的诉求,数据仓库诞生;

  • 2000年代,以Hadoop为代表的大数据技术体系诞生,大数据研究框架成型;

  • 2010年代,在云技术的带动下,云上纯托管的存储系统逐步取代HDFS,  开始出现数据湖;·

  • 2020年代,开始逐渐走向“云湖共生”、“湖仓一体”。

4.2 大数据的技术栈

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1540596.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

共享单车轨迹数据分析:以厦门市共享单车数据为例(五)

先来聊聊啥是共享单车电子围栏? 共享单车电子围栏是一种基于地理位置技术的虚拟边界,用于管理和规范共享单车的停放和使用。这种技术通过在地图上划定特定区域,帮助用户了解哪些地方可以停车,哪些地方不能停车,从而减…

博导团队指导、解读实验结果、SCI论文润色

表观组: DAP-seq:转录因子-DNA互作研究工具 ATAC-seq :染色质开放程度研究工具 H3K4me3 ChIP-seq:组蛋白甲基化修饰工具 BS-seq :DNA甲基化研究工具 H3K27ac ChIP-seq:组蛋白乙酰化修饰研究工具 Cut&Tag:转录因子研究工具 ChIP-seq:转录因子-DNA互作工具 互作组…

HarmonyOS学习(十三)——数据管理(二) 关系型数据库

文章目录 1、基本概念2、运行机制3、默认配置与限制4、接口说明5、实战:开发“账本”5.1、创建RdbStore5.2、创建数据库5.3、增加数据5.4、删除数据5.5、修改数据5.6、查询数据5.7、备份数据库5.8、恢复数据库5.9、删除数据库 官方文档地址: 通过关系型…

IDEA配置全局的maven环境

1、关闭掉所有打开的项目,然后点击All settings 2、配置maven home path、user setting file、local repository。 3、配置JRE的版本 4、配置字节码版本

【RabbitMQ】死信队列、延迟队列

死信队列 死信,简单理解就是因为种种原因,无法被消费的消息。 有死信,自然就有死信队列。当一个消息在一个队列中变成死信消息之后,就会被重新发送到另一个交换器中,这个交换器就是DLX(Dead Letter Excha…

对于C++继承中子类与父类对象同时定义其析构顺序的探究

思考这样一串代码的运行结果&#xff1a; #include <iostream> using namespace std; class Person { public:~Person() { cout << "~Person()" << endl; } }; class Student:public Person { public:~Student() { cout << "~Student(…

谷歌做外链的文章一定要原创吗?

在谷歌上做外链发布时&#xff0c;原创文章是必须的。虽然你可能会想到用一篇文章群发到很多网站&#xff0c;但这种做法并不会带来太大的SEO效果。谷歌非常重视内容的独特性和相关性。如果同样的文章重复发布到多个网站&#xff0c;搜索引擎很快就会识别出这种策略&#xff0c…

开发谷歌插件之GA埋点

目录 一、背景 二、踩坑 三、谷歌插件开发的GA埋点的实现方式 一、背景 开发了一个谷歌插件&#xff0c;领导需要对用户的一些行为进行分析&#xff0c;于是让我在代码里面加上GA埋点。由于我们的PC端的项目一直都有进行GA埋点&#xff0c;当时就想着&#xff0c;这不就是把…

页面关键路径渲染详解

关键路径渲染 浏览器不会等待全部资源都下载完后才进行渲染&#xff0c;而是采用渐进式的渲染方式&#xff0c;本文就介绍一下这种渐进式的渲染方式。 当浏览器获取到用于呈现网页的资源后&#xff0c;通常就会开始渲染网页。那么究竟是在什么时候就会开始渲染&#xff1f; …

LeetCode讲解篇之220. 存在重复元素 III

文章目录 题目描述题解思路题解代码 题目描述 题解思路 我们可以考虑存储数组中连续indexDiff个数字&#xff0c;这样我们只需要在这连续的indexDiff个数字中查找相差小于等于valueDiff的两个数字的问题 对于该查找问题&#xff0c;我们可以考虑使用以valueDiff大小为一个桶&a…

大厂程序员的健身之路

大厂程序员的健身之路 基本信息饮食正餐营养补剂 睡眠训练计划 基本信息 健身时间&#xff1a;2023.03 -> 2024.09体重变化&#xff1a;52kg -> 67kg 饮食 正餐 早餐&#xff1a;不吃午餐&#xff1a;两碗米饭 鱼/鸡肉 蔬菜 酸奶晚餐&#xff1a;两碗米饭 鱼/鸡肉…

简单题35-搜索插入位置(Java and Python)20240919

问题描述&#xff1a; Java&#xff1a; class Solution {public int searchInsert(int[] nums, int target) {int k 0;int i 0;while(i<nums.length){if(nums[i]target){return i;}if(nums[i]<target){k i1;}i;}return k;}}class Solution(object):def searchInsert(…

6.C_数据结构_查询_哈希表

概述 哈希表的查询是通过计算的方式获取数据的地址&#xff0c;而不是依次比较。在哈希表中&#xff0c;有一个键值key&#xff0c;通过一些函数转换为哈希表的索引值。 其中&#xff1a;这个函数被称为哈希函数、散列函数、杂凑函数&#xff0c;记为&#xff1a;H(key) 哈希…

NFT Insider #148:The Sandbox 推出 SHIBUYA Y3K 时尚系列,Azuki 进军动漫 NFT 领域

市场数据 加密艺术及收藏品新闻 Infinex 新推 NFT 系列首四日销售额破4000万美元 尽管顶级 NFT 系列表现不佳&#xff0c;Infinex 的最新 NFT 系列在首四日内销售额已超过 4000 万美元。Infinex 是一个非托管平台&#xff0c;提供轻松访问链上协议和 dApp。 Infinex Core 的…

189 轮转数组

解题思路&#xff1a; \qquad 首先要理解轮转的含义&#xff0c;轮转 将数组末尾元素移动至首位。轮转k不为负数&#xff0c;那如果k大于数组长度时会发生什么&#xff1f;定义n为数组长度&#xff0c;当k n时&#xff0c;数组元素的顺序又恢复成初始状态&#xff0c;下一次…

翻唱技巧:AU和Cubase翻唱录制对轨技巧

分享和记录一下个人翻唱的经验和技巧&#xff01;防止后续自己忘了&#xff01;同时如果有大佬看到&#xff0c;希望可以帮我指出其中的错误&#xff01;个人推荐用Cubase12录制翻唱&#xff0c;因为Cubase12可以做乐段的标记&#xff0c;翻唱时有助于学习一些歌曲的层次设计。…

opengl-redbook环境搭建(静态库)

所需库下载 gl3w(github地址)https://github.com/skaslev/gl3w 使用python3执行根目录下的gen脚本&#xff0c;会生成头文件include文件夹和src下gl3w.c文件。 glfw(github地址)https://github.com/glfw/glfw 本文项目结构 本文如红宝书一致&#xff0c;将glfw和gl3w引入…

【C高级】有关shell脚本的一些练习

目录 1、写一个shell脚本&#xff0c;将以下内容放到脚本中&#xff1a; 2、写一个脚本&#xff0c;包含以下内容&#xff1a; 1、写一个shell脚本&#xff0c;将以下内容放到脚本中&#xff1a; 1、在家目录下创建目录文件&#xff0c;dir 2、dir下创建dir1和dir2 …

【JAVA入门】Day48 - 线程池

【JAVA入门】Day48 - 线程池 文章目录 【JAVA入门】Day48 - 线程池一、线程池的主要核心原理二、自定义线程池三、线程池的大小 我们之前写的代码都是&#xff0c;用到线程的时候再创建&#xff0c;用完之后线程也就消失了&#xff0c;实际上这是不对的&#xff0c;它会浪费计算…

网络流之最大流(EK 模板)

EK的时间复杂度是O( )。 EK 算法 和 dinic 算法的区别是 &#xff1a;EK是通过 bfs 找到一条增广流&#xff0c;然后累加&#xff0c;循环此步骤直到 bfs 找不到增广流&#xff1b;而 dinic 算法 是通过 bfs 分层找到一条增广流&#xff0c;然后通过 dfs 跑完 当前分层图中所…