大数据挖掘

大数据挖掘

数据挖掘

数据挖掘定义

技术层面:

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又==潜在有用的信息==的过程。

数据准备环节

数据选择 质量分析 数据预处理

数据仓库

从多个数据源搜集的信息存放在一致的模式之下

特征化

对目标数据的一般特性和特征汇总

聚类分析

最大化类内相似度 最小化类间相似性

数据准备

大数据定义

超出正常处理范围

海量数据+复杂类型的数据 构成

数据对象

组成数据集的元素,每个数据对象均为一个实体

数据对象由属性描述

数据的正确性分析

缺失值

数据错误

度量标准错误

编码不一致

处理缺失数据

忽视

较小缺失率 有缺失值的样本或属性

人工补全缺失值

重新采样

领域知识

自动补全缺失值

固定值

均值

基于算法

插补法

均值插补

回归插补

极大似然估计

噪声过滤

回归法

均值平滑法

离群点分析

处理噪声数据

局部离群因子LOF计算

数据量

子集选择

数据量太大

减小时间复杂度

数据聚合

尺度变换

数据更稳定

调整类分布

不平衡数据

哈尔小波交换

通过调整分辨率

数据标准化

最小最大标准化

Z-score标准化

大数据挖掘与分析

邻近性

相似性和相异性统称为邻近性

数据矩阵

存放数据对象

相异性矩阵

存放数据对象的相异性值

二元属性邻近性

数值数据距离

闵可夫斯基距离

h=1 2 正无穷

维度诅咒

基于距离的聚类在高纬度下无效

在高维情况下 P(0,1)更有效

逆文档频率

IDF 或 Goodall度量

基本思路:

将基本词汇看做全部属性的集合

每个词频是属性的值

余弦度量

余弦相似度

逆文档频率 阻尼系数

累计距离矩阵(大概率)

计算等图

算法题目APRIORI

基本的Apriori算法
Apriori算法的基本思路是采用层次搜索的迭代方法,由候选(k-1)-项集来寻找候选k-项集,并逐一判断产生的候选k-项集是否是频繁的。
  设C k 是长度为k的候选项集的集合,L k 是长度为k的频繁项集的集合。为了简单,设最小支持度阈值min_sup为最小元组数,即采用最小支持度计数。

输入:事务数据库D,最小支持度阈值min_sup。
输出:所有的频繁项集集合L。
方法:其过程描述如下:
通过扫描D得到1-频繁项集L1;
for (k=2;Lk-1!=Ф;k++)
{      Ck=由Lk-1通过连接运算产生的候选k-项集;for (事务数据库D中的事务t){	求Ck中包含在t中的所有候选k-项集的计数;Lk={c | c∈Ck and c.sup_count≥min_sup};//求Ck中满足min_sup的候选k-项集}
}
return L=∪kLk;

image-20241117205741890

这是通过Apriori计算最大频繁项集 和 计算强关联规则的题目

要求为超过最小支持度 最小支持度的计算很简单

即为

image-20241117210643736

算法题目FPgrowth

image-20241117221313668

image-20241117213402342

条件模式基的寻找

在FPtree的项目里倒着找,沿着虚线将出现的频次进行统计,,写出条件模式基

条件FP Tree

沿着条件模式基画FP Tree

记得剪去最小支持度不够的项

频繁项集

将条件FPtree与项进行组合 得到频繁项集

列式计数Apriori算法

使用垂直数据格式挖掘频繁项集

image-20241117221755170

关联模式挖掘

超集

包含了另一个集合中所有元素的集合为超集

闭模式

一个频繁项集 没有任何它的超集具有与他相同的支持度

也就是不被冗余覆盖的核心模式

闭模式显著减少了需要存储的频繁模式数量

可以推导出所有频繁模式及其支持度

极大模式

没有频繁的超集

极大模式只保留频繁模式中“最大”的部分

无法还原所有频繁模式的支持度信息

提示:职业规划、创作规划等​​

Tips

  1. 您发布的文章将会展示至 里程碑专区 ,您也可以在 专区 内查看其他创作者的纪念日文章
  2. 优质的纪念文章将会获得神秘打赏哦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/18380.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

leetcode101:对称二叉树

给你一个二叉树的根节点 root , 检查它是否轴对称。 示例 1: 输入:root [1,2,2,3,4,4,3] 输出:true示例 2: 输入:root [1,2,2,null,3,null,3] 输出:false提示: 树中节点数目在范围…

湘潭大学软件工程算法设计与分析考试复习笔记(一)

文章目录 前言随机类(第七章)随机概述数值随机化舍伍德拉斯维加斯蒙特卡罗 模拟退火遗传人工神经网络 回溯(第五章)动态规划(第四章)后记 前言 考试还剩十一天,现在准备开始复习这门课了。好像全…

Win11专业版Docker安装、配置记录

零,系统环境配置 首先,安装Docker需要系统支持开启硬件虚拟化及Hyper-V功能,所以这里需要Win10/11的专业版,这样才能进行Docker for Windows软件安装。 1,硬件虚拟化 至于如何开启硬件虚拟化,自行百度即…

【Android】线程池的初见

引言 在Android当中根据用途分为主线程与子线程,主线程当中主要处理与界面相关的操作,子线程主要进行耗时操作。除了Thread本身以外,在Android当中还有很多扮演者线程的角色,比如AsyncTask( 底层为线程池,…

春秋云镜-2022网鼎杯

flag1 进入网站,发现是wordpress,这种一般都不会有啥直接漏洞,应该是插件漏洞,或者弱口令 fscan扫描ip 好像没扫出啥东西 wp-login进入后台 爆破密码,弱口令admin,123456,之前lazysysadmin好…

js ResizeObserver API

一、ResizeObserver 是什么 ResizeObserver 是一个浏览器提供的 JavaScript API,用于监测一个元素的大小变化。它可以帮助开发者在元素的宽度或高度发生改变时执行某些操作,比如调整布局、重新渲染内容等。 二、Resize Observer和监听resize的区别及其…

《探索Zynq MPSoC》学习笔记(三)

引言:本文简要介绍FPGA器件技术发展以及当今FPGA器件的体系架构和特性。 第二章 FPGA、Zynq和Zynq MPSoC(2) 在本章涵盖的三种器件类型中,FPGA是建立时间最长的,也是Zynq和Zynq MPSoC器件PL元件的基础。因此&#xf…

支持用户注册和登录、发布动态、点赞、评论、私信等功能的社交媒体平台创建!!!

需要整体源代码的可以在我的代码仓下载https://gitcode.com/speaking_me/social-media-platformTest.git 社交媒体平台 描述:社交媒体平台需要支持用户注册、发布动态、点赞、评论、私信等功能。 技术栈: 前端:React, Angular, Vue.js后端…

跨平台WPF框架Avalonia教程 十五

ListBox 列表框 列表框从元素源集合中显示多行元素,并允许选择单个或多个。 列表中的元素可以组合、绑定和模板化。 列表的高度会扩展以适应所有元素,除非特别设置(使用高度属性),或由容器控件设置,例如…

STL之mapset续|红黑树篇

STL之map&set续|红黑树篇 红黑树红黑树的规则红黑树的模拟实现 map&set的模拟实现封装map/set关于红黑树的复用红黑树模板参数set的const迭代器问题 红黑树 红黑树也是一种搜索二叉树,它通过颜色和规则控制树上没有一条路径会比其他路径长两倍,…

三、计算机视觉_03LeNet5及手势识别案例

1 LeNet-5基本介绍 LeNet-5是一种经典的卷积神经网络(CNN)架构,由Yann LeCun在1998年提出,用于手写数字识别,LeNet-5是卷积神经网络的开创性工作之一,它引入了卷积层、池化层和全连接层的组合,为…

【论文模型复现】深度学习、地质流体识别、交叉学科融合?什么情况,让我们来看看

文献:蓝茜茜,张逸伦,康志宏.基于深度学习的复杂储层流体性质测井识别——以车排子油田某井区为例[J].科学技术与工程,2020,20(29):11923-11930. 本文目录 一、前言二、文献阅读-基于深度学习的复杂储层流体性质测井识别2.1 摘要2.2 当前研究不足2.3 本文创新2.4 论文…

Uni-APP+Vue3+鸿蒙 开发菜鸟流程

参考文档 文档中心 运行和发行 | uni-app官网 AppGallery Connect DCloud开发者中心 环境要求 Vue3jdk 17 Java Downloads | Oracle 中国 【鸿蒙开发工具内置jdk17,本地不使用17会报jdk版本不一致问题】 开发工具 HBuilderDevEco Studio【目前只下载这一个就…

Unity-Editor扩展Odin + 自定义EditorWindow记录

没有上下文,可能你不知道这是什么(关于Odin Inspector) 在写一个 Odin 插件的完整文章,卡了三天,之后会放出 使用Unity的人之中 1/10 可能会使用Editor扩展,而这之中的又1/10的 人可能会用Odin这个Editor的附加扩展 -…

FIFO系列 - FIFO使用中需要注意的若干问题

FIFO使用中需要注意的若干问题 文章目录 FIFO使用中需要注意的若干问题前言场景1:包数据FIFO设计之冗余法场景2、FIFO数据传输之流控总结前言 场景1:包数据FIFO设计之冗余法 场景:类似图像、文字等码流数据是不需要重复被访问的,因此使用FIFO进行缓存(如果需要被存储,一…

计算机毕业设计 | springboot+vue大学城水电管理系统 校园学校物业水电管理(附源码+文档)

1,绪论 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理大学城水电管理系统的相关信息成…

5-对象的访问权限

对象的访问权限知识点 对象的分类 在数据库中,数据库的表、索引、视图、缺省值、规则、触发器等等、都可以被称为数据库对象,其中对象主要分为两类 1、模式(schema)对象:模式对象可以理解为一个存储目录、包含视图、索引、数据类型、函数和…

药方新解:Spring Boot中药实验管理系统设计

3系统分析 3.1可行性分析 通过对本中药实验管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本中药实验管理系统采用SSM框架,JAVA作为开发语…

动态规划-完全背包问题——279.完全平方数

1.题目解析 题目来源 279.完全平方数——力扣 测试用例 2.算法原理 1.状态表示 完全背包问题通常都是使用一个二维数组来表示其状态,这里是 dp[i][j]:在[1,i]区间选择平方数,当此时已选择平方数的总和完全等于j时所选择的最小平方数个数 …

二叉树的层序遍历

一、题目 给定一个二叉树,返回该二叉树层序遍历的结果,(从左到右,一层一层地遍历) 例如: 给定的二叉树是{3,9,20,null,null,15,7}, 该二叉树层序遍历的结果是 [[3],[9,20],[15,7]] 二、解决方案 2.0 树…