数据挖掘复习

一、绪论

分类 classify 上涨或跌

回归 regression 描述具体数值

分类模型评估

1.混淆(误差)矩阵 confusion matrix

2.ROC曲线 receiver operating characteristic curve 接收者操作特征曲线

3.AUC面积 area under curve ROC曲线下与坐标轴围成的面积,面积越大越好

混淆矩阵

列:预测类别

行:真实归属类别

ACC、FPR、TPR、ENR、F1

DBN:深度信念网络 deep belief network

RBM:restricted Boltzman machine 受限玻尔兹曼机

CNN:卷积神经网络 convolution neural network

SAE:稀疏流自编码 Sparse Auto Encoder

通过计算自编码输出和源输入的误差,不断调节编码器的参数,最终训练出模型。可用于压缩输入信息,提取有的输入特征。【AE通过无监督学习更新参数,使重构误差更小】

算法 algorithm

拟合 fitting

过拟合 overfitting

欠拟合 underfitting

二、

KDD知识发现 knowledge discovery in database

DM data mining

DL deep learning

ML machine learning

分析源数据、确定挖掘目标、系统设计和开发

问题定义、数据抽取、数据预处理、数据挖掘及模式评估

数据预处理:清洗、转换、描述、选择、抽取

冗余redundant

不均衡imbalance

离群值/异常值 outliers

重复 duplicate

数据缺失 incomplete

数据噪声 noisy

数据不一致 inconsistent

中位数 median

众数mode

截尾平均trimmedmean【去首位2%】

主成分分析PCA principal component analysis 降维 投影 特征选择

留出法hold-out

自助法 bootstrap

极差range=max-min

分布的五数概括(five-number summary)中位数Q2 四分位Q1 Q3 Min max

四分位数25 50(median) 75

排序:Min Q1 median Q3 Max

箱线图:盒底Q1 盒顶Q3 中间粗线median 触顶表示数据散布范围 最远1.5IQR(Q3-Q1)【四位数极差、离群点】

强度挖掘 intension Mining

三、关联规则挖掘association rule mining

关联规则挖掘的两步过程:
1)找出所有的频繁项集:这些项集出现的频繁性要满足最小支持度原则。
2)由频繁项集产生强关联规则:满足最小支持度和最小置信度。

Apriori算法原理(寻找频繁项集)
1)任何一个频繁项集的子集必定是频繁项集;
如,如果{A,B}是频繁项集,则{A}、{B}都是频繁项集。
2)任何非频繁项集的超集都为非频繁项集
如,如果{A}、{B}是非频繁项集,则{A,B}是非频繁项集

Close算法(寻找频繁项集的方法2)

一个频繁闭合项集的所有闭合子集一定是频繁的。一个非频繁闭合项集的所有闭合超集一定是非频繁的。闭合项集:不能在C中存在小于或等于它的支持度的子集。

如何找闭合项集:取交集,修剪

FP-growth(寻找频繁项集方法3)

基于项目系列,只用扫描两次数据库,有顺序。

①频度排序

②信息转变为紧缩内存结构

FP-tree Frequent Pattern Tree

四、分类方法

建模 training data

测试 testing data

朴素贝叶斯:假设样本特征彼此独立,没有相关关系。

先验概率prior probability:根据以往经验和分析得到的概率

后验概率 posterior probability:事情已发生,判断事情发生时由哪个原因引起

联合概率joint probability:两个事情共同发生的概率

五、聚类方法 clustering

将对象进行自动分组。是无标签的无监督学习

聚类在数据挖掘中的典型应用有:
1、聚类分析可以作为其它算法的 预处理 步骤
2、聚类分析可以作为一个独立的工具来 获得数据的分布 情况
3、聚类分析可以完成 孤立点挖掘
衡量聚类效果的标准
簇内相似度越高、簇间相似度越低,聚类效果越好

聚类技术:
划分法:k均值、k中心点
层次法:凝聚层次聚类、分裂层次聚类
基于密度的方法:Density-based approach
基于模型的方法:Model-based approach

划分聚类:构造数据k个划分,每一个划分就代表一个簇。每一个簇至少包含一个对象,每一个对象属于且仅属于一个簇。

K-means K平均值【欧氏距离】

把n个对象分为k个簇,以使簇内具有较高的相似度。相似度计算根据一个簇中对象平均值进行。

k-中心点 ( K-medoids ):算法 k -means算法对于 孤立点是敏感的。为了解决这个问题,不采用簇 中的平均值作为参照点,可以选用簇 中位置 最中心的对象,即中心点作为参照点。这样划分方法
仍然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的。【曼哈顿距离】
Partitioning Around Medoids (PAM)算法,是一种常见的 k中心点聚类方法,利用 贪婪搜索 ,不一定可以找到最优解,但是比穷尽搜索更快。
在 K 中心点算法中,每次迭代后的质点都是从聚类的样本点中选取,k中心点算法不采用簇中对象
的平均值作为簇中心,而选用簇中 离平均值最近的对象作为簇中心
层次聚类:对给定的数据集进行层次的分解,直到满足某种条件。
凝聚 的层次聚类:一种 自底向上 的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇, 直到某个终结条件被满足,如AGNES算法。
分裂 的层次聚类:采用 自顶向下 的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件,如DIANA算法
AGNES (AGglomerative NESting): 自底向上凝聚算法 先将每个对象作为一个簇,然后这些簇根据某些准则被一步步地合并。两个簇间的相似度由这 两个不同簇 距离最近的数据点对 的相似度来确定。 聚类的合并过程反复进行直到所有的对象最终满足 簇数目。
算法 5-3 AGNES (自底向上凝聚算法)
输入 包含 n 个对象的数据库,终止条件簇的数目 k
输出 k 个簇,达到终止条件规定簇数目。
(1) 将每个对象当成一个初始簇;
(2) REPEAT
(3) 根据两个簇中最近的数据点找到最近的两个簇;
(4) 合并两个簇,生成新的簇的集合;
(5) UNTIL 达到定义的簇的数目;
DIANA (Divisive ANAlysis) 算法是典型的 分裂聚类方法
用户能定义希望得到的簇数目作为一个结束条件。同时,它使用下面两种测度方法:
簇的直径 :在一个簇中的任意两个数据点的距离中的最大值。
平均相异度 (平均距离)

 

 

密度聚类方法 的指导思想是,只要一个 区域 中,点的密度大于某个 阈值 ,就把它加到与之相连的簇中去。
(1) DBSCAN Density-Based Spatial Clustering of Applications with Noise,噪声环境下的密度聚类算法
(2) OPTICS Ordering Points To Identify the Clustering Structure,基于不同密度的聚类算法
(3) EDNCLUE Density Clustering ,基于一组密度分布函数的聚类算法
DBSCAN算法: 如果一个点 q 的区域内包含多于MinPts 个对象,则创建一个q 作为核心对象的簇。然后, 反复 地寻找 从这些核心对象直接密度可达的对象,把一些密度可达簇进行合并。当没有新的点可以被添加到任何簇时,该过程结束。
STING(Statistaical Information Grid_based method)是一种 基于网格的多分辨率聚类技术 ,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的巨型单元,这些单元形成了一个层次结构:高层的每个单元被划分为多个第一层的单元。高层单元的统计参数可以很容易的从底层单元的计算得到。这些参数包括属性无关的参数count 、属性相关的参数 m (平均值)、 s (标准偏差)、 min (最小值)、 max (最大值)以及该单元中属性值遵循的分布类型。
STING算法的主要优点是效率高,通过对数据集的一次扫描来计算单元的统计信息,因此产生聚类的时间复杂度是 O ( n )。在建立层次结构以后,查询的时间复杂度是 O ( g ), g 远小于n 。STING算法采用网格结构,有利于并行处理和增量更新。
八、Web挖掘
Web挖掘依靠它所挖掘的信息来源可以分为:
Web内容挖掘(Web Content Mining) 对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。
Web访问信息挖掘(Web Usage Mining) :Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以 发现潜在用户,增强站点的服务竞争力。
Web结构挖掘(Web Structure Mining): Web结构挖掘是对Web页 面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。 对于给定的Web页面集合,通过结构挖掘可以发现页面之间的关联 信息,页面之间的包含、引用或者从属关系等。
信息检索(Information Retrieval,IR) 是搜索的根基,其目的是帮助用户从大规模的文本文档中
找到所需信息的研究领域。
信息检索可能经常被说成是Web挖掘的初级阶段, 是为了强调Web挖掘不是简单的信息索引或关键词匹配技术,而是实现信息浓缩成知识的过程, 它可以支持更高级的商业决策和分析
一些比较有代表性的数据源有:
Web服务器 日志 数据
Web上的 电子商务 数据
Web上的 网页
Web上的网页之间的 链接
Web上的 多媒体 数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/18870.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Springboot 整合 Java DL4J 构建股票预测系统

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…

ZSTD 内存泄漏问题

优质博文:IT-BLOG-CN Zstandard(简称zstd)是一种无损压缩算法,由Facebook开发并开源。它旨在提供高压缩比和高解压速度的平衡,适用于多种数据压缩需求。 特点 【1】高压缩比: zstd能够在保持较高压缩比的…

嵌入式硬件电子电路设计(五)LDO低压差线性稳压器全面详解

引言: LDO(Low Dropout Regulator,低压差线性稳压器)是一种常用的电源管理组件,用于提供稳定的输出电压,同时允许较小的输入电压与输出电压之间的差值。LDO广泛应用于各种电子设备中,特别是在对…

D3基础:绘制圆形、椭圆形、多边形、线、路径、矩形

在D3.js中&#xff0c;可以通过SVG元素来创建各种几何图形。以下是D3.js中常用的几何图形及其简单的创建方法&#xff1a; 1. 圆形 (Circle) 圆形是最基本的形状之一&#xff0c;可以通过<circle>标签来创建。 <!DOCTYPE html> <html> <head><met…

17.100ASK_T113-PRO 配置QT运行环境(三)

前言 1.打开QT,新建项目. 做成以下效果,会QT都没有问题吧 编译输出: /home/book/LED_and_TempHumi/build-LED_and_TempHumi-100ask-Debug LED_and_TempHumi 2.下载程序与测试 设置运行环境 export QT_QPA_PLATFORMlinuxfb 这个地方还需要加字体,不然不会显示字体.

React 实现网页首页设计

目录 页面分解 项目初始化 项目结构 运行项目 页面分解 页面主要元素&#xff1a; Header&#xff08;导航栏&#xff09; 包含网站 logo 和导航菜单。Hero Section&#xff08;主横幅&#xff09; 大背景图片、标题文字、描述文字。Features Section&#xff08;功能展示…

[Go实战]:SSE消息推送

前言 在现代Web开发中&#xff0c;前后端分离已成为主流趋势。为了实现实时数据推送&#xff0c;Server-Sent Events (SSE) 是一种高效且易于实现的技术。本文将介绍如何在Go语言中实现SSE服务端&#xff0c;并在前端使用JavaScript进行集成&#xff0c;实现一个完整的实时数据…

使用OkHttp进行HTTPS请求的Kotlin实现

OkHttp简介 OkHttp是一个高效的HTTP客户端&#xff0c;它支持同步和异步请求&#xff0c;自动处理重试和失败&#xff0c;支持HTTPS&#xff0c;并且可以轻松地与Kotlin协程集成。OkHttp的设计目标是提供最简洁的API&#xff0c;同时保持高性能和低延迟。 为什么选择OkHttp …

【技术解析】Dolphinscheduler实现MapReduce任务的高效管理

MapReduce是一种编程模型&#xff0c;用于处理和生成大数据集&#xff0c;主要用于大规模数据集&#xff08;TB级数据规模&#xff09;的并行运算。本文详细介绍了Dolphinscheduler在MapReduce任务中的应用&#xff0c;包括GenericOptionsParser与args的区别、hadoop jar命令参…

Linux :进程间通信之管道

一、进程间通信 1.1 是什么和为什么 1、进程间通信是什么&#xff1f;&#xff1f; ——>两个或多个进程实现数据层面的交互&#xff0c;但是由于进程独立性的存在&#xff0c;导致通信的成本比较高。 2、既然通信成本高&#xff0c;那为什么还要通信呢&#xff1f;&…

Vue基础(2)_el和data的两种写法

举例&#xff1a; <div id"root"><h1>你好&#xff0c;{{name}}</h1> </div> el和data的2种写法 1.el有2种写法 (1).new Vue时候配置el属性。 // 第一种写法&#xff1a;new Vue时候配置el属性。// 优点&#xff1a;简单、直接new Vue({e…

【汇编语言】数据处理的两个基本问题(二) —— 解密汇编语言:数据长度与寻址方式的综合应用

文章目录 前言1. 指令要处理的数据有多长&#xff1f;1.1 通过寄存器指明数据的尺寸1.1.1 字操作1.1.2 字节操作 1.2 用操作符X ptr指明内存单元的长度1.2.1 访问字单元1.2.2 访问字节单元1.2.3 为什么要用操作符X ptr指明 1.3 其他方法 2. 寻址方式的综合应用2.1 问题背景&…

c++多态(深度刨析)

C系列-----多态 文章目录 C系列-----多态前言一、多态的概念二、多态的定义及实现2.1、多态构成的条件2.1.1、虚函数2.1.2、虚函数的重写 2.2、C11 override 和 final2.3、重载、覆盖(重写)、隐藏(重定义)的对比2.4、抽象类2.5、 接口继承和实现继承 三、多态的原理3.1、虚函数…

FPGA开发技能(9)快速生成约束XDC文件

文章目录 1.从Cadence导出csv约束文件2.python程序将csv导出为xdc文件。3.python生成exe4.exe使用注意事项5.传送门 前言&#xff1a; 作为一名FPGA工程师&#xff0c;通常公司会对该岗位的人有一定的硬件能力的要求&#xff0c;最基础的就是需要依据原理图的设计进行FPGA工程内…

css uniapp背景图宽度固定高度自适应可以重复

page {height: 100%;background-image: url(https://onlinekc.a.hlidc.cn/uploads/20241115/350f94aaf493d05625a7ddbc86c7804e.png);background-repeat: repeat;background-size: contain;} 如果不要重复 把background-repeat: repeat;替换background-repeat: no-repeat;

Stable Diffusion核心网络结构——U-Net

​ &#x1f33a;系列文章推荐&#x1f33a; 扩散模型系列文章正在持续的更新&#xff0c;更新节奏如下&#xff0c;先更新SD模型讲解&#xff0c;再更新相关的微调方法文章&#xff0c;敬请期待&#xff01;&#xff01;&#xff01;&#xff08;本文及其之前的文章均已更新&a…

学习threejs,使用AnimationMixer实现变形动画

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️THREE.AnimationMixer 动画…

【Linux】指令 + 重定向操作

Linux基本指令 一.Linux基本指令1.mv&#xff08;重要&#xff09;2.cat3.more和less&#xff08;重要&#xff09;4.head和tail5.date6.cal7.find&#xff08;重要&#xff09; 二.Linux相关知识点1. Linux系统中&#xff1a;一切皆文件2. 重定向操作1. 输出重定向2. 追加重定…

SpringBoot源码解析(四):解析应用参数args

SpringBoot源码系列文章 SpringBoot源码解析(一)&#xff1a;SpringApplication构造方法 SpringBoot源码解析(二)&#xff1a;引导上下文DefaultBootstrapContext SpringBoot源码解析(三)&#xff1a;启动开始阶段 SpringBoot源码解析(四)&#xff1a;解析应用参数args 目录…

Vue3.0 + Ts:动态设置style样式 ts 报错

error TS2322: Type ‘{ width: string; left: string; ‘background-color’: unknown; ‘z-index’: number; }’ is not assignable to type ‘StyleValue’ 在 vue3.0 ts 项目中&#xff0c;动态设置样式报错 在 Vue 3 TypeScript 项目中&#xff0c;当你使用 :style 绑…