了解统计学中不同类型的分布

目录

一、说明

二、均匀分布:

三、机器学习和数据科学中的均匀分布示例:

3.1 对数正态分布:

3.2 机器学习和数据科学中的对数正态分布示例:

四、 帕累托分布

4.1 什么是幂律?

4.2 机器学习和数据科学中的帕累托分布示例:

4.3 伯努利分布:

4.4 机器学习和数据科学中的伯努利分布示例:

4.5. 二项分布:

4.6 机器学习和数据科学中的二项分布示例:

五、概率分布变换:

5.1. 统计假设

5.2. 提高算法性能

5.3. 稳定方差

5.4. 减少偏斜

5.5 实现常态的常见转换


一、说明

        统计学是理解数据的有力工具,其核心在于分布的概念。统计学中的分布有助于我们理解数据的分布方式,为各种数据集的概率和行为提供重要的见解。从熟悉的钟形曲线的正态分布到其他偏斜和重尾模式,本博客旨在解开不同类型的分布,清楚地了解它们在统计分析中的特征、应用和意义。

二、均匀分布:

        均匀分布是一种概率分布,其中所有结果在给定范围内的可能性相同。这意味着,如果要从此范围中选择一个随机值,则任何值都与任何其他值一样可能。例如,从一篮子苹果中随机选择的苹果的重量在 100 到 200 克之间,将遵循连续的均匀分布。

骰子结果的离散均匀分布

连续均匀分布的概率密度函数为:

均匀分布的CDF由下式给出:

                                                        均匀分布图中不存在偏度。

三、机器学习和数据科学中的均匀分布示例:

  1. 随机初始化:在许多机器学习算法中,例如神经网络和 k 均值聚类,参数的初始值可能会对最终结果产生重大影响。均匀分布通常用于随机初始化参数,因为它可以确保范围内的所有值都具有相等的选择
    概率。
  2. 采样:均匀分布也可用于采样。例如,如果数据集中每个类的样本数相等,则可以使用均匀分布随机选择代表所有类的数据子集。
  3. 数据增强:在某些情况下,您可能希望通过生成与原始数据相似的新示例来人为地增加数据集的大小。均匀分布可用于生成原始数据指定范围内的新数据点。
  4. 超参数优化:均匀分布也可用于超参数优化,在超参数优化中,您需要为机器学习模型搜索超参数的最佳组合。通过为每个超参数定义均匀的先验分布,可以从分布中采样以探索超参数空间。

3.1 对数正态分布:

        在概率论和统计学中,对数正态分布是对数呈正态分布的随机变量的重尾连续概率分布,即,如果取每个值的自然对数并绘制此分布,则得到正态分布。 对数正态的PDF方程由下式给出:

        这种分布是右偏的,因为它倾向于在右侧产生更长的尾部,这意味着大多数数据点集中在左侧,少数较大的值延伸到右侧。

        对数正态的概率分布

对数正态的累积分布

3.2 机器学习和数据科学中的对数正态分布示例:

  • 在 Internet 论坛中发布的评论长度遵循对数正态分布。
  • 用户在在线文章(笑话、新闻等)上的停留时间遵循对数正态分布。
  • 国际象棋比赛的长度往往遵循对数正态分布。
    在经济学中,有证据表明 97%-99% 的人口的收入是按对数正态分布的。

四、 帕累托分布

        帕累托分布是一种概率分布,通常用于模拟财富、收入和其他表现出类似幂律行为的量的分布。

4.1 什么是幂律?

        在数学中,幂律是两个变量之间的函数关系,其中一个变量与另一个变量的幂成正比。具体来说,如果 y 和 x 是幂律相关的两个变量,则关系可以写为:
y = k * x^a

帕累托分布的概率分布

        维尔弗雷多·帕累托(Vilfredo Pareto)最初使用这种分布来描述个人之间的财富分配,因为它似乎很好地表明了任何社会财富的很大一部分由该社会中较小比例的人拥有的方式。他还用它来描述收入分配。这个想法有时更简单地表达为帕累托原则或“80-20规则”,即20%的人口控制着80%的财富。

4.2 机器学习和数据科学中的帕累托分布示例:

  • 人类住区的规模(少数城市,/村庄)。
  • 使用 TCP 协议的 Internet 流量的文件大小分布(许多较小的文件,少数较大的文件)

4.3 伯努利分布:

        伯努利分布是一种对二元结果进行建模的概率分布,其中结果可以是成功(由值 1 表示)或失败(由值 0 表示)。伯努利分布的特征是单个参数,即成功概率,用 p 表示。

4.4 机器学习和数据科学中的伯努利分布示例:

        伯努利分布通常用于机器学习中,用于对二元结果进行建模,例如客户是否会购买,电子邮件是否为垃圾邮件,或者患者是否患有某种疾病。

4.5. 二项分布:

        二项分布是一种概率分布,它描述了在固定数量的独立伯努利试验中的成功次数,该试验具有两种可能的结果(通常称为“成功”和“失败”),其中每个试验的成功概率是恒定的。二项分布由两个参数表征:试验次数 n 和成功概率 p。

4.6 机器学习和数据科学中的二项分布示例:

  1. 模型精度:在测试预测电子邮件是否为垃圾邮件的机器学习模型时,可能会运行它 100 次。每次,您都会检查它是否正确(成功)或不正确(失败)。二项分布可帮助您了解在给定一定准确率的情况下,模型可能正确预测的次数为 100 次。
  2. A/B 测试:在 A/B 测试中,您可以比较某些内容的两个版本(例如网站或广告),看看哪个版本效果更好。通过二项分布,您可以根据一定的成功概率来估计一个版本更成功的频率,例如获得更多点击或转化。

五、概率分布变换:

        在分布方面,变换是指将数学函数应用于数据以改变其底层分布的过程。分布描述了数据如何分布在一系列值中,转换用于实现各种目标,包括修改分布的形状、比例或分布。

        当您需要使用假定正态分布的算法时,变换在统计学和机器学习中可能至关重要。许多统计方法和机器学习算法在数据遵循正态分布时表现最佳,这要归功于对称性、定义的均值和标准差以及一致的分布等特性。

        以下是应用转换使数据更正态分布的一些原因:

5.1. 统计假设

        统计检验(如 t 检验、方差分析和许多回归模型)假定基础数据或残差(误差)呈正态分布。当数据不符合此假设时,结果可能会有偏见或具有误导性。转换有助于确保数据符合这些假设。

5.2. 提高算法性能

        机器学习算法,特别是线性回归和逻辑回归,在数据或残差呈正态分布时可能表现更好。这是因为这些算法所依据的假设与正态性密切相关。通过转换使数据分布更均匀,可以提高算法的预测准确性并减少偏差。

5.3. 稳定方差

        当数据具有不稳定的方差(异方差)时,可能会导致建模错误,并降低期望一致方差的算法的有效性。转换有助于稳定方差,使其在不同范围的数据中更加恒定。

5.4. 减少偏斜

        有偏差的数据可能导致不准确的结论,并使结果的解释复杂化。期望对称数据的算法在偏斜输入时可能表现不佳。对数转换等转换可以减少偏度,使数据更接近正态分布。

5.5 实现常态的常见转换

        以下是一些用于使数据更正态分布的常见转换:

  • 日志转换:通过采用自然对数来转换数据,从而减少正偏度。对于具有指数增长或长右尾的数据很有用。

我在泰坦尼克号数据集上详细应用了日志转换。你可以从这里学习代码和概念!

  • 平方根变换:通过取平方根来转换数据以减少偏度,通常用于计数数据或方差随均值增加的数据。
  • Box-Cox 变换:一种灵活的电源转换,可以将一系列非正态数据转换为更正态分布。它需要非负数据,并确定最佳功率变换参数 (λ) 以实现正态性。它可以在数学上表示为:

学习代码,你可以从这里学习代码和概念!

  • 相互转化:涉及采用倒数 (1/x) 来转换数据,从而减少正偏度。

         希望这篇博客能加深你对统计学中不同概率分布的理解。如果您发现此内容的价值,请考虑关注我以获取更有见地的帖子。谢谢!感谢您花时间阅读本文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1453013.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

怎么找抖音视频素材?在哪里找爆款热门的素材呢?

在短视频时代,拍摄和分享短视频已经成为一种潮流。但是,许多人都会面临一个问题,那就是——视频素材从哪里来?今天,我将为大家介绍几个优质的网站,让你的视频素材不再愁。 蛙学府:https://www.…

如何连接达梦数据库?

连接达梦数据库(DM Database)可以通过多种方式进行,包括使用 JDBC(Java Database Connectivity)驱动程序,这是最常见的方式之一。以下是使用 Java 通过 JDBC 连接达梦数据库的详细步骤: 1. 准备…

pve8群晖rr方式安装(编译失败检查网络或磁盘空间error 23:200问题解决)

PVE 篇二:2024年PVE8最新安装使用指南|安装黑群晖|img格式镜像安装_NAS存储_什么值得买 (smzdm.com) 黑群晖 篇五:2023黑群晖最新安装方式|RR新手也可轻松上手_NAS存储_什么值得买 (smzdm.com) 编译引导提示:检查网络或磁盘空间er…

Mybatis动态sql标签

动态SQL标签简介: MyBatis的一个强大的特性之一通常是它的动态SQL能力。如果你有使用JDBC或其他相似框架的经验,你就明白条件地串联SQL字符串在一起是多么的痛苦,确保不能忘了空格或在列表的最后省略逗号。动态SQL可以彻底处理这种痛苦。 Mybatis中实现动态sql的标签有&#x…

重生之 SpringBoot3 入门保姆级学习(24、场景整合 kafka 消息发送服务)

重生之 SpringBoot3 入门保姆级学习(24、场景整合 kafka 消息发送服务) 6.4 消息发送服务 6.4 消息发送服务 访问 kafka-ui (注意这里需要换成你自己的服务器或者虚拟机的 IP 地址,虚拟机可以用局域网 192.168.xxx.xxx 的地址&…

AMD Lisa Su专访:谈与英伟达、Intel竞争 直言Arm不是敌人

AMD CEO Lisa Su(苏姿丰)绝对称得上是芯片届的风云人物,尤其是进入了AI新时代,她的声望达到了十年来最高点。翻看其成长历史,苏姿丰在麻省理工学院获得电气工程博士学位后(在麻省理工学院学习八年半&#x…

sudo 用户切换

切换到centos 用户 sudo -i -u centos 解决centos sudo执行仍旧显示Permission denied 方法一(建议) 暂时切换到root用户 sudo -i然后执行命令即可 方法二 赋给当前用户权限: sudo chmod -R 777 目录路径 sudo chmod 777 文件路径.txt…

element--el-table合计换行显示

el-table合计换行显示 效果图实现1、使用到的参数2、代码演示 效果图 实现 1、使用到的参数 官网链接:element-table 将show-summary设置为true就会在表格尾部展示合计行。默认情况下,对于合计行,第一列不进行数据求合操作,而是…

浪潮信息MUPR自研专利 保障服务器内存运行的可靠性和高效性

在数字化转型的大潮中,服务器作为支撑企业业务运行的核心设备,其稳定性和可靠性显得尤为重要。然而,传统的内存故障预警修复技术往往存在反应滞后、误报率高等问题,难以满足日益增长的数据处理和存储需求。针对这一问题&#xff0…

用CloudCompare软件拟合点云中的圆柱体

用CloudCompare软件拟合点云中的圆柱体 软件下载 点击下面的链接,进入下载页面: 下载页面 然后根据需要选择下载合适的软件版本。 一般选择windows installer版,如图所示: 下载完成后,安装并打开软件。软件的默认语…

LC1020:飞地的数量

题目 给你一个大小为 m x n 的二进制矩阵 grid ,其中 0 表示一个海洋单元格、1 表示一个陆地单元格。 一次 移动 是指从一个陆地单元格走到另一个相邻(上、下、左、右)的陆地单元格或跨过 grid 的边界。 返回网格中 无法 在任意次数的移动…

分布式数据库核心问题和解决方法

当下,由于成本压力以及数据保护的要求,采用国产数据库的呼声越来越高,但是国产数据库数量众多,良莠不齐,没有选择数据库比较靠谱的标准,业内真正懂得数据库的人很少,且为了这块大的蛋糕&#xf…

第十七篇——交叉熵:如何避免制订出与事实相反的计划?

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么? 四、总结五、升华 一、背景介绍 任何事情,都需要我们制订计划执行计划;而制订计划…

【Linux】软硬连接

目录 一.现象 二.硬链接 用处 三.软链接 用处 ​编辑 hello,大家好,今天,我们要学习的内容是软硬链接的。我们将从软连接的作用,硬链接的作用 和软硬链接的区别等方面学习。那我们就开始啦! 在看本篇博客之前&a…

希亦、追觅、云鲸洗地机:究竟有何不同?选择哪款更合适

最近收到很多私信里,要求洗地机测评的呼声特别高,作为宠粉的测评博主,当然是马上安排起来,满足大家对想看洗地机的愿望。这次洗地机测评,我挑选了三款热门的品牌型号,并从多个维度对它们进行使用测评&#…

从0开始理解DevOps

目录 一、DevOps背景 二、DevOps介绍 DevOps 组成 三、Jenkins Jenkins 工作流程 四、云原生与DevOps 相信你一定听过 DevOps 这个词,那它到底是什么呢?为什么越来越多的互联网企业都在追随使用它?它与云原生有什么关系?本文将…

浪潮信息打造业界首款50℃进液温度服务器 PUE逼近理论极限1.0!

在科技飞速发展的今天,浪潮信息以其前瞻性的技术创新思维,再次突破行业极限,推出业界首个支持50℃进液温度的浸没式液冷服务器NF5180G7。这一创新成果不仅展现了浪潮信息在液冷技术领域的深厚实力,更标志着服务器冷却技术的一次重…

力扣hot100:31. 下一个排列

LeetCode:31. 下一个排列 字典序的大小排序: 从前往后对比,如果先出现更小字符的,字典序更小,如果有个字符串结束了,则它更小。string s "112233"和string t "1122334",…

昂辉科技EasySAR-BootLoader上位机产品

近年来,硬件标准化、同质化和软件差异化、复杂化成为了汽车产品研发的重要趋势。与此同时,大量的智能化功能和快速上车的节奏,对软件开发提出了更高的要求。在软硬件解耦的大背景下,建立统一的软件体系和开发工具以紧跟硬件更新迭…

【因果推断python】38_预测模型1

目录 工业界中的机器学习 之前的部分涵盖了因果推理的核心。那里的技术是众所周知和成熟的。他们经受住了时间的考验。第一部分建立了我们可以依赖的坚实基础。用更专业的术语来说,第一部分侧重于定义什么是因果推理,哪些偏差会阻止相关性成为因果关系&…