ML 系列:第 21 节 — 离散概率分布(二项分布)

一、说明

        二项分布描述了在固定数量的独立伯努利试验中一定数量的成功的概率,其中每个试验只有两种可能的结果(通常标记为成功和失败)。

二、探讨伯努利模型

        例如,假设您正在抛一枚公平的硬币 (其中正面成功,反面失败) 五次。每次翻转都是一次独立的伯努利试验,成功概率(正面朝上)为 0.5。现在,您有兴趣找到从 5 次翻转中正好获得 3 次正面的概率。此方案适合二项分布,因为您有固定数量的试验(五次翻转),并且每个试验只有两种可能的结果(正面或反面),因此它们成为独立的伯努利试验。

        总而言之,伯努利是:

  • 描述固定数量的独立伯努利试验的成功次数。
  • 由两个参数定义:试验次数 n 和成功概率 p

二项式分布的概率质量函数 (PMF) 由以下公式给出:

此处里:

现在,让我们分解公式:

三、二项式分布的期望值和方差

        期望,通常称为均值或平均值,表示随机变量在重复实验中的理论平均结果。在二项分布的上下文中,期望 E[X] 表示在给定数量的试验中预期的平均成功次数。二项分布的期望公式为:

        其中 n 是试验数,p 是单次试验成功的概率。

        假设您抛硬币 10 次。每次抛硬币都是一个独立的伯努利试验,其中正面朝上(成功)的概率为 = 0.5,反面(失败)的概率相同 q = 1−p = 0.5

        现在,让我们使用公式 E[X] = np 计算预期的正面 E[X] 数量:

这个结果告诉我们,平均而言,我们期望在 10 次抛硬币中得到 5 次正面。

另一方面,方差衡量分布围绕其平均值的散布或离散度。在二项分布中,方差 Var[X] 量化了实际结果与预期成功数的偏差程度。二项分布方差的公式为:

        该公式反映了这样一个事实,即二项式分布中结果的分布受试验数 n 和成功概率 p 的影响。较高的试验次数或接近 0.5 的成功概率往往会导致较大的方差,这表明成功次数的变异性更大。

四、示例:计算机失败的概率

        假设一家工厂有一台机器在任何一天都有 5% 的几率出现故障。我们想要找到机器在 30 天内恰好失败 3 次的概率。在这里,每天代表一个独立的伯努利试验,有两种可能的结果:机器失败(成功)或不失败(失败)。

        鉴于:

  • n=30(试验次数或天数)
  • p=0.05(机器在任何给定日期出现故障的概率)

        我们可以使用二项分布来查找 30 天内恰好失败 3 次的概率。二项分布的概率质量函数 (PMF) 由下式给出:

        将给定的值代入公式:

        这里:

        计算这些值:

因此:

PX=3) = 4060 × 0.000125 × 0.287 ≈ 0.145

因此,机器在 30 天内恰好失败 3 次的概率约为 0.145,即 14.5%。

五、用于轧制模具 100 次的二项式 PMF

        在这个例子中,我们探讨了将公平的六面骰子滚动 100 次的二项式概率质量函数 (PMF)。我们感兴趣的是确定在这 100 次掷骰子中掷出特定数字(例如,掷出“1”或“6”)一定次数的概率。由于骰子的每一面都有相等的概率为 1/6,因此特定数字出现的次数分布遵循二项式分布。

        二项分布由试验数 n 和成功概率 p 来表征。这里,n = 100 和 p = 1/6。该图显示了 k 获得 k 次成功(滚动特定数字)的概率,范围从 0 到 100

        为了进一步分析分布,我们在图上计算并显示预期的成功数 (期望) 和分布的可变性 (方差)。

import matplotlib.pyplot as plt
from scipy.stats import binom# Number of trials (number of dice rolls)
n = 100# Probability of success (rolling a specific number, e.g., 1 or 6)
p = 1 / 6# Create a range of possible number of successes (0 to n)
k = range(n + 1)# Calculate the PMF for each number of successes
pmf_values = [binom.pmf(x, n, p) for x in k]# Calculate expectation and variance
expectation = n * p
variance = n * p * (1 - p)# Plotting the PMF
plt.figure(figsize=(8, 5))
plt.bar(k, pmf_values, width=1.0, edgecolor='black')
plt.title('Binomial PMF for Rolling a Die 100 Times (Rolling a Specific Number)')
plt.xlabel('Number of Successes (Rolling a Specific Number)')
plt.ylabel('Probability')
plt.grid(True)# Show expectation and variance on the plot
plt.axvline(expectation, color='r', linestyle='dashed', linewidth=2.5, label=f'Expectation (mean): {expectation:.2f}')
plt.axvline(expectation - variance**0.5, color='orange', linestyle='dashed', linewidth=2.5, label=f'Standard Deviation: {variance**0.5:.2f}')
plt.axvline(expectation + variance**0.5, color='orange', linestyle='dashed', linewidth=2.5)
plt.legend()
plt.show()

        这是上述代码的输出:

        期望值和方差计算:

  • 期望值(平均值):E[X] = np = 100 × 1/6 ≈ 33.33
  • 方差:Var[X] = np(1−p) = 100 × 1/6 × 5/6 ≈ 27.78 ≈ 27.78
  • 标准差:Var[X] ≈ 5.27

六、变化 (p) 对掷模二项分布的影响

        二项分布中的概率 p 表示每个试验中特定结果的可能性。当掷一个公平的骰子时,对于骰子的任何特定面,p 通常为 1/6。通过改变 p,我们可以探索如果骰子有偏差,分布如何变化。例如,如果加载骰子以将特定数字滚动到 0.3 的概率,则二项分布的形状和分布将发生变化,与公平骰子相比,在平均值附近显示更高的成功集中度。

        简单地说,我们可以更改上面的代码来计算和绘制不同 p 值的 PMF:

import matplotlib.pyplot as plt
from scipy.stats import binom# Number of trials (number of dice rolls)
n = 100# Define different probabilities of success
p_values = [1/6, 0.35]# Create a range of possible number of successes (0 to n)
k = range(n + 1)plt.figure(figsize=(8, 5))for p in p_values:# Calculate the PMF for each number of successespmf_values = [binom.pmf(x, n, p) for x in k]# Calculate expectation and varianceexpectation = n * pvariance = n * p * (1 - p)# Plotting the PMFplt.plot(k, pmf_values, label=f'p = {p}')# Annotate the plot with expectation and varianceplt.axvline(expectation, color='r', linestyle='dashed', linewidth=1)plt.axvline(expectation - variance**0.5, color='g', linestyle='dashed', linewidth=1)plt.axvline(expectation + variance**0.5, color='g', linestyle='dashed', linewidth=1)plt.title('Binomial PMF for Rolling a Die 200 Times with Varying p')
plt.xlabel('Number of Successes (Rolling a Specific Number)')
plt.ylabel('Probability')
plt.legend()
plt.grid(True)
plt.show()

        这是上述代码的输出:

        变化 p:该脚本计算并绘制两个不同 p 值的 PMF:1/6(公平骰子)和 0.35(偏置骰子)。

        在机器学习系列的第 21 天,我们探索了二项分布,这是一种基本概率分布,用于对固定数量的独立伯努利试验的成功次数进行建模。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/10039.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【模拟集成电路】知识点笔记_1

知识点笔记_1 零极点相关1 PM和GM相关概念2零极点 温度系数五种常见噪声源MOS管和BJT选取BJT刨面图工艺角衬底主要噪声来源共模反馈三种常用CMFB1 工作在线性区MOS作为CMFB(匹配决定输出电压)2 电阻反馈(Buf)3 电流差分对&#xf…

资产管理:SpringBoot框架的高效解决方案

6系统测试 6.1概念和意义 测试的定义:程序测试是为了发现错误而执行程序的过程。测试(Testing)的任务与目的可以描述为: 目的:发现程序的错误; 任务:通过在计算机上执行程序,暴露程序中潜在的错误。 另一个…

Redis - 集群(Cluster)

一、基本概念 上述的哨兵模式,提⾼了系统的可⽤性.但是真正⽤来存储数据的还是master和slave节点.所有的数 据都需要存储在单个master和slave节点中. 如果数据量很⼤,接近超出了master/slave所在机器的物理内存,就可能出现严重问题了. 如何获取更⼤的空间?加机器即可!所谓&q…

基于springboot的高校科研管理系统(源码+调试+LW)

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据你想解决的问题,今天给…

pwn学习笔记(11)--off_by_one

pwn学习笔记&#xff08;11&#xff09;–off_by_one ​ 在处理for循环或者while循环的时候&#xff0c;有的可能会遇到如下情况&#xff1a; #include<stdio.h>int main(){char buf[0x10];for (int i 0 ; i < 0x10 ; i ){buf[i] getchar();}puts(buf);}​ 多次输…

YOLOv8模型改进 第十九讲 添加倒置残差移动块iRMB(Inverted Residual Mobile Block,) 去除图像噪声

本文这次分享的是倒置残差移动块iRMB&#xff0c;iRMB&#xff08;Inverted Residual Mobile Block&#xff09;的作用主要是在神经网络中实现高效的特征提取&#xff0c;它融合了卷积神经网络&#xff08;CNN&#xff09;捕捉局部特征的高效性和 Transformer 动态建模长距离交…

express项目中使用MySQL

一、安装mysql 模块 1.1 先配置包管理工具 npm init -y1.2、安装mysql 模块 npm install mysql2二、配置mysql // 1、导入mysql模块 const mysql require("mysql2");// 2、建立与mysql 数据库的链接 const db mysql.createPool({host: "127.0.0.1", …

泛微E9 OA与金蝶云的差旅费报销接口集成

FD001-差旅费报销申请 泛微>金蝶--498 集成案例分享 在企业日常运营中&#xff0c;差旅费报销申请的处理效率直接影响到员工满意度和财务管理的精确性。为了实现泛微OA-Http系统与金蝶云星空平台之间的数据无缝对接&#xff0c;我们设计并实施了FD001-差旅费报销申请集成方…

新疆高校大数据实验室案例分享

高校大数据实验室建设&#xff0c;企业可以提供技术支持、实训平台和项目案例&#xff0c;高校则提供科研和教学资源&#xff0c;实现产学研一体化。不仅有利于大数据技术的应用和人才培养也有利于区域发展。 泰迪与新疆合作的院校包括新疆大学、昌吉学院等 新疆大…

11.9.2024刷华为

文章目录 HJ31 单词倒排HJ32 密码提取语法知识记录 傻逼OD题目又不全又要收费&#xff0c;看毛线&#xff0c;莫名奇妙 HW这叼机构别搁这儿害人得不得&#xff1f; 我觉得我刷完原来的题目 过一遍华为机考的ED卷出处&#xff0c;就行了 HJ31 单词倒排 游戏本做过了好像 HJ3…

C语言--结构体的大小与内存对齐,位段详解

一.前言 为了保证文章的质量和长度&#xff0c;小编将会分两篇介绍&#xff0c;思维导图如下&#xff0c;上篇已经讲过了概念部分&#xff0c;本文主要讲解剩余部分&#xff0c;希望大家有所收获&#x1f339;&#x1f339; 二.结构体的大小与内存对齐 2.1 存在对齐的原因 平…

腾讯混元3D模型Hunyuan3D-1.0部署与推理优化指南

腾讯混元3D模型Hunyuan3D-1.0部署与推理优化指南 摘要&#xff1a; 本文将详细介绍如何部署腾讯混元3D模型Hunyuan3D-1.0&#xff0c;并针对不同硬件配置提供优化的推理方案。我们将探讨如何在有限的GPU内存下&#xff0c;通过调整配置来优化模型的推理性能。 1. 项目概览 腾…

第18篇 :深入剖析systemverilog中 randomize 失败案例启示录(二)

今天我们继续修改之前的例子&#xff0c;你会有意想不到的收获。程序源代码&#xff0c;和上一节文章一样。 症状3&#xff1a; 这里&#xff0c;我们没有显式调用类的randomize() 函数&#xff0c;而是定义了一个类函数。在函数中 &#xff0c;重新约束了类内的随机变量。请…

CC音乐 1.0 | 纯净版音乐软件,内置3条音源,支持无损和母带下载

CC音乐是一款全新上架的第三方音乐软件&#xff0c;界面纯净简洁且无广告。内置三条音源接口&#xff0c;用户可以畅听全网音乐。软件涵盖了电台、排行榜、歌单分类、视频、歌手等多个栏目&#xff0c;即使是会员和灰色歌曲也能随意畅听。此外&#xff0c;CC音乐还支持下载无损…

【销帮帮-注册_登录安全分析报告-试用页面存在安全隐患】

联通支付注册/登录安全分析报告 前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨…

windows中docker安装redis和redisinsight记录

创建一个Redis运行容器&#xff0c;命令如下 docker run -it -d --name redis -p 6379:6379 redis --bind 0.0.0.0 --protected-mode no -d 代表Redis容器后台运行 --name redis 给创建好的容器起名叫redis -p 6379:6379 将容器的6379端口映射到宿主机的6379端口&#xff0c;注…

问题排查:C++ exception with description “getrandom“ thrown in the test body

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作)&#xff0c;由 李兆龙 确认&#xff0c;转载请注明版权。 文章目录 MotivationProcess Motivation 最近在做一个复杂系统集成到 Bazel 的工作。 在编译…

C++中类的默认成员函数

默认成员函数 1.构造函数2.析构函数3.拷贝构造函数4.赋值运算符重载4.1运算符重载4.2赋值运算符重载 #mermaid-svg-oipiwg9stvONvYK0 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-oipiwg9stvONvYK0 .error-icon{f…

从0开始学习机器学习--Day20--优化算法的思路

确定执行的优先级(Prioritizing what to work on : Spam classification example) 在建立学习系统前&#xff0c;我们不仅要梳理框架&#xff0c;更重要的是我们要弄清楚有哪些事情是要优先做的&#xff0c;这可以帮我们节约大量的时间。 以垃圾邮件为例&#xff0c;按照之前…

利用JS实现图片轮播(示例)

我们平时在逛购物网站的时候会看到页面内的商品图片自动轮播&#xff0c;二要想实现着中效果应该如何做呢&#xff1f;下面详细讲解代码的运用&#xff0c;实现下面视频的效果。大家也可以自己试试看&#xff0c;或者复制最后的完整代码运行一下&#xff01; 图片自动轮播效果 …