SPSS26统计分析笔记——5 卡法检验

1 卡方检验原理

        卡方检验由卡尔·皮尔逊(Karl Pearson)于1900年首次提出,是一种针对频数数据(定类数据或计数数据)的假设检验方法。它通过比较实际观测次数与理论期望次数之间的差异,构造出 χ 2 {\chi^2} χ2统计量,并利用 χ 2 {\chi^2} χ2分布进行假设检验。 χ 2 {\chi^2} χ2统计量的计算公式为:
χ 2 = ∑ i k ( f o − f e ) 2 f e {\chi ^2} = \sum\limits_i^k {\frac{{{{({f_o} - {f_e})}^2}}}{{{f_e}}}} χ2=ikfe(fofe)2
         k k k表示样本的分类数;
         f o {f_o} fo为实际观测到的频数;
         f e {f_e} fe是与理论分布对应的频数,通常称为理论次数或期望次数。
        根据皮尔逊定理,当样本总频数 n n n足够大时, χ 2 {\chi^2} χ2统计量将近似服从 χ 2 {\chi^2} χ2分布。如果计算出的 χ 2 {\chi^2} χ2统计量较大,则其对应的 p p p值会很小,表明在原假设 H 0 {H_0} H0下,观察到该频数的可能性极小。若 p p p值小于预设的显著性水平 α \alpha α(通常设为0.05或0.01),则拒绝原假设,表明样本的观测频数与理论频数存在显著差异;反之,如果 p p p值大于 α \alpha α,则接受原假设,表示观测频数与理论频数的差异不显著。
        卡方检验的基本假设涉及如下几方面:
        ①研究的变量为分类变量;
        ②各分类观测值之间相互独立,且频数分组相互排斥;;
        ③各分类的理论频数大于5。

2 拟合度检验

2.1 χ2拟合度检验的原理

        操作:分析>非参数检验>旧对话框>卡方
在这里插入图片描述
        拟合度检验(goodness of fit test)用于检验单一分类变量的实际观察次数与某理论次数之间的差异。其原假设 H 0 {H_0} H0为实际观察次数与理论次数相等。进行拟合度检验时,需满足以下基本假设:
        ①研究的变量为一个分类变量;
        ②各分类观测值相互独立,且频数分组互不重叠;
        ③各分类的理论频数应大于5。
        当每个分类的理论频数 f e ≥ 5 {f_e} \geq 5 fe5时, χ 2 {\chi^2} χ2统计量渐近服从 χ 2 {\chi^2} χ2分布,此时可使用以下公式进行拟合度检验:
χ 2 = ∑ i k ( f o − f e ) 2 f e {\chi ^2} = \sum\limits_i^k {\frac{{{{({f_o} - {f_e})}^2}}}{{{f_e}}}} χ2=ikfe(fofe)2
        理论次数 f e {f_e} fe的计算是拟合度检验的关键,通常基于某种理论按一定概率从样本中计算,这些理论分布可以是均匀分布、二项分布或正态分布等。
        如果某分类的理论次数小于5,则使用耶茨(Yates)提出的连续性校正公式:
χ 2 = ∑ i k ( ∣ f o − f e ∣ − 0.5 ) 2 f e {\chi ^2} = \sum\limits_i^k {\frac{{{{(|{f_o} - {f_e}| - 0.5)}^2}}}{{{f_e}}}} χ2=ikfe(fofe0.5)2
        这种校正可以使得 χ 2 {\chi^2} χ2值降低,从而提高计算得到的概率 p p p
        在只有两个分类且某一单元格的期望次数小于5时,使用校正公式可得到较为满意的近似结果。但当分类数为三项或以上,若出现某一单元格理论次数小于5,通常可直接使用基本公式计算 χ 2 {\chi^2} χ2值,仍能获得合理结果。

2.2 二项检验原理

        操作:分析>非参数检验>旧对话框>二项
在这里插入图片描述
        二项检验(binomial test)是用于检验二分类数据的统计方法,适用于只包含两类的变量,例如性别(男性与女性)或考试成绩(及格与不及格)。在从具有参数 ( n , p ) (n, p) (n,p)的二项分布总体中抽取样本量为 n n n的样本时,其频数分布遵循二项分布,等同于独立地重复 n n n次贝努利试验。二项检验的原假设 H 0 {H_0} H0是观测数据某一类别的比例与指定的二项分布比例无显著差异,即 p 1 = p 0 {p_1} = {p_0} p1=p0
对于样本量较小的情况,可以使用排列组合公式精确计算每个 x x x取值的概率: p = C n x p x q n − x p = {C_n}^x{p^x}{q^{n - x}} p=Cnxpxqnx
         C n x C_n^x Cnx为组合数;
         p p p为成功概率, q = 1 − p q = 1 - p q=1p
        当 n p np np n q ⩾ 10 nq \geqslant 10 nq10时,二项分布可近似为正态分布。基于此,二项分布的平均数和标准差可由以下公式计算:
μ = n \mu {\text{ = n}} μ = n σ =  n p q \sigma {\text{ = }}\sqrt {npq} σ = npq

3 独立性检验

3.1 列联表与独立性检验

        假设有两个定类变量 x x x y y y,其中 x x x r r r个分类, y y y c c c个分类。通过将数据按 x x x分类并统计在不同 x x x取值下 y y y的分类情况,可以构建一个 r × c r \times c r×c列联表,通常称为二维列联表。此表格可以扩展到多个变量的情况,形成多维列联表(multiple contingency table)。
        若要研究列联表中两个分类变量之间的关系或独立性,就需要进行 χ 2 {\chi ^2} χ2独立性检验。该检验旨在推断总体中两个分类变量是否独立。若两个变量独立,则 χ 2 {\chi ^2} χ2检验结果不显著,且对应的 p p p值大于显著性水平 α \alpha α,表明其中一个变量的变化仅在取样误差范围内。而若两个变量非独立,则检验结果显著, p p p值小于 α \alpha α,说明它们之间存在关联。
        此外,独立性检验还可以用于判断一个变量的不同分类在另一个变量的多项分类上是否存在差异。如果两个变量独立,则它们在分类上的差异不显著;如果存在关联,则差异显著。

3.2 独立性检验的一般步骤

        ①提出假设:原假设 H 0 {H_0} H0为两个(或多个)变量之间独立,备择假设 H 1 {H_1} H1为它们之间存在关联或差异显著;
        ② 理论次数的计算:若用 f x i {f_{xi}} fxi表示第 i i i列的总和, f y i {f_{yi}} fyi表示第 j j j行的总和,则每个单元格的理论次数 f e {f_e} fe可用公式表示为: f e = f x i f y i N {f_e} = \frac{{{f_{xi}}{f_{yi}}}}{N} fe=Nfxifyi
        ③自由度的确定:对于一个 r × c r \times c r×c的列联表,自由度 d f df df d f = ( r − 1 ) ( c − 1 ) df = (r - 1)(c - 1) df=(r1)(c1)
        ④统计量计算:独立性检验的统计量 χ 2 {\chi ^2} χ2的计算与样本的独立性、样本大小及分类数目有关;
        ⑤统计决策:若 χ 2 {\chi ^2} χ2对应的 p p p值大于显著性水平 α \alpha α,则表明变量间无关联,接受原假设;反之,若 p p p值小于 α \alpha α,则说明变量间存在显著关联,拒绝原假设。
在这里插入图片描述

3.3 随机设计2x2列联表

        最简单的 r × c r \times c r×c列联表是2x2表,即四格表,它包含两个因素(变量),每个因素各有两个分类,从而将被试分为四类。我们称这种表为独立设计的2x2表或随机设计的2x2表。
        当随机设计的2x2表中各个单元的理论次数 f e ≥ 5 {f_e} \geq 5 fe5且样本量 N ≥ 40 N \geq 40 N40时,可以使        用基本公式计算 χ 2 {\chi ^2} χ2值:
χ 2 = ∑ i k ( f o − f e ) 2 f e {\chi ^2} = \sum\limits_i^k {\frac{{{{({f_o} - {f_e})}^2}}}{{{f_e}}}} χ2=ikfe(fofe)2
        或者使用2x2的简捷公式:
χ 2 = N ( a d − b c ) 2 ( a + b ) ( c + d ) ( a + c ) ( b + d ) {\chi ^2} = \frac{{N{{(ad - bc)}^2}}}{{(a + b)(c + d)(a + c)(b + d)}} χ2=(a+b)(c+d)(a+c)(b+d)N(adbc)2
        如果四格表中任一格的理论次数满足 1 ≤ f e ≤ 5 1 \leq f_e \leq 5 1fe5且样本量 N ≥ 40 N \geq 40 N40,则需使用耶茨(Yates)连续性校正公式进行计算:
χ 2 = ∑ i k ( ∣ f o − f e ∣ − 0.5 ) 2 f e {\chi ^2} = \sum\limits_i^k {\frac{{{{(|{f_o} - {f_e}| - 0.5)}^2}}}{{{f_e}}}} χ2=ikfe(fofe0.5)2
        也可使用简便公式进行校正:
χ 2 = N [ ( a d − b c ) − N / 2 ] 2 ( a + b ) ( c + d ) ( a + c ) ( b + d ) {\chi ^2} = \frac{{N{{[(ad - bc) - N/2]}^2}}}{{(a + b)(c + d)(a + c)(b + d)}} χ2=(a+b)(c+d)(a+c)(b+d)N[(adbc)N/2]2
        当四格表中任一格的理论次数 f e ≤ 1 {f_e} \leq 1 fe1或样本量 N < 40 N < 40 N<40时,推荐使用费舍(Fisher)精确概率检验法代替 χ 2 {\chi ^2} χ2检验。若两个变量独立,边缘次数固定时,四格表单元格内的数值 a , b , c , d a, b, c, d a,b,c,d的特定安排概率 p p p为:
p = ( a + b ) ! ( c + d ) ! ( a + c ) ! ( b + d ) ! a ! b ! c ! d ! ( a + b + c + d ) p = \frac{{(a + b)!\left( {c + d} \right)!\left( {a + c} \right)!\left( {b + d} \right)!}}{{a!b!c!d!\left( {a + b + c + d} \right)}} p=a!b!c!d!(a+b+c+d)(a+b)!(c+d)!(a+c)!(b+d)!
        通过计算所有可能的四格次数排列下的概率 p p p及其总和,与显著性水平 α \alpha α比较,如果 p < α p < \alpha p<α,则说明两样本间存在显著关联,拒绝独立假设。

3.4 rxc列联表独立性检验

        对于超过两个分类的二维列联表,可以用通式 r × c r \times c r×c表示,2x2四格表是其特例。当各个单元的理论次数 f e ≥ 5 {f_e} \geq 5 fe5且样本量 N ≥ 40 N \geq 40 N40时,使用 χ 2 {\chi ^2} χ2基本公式进行独立性检验:
χ 2 = ∑ i k ( f o − f e ) 2 f e {\chi ^2} = \sum\limits_i^k {\frac{{{{({f_o} - {f_e})}^2}}}{{{f_e}}}} χ2=ikfe(fofe)2
        若任一单元的理论次数满足 1 ≤ f e ≤ 5 1 \leq f_e \leq 5 1fe5且样本量 N ≥ 40 N \geq 40 N40,则需使用耶茨(Yates)连续性校正公式:
χ 2 = ∑ i k ( ∣ f o − f e ∣ − 0.5 ) 2 f e {\chi ^2} = \sum\limits_i^k {\frac{{{{(|{f_o} - {f_e}| - 0.5)}^2}}}{{{f_e}}}} χ2=ikfe(fofe0.5)2
        当任一单元的理论次数 f e ≤ 1 {f_e} \leq 1 fe1或样本量 N < 40 N < 40 N<40时,推荐使用费舍(Fisher)精确概率检验法作为替代,以确保结果的准确性。

3.5 配对卡方检验

        在某些情况下,我们需要分析数据以检验不同方法或评定者对同一群体的分类是否存在差异。例如,可以检验两种方法在同一组人中的评定是否一致,或比较两个评分者对同一被试的评定结果,亦或是同一评分者对同一组被试进行的前后两次评定归类是否有差异。这类数据结构与独立样本列联表不同,后者是用于分析同一被试的不同属性,行和列分别代表不同的属性;而配对样本列联表则用于分析同一被试在同一属性下的两种评定方式,其中行和列表示的是被试的相同属性。
        配对样本列联表可以通过配对卡方检验来分析不同评定方式之间的差异。其一个显著特征是行与列的数目相等,因此称为配对设计 r × c r \times c r×c列联表。

3.6 多维列联表独立性检验

        分析(multiple contingency table analysis)。在这种情况下,可以使用分层卡方检验,通常在SPSS中通过柯克兰和曼特尔-亨塞尔统计(Cochran-Mantel-Haenszel检验,简称CMH检验)进行分析。随着变量数量的增加,分析的复杂度也会增加;当涉及四个或以上的变量时,通常需要设置多个控制变量,分析将更加复杂。

3.7 分类变量关联强度分析

        Phi系数(φ)适用于2x2列联表,专门用于评估两个真实二分变量之间的关联强度。其计算公式为:
ϕ = a d − b c ( a + b ) ( c + d ) ( a + c ) ( b + d ) \phi = \frac{{ad - bc}}{{\sqrt {(a + b)(c + d)(a + c)(b + d)} }} ϕ=(a+b)(c+d)(a+c)(b+d) adbc
        或者可以通过卡方值与样本大小的关系表示为: ϕ = χ 2 n \phi = \sqrt {\frac{{{\chi ^2}}}{n}} ϕ=nχ2
        当φ=1时,表示完全正相关,所有个案集中在a和d两格;
        当φ=-1时,表示完全负相关,所有个案集中在b和c两格;
        当φ=0时,表示两个变量相互独立,个案均匀分布于四个格子。
        由于列联表中变量的排列是任意的,因此φ系数的正负符号没有实际意义,通常只关注其绝        对值来衡量关联强度。具体来说:
        当|φ| < 0.3时,表示相关性较弱;
        当|φ| > 0.6时,表示相关性较强。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1545365.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

弹性盒模型关键几个点:

下面代码保存为文件&#xff1a;style.css /* 弹性盒模型 */ .flex-box { width: 600px; height: 200px; border: 2px solid #000; /* 黑色边框 */ margin: 20px; /* 外边距 */ /* 弹性盒模型的关键&#xff1a;justify-content同主轴方向 align-items是交叉轴方向。比如…

这样做PPT也太酷了吧,27.9kstar,适合开发者的ppt工具推荐

1 slidev简介 slidev 是一个基于 Vue 开发的网页演示文稿工具,主要功能是将 Markdown 文档转换为演示幻灯片。 为开发者打造的演示文稿工具 Slidev最大的优势在于整个演示文稿内容的编写采用简单的Markdown格式,这极大降低了创作门槛。我们可以使用VS Code等编辑器高效编写Mar…

第Y1周:调用官方权重进行检测

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 一、下载源码 从本周开始YOLO的学习啦。首先是先体验一下。教案选择的是YOLOv5s GITHUB的开源地址如下 github 开源地址 打开网页之后下载zip包解压到自己想…

速度与安全:边缘计算如何改变游戏规则

Ⅰ初探边缘计算 1. 边缘计算是什么&#xff1f; 边缘计算&#xff0c;就像是城市里的便利店&#xff0c;它让数据处理不再需要长途跋涉到市中心的“超级计算机”超市&#xff0c;而是在你身边的每个角落就能快速完成。想象一下&#xff0c;你急需一杯冰咖啡&#xff0c;边缘计…

【ArcGIS Pro实操第三期】多模式道路网构建(Multi-model road network construction)原理及实操案例

ArcGIS Pro实操第三期&#xff1a;多模式道路网构建原理及实操案例 1 概述1.1 原理 2 GIS实操2.1 新建文件并导入数据2.2 创建网络数据集2.3 设置连接策略&#xff08;Setting up connectivity policies&#xff09;2.4 添加成本&#xff08;Adding cost attributes&#xff09…

如何在 Windows 台式机或笔记本电脑上恢复未保存的 Excel 文件

您的汗水很容易化为灰烬&#xff0c;如果您没有保存长时间编写的项目报告或电子表格&#xff0c;这可能会令人心碎。丢失 Windows PC 上未保存的 Excel 文件可能是导致这种情况的原因。但您不应该惊慌。仍然有机会恢复未保存的 Excel 文件。 在本指南中&#xff0c;我们将向您…

细说硫酸钙防静电地板的材质结构和优势特点

防静电地板有全钢基材的、硫酸钙基材的、铝合金基材的&#xff0c;在一些防静电要求、承载要求、铺设要求、铺装效果要求很高的场合&#xff0c;如银行、电信机房、移动机房、智能化办公室、部队指挥中心&#xff0c;通常都会使用硫酸钙防静电地板。那么什么是硫酸钙防静电地板…

《大学编译原理:语言翻译的艺术与科学》

在大学的计算机科学课程中&#xff0c;编译原理无疑是一门充满挑战与魅力的重要学科。它就像是一座连接高级编程语言和计算机硬件的桥梁&#xff0c;让程序员能够用人类易于理解的语言编写代码&#xff0c;而计算机则能高效地执行这些指令。 一、编译原理的重要性 编译原理是…

基于springboot vue 大学生竞赛管理系统设计与实现

博主介绍&#xff1a;专注于Java vue .net php phython 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设&#xff0c;从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找不到哟 我的博客空间发布了1000毕设题目 方便大家学习使用 感兴趣的…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《考虑主从博弈多套餐定价与分布鲁棒机会约束的新能源共享储能优化配置研究》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

C语言:编译,链接和预处理详解

目录 一.翻译环境和运行环境 二.翻译环境 ​编辑 1.预处理&#xff08;预编译&#xff09; &#xff08;1&#xff09;.#和##运算符 ①.#运算符 ②## 运算符 &#xff08;2&#xff09;.#undef &#xff08;3&#xff09;.条件编译 ①单分支的条件编译 ②多个分支的…

由动静压之比求马赫数的MATLAB函数

函数介绍 输入&#xff1a;动静压之比 p r e pre pre 输出&#xff1a;马赫数 M a c h Mach Mach 【注】仅适合亚音速的情况&#xff0c;如果动静压之比过大或过小&#xff0c;会有相应的提示 函数源代码 function [m] pre2mach(pre) m(5*(pre1).^0.2857-5).^0.5; if pre&l…

封装左侧抽屉可拖拽组件【可多个】

一、案例效果 二、案例代码 封装抽屉组件 <template><div class"drag-drawer"><div class"out-box" :style"style"><mtd-tooltip:content"collapse ? 展开面板 : 收起面板"class"tool-tip":placeme…

AI漏扫工具:SmartScanner

SmartScanner 是一款先进的 AI 漏洞扫描工具&#xff0c;旨在帮助用户识别和修复软件、系统及网络中的安全漏洞。以下是 SmartScanner 的一些主要特点&#xff1a; 1.智能识别 通过机器学习和深度学习技术&#xff0c;SmartScanner 能够快速识别已知和未知的漏洞&#xff0c;提…

推荐一个移动端支持多框架的UI组件库

支持的前端框架&#xff1a;Vue、React、Angular 地址&#xff1a;https://ionicframework.com/docs/

Web端云剪辑解决方案,提供前端产品源码

美摄科技作为业界领先的视频技术服务商&#xff0c;匠心打造Web端云剪辑解决方案&#xff0c;以前沿技术赋能企业用户&#xff0c;开启视频创作与编辑的新纪元。 【云端赋能&#xff0c;重塑剪辑体验】 美摄科技的Web端云剪辑解决方案&#xff0c;颠覆了传统视频编辑的局限&a…

一文说透RTMP、RTSP、RTP、HLS、MPEG-DASH

实时视频传输协议 1. RTMP&#xff08;Real Time Messaging Protocol&#xff09; 简介&#xff1a;RTMP是由Adobe公司开发的实时消息传输协议&#xff0c;主要用于流媒体数据的传输。它基于TCP传输&#xff0c;具有低延迟、高可靠性的特点。特点&#xff1a;RTMP支持多种视频…

【Mysql】Centos 安装 Mysql8.0

官网下载安装包 官网地址&#xff1a;MySQL :: Download MySQL Community Server 查看服务器的名称和版本号 lsb_release -a 查看服务的架构 uname -m 下载对应的版本&#xff0c;这里操作系统选择 Red Hat 就可以了。&#xff08;CentOS 就是将 RHEL 发行的源代码从新编译…

828华为云征文 | 华为云 X 实例服务器存储性能测试与优化策略

目录 引言 1 华为云 X 实例服务器概述 2 存储性能测试方法与工具 2.1 测试方法 2.2 测试工具 3 FIO&#xff08;Flexible I/O Tester&#xff09;读写性能测试 3.1 顺序读写测试 3.2 随机读写测试 4 hdparm性能测试 4.1 实际读取速度测试 4.2 缓存读取速度测试 4.3…

最大似然估计,存在即合理

一、感性认识 认识的第一步来自感性的认识&#xff0c;先来感性的了解一下最大似然估计。现在&#xff0c;假设有两个学院&#xff0c;物理和外语学院。两个学院都各有特点&#xff0c;物理学院的男生占比大&#xff0c;外语学院女生占比大。如果在一次实验从两个学院中随机的…