1 概率
- 古典概型和几何概型
- 古典概型(有限等可能)
- 几何概型(无限等可能)
- 条件概率
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
- 全概率公式
P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum \limits_{i = 1}^n P(A_i)P(B|A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)
- 贝叶斯公式:根据先验概率计算后验概率
P ( H ∣ E ) = P ( H ) P ( E ∣ H ) P ( E ) P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ i P ( B i ) P ( A ∣ B i ) P ( H i ∣ E 1 E 2 ⋯ E m ) = P ( E 1 ∣ H i ) P ( E 2 ∣ H i ) ⋯ P ( E m ∣ H i ) P ( H i ) ∑ j = 1 n P ( E 1 ∣ H j ) P ( E 2 ∣ H j ) ⋯ P ( E m ∣ H j ) P ( H j ) P(H|E) = \frac{P(H)P(E|H)}{P(E)} \\ P(B_i | A) = \frac{P(B_i)P(A|B_i)}{\sum_i P(B_i) P(A|B_i)} \\ P(H_i | E_1E_2 \cdots E_m) = \frac{P(E_1|H_i)P(E_2|H_i) \cdots P(E_m|H_i)P(H_i)}{\sum \limits_{j = 1}^n P(E_1|H_j)P(E_2|H_j) \cdots P(E_m|H_j)P(H_j)} P(H∣E)=P(E)P(H)P(E∣H)P(Bi∣A)=∑iP(Bi)P(A∣Bi)P(Bi)P(A∣Bi)P(Hi∣E1E2⋯Em)=j=1∑nP(E1∣Hj)P(E2∣Hj)⋯P(Em∣Hj)P(Hj)P(E1∣Hi)P(E2∣Hi)⋯P(Em∣Hi)P(Hi)
- 先验概率和后验概率
- 先验概率:事情未发生,根据以往数据分析得到的概率
- 后验概率:事情已发生,这件事情发生的原因是由某个因素引起的概率。 P ( B i ∣ A ) P(B_i|A) P(Bi∣A) 中 B i B_i Bi 为某个因素, A A A 为已经发生的结果
2 离散随机变量及分布
X X X 的概率分布函数:
- 两点分布(01分布) X ∼ B ( 1 , p ) X \thicksim B(1, p) X∼B(1,p)
P ( X = 0 ) = 1 − p P ( X = 1 ) = p p ∈ ( 0 , 1 ) P(X = 0) = 1 - p \\ P(X = 1) = p \\ p \in (0,1) P(X=0)=1−pP(X=1)=pp∈(0,1)
- 二项分布(伯努利分布) X ∼ B ( n , p ) X \thicksim B(n, p) X∼B(n,p)
P ( X = k ) = C n k p k ( 1 − p ) n − k p ∈ ( 0 , 1 ) , k = 0 , 1 , 2 , ⋯ , n P(X = k) = C_n^k p^k (1 - p)^{n - k} \hspace{1em} p \in (0,1), k = 0,1,2,\cdots, n P(X=k)=Cnkpk(1−p)n−kp∈(0,1),k=0,1,2,⋯,n
- 泊松分布 X ∼ P ( λ ) X \thicksim P(\lambda) X∼P(λ)
P ( X = k ) = λ k e − λ k ! λ > 0 , k = 0 , 1 , 2 , ⋯ P(X = k) = \frac{\lambda ^ k e ^{- \lambda}}{k!} \hspace{1em} \lambda \gt 0, k = 0,1,2,\cdots P(X=k)=k!λke−λλ>0,k=0,1,2,⋯
- 几何分布 X ∼ G ( p ) X \thicksim G(p) X∼G(p)
P ( X = k ) = ( 1 − p ) k − 1 p p ∈ ( 0 , 1 ) , k = 1 , 2 , ⋯ P(X = k) = (1 - p) ^ {k - 1} p \hspace{1em} p \in (0, 1), k = 1, 2, \cdots P(X=k)=(1−p)k−1pp∈(0,1),k=1,2,⋯
- 超几何分布 X ∼ h ( n , N , M ) X \thicksim h(n, N, M) X∼h(n,N,M)
N N N个产品, M M M个次品,从中无放回随机抽取 n n n个,不合格数 X X X服从超几何分布
P ( X = k ) = C N − M n − k C M k C N n P(X = k) = \frac{C_{N - M} ^ {n - k}C_M^k}{C_N ^ n} P(X=k)=CNnCN−Mn−kCMk
联合分布函数:二维随机变量 ( X , Y ) (X, Y) (X,Y) 的分布函数。
边缘概率函数:从联合分布函数得到只关于一个变量的概率分布,而不再考虑另一变量的影响,相当于降维操作
条件概率函数:在一个已知变量发生的情况下,考虑另一个变量的概率分布函数
3 连续随机变量及分布
概率密度函数:连续型随机变量 X X X 的分布函数为 F ( x ) F(x) F(x) ,若存在一个非负的函数 f ( x ) f(x) f(x) ,使得对任意 x x x 有:
F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int _{-\infin} ^x f(t) dt F(x)=∫−∞xf(t)dt
则称 f ( x ) f(x) f(x) 为 X X X 的概率密度函数
联合概率密度:二维随机变量的概率密度函数
边缘分布函数:二维随机变量关于某一维变量的概率密度分布,化为关于这一维变量的积分函数
- 均匀分布 X ∼ U ( a , b ) X \thicksim U(a, b) X∼U(a,b)
f ( x ) = { 1 b − a , a ≤ x ≤ b 0 , 其他 f(x) = \begin{cases} \frac{1}{b - a}, & a \le x \le b \\ 0, &其他 \end{cases} f(x)={b−a1,0,a≤x≤b其他
- 指数分布 X ∼ E ( λ ) X \thicksim E(\lambda) X∼E(λ)
f ( x ) = { λ e − λ x , x > 0 0 , 其他 f(x) = \begin{cases} \lambda e ^{-\lambda x}, & x \gt 0 \\ 0, &其他 \end{cases} f(x)={λe−λx,0,x>0其他
- 正态分布(高斯分布) X ∼ N ( μ , σ 2 ) X \thicksim N(\mu, \sigma ^ 2) X∼N(μ,σ2)
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2 \pi} \sigma} \huge{e} ^ {\large{- \frac{(x - \mu) ^ 2}{2 \sigma ^ 2}}} f(x)=2πσ1e−2σ2(x−μ)2
标准正态分布 X ∼ N ( 0 , 1 ) X \thicksim N(0, 1) X∼N(0,1)
4 随机变量数字特征
- 数学期望
离散分布的数学期望:
-
两点分布 p p p
-
二项分布 n p np np
-
泊松分布 λ \lambda λ
-
几何分布 1 p \frac{1}{p} p1
连续分布的数学期望:
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X) = \int _{-\infin}^{+ \infin} xf(x) dx E(X)=∫−∞+∞xf(x)dx
- 均匀分布 a + b 2 \frac{a + b}{2} 2a+b
- 指数分布 1 λ \frac{1}{\lambda} λ1
- 正态分布 μ \mu μ
- 方差
D ( X ) = E [ ( X − E ( X ) ) 2 ] = E ( X 2 ) − E 2 ( X ) D(X) = E[(X - E(X))^2] = E(X^2) - E^2(X) D(X)=E[(X−E(X))2]=E(X2)−E2(X)
- 协方差
C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] Cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y]
从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。
两个集合X和Y的协方差计算公式为:
Cov ( X , Y ) = 1 n ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) Cov(X,Y)=n1i=1∑n(xi−xˉ)(yi−yˉ)
- 相关系数
ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{_{XY}} = \frac{Cov(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}} ρXY=D(X)D(Y)Cov(X,Y)
相关系数等于0,不相关,相互独立
- 独立、互斥、相关(线性相关)
5 大数定理和中心极限定理
- 大数定理
样本数量很大的时候,样本均值和数学期望充分接近,也就是说当我们大量重复某一相同的实验的时候,其最后的实验结果可能会稳定在某一数值附近。
伯努利大数定律: f n ( A ) f_n(A) fn(A) 为事件 A A A 出现的频率, p p p 是事件A每次实验中发生的概率
l i m n → ∞ P { ∣ f n ( A ) − p ∣ < ε } = 1 \mathop{lim} \limits _{n \rightarrow \infin} P \{ |f_n(A) - p| \lt \varepsilon \} = 1 n→∞limP{∣fn(A)−p∣<ε}=1
还有切比雪夫大数定律,马尔科夫大数定律
- 中心极限定理
大量( n → ∞ n \to \infin n→∞)、独立、同分布的随机变量之和,近似服从于一维正态分布。
随机变量之和的标准化变量为
η = ∑ i = 1 n x i − n μ n σ \eta = \frac{\sum \limits _{i = 1} ^{n} x_i - n \mu}{\sqrt{n} \sigma} η=nσi=1∑nxi−nμ
均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的独立同分布的随机变量序列 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,只要 n n n足够大,就有
∑ i = 1 n x i − n μ n σ ∼ 近似 N ( 0 , 1 ) \frac{\sum \limits _{i = 1} ^{n} x_i - n \mu}{\sqrt{n} \sigma} \stackrel{近似}{\thicksim} N(0, 1) nσi=1∑nxi−nμ∼近似N(0,1)
6 参数估计
极大似然估计要求所有采样都是独立同分布的
就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
求最大似然估计量 θ ^ \hat \theta θ^ 步骤:
- 写出似然函数,似然函数越大越好
L = ∏ i = 1 n f ( x i ) L = \prod \limits _{i = 1} ^n f(x_i) L=i=1∏nf(xi)
-
对似然函数取对数,整理
-
求导数,让导数等于0
-
解似然方程