随机变量的类型

离散型随机变量

离散型随机变量的分布函数不连续,至多有可数个间断点(跳跃型间断点)

FX(x)=k:xkxP(X=xk)=k:xkxPk(1)F_X(x)=\sum_{k: x_k \leq x}P(X=x_k)=\sum_{k: x_k \leq x}P_k \tag{1}

0Pk1k=1Pk=10\leq P_k \leq1\\ \sum_{k=1}^\infty P_k=1

我们称满足(1)式的分布函数及相应的随机变量为离散型。

例1:

二项分布$ B(n,p)$

Pk=P(X=k)=Cnkpk(1p)nkk=0,1,2,...nP_k =P(X=k)=C_n^k p^k (1-p)^{n-k}\\ k=0,1,2,...n

伯努利分布(Bernoulli)(Bernoulli)n=1n=1 的二项分布

二项分布是多次伯努利分布。

例2

参数为λ\lambda的泊松PoissonPoisson分布 P(λ)P(\lambda)

Pk=P(X=k)=λkk!eλP_k=P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}

其中 k=0,1,2,3...k=0,1,2,3...

连续型随机变量

若分布函数连续,则 r.v.Xr.v.X 称为连续型随机变量,则:

xR,P(X=x)=0\forall x \in R , P(X=x)=0

大多数连续型r.v.r.v.都有密度函数:

fX(x)  xRf_{X}(x) \ \ x \in R

使得:

FX(x)=xfx(y)dyFx=fxF_X(x)=\int_{-\infty}^x f_x(y) {\rm d} y \\ F_x'=f_x

其中:

fx0fX(y) dy=1f_x \geq 0 \\ \int_{-\infty}^{\infty}f_X(y) \ {\rm d} y =1

例1

均匀分布 U(a,b)U(a,b) (Uniformly(Uniformly distribution)distribution)

FX(x)={0,xaxaba,a<x<b1,xb\Large F_X(x)=\begin{cases} 0 \quad,\quad x\leq a \\ \frac{x-a}{b-a} \quad,\quad a<x<b \\ 1\quad,\quad x \geq b \end{cases}

fX(x)={1ba,x(a,b)0,x(a,b)\Large f_X(x)= \begin{cases} \frac{1}{b-a} \quad,\quad x \in(a,b) \\ 0\quad,\quad x \notin(a,b) \end{cases}

如何理解均匀分布:

并非每个点概率都一样就是均匀分布,因为任何连续型分布每个点概率均为零。

正确理解为:在(a,b)(a,b)上取定长区间,概率相等。

例2

参数为λ\lambda的指数分布

FX(x)={ 0 ,x<0 1eλx,x0\Large F_X(x)=\begin{cases} \ 0 \ ,x<0 \\ \ 1-e^{-\lambda x} ,x \geq 0 \end{cases}

fX(x)={0x<0λeλxx0\large f_X(x)= \begin{cases} 0 \quad\quad\quad x<0 \\ \lambda e^{-\lambda x}\quad x \geq 0 \end{cases}

例3

正态分布 N(μ,σ2)N(\mu,\sigma^2) Normal DistributionNormal \ Distribution

xR       fX(x)=12πσe(xμ)22σ2\forall x \in \R \ \ \ \ \ \ \ f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}e^\frac{(x-\mu)^2}{2\sigma^2}

FX(x)=xfX(y) dyF_X(x)=\int_{-\infty}^{x} f_X(y) \ {\rm d} y

μ=0,σ=1\mu=0,\sigma=1 ,则为标准正态分布 N(0,1)N(0,1)

既不离散,又不连续,如:

XP(λ)YN(0,1)Z=X+YX \sim P(\lambda) \\ Y \sim N(0,1)\\ Z=X+Y

中心极限定理:对于独立并同样分布的随机变量,即使原始变量本身不是正态分布,标准化样本均值的抽样分布也趋向于标准正态分布

数学期望、方差、矩

1、连续型r.v.Xr.v.X有密度函数fxf_x

数学期望:

μX=E[X]=xfX(x) dx\mu_X= E[X] = \int_{-\infty}^{\infty} x f_X(x) \ {\rm d} x

方差:

σX2=Var(X)=E[(XμX)2]=E[X2]μX2=(xμX2)fX(x) dx\sigma_X^2=Var(X)=E[(X-\mu_X)^2]=E[X^2]-{\mu_X}^2 \\ =\int_{-\infty}^{\infty} (x-{\mu_X}^2) f_X(x) \ {\rm d}x

标准差:

σX=Var(X)\sigma_X=\sqrt{Var(X)}

ll 阶距:

E[Xl]=xlfX(x) dxE[X^l]=\int_{-\infty}^{\infty} x^l f_X(x) \ {\rm d} x

\forall 函数gg , Y=g(x)Y=g(x) 的期望:

E[Y]=E[g(X)]=g(x)fX(x) dxE[Y]=E[g(X)]=\int_{-\infty}^{\infty} g(x)f_X(x) \ {\rm d}x

易错注意:E[g(x)]g(E(x))E[g(x)] \not= g(E(x))

2、离散型r.v.Xr.v.XP(X=xk)=PkP(X=x_k)=P_k

数学期望:

μX=E[X]=kxkPk\mu_X=E[X]=\sum_k x_kP_k

方差:

σX2=Var(X)=k(xkμk)2Pk\sigma_X^2=Var(X)=\sum_{k}(x_k-\mu_k)^2 P_k

标准差:

σX=Var(X)\sigma_X=\sqrt{Var(X)}

ll 阶距:

E[Xl]=kxklPkE[X^l]=\sum_k {x_k}^l P_k

g(X)g(X) 的期望:

E[g(X)]=kg(xk)PkE[g(X)]= \sum_k g(x_k)P_k

从样本空间到实数域:

E[X]=ΩX(ω) dP(w)=Rx dFX(x)E[X]=\int_\Omega X(\omega) \ {\rm d} P(w) =\int_\R x \ {\rm d} F_X(x)

定理1: 切比雪夫不等式 (chebyshev)(chebyshev)

r.v.X        E[X]=μ      Var(X)=σ2r.v.X \ \ \ \ \ \ \ \ E[X]=\mu \ \ \ \ \ \ Var(X)=\sigma^2

则:

ε>0       P( Xμε)σ2ε2\forall \varepsilon>0 \ \ \ \ \ \ \ P(\ |X-\mu| \geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}

含义:随机变量XX落在数学期望E(X)E(X)的领域内的概率是很大的

证明:

首先我们定义示性函数 IAI_A:

IA(ω)={0  ,ωA1  ,ωA     ωΩI_A(\omega)=\begin{cases} 0 \ \ , \omega \notin A \\ 1 \ \ ,\omega \in A \end{cases} \ \ \ \ \ \forall \omega \in \Omega

E[IA]=1P(A)+0(1P(A))=P(A)E[I_A]=1*P(A)+0*(1-P(A))=P(A)

P( Xμε)=E[ IXμε ]=E[ IXμ2ε2 ]P(\ |X-\mu| \geq \varepsilon) =E[\ I_{|X-\mu| \geq \varepsilon} \ ] \\ =E[\ I_{|X-\mu|^2 \geq \varepsilon^2} \ ]

因为 IXμ2ε2I_{|X-\mu|^2 \geq \varepsilon^2} 只能取0 或 1,若I=0I=0 ,则$0<\frac{|X-\mu|^2}{\varepsilon^2} <1 $ ;若I=1I = 1,则$\frac{|X-\mu|^2}{\varepsilon^2} \geq 1 $

故:

IXμ2ε2Xμ2ε2I_{|X-\mu|^2 \geq \varepsilon^2} \leq \frac{|X-\mu|^2}{\varepsilon^2}

两边同时取期望:

E[IXμ2ε2]E[Xμ2ε2]=σ2ε2E[I_{|X-\mu|^2 \geq \varepsilon^2}] \leq E[\frac{|X-\mu|^2}{\varepsilon^2}] =\frac{\sigma^2}{\varepsilon^2}

得证。

随机向量

X=(X1,X2,...,Xn)X=(X_1,X_2,...,X_n) ,其中 $ \forall i$ ,XiX_i 是一维随机变量,则 XX 称为 nn 维随机向量(Random vector) (r.v.)(Random\ vector)\ ( r. v.)

分布函数

FX(x)=P(X1x1, X2x2, ..., Xnxn)=P({ω:X1(ω)x1, X2(ω)x2, ..., Xn(ω)xn})F_X(x)=P(X_1 \leq x_1,\ X_2 \leq x_2,\ ...,\ X_n \leq x_n) \\ =P(\{\omega: X_1(\omega) \leq x_1,\ X_2(\omega) \leq x_2,\ ...,\ X_n(\omega) \leq x_n \})

其中:

X=(X1,X2,...,Xn)  ,     x=(x1,x2,...xn)RX=(X_1,X_2,...,X_n)\ \ ,\ \ \ \ \ x=(x_1,x_2,...x_n) \in \R

BB  (n维度Borel代数)PX(B)=P({ω:Xi(ω)B})=P(XB)\forall B\in \mathcal{B} \ \ (n维度Borel代数) \\ P_X(B)=P(\{ \omega:X_i(\omega)\in B \} )= P(X\in B)

称为随机向量XX的分布

概率密度

若随机变量 X=(X1,X2,...,Xn)X=(X_1,X_2,...,X_n ) 有密度 fxf_x ,则分布函数 FX(x)F_X(x) 可以表示为

FX(x)=x1x2...xnfX(y1,y2,...yn)dyn...dy2dy1F_X(x)=\int_{-\infty}^{x_1}\int_{-\infty}^{x_2}...\int_{-\infty}^{x_n} f_X(y_1,y_2,...y_n) dy_n...dy_2dy_1

x=(x1,x2,...,xn)Rn    ,    fx0x=(x_1,x_2,...,x_n) \in \R^n \ \ \ \ , \ \ \ \ f_x \geq 0

且:

...fX(y1,y2,...yn)dyn...dy2dy1=1\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty} f_X(y_1,y_2,...y_n) dy_n...dy_2dy_1=1

边缘密度及分布函数

略。

数学期望

E[X]=(E[X1],E[X2],...,E[Xn])E[X]=(E[X_1],E[X_2],...,E[X_n])

协方差矩阵

x=(σij)nn\sum_x =(\sigma_{ij})_{n*n}

是一个对称矩阵,其中:

σij=cov(Xi,Xj)=E[(XiE[Xi])(XjE[Xj])]=E[XiXj]E[Xi]E[Xj]\sigma_{ij}=cov(X_i,X_j) \\ =E[(X_i-E[X_i])(X_j-E[X_j])] \\ =E[X_iX_j]-E[X_i]E[X_j]

XiX_iXjX_j的协方差,1in,1jn1 \leq i \leq n, 1 \leq j \leq n

可证明x\sum_x是一个半正定矩阵。

证明:

正定矩阵(positivedefinite)(positive definite):给定一个大小为nnn*n 的实对称矩阵 AA ,若对于任意长度为nn的非零向量xx,有xTAx>0x^TAx>0恒成立,则矩阵AA是一个正定矩阵。

半正定矩阵(positivesemidefinite)(positive semi-definite):给定一个大小为nnn*n 的实对称矩阵 AA ,若对于任意长度为nn的非零向量xx,有xTAx0x^TAx \geq 0恒成立,则矩阵AA是一个半正定矩阵。

例*:nn维高斯(随机)向量 ( nn维正态向量)

X=(X1,X2,...Xn)X=(X_1,X_2,...X_n)

密度函数:

x=(x1,x2,...,xn)Rn\forall x=(x_1,x_2,...,x_n)\in \R^n

其中:

μ=(μ1,μ2,...,μn)    :数学期望\mu=(\mu_1,\mu_2,...,\mu_n) \ \ \ \ :数学期望

:X的协方差矩阵det:的行列式()1的逆矩阵\sum :X的协方差矩阵 \\ det \sum: \sum的行列式 \\ (\sum)^{-1} :\sum 的逆矩阵

二维:

=(σ12σ1σ2σ1σ2σ22)\sum =\begin{pmatrix} {\sigma_1}^2 &\sigma_1\sigma_2 \\ \sigma_1\sigma_2&{\sigma_2}^2 \\ \end{pmatrix}

XXYY的相关系数:

ρXY=Cov(X,Y)Var(X) Var(Y)\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{Var(X) \ Var(Y)}}

性质:

nn维高斯向量作线性变换,得到的仍是高斯向量。

X=(X1,X2,...Xn)N(μ,)X=(X_1,X_2,...X_n) \sim N(\mu,\sum)

AAmnm*n的矩阵

AXN(Aμ,AAT)AX \sim N(A\mu,A\sum A^{T})

AXAX 是一个m维的高斯向量)

*二维高斯随机向量的密度图形:横截面是椭圆

*密度函数指数部分对应着椭圆