推断的目的:根基样本估计值来推断真实值

Assumption MLR.6 (Normality of error terms 误差项的正态性)

总体误差uu独立于解释变量xix_i,并且服从正态分布

uiN(0,σ2)u_{i} \sim N(0,\sigma^2)

xx不变作为条件,则yy的分布也是正态分布

E(yx)=E(β0+β1x1+β2x2+...+βkxk+ux)=β0+β1x1+β2x2+...+βkxkVar(yx)=Var(ux)=σ2E(y|x)=E(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+u|x)=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k \\ Var(y|x)=Var(u|x)= \sigma^2

所以:

yxN(β0+β1x1+β2x2+...+βkxk,σ2)\pmb{y|x \sim N(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k,\sigma^2)}

MLR.1MLR.6MLR.1-MLR.6统称为经典线性假定CLMCLM),在这个假定下的模型称为经典线性模型,可以证明,在CLMCLM假定下,OLSOLS估计量是最小方差无偏估计量

定理4.1 正态抽样分布

根据MLR.1MLR.6MLR.1-MLR.6:

βj^N(βj,Var(βj^))\hat{\beta_{j}} \sim N(\beta_j,Var(\hat{\beta_j}))

进一步:

βj^βjsd(βj^)N(0,1)\frac{\hat{\beta_j}-\beta_j}{sd(\hat{\beta_j})} \sim N(0,1)

证明:

由上一章,我们已知:

βj^=βj+i=1nr^ijuii=1nr^ij2\hat{\beta_j}=\beta_j+\frac{\sum_{i=1}^n\hat{r}_{ij}u_i}{\sum_{i=1}^n\hat{r}_{ij}^2}

这是关于uiu_i的线性组合,因为uiu_i服从正态分布,故βj^\hat{\beta_j}服从正态分布。

定理4.2 标准化估计量的t分布

根据MLR.1MLR.6MLR.1-MLR.6:

βj^βjse(βj^)tnk1\frac{\hat{\beta_j}-\beta_j}{se(\hat{\beta_j})} \sim t_{n-k-1}

证明:

矩阵证明,后续补充。

t分布

密度函数:

图形为:

如何推断真实值

第一步建立原假设或零假设(Null hypothesisNull \ hypothesis

H0:βj=0H_0: \beta_j=0

第二步构建tstatistict-statistictt统计量)

tβj^=βj^se(βj^)t_{\hat{\beta_j}}=\frac{\hat{\beta_j}}{se(\hat{\beta_j})}

如何原假设H0H_0成立,则:

tβj^=βj^se(βj^)=βj^βjse(βj^)tnk1t_{\hat{\beta_j}}=\frac{\hat{\beta_j}}{se(\hat{\beta_j})}=\frac{\hat{\beta_j}-\beta_j}{se(\hat{\beta_j})} \sim t_{n-k-1}

tβj^t_{\hat{\beta_j}}是可计算的

假设检验的逻辑:

如果原假设成立,那么t统计量应该服从t分布,我们根据数据计算t统计量,如果t统计量的产生是一个小概率事件,那么拒绝原假设。

第三步 确定显著性水平和临界值

显著性水平指的是小概率事件发生的概率(当H0H_0正确时拒绝它的概率)。

例如,在5%的显著性水平下,设ccnk1n-k-1的自由度的tt分布中处在百分位中第95位的数值,则拒绝法则

tβj>ct_{\beta_j}>c

单侧备择假设(Testing against onesided alternativesTesting\ against\ one-sided\ alternatives

第一步提出原假设:

Test:H0:βj=0   against    H1:βj>0Test:H_0:\beta_j=0 \ \ \ against\ \ \ \ H_1:\beta_j>0

第二步计算tt统计量

第三版根据自由度和显著性水平,计算临界值。

双侧备择假设(Testing against twosided alternativesTesting\ against\ two-sided\ alternatives

拒绝法则:

tβj^>c|t_{\hat{\beta_j}}| >c

如果在一定显著性水平上拒绝H0H_0,我们通常说:xjx_j统计显著(statistically significant)(statistically\ significant) ,反之,我们则称"xjx_j在显著性水平为5%5\%时是统计上不显著的(statistically insignificant)(statistically\ insignificant)"

其他形式的假设

原假设:

H0:  βj=ajH_0: \ \ \beta_j=a_j

tt统计量:

t=βj^ajse(βj^)t=\frac{\hat{\beta_j}-a_j}{se(\hat{\beta_j})}

计算tt检验的pp

p值的含义:给定tt统计量的观测值,能拒绝原假设的最小显著性水平

即,显著性(阴影面积)不断减少的过程中,最小的能将tt统计量包含住的显著性的值;此时,tt统计量是临界值,pptt统计量到无穷处积分出的面积。

实践中,我们往往希望更小的显著性水平(显著性水平越小,拒真错误的可能性越小),因此,pp值刻画了样本数据能提供的最优(小)的显著性水平。

在双侧假设下:

p=P(T>t)p=P(|T|>|t|)

其中,TT为自由度为nk1n-k-1tt分布随机变量,tt为该检验统计量的数值。

对于一定的显著性水平α\alpha,若p<αp<\alpha,则拒绝原假设;若p>αp>\alpha,则在α\alpha的显著性水平下,就不能拒绝H0H_0.

置信区间(Confidence intervalsConfidence\ intervals

置信区间:真实值所在的取值范围

在一定显著性水平下(如0.05),可以求得临界值C0.05,C0.05C_{0.05},-C_{0.05}(分别是tt分布的上下2.5%5\%分位数)

故不能拒绝原假设的区间为:

C0.05<tβ^<C0.05-C_{0.05}<t_{\hat{\beta}}<C_{0.05}

C0.05<βj^βjse(βj^)<C0.05-C_{0.05}<\frac{\hat{\beta_j}-\beta_j}{se(\hat{\beta_j})} <C_{0.05}

从概率角度:

P(C0.05<βj^βjse(βj^)<C0.05)=95%P(-C_{0.05}<\frac{\hat{\beta_j}-\beta_j}{se(\hat{\beta_j})} <C_{0.05}) =95\%

化简得:

P(βj^C0.05se(βj^)<βj<βj^+C0.05se(βj^))=95%P(\hat{\beta_j}-C_{0.05}se(\hat{\beta_j})<\beta_j{} <\hat{\beta_j}+C_{0.05}se(\hat{\beta_j})) =95\%

故在5%5\%的显著性水平下,βj\beta_j的置信区间为:

(βj^C0.05se(βj^) , βj^+C0.05se(βj^) )(\hat{\beta_j}-C_{0.05}se(\hat{\beta_j})\ ,\ \hat{\beta_j}+C_{0.05}se(\hat{\beta_j})\ )

ajinterval   =>   reject H0:βj=aja_j \notin interval\ \ \ => \ \ \ reject\ H_0:\beta_j=a_j

检验关于参数的一个线性组合假设

log(wage)=β0+β1jc+β2univ+β3exper+ulog(wage)=\beta_0+\beta_1 jc+\beta_2 univ+\beta_3 exper+u

如果要检验β1\beta_1是否显示小于β2\beta_2,直觉是H0:β1<β2H_0:\beta_1<\beta_2,但此时tt统计量为:

t=β1^β2^se(β1^β2^)t=\frac{\hat{\beta_1}-\hat{\beta_2}}{se(\hat{\beta_1}-\hat{\beta_2})}

其分母se(β1^β2^)se(\hat{\beta_1}-\hat{\beta_2})无法求得,故考虑换一种方法。

H0:θ1=0H_0: \theta_1=0H1:θ1<0H_1: \theta_1<0,将β1=θ1+β2\beta_1=\theta_1+\beta_2代入原式:

log(wage)=β0+θ1jc+β2(jc+univ)+β3exper+ulog(wage)=\beta_0+\theta_1 jc+\beta_2 (jc+univ)+\beta_3 exper+u

用新变量totcolltotcoll代替(jc+univ)(jc+univ),此时可求得tt统计量:

t=θ1se(θ1)t=\frac{\theta_1}{se(\theta_1)}

对多个线性约束的检验:F检验

原假设:

H0:βkq+1=0,βkq+2=0,...,βk=0H_0: \beta_{k-q+1}=0,\beta_{k-q+2}=0,...,\beta_{k}=0

备择假设:

H1:  H0 不成立H_1: \ \ H_0 \ 不成立

第一步,估计不受约束模型,计算残差平方和SSRurSSR_{ur}

y=β0+β1x1+β2x2+...+βkxk+uy=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+u

即该模型的残差平方和

第二步,估计受约束模型,计算残差平方和SSRrSSR_r

y=β0+β1x1+β2x2+...+βkqxkq+uy=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_{k-q}x_{k-q}+u

即该模型的残差平方和

第三步,比较残差平方和是不是有很大变化,计算FF统计量以及做FF检验。

F统计量(FstatisticF-statistic

F=(SSRrSSRur)/qSSRur/(nk1)Fq,nk1F=\frac{(SSR_r-SSR_{ur})/q}{SSR_{ur}/(n-k-1)} \sim F_{q,n-k-1}

其中:qq为约束条件的个数

如果拒绝H0H_0,我们就说xkq+1,...,xkx_{k-q+1},...,x_k在适当的显著性水平上是联合统计显著的,否则是联合不显著的

对全部系数检验

H0:β1=β2=...=βk=0H_0: \beta_1=\beta_2=...=\beta_k=0

不受约束模型中:

R2=1SSRurSSTR^2=1-\frac{SSR_{ur}}{SST}

故:

SSRur=SST(1R2)SSR_{ur}=SST(1-R^2)

受约束模型中R2=0R^2=0,故

SSRr=SSTSSR_r =SST

代入化简得:

F=(SSRrSSRur)/qSSRur/(nk1)=R2/k(1R2)/(nk1)Fq,nk1F=\frac{(SSR_r-SSR_{ur})/q}{SSR_{ur}/(n-k-1)}=\frac{R^2/k}{(1-R^2)/(n-k-1)} \sim F_{q,n-k-1}

此时的显著性称为回归的整体显著性overall significnace of the regressionoverall\ significnace\ of \ the \ regression

有时,很小的R2R^2会导致高度显著的FF统计量,这便解释了我们为什么需要计算FF统计量来检验联合显著性,而不是仅仅看一下R2R^2的大小。