书接上回,我们已经讨论了OLSOLS估计值的期望,接下来我们讨论其方差。

OLSOLS估计量的方差

Var(β0^)   ,   Var(β1^)Var(\hat{\beta_0}) \ \ \ ,\ \ \ Var(\hat{\beta_1})

理解:我们每次估计的过程相当于从总体中抽取样本并对参数进行估计的过程,这个过程可以重复很多次,假设次数为 nn ,我们对方差进行分析。

首先引人假定 SLR.5\pmb{SLR.5} $ (Homoskedasticity \ \pmb{同方差性})$

Var(ui  xi)=σ2Var(u_i \ | \ x_i ) =\sigma^2

理解:等号右侧为常数,即不论xx取何值,均不会对uu的波动性(方差)造成影响

关于SLR.4SLR.4SLR.5SLR.5区别与联系

  • ​ 两者具有很大的区别,一个侧重期望,一个侧重方差。SLR.5SLR.5 对于证明无偏性无作用,反之亦然。
  • ​ 两者均不能代表uuxx独立,独立是一个过强的假定,由独立可以推导到SLR.4SLR.4SLR.5SLR.5,但无法反推。

关于条件期望与方差的感性理解:

我们把真实世界中的 (xi,ui)(x_i,u_i) 投影到坐标系中。每个固定的横坐标值都对应一串uu,满足一定分布。同方差性意味着不同的横坐标值不会导致uu的方差的变化(但uu的分布可能会改变)。

我们继续讨论:

Var(yi  xi)=Var(β0+β1xi+ui   xi)=Var(ui  xi)=σ2Var(y_i \ | \ x_i)=Var(\beta_0+\beta_1 x_i+u_i \ \ | \ x_i) =Var(u_i \ | \ x_i)=\sigma^2

即,当我们在讨论uu的方差时,其实也就在讨论yy的方差。

定理 2.2 OLSOLS估计量的抽样方差

先给出结论:

Var(β1^)=σ2i=1n(xixˉ)2=σ2SSTxVar(\hat{\beta_1})=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{\sigma^2}{SST_x}

Var(β0^)=σ2i=1nxi2n SSTxVar(\hat{\beta_0})=\frac{\sigma^2 \sum_{i=1}^n x_i^2}{n \ SST_x}

直观来看,不可观察的误差项的方差越大,系数估计值得方差越大;自变量波动性越大,回归系数估计值的方差越小。

在社会科学中,很多时候,我们只能进行一次抽样。因此,我们希望回归系数估计值的方差尽可能小,即追求 min(Var(β1^))min(Var(\hat{\beta_1})),因此,我们应当使 SSTxSST_x 尽可能大,即让xx的波动性尽可能大。例如,在调查学历对工资的影响时,我们应当取尽可能大的学历跨度。

另一种理解:如果xx跨度很小,那么在数据点拟合坐标轴上就会聚成一团,难以判断直线斜率。

定理 2.2 的证明

以样本 XX 为条件,我们已知:

β1^=β1+1i=1n(xixˉ)2i=1n(xixˉ)ui\hat{\beta_1}= \beta_1 + \frac{1}{\sum_{i=1}^n(x_i-\bar{x})^2} \sum_{i=1}^n(x_i-\bar{x}) u_i

于是:

Var(β1^)=Var(1SSTxi=1n(xixˉ)ui)=1SSTx2i=1n(xixˉ)2Var(ui)Var(\hat{\beta_1})=Var(\frac{1}{SST_x} \sum_{i=1}^n(x_i-\bar{x}) u_i) \\ =\frac{1}{SST_x^2} \sum_{i=1}^n(x_i-\bar{x})^2 Var(u_i)

关于上式的变形,因为\sum 中每一项都不相关,故可以将VarVar分配进去,具体来说:

Var(i=1n(xixˉ)ui)Var(\sum_{i=1}^n(x_i-\bar{x}) u_i)

=Var( (x1xˉ)u1+(x2xˉ)u2+...+(xnxˉ)un)=Var(\ (x_1-\bar{x})u_1+(x_2-\bar{x})u_2+...+(x_n-\bar{x})u_n )

=Var((x1xˉ)u1)+Var((x2xˉ)u2)+...+Var((xnxˉ)un)=Var((x_1-\bar{x})u_1) + Var((x_2-\bar{x})u_2)+...+ Var((x_n-\bar{x})u_n)

=(x1xˉ)2Var(u1)+(x2xˉ)2Var(u2)+...+(xnxˉ)2Var(un)=(x_1-\bar{x})^2 Var(u_1)+(x_2-\bar{x})^2 Var(u_2)+...+(x_n-\bar{x})^2 Var(u_n)

=i=1n(xixˉ)2Var(ui)=\sum_{i=1}^n (x_i-\bar{x})^2 Var(u_i)

因为 Var(ui)=σ2Var(u_i) =\sigma^2 ,故:

Var(β1^)=1SSTx2i=1n(xixˉ)2 σ2    =1SSTx2SSTX σ2=σ2SSTxVar(\hat{\beta_1})=\frac{1}{SST_x^2} \sum_{i=1}^n(x_i-\bar{x})^2 \ \sigma^2 \\ \ \ \ \ =\frac{1}{SST_x^2} SST_X \ \sigma^2 \\ =\frac{\sigma^2}{SST_x}

误差方差σ2\sigma^2的估计

我们不知道σ2\sigma^2,故需要进行估计。

σ2^=1n2i=1nui^2=SSRn2\hat{\sigma^2}=\frac{1}{n-2}\sum_{i=1}^n \hat{u_i}^2= \frac{SSR}{n-2}

这个式子从何而来?

首先,我们需要的是一个"估计量",即式子中的数据应当可以通过样本获得,故应使用ui^\hat{u_i}而非uiu_i。其次,n2n-2 不是巧合,只有取n2n-2时才是一个无偏估计量,其原因在于:

关于最初的两个一阶约束条件:

1ni=1nui^=0i=1nui^xi=0\frac{1}{n} \sum_{i=1}^n \hat{u_i}=0 \\ \sum_{i=1}^n \hat{u_i} x_i=0

这两个约束条件导致了uiu_i 并不能任意取值,OLSOLS残差只有n2n-2自由度

定理2.3 误差项方差估计值的无偏性

E(σ2^)=σ2E(\hat{\sigma^2})= \sigma^2

其中:

σ2^=1n2i=1nui^2\hat{\sigma^2}=\frac{1}{n-2}\sum_{i=1}^n \hat{u_i}^2

定理 2.3 的证明

ui^=yiβ0^β1^xi=(β0+β1xi+ui)β0^β1^xi\hat{u_i}=y_i -\hat{\beta_0}-\hat{\beta_1}x_i=(\beta_0+\beta_1x_i+u_i)-\hat{\beta_0}-\hat{\beta_1}x_i

ui^=ui(β0^β0)(β1^β1)xi(1)\hat{u_i}=u_i-(\hat{\beta_0}-{\beta_0})-(\hat{\beta_1}-\beta_1)x_i \tag{1}

1ni=1nui^=1ni=1n[ui(β0^β0)(β1^β1)xi]=0   (根据一阶约束条件)\frac{1}{n}\sum_{i=1}^n \hat{u_i}=\frac{1}{n}\sum_{i=1}^n[u_i-(\hat{\beta_0}-{\beta_0})-(\hat{\beta_1}-\beta_1)x_i]=0 \ \ \ (根据一阶约束条件)

所以:

uˉ(β0^β0)(β1^β1)xˉ=0(2)\bar{u}-(\hat{\beta_0}-\beta_0)-(\hat{\beta_1}-\beta_1)\bar{x}=0 \tag{2}

(1)-(2)得到:

ui^=(uiuˉ)(β1^β1)(xixˉ)\hat{u_i}=(u_i-\bar{u})-(\hat{\beta_1}-\beta_1)(x_i-\bar{x})

取平方:

ui^2=(uiuˉ)2+(β1^β1)2(xixˉ)22(uiuˉ)(β1^β1)(xixˉ)\hat{u_i}^2=(u_i-\bar{u})^2+(\hat{\beta_1}-\beta_1)^2(x_i-\bar{x})^2 -2(u_i-\bar{u})(\hat{\beta_1}-\beta_1)(x_i-\bar{x})

再对各部分分别求和取期望,并对三部分分布分析:

第一部分:

E[ i=1n(uiuˉ)2 ]=E[(n1)样本方差]=(n1)σ2E[\ \sum_{i=1}^n(u_i-\bar{u})^2 \ ]=E[(n-1)*样本方差]=(n-1)\sigma^2

第二部分:

E[ i=1n(β1^β1)2(xixˉ)2 ]=E[ i=1n(β1^E[β1^])2(xixˉ)2 ]=E[Var(β1^)SSTx]=σ2E[\ \sum_{i=1}^n (\hat{\beta_1}-\beta_1)^2(x_i-\bar{x})^2 \ ] \\ =E[\ \sum_{i=1}^n (\hat{\beta_1}-E[\hat{\beta_1}])^2(x_i-\bar{x})^2 \ ]\\ =E[Var(\hat{\beta_1})SST_x] \\ =\sigma^2

第三部分

E[ i=1n2(uiuˉ)(β1^β1)(xixˉ) ]=2(β1^β1) E[ i=1n(uiuˉ)(xixˉ) ]=2(β1^β1) E[ i=1n[ui^+(β1^β1)(xixˉ)](xixˉ) ]=2(β1^β1)(E[i=1nui^(xixˉ)]+E[ i=1n(β1^β1)(xixˉ)2 )=0+E[2(β1^β1)2SSTx]=2σ2E[\ \sum_{i=1}^n 2(u_i-\bar{u})(\hat{\beta_1}-\beta_1)(x_i-\bar{x})\ ] \\ =2(\hat{\beta_1}-\beta_1)\ E[\ \sum_{i=1}^n (u_i-\bar{u})(x_i-\bar{x})\ ] \\ =2(\hat{\beta_1}-\beta_1)\ E[\ \sum_{i=1}^n [\hat{u_i}+(\hat{\beta_1}-\beta_1)(x_i-\bar{x})](x_i-\bar{x})\ ] \\ =2(\hat{\beta_1}-\beta_1)(E[\sum_{i=1}^n \hat{u_i}(x_i-\bar{x})]+ E[\ \sum_{i=1}^n (\hat{\beta_1}-\beta_1)(x_i-\bar{x})^2\ ) \\ =0+E[2(\hat{\beta_1}-\beta_1)^2 SST_x] =-2 \sigma^2

所以:

E(i=1nui^2)=(n2)σ2E(1n2i=1nui^2)=σ2E(σ2^)=σ2E(\sum_{i=1}^n \hat{u_i}^2)=(n-2)\sigma^2 \\ E(\frac{1}{n-2}\sum_{i=1}^n \hat{u_i}^2) =\sigma^2 \\ E(\hat{\sigma^2})= \sigma^2

标准误(Standard Error)(Standard\ Error)

标准误是估计方差的平方根,故随样本的变化而变化,衡量了回归系数估计的精确程度。

标准误是针对样本而言的,而方差和标准差是针对总体而言

se(β1^)=Var^(β1^)=σ^2SSTxse(\hat{\beta_1})=\sqrt{\hat{Var}(\hat{\beta_1})} =\sqrt{\frac{\hat{\sigma}^2}{SST_x}}

se(β0^)=Var^(β0^)=σ^2i=1nxi2n SSTxse(\hat{\beta_0})=\sqrt{\hat{Var}(\hat{\beta_0})}=\sqrt{\frac{\hat{\sigma}^2 \sum_{i=1}^n x_i^2}{n \ SST_x}}

再看假设

前面的若干假设其实意味着 uiu_i独立同分布的,具体分布会在后文介绍。后续的研究会对假设进行削弱,如 uiu_i 分布受 xx 影响等。