书接上回,我们已经讨论了$OLS$估计值的期望,接下来我们讨论其方差。

$OLS$估计量的方差

$$
Var(\hat{\beta_0}) \ \ \ ,\ \ \ Var(\hat{\beta_1})
$$

理解:我们每次估计的过程相当于从总体中抽取样本并对参数进行估计的过程,这个过程可以重复很多次,假设次数为 $n$ ,我们对方差进行分析。

首先引人假定 $\pmb{SLR.5}$ $ (Homoskedasticity \ \pmb{同方差性})$
$$
Var(u_i \ | \ x_i ) =\sigma^2
$$
理解:等号右侧为常数,即不论$x$取何值,均不会对$u$的波动性(方差)造成影响

关于$SLR.4$ 与 $SLR.5$ 的区别与联系

  • ​ 两者具有很大的区别,一个侧重期望,一个侧重方差。$SLR.5$ 对于证明无偏性无作用,反之亦然。
  • ​ 两者均不能代表$u$与$x$独立,独立是一个过强的假定,由独立可以推导到$SLR.4$ 与 $SLR.5$,但无法反推。

关于条件期望与方差的感性理解:

我们把真实世界中的 $(x_i,u_i)$ 投影到坐标系中。每个固定的横坐标值都对应一串$u$,满足一定分布。同方差性意味着不同的横坐标值不会导致$u$的方差的变化(但$u$的分布可能会改变)。

我们继续讨论:
$$
Var(y_i \ | \ x_i)=Var(\beta_0+\beta_1 x_i+u_i \ \ | \ x_i) =Var(u_i \ | \ x_i)=\sigma^2
$$
即,当我们在讨论$u$的方差时,其实也就在讨论$y$的方差。

定理 2.2 $OLS$估计量的抽样方差

先给出结论:
$$
Var(\hat{\beta_1})=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{\sigma^2}{SST_x}
$$

$$
Var(\hat{\beta_0})=\frac{\sigma^2 \sum_{i=1}^n x_i^2}{n \ SST_x}
$$

直观来看,不可观察的误差项的方差越大,系数估计值得方差越大;自变量波动性越大,回归系数估计值的方差越小。

在社会科学中,很多时候,我们只能进行一次抽样。因此,我们希望回归系数估计值的方差尽可能小,即追求 $min(Var(\hat{\beta_1}))$,因此,我们应当使 $SST_x$ 尽可能大,即让$x$的波动性尽可能大。例如,在调查学历对工资的影响时,我们应当取尽可能大的学历跨度。

另一种理解:如果$x$跨度很小,那么在数据点拟合坐标轴上就会聚成一团,难以判断直线斜率。

定理 2.2 的证明

以样本 $X$ 为条件,我们已知:
$$
\hat{\beta_1}= \beta_1 + \frac{1}{\sum_{i=1}^n(x_i-\bar{x})^2} \sum_{i=1}^n(x_i-\bar{x}) u_i
$$
于是:
$$
Var(\hat{\beta_1})=Var(\frac{1}{SST_x} \sum_{i=1}^n(x_i-\bar{x}) u_i) \
=\frac{1}{SST_x^2} \sum_{i=1}^n(x_i-\bar{x})^2 Var(u_i)
$$
关于上式的变形,因为$\sum$ 中每一项都不相关,故可以将$Var$分配进去,具体来说:
$$
Var(\sum_{i=1}^n(x_i-\bar{x}) u_i)
$$

$$
=Var(\ (x_1-\bar{x})u_1+(x_1-\bar{x})u_1+…+(x_n-\bar{x})u_n )
$$

$$
=Var((x_1-\bar{x})u_1) + Var((x_2-\bar{x})u_2)+…+ Var((x_n-\bar{x})u_n)
$$

$$
=(x_1-\bar{x})^2 Var(u_1)+(x_2-\bar{x})^2 Var(u_2)+…+(x_n-\bar{x})^2 Var(u_n)
$$

$$
=\sum_{i=1}^n (x_i-\bar{x})^2 Var(u_i)
$$

因为 $Var(u_i) =\sigma^2$ ,故:
$$
Var(\hat{\beta_1})=\frac{1}{SST_x^2} \sum_{i=1}^n(x_i-\bar{x})^2 \ \sigma^2 \
\ \ \ \ =\frac{1}{SST_x^2} SST_X \ \sigma^2 \
=\frac{\sigma^2}{SST_x}
$$

误差方差$\sigma^2$的估计

我们不知道$\sigma^2$,故需要进行估计。
$$
\hat{\sigma^2}=\frac{1}{n-2}\sum_{i=1}^n \hat{u_i}^2= \frac{SSR}{n-2}
$$

这个式子从何而来?

首先,我们需要的是一个"估计量",即式子中的数据应当可以通过样本获得,故应使用$\hat{u_i}$而非$u_i$。其次,$n-2$ 不是巧合,只有取$n-2$时才是一个无偏估计量,其原因在于:

关于最初的两个一阶约束条件:
$$
\frac{1}{n} \sum_{i=1}^n \hat{u_i}=0 \
\sum_{i=1}^n \hat{u_i} x_i=0
$$
这两个约束条件导致了$u_i$ 并不能任意取值,$OLS$残差只有$n-2$个自由度

定理2.3 误差项方差估计值的无偏性

$$
E(\hat{\sigma^2})= \sigma^2
$$

其中:
$$
\hat{\sigma^2}=\frac{1}{n-2}\sum_{i=1}^n \hat{u_i}^2
$$

定理 2.3 的证明

$$
\hat{u_i}=y_i -\hat{\beta_0}-\hat{\beta_1}x_i=(\beta_0+\beta_1x_i+u_i)-\hat{\beta_0}-\hat{\beta_1}x_i
$$

$$
\hat{u_i}=u_i-(\hat{\beta_0}-{\beta_0})-(\hat{\beta_1}-\beta_1)x_i \tag{1}
$$

$$
\frac{1}{n}\sum_{i=1}^n \hat{u_i}=\frac{1}{n}\sum_{i=1}^n[u_i-(\hat{\beta_0}-{\beta_0})-(\hat{\beta_1}-\beta_1)x_i]=0 \ \ \ (根据一阶约束条件)
$$

所以:
$$
\bar{u}-(\hat{\beta_0}-\beta_0)-(\hat{\beta_1}-\beta_1)\bar{x}=0 \tag{2}
$$
(1)-(2)得到:
$$
\hat{u_i}=(u_i-\bar{u})-(\hat{\beta_1}-\beta_1)(x_i-\bar{x})
$$
取平方:
$$
\hat{u_i}^2=(u_i-\bar{u})^2+(\hat{\beta_1}-\beta_1)^2(x_i-\bar{x})^2
-2(u_i-\bar{u})(\hat{\beta_1}-\beta_1)(x_i-\bar{x})
$$
再对各部分分别求和取期望,并对三部分分布分析:

第一部分:
$$
E[\ \sum_{i=1}^n(u_i-\bar{u})^2 \ ]=E[(n-1)*样本方差]=(n-1)\sigma^2
$$
第二部分:
$$
E[\ \sum_{i=1}^n (\hat{\beta_1}-\beta_1)^2(x_i-\bar{x})^2 \ ] \
=E[\ \sum_{i=1}^n (\hat{\beta_1}-E[\hat{\beta_1}])^2(x_i-\bar{x})^2 \ ]\
=E[Var(\hat{\beta_1})SST_x] \ =\sigma^2
$$
第三部分
$$
E[\ \sum_{i=1}^n 2(u_i-\bar{u})(\hat{\beta_1}-\beta_1)(x_i-\bar{x})\ ] \
=2(\hat{\beta_1}-\beta_1)\ E[\ \sum_{i=1}^n (u_i-\bar{u})(x_i-\bar{x})\ ] \
=2(\hat{\beta_1}-\beta_1)\ E[\ \sum_{i=1}^n \hat{u_i}+(\hat{\beta_1}-\beta_1)(x_i-\bar{x})\ ] \
=2(\hat{\beta_1}-\beta_1)(E[\sum_{i=1}^n \hat{u_i}(x_i-\bar{x})]+ E[\ \sum_{i=1}^n (\hat{\beta_1}-\beta_1)(x_i-\bar{x})^2\ ) \
=0+E[2(\hat{\beta_1}-\beta_1)^2 SST_x]
=-2 \sigma^2
$$

所以:
$$
E(\sum_{i=1}^n \hat{u_i}^2)=(n-2)\sigma^2 \
E(\frac{1}{n-2}\sum_{i=1}^n \hat{u_i}^2) =\sigma^2 \
E(\hat{\sigma^2})= \sigma^2
$$

标准误$(Standard\ Error)$

标准误是估计方差的平方根,故随样本的变化而变化,衡量了回归系数估计的精确程度。

标准误是针对样本而言的,而方差和标准差是针对总体而言
$$
se(\hat{\beta_1})=\sqrt{\hat{Var}(\hat{\beta_1})} =\sqrt{\frac{\hat{\sigma}^2}{SST_x}}
$$

$$
se(\hat{\beta_0})=\sqrt{\hat{Var}(\hat{\beta_0})}=\sqrt{\frac{\hat{\sigma}^2 \sum_{i=1}^n x_i^2}{n \ SST_x}}
$$

再看假设

前面的若干假设其实意味着 $u_i$ 是独立同分布的,具体分布会在后文介绍。后续的研究会对假设进行削弱,如 $u_i$ 分布受 $x$ 影响等。