【计量经济学（六）】多元回归：OLS的渐近性

当样本无限增加时，估计值无限接近真实值。

对于 $\forall\ \epsilon >0$ ，以及 $n \to \infty$ ，如果

P(|\theta_n-\theta|<\epsilon)\to 1

那么估计 $\theta_n$ 是总体参数 $\theta$ 的一致估计，记为 $plim\ \theta_n=\theta$

在假定 $MLR.1$ 到 $MLR.4$ 下，对所有 $j=0,1,...k$ ， $OLS$ 估计量 $\hat{\beta_j}$ 都是 $\beta_j$ 的一致估计，即 $plim\ \hat{\beta_j}=\beta_j$

将 $y_1=\beta_0+\beta_1 x_{i1}+u_i$ 代入 $\hat{\beta_1}$ ，可以化简得：

\hat{\beta_1}=\frac{\sum_{i=1}^n(x_{i1}-\bar{x}_1)y_i}{\sum_{i=1}^n(x_{i1}-\bar{x}_1)^2}=\beta_1+\frac{n^{-1}\sum_{i=1}^n(x_{i1}-\bar{x}_1)u_i}{n^{-1}\sum_{i=1}^n(x_{i1}-\bar{x}_1)^2}

再依据大数定理：

plim(n^{-1} \sum_{i=1}^n(x_{i1}-\bar{x}_1)^2)=Var(x_1)

plim(n^{-1} \sum_{i=1}^n(x_{i1}-\bar{x}_1)u_i)=Cov(x_1,u)=E(x_1u)-E(x_1)E(u)=E(x_1u)

证明：

根据假设 $MLR.4$ : $E(u|x)=0$ ，可得 $Cov(x_1,u)=0$ ，故：

plim\ \hat\beta_1 =\beta_1+\frac{Cov(x_1,u)}{Var(x_1)} =\beta_1

当 $Cov(x_1,u) \not =0$ 时，就会产生不一致性（ $Inconsistency$ ），其偏误值wei

plim\ \hat\beta_1 - \beta_1=\frac{Cov(x_1,u)}{Var(x_1)}

对 $\forall j=1,2...k$ ，都有 $\pmb{E(u)=0}$ 和 $\pmb{Cov(x_j,u)=0}$

对比假定 $MLR.4$ : $\ E(u|x_1,…,x_n)=0 $，可以发现$ MLR.4’$是一个更弱的假设，因为：

E(u)=0 \Longrightarrow Cov(x_1,u)=E(x_1u) =E_{X_1}(E(x_1u|x_1))=E_{X_1}(x_1E(u|x_1))

(这里运用了期望的迭代法则或者说重期望公式)

由上式，当 $E(u|x_1)=0$ ，可以推出 $Cov(x_1,u)=0$ 和 $E(u)=0$ ，反之不成立。故 $MLR.4$ 是一个更强的假设。

直观上理解： $E(u|x_1)=0$ 以为着 $u$ 和 $x_1$ 的任意形式都不相关，而 $Cov(x_1,u)=0$ 仅仅以为这 $u$ 和 $x_1$ 的一次形式不相关，故 $E(u|x_1)=0$ 更严格。

当变量被遗漏时，自变量会被误放到误差项 $u$ 中，导致其余自变量出现相关性。

真实模型：

y=\beta_0 +\beta_1 x_1+\beta_2 x_2 +v

错误模型：

y =\beta_0 +\beta_1 x_1 +[\beta_2 x_2+v]=\beta_0 +\beta_1x_1+u

于是：

plim\ \hat{\beta_1}=\beta_1 +\frac{Cov(x_1,u)}{Var(x_1)} =\beta_1 +\beta_2 \frac{Cov(x_1,x_2)}{Var(x_1)}=\beta_1 +\beta_2 \delta

渐近正态与大样本推断

在假设 $MLR.1-MLR.5$ 下：

\frac{\hat\beta_j-\beta_j}{se(\hat{\beta_j})} \overset{a}{\sim} N(0,1) \\ \frac{\hat\beta_j-\beta_j}{sd(\hat{\beta_j})} \overset{a}{\sim} N(0,1)

plim\ \hat{\sigma}^2=\sigma^2

\sqrt{n}(\hat{\beta_j}-\beta_j) \overset{a}{\sim} N(0,\frac{\sigma^2}{a_j^2})

其中， $a_j^2=plim(n^{-1} \sum_{i=1}^n \hat{r}_{ij}^2)$ ， $\hat{r}_{ij}$ 是 $x_j$ 对其余自变量进行回归所得到的残差。

该定理表明，无论 $u$ 的总体分布如何，合理标准化之后的 $OLS$ 估计量都是近似于服从正态分布的。

在大样本下， $OLS$ 估计量的方差估计值：

\hat{Var}(\hat{\beta_j})=\frac{\hat{\sigma}^2}{SST_j(1-R_j^2)} \ \ \ \ \ ,j=1,2...k

其中， $SST_j$ 依概率收敛于 $nVar(x_j)$ ，

$\hat{\sigma}^2$ 收敛于 $\sigma^2$ , $1-R_j^2$ 收敛于某一个固定值

所以当样本增加时， $n\ \hat{Var}(\hat{\beta_j})$ 收敛于一个常数，或者说：

\hat{Var}(\hat{\beta_j})=\frac{常数}{n}

可以说 $\hat{Var}(\hat{\beta_j})$ 以 $1/n$ 的速度收敛于0

se(\hat{\beta_j})=\frac{常数}{\sqrt{n}}

标准误以 $\sqrt{1/n}$ 的速度收敛于0。

\sum_{i=1}^n g_j(x_i)(y_i-\tilde{\beta}_0-\tilde{\beta}_1 x_{i1}-...-\tilde{\beta}_k x_{ik})=0,j=0,1,...k

在高斯-马尔科夫假定下，令 $\tilde{\beta_j}$ 表示从求解形如上式的方程所得到的估计量，而 $\hat{\beta_j}$ 表示 $OLS$ 估计量。那么，对 $j=0,1,2,...,k$ ， $OLS$ 估计量具有最小的渐近方差：

Avar\sqrt{n}(\hat{\beta_j}-\beta_j) \leq Avar \sqrt{n}(\tilde{\beta_j}-\beta_j)