简单回归模型的定义

总体模型

$$
y = \beta_0 + \beta_1 x + u
$$

变量 $u$ 称为误差项干扰项,表示除 $ x $ 以外其他影响 $y$ 的因素,可视为“观测不到的”因素。

变量 $u$ 需要满足假设 $\pmb{E(u) = 0}$

一些名称

自变量、解释变量、控制变量、预测变量、回归元:$x$

因变量、被解释变量、响应变量、被预测变量、回归子:$y$

误差项:$u$

拟合值:$\hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i$

回归残差值:$\hat{u_i} = y_i - \hat{y_i} =y_i - \hat{\beta_0} + \hat{\beta_1} x_i$

零条件均值假定

$u$的均值与$x$无关

$$
E(u|x)=E(u)
$$

意义:

(1)以$x$为条件取期望,可得:
$$
E(y|x)=\beta_0+\beta_1x
$$
(2)可以将$y$看成两部分,一部分是表示$E(y|x)$的$\beta_0+\beta_1x$,被称为$y$的系统部分,即由$x$解释的部分,另一部分是非系统部分$u$,是不能由$x$解释的部分。

简单回归模型的推导

我们希望最小化残差值的平方和,于是:
$$
min S=min \sum_{i=1}^n {\hat{u_i}^2} =min \sum_{i=1}^n (y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2 \tag{1}
$$
将上式分别对$\hat{\beta_0}、\hat{\beta_1}$求导并令导数为零,得到:
$$
\frac{\partial S}{\partial \hat{\beta_0}}=-2\sum_{i=1}^n (y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0 \tag{2}
$$

$$
\frac{\partial S}{\partial \hat{\beta_1}}=-2\sum_{i=1}^n x_i(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0 \tag{3}
$$

分别化简得到如下结果:
$$
\sum_{i=1}^n y_i-n\hat{\beta_o}-\hat{\beta_1} \sum_{i=1}^n x_i =0 \tag{4}
$$

$$
\sum_{i=1}^n (x_iy_i) -\hat{\beta_0}\sum_{i=1}^n x_i-\hat{\beta_1}\sum_{i=1}^n x_i^2 \tag{5}=0
$$

对 $(4)$化简得:
$$
\hat{\beta_0}=\frac{\sum_{i=1}^n y_i}{n}-\frac{\hat{\beta_1} \sum_{i=1}^n x_i}{n}
$$

$$
\pmb{\hat{\beta_0} = \bar{y}- \hat{\beta_1} \bar{x}} \tag{6}
$$

将$(6)$代入$(5)$可得:
$$
\sum_{i=1}^n x_iy_i -(\bar{y}- \hat{\beta_1} \bar{x})\sum_{i=1}^n x_i-\hat{\beta_1}\sum_{i=1}^n x_i^2=0 \tag{7}
$$

$$
\therefore \hat{\beta_1}=\frac{\sum_{i=1}^n (y_i-\bar{y})x_i}{\sum_{i=1}^n(x_i-\bar{x})x_i}=\pmb{\frac{\sum_{i=1}^n (y_i-\bar{y})(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}} \tag{8}
$$

对于$(8)$式,分母刻画数据的分离程度,分子刻画$x,y$之间的协方差。

$(6)$式和$(8)$式给出的估计值称为$\beta_0$和$\beta_1$的普通最小二乘法($OLS$)估计值

另一种推导

在总体中,$x$与$u$不相关,所以:
$$
E(u)=0 \
Cov(x,u)=E(x,u)=0
$$
用可观测数据代入即可推导出结果。

$OLS$统计量的代数性质

1、$OLS$残差项之和及其样本均值都为零 。( 由(2)可得)
$$
\sum_{i=1}^n \hat{u_i}=0 \tag{9}
$$

2、回归元和$OLS$残差的样本协方差为零。(由(3)可得)
$$
\sum_{i=1}^n x_i \hat{u_i}=0 \tag{10}
$$
​ 由协方差性质:$Cov(X,Y)=E(XY)-E(X)E(Y)$,故:
$$
Cov(X,\hat{U})=E(X\hat{U})-E(X)E(\hat{U})=\sum_{i=1}^n x_i \hat{u_i}-E(x)\frac{\sum_{i=1}^n \hat{u_i}}{n}=0-0=0 \tag{11}
$$

3、残差和拟合值之间的样本协方差为零,在上文的基础上:
$$
Cov(\hat{Y},\hat{U})=Cov(\hat{\beta_1}X+\hat{\beta_0},\hat{U})=0 \tag{12}
$$

4、点$(\bar{x},\bar{y})$总是在$OLS$回归线上。(对(2)进行累加再除以$n$)

拟合优度(Goodness of fit)

我们定义:

总平方和($Total$) $SST=\sum_{i=1}^n(y_i-\bar{y})^2$

解释平方和($Explain$) $SSE=\sum_{i=1}^n(\hat{y_i}-\bar{y})^2$

残差平方和($Residual$) $SSR=\sum_{i=1}^n\hat{u_i}^2=\sum_{i=1}^n(y_i-\hat{y})^2$
$$
\pmb{SST= SSE+SSR} \tag{13}
$$
证明如下:

每个因变量均可看作其拟合值残值之和,即:
$$
y_i = \hat{y_i}+\hat{u_i}
$$
从随机变量的角度来看:
$$
Y =\hat{Y} + \hat{U}
$$
对两边取样本方差同时乘$(n-1)$得到:
$$
SST=SSE+SSR+2Cov(\hat{Y},\hat{U})
$$
而由(12)可知 $Cov(\hat{Y},\hat{U})=0$ ,故得证。

可以发现,(13)本质上是一种方差的分配。此外,该式也与勾股定理的广义形式有关,此处不再赘述。

定义拟合优度: $R^2 = SSE/SST = 1 - SSR/SST$

$R^2$代表了可解释波动与总波动之比,因此可以理解为$y$的样本波动中被$x$解释的部分。

如果在理想状态下找到所有影响$y$的因素,那么其$R^2$可以达到100%