简单回归模型的定义

总体模型：

y = \beta_0 + \beta_1 x + u

变量 $u$ 称为误差项或干扰项，表示除 $ x $ 以外其他影响 $y$ 的因素，可视为“观测不到的”因素。

变量 $u$ 需要满足假设 $\pmb{E(u) = 0}$

一些名称

自变量、解释变量、控制变量、预测变量、回归元： $x$

因变量、被解释变量、响应变量、被预测变量、回归子： $y$

误差项： $u$

拟合值： $\hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i$

回归残差值： $\hat{u_i} = y_i - \hat{y_i} =y_i - \hat{\beta_0} + \hat{\beta_1} x_i$

零条件均值假定

$u$ 的均值与 $x$ 无关

E(u|x)=E(u)

意义：

（1）以 $x$ 为条件取期望，可得：

E(y|x)=\beta_0+\beta_1x

（2）可以将 $y$ 看成两部分，一部分是表示 $E(y|x)$ 的 $\beta_0+\beta_1x$ ，被称为 $y$ 的系统部分，即由 $x$ 解释的部分，另一部分是非系统部分 $u$ ，是不能由 $x$ 解释的部分。

简单回归模型的推导

我们希望最小化残差值的平方和，于是：

min S=min \sum_{i=1}^n {\hat{u_i}^2} =min \sum_{i=1}^n (y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2 \tag{1}

将上式分别对 $\hat{\beta_0}、\hat{\beta_1}$ 求导并令导数为零，得到：

\frac{\partial S}{\partial \hat{\beta_0}}=-2\sum_{i=1}^n (y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0 \tag{2}

\frac{\partial S}{\partial \hat{\beta_1}}=-2\sum_{i=1}^n x_i(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0 \tag{3}

分别化简得到如下结果：

\sum_{i=1}^n y_i-n\hat{\beta_o}-\hat{\beta_1} \sum_{i=1}^n x_i =0 \tag{4}

\sum_{i=1}^n (x_iy_i) -\hat{\beta_0}\sum_{i=1}^n x_i-\hat{\beta_1}\sum_{i=1}^n x_i^2 \tag{5}=0

对 $(4)$ 化简得：

\hat{\beta_0}=\frac{\sum_{i=1}^n y_i}{n}-\frac{\hat{\beta_1} \sum_{i=1}^n x_i}{n}

\pmb{\hat{\beta_0} = \bar{y}- \hat{\beta_1} \bar{x}} \tag{6}

将 $(6)$ 代入 $(5)$ 可得：

\sum_{i=1}^n x_iy_i -(\bar{y}- \hat{\beta_1} \bar{x})\sum_{i=1}^n x_i-\hat{\beta_1}\sum_{i=1}^n x_i^2=0 \tag{7}

\therefore \hat{\beta_1}=\frac{\sum_{i=1}^n (y_i-\bar{y})x_i}{\sum_{i=1}^n(x_i-\bar{x})x_i}=\pmb{\frac{\sum_{i=1}^n (y_i-\bar{y})(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}} \tag{8}

对于 $(8)$ 式，分母刻画数据的分离程度，分子刻画 $x,y$ 之间的协方差。

$(6)$ 式和 $(8)$ 式给出的估计值称为 $\beta_0$ 和 $\beta_1$ 的普通最小二乘法（ $OLS$ ）估计值

另一种推导

在总体中， $x$ 与 $u$ 不相关，所以：

E(u)=0 \\ Cov(x,u)=E(x,u)=0

用可观测数据代入即可推导出结果。

$OLS$ 统计量的代数性质

1、 $OLS$ 残差项之和及其样本均值都为零。（由（2）可得）

\sum_{i=1}^n \hat{u_i}=0 \tag{9}

2、回归元和 $OLS$ 残差的样本协方差为零。（由（3）可得）

\sum_{i=1}^n x_i \hat{u_i}=0 \tag{10}

由协方差性质： $Cov(X,Y)=E(XY)-E(X)E(Y)$ ，故：

Cov(X,\hat{U})=E(X\hat{U})-E(X)E(\hat{U})=\sum_{i=1}^n x_i \hat{u_i}-E(x)\frac{\sum_{i=1}^n \hat{u_i}}{n}=0-0=0 \tag{11}

3、残差和拟合值之间的样本协方差为零，在上文的基础上：

Cov(\hat{Y},\hat{U})=Cov(\hat{\beta_1}X+\hat{\beta_0},\hat{U})=0 \tag{12}

4、点 $(\bar{x},\bar{y})$ 总是在 $OLS$ 回归线上。（对（2）进行累加再除以 $n$ ）

拟合优度（Goodness of fit）

我们定义：

总平方和（ $Total$ ） $SST=\sum_{i=1}^n(y_i-\bar{y})^2$

解释平方和（ $Explain$ ） $SSE=\sum_{i=1}^n(\hat{y_i}-\bar{y})^2$

残差平方和（ $Residual$ ） $SSR=\sum_{i=1}^n\hat{u_i}^2=\sum_{i=1}^n(y_i-\hat{y})^2$

\pmb{SST= SSE+SSR} \tag{13}

证明如下：

每个因变量均可看作其拟合值与残值之和，即：

y_i = \hat{y_i}+\hat{u_i}

从随机变量的角度来看：

Y =\hat{Y} + \hat{U}

对两边取样本方差同时乘 $(n-1)$ 得到：

SST=SSE+SSR+2Cov(\hat{Y},\hat{U})

而由（12）可知 $Cov(\hat{Y},\hat{U})=0$ ，故得证。

可以发现，（13）本质上是一种方差的分配。此外，该式也与勾股定理的广义形式有关，此处不再赘述。

定义拟合优度: $R^2 = SSE/SST = 1 - SSR/SST$

$R^2$ 代表了可解释波动与总波动之比，因此可以理解为 $y$ 的样本波动中被 $x$ 解释的部分。

如果在理想状态下找到所有影响 $y$ 的因素，那么其 $R^2$ 可以达到100%