简单回归模型的定义

总体模型

y=β0+β1x+uy = \beta_0 + \beta_1 x + u

变量 uu 称为误差项干扰项,表示除 $ x $ 以外其他影响 yy 的因素,可视为“观测不到的”因素。

变量 uu 需要满足假设 E(u)=0\pmb{E(u) = 0}

一些名称

自变量、解释变量、控制变量、预测变量、回归元:xx

因变量、被解释变量、响应变量、被预测变量、回归子:yy

误差项:uu

拟合值:yi^=β0^+β1^xi\hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i

回归残差值:ui^=yiyi^=yiβ0^+β1^xi\hat{u_i} = y_i - \hat{y_i} =y_i - \hat{\beta_0} + \hat{\beta_1} x_i

零条件均值假定

uu的均值与xx无关

E(ux)=E(u)E(u|x)=E(u)

意义:

(1)以xx为条件取期望,可得:

E(yx)=β0+β1xE(y|x)=\beta_0+\beta_1x

(2)可以将yy看成两部分,一部分是表示E(yx)E(y|x)β0+β1x\beta_0+\beta_1x,被称为yy的系统部分,即由xx解释的部分,另一部分是非系统部分uu,是不能由xx解释的部分。

简单回归模型的推导

我们希望最小化残差值的平方和,于是:

minS=mini=1nui^2=mini=1n(yiβ0^β1^xi)2(1)min S=min \sum_{i=1}^n {\hat{u_i}^2} =min \sum_{i=1}^n (y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2 \tag{1}

将上式分别对β0^β1^\hat{\beta_0}、\hat{\beta_1}求导并令导数为零,得到:

Sβ0^=2i=1n(yiβ0^β1^xi)=0(2)\frac{\partial S}{\partial \hat{\beta_0}}=-2\sum_{i=1}^n (y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0 \tag{2}

Sβ1^=2i=1nxi(yiβ0^β1^xi)=0(3)\frac{\partial S}{\partial \hat{\beta_1}}=-2\sum_{i=1}^n x_i(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0 \tag{3}

分别化简得到如下结果:

i=1nyinβo^β1^i=1nxi=0(4)\sum_{i=1}^n y_i-n\hat{\beta_o}-\hat{\beta_1} \sum_{i=1}^n x_i =0 \tag{4}

i=1n(xiyi)β0^i=1nxiβ1^i=1nxi2=0(5)\sum_{i=1}^n (x_iy_i) -\hat{\beta_0}\sum_{i=1}^n x_i-\hat{\beta_1}\sum_{i=1}^n x_i^2 \tag{5}=0

(4)(4)化简得:

β0^=i=1nyinβ1^i=1nxin\hat{\beta_0}=\frac{\sum_{i=1}^n y_i}{n}-\frac{\hat{\beta_1} \sum_{i=1}^n x_i}{n}

β0^=yˉβ1^xˉ(6)\pmb{\hat{\beta_0} = \bar{y}- \hat{\beta_1} \bar{x}} \tag{6}

(6)(6)代入(5)(5)可得:

i=1nxiyi(yˉβ1^xˉ)i=1nxiβ1^i=1nxi2=0(7)\sum_{i=1}^n x_iy_i -(\bar{y}- \hat{\beta_1} \bar{x})\sum_{i=1}^n x_i-\hat{\beta_1}\sum_{i=1}^n x_i^2=0 \tag{7}

β1^=i=1n(yiyˉ)xii=1n(xixˉ)xi=i=1n(yiyˉ)(xixˉ)i=1n(xixˉ)2(8)\therefore \hat{\beta_1}=\frac{\sum_{i=1}^n (y_i-\bar{y})x_i}{\sum_{i=1}^n(x_i-\bar{x})x_i}=\pmb{\frac{\sum_{i=1}^n (y_i-\bar{y})(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}} \tag{8}

对于(8)(8)式,分母刻画数据的分离程度,分子刻画x,yx,y之间的协方差。

(6)(6)式和(8)(8)式给出的估计值称为β0\beta_0β1\beta_1普通最小二乘法OLSOLS)估计值

另一种推导

在总体中,xxuu不相关,所以:

E(u)=0Cov(x,u)=E(x,u)=0E(u)=0 \\ Cov(x,u)=E(x,u)=0

用可观测数据代入即可推导出结果。

OLSOLS统计量的代数性质

1、OLSOLS残差项之和及其样本均值都为零 。( 由(2)可得)

i=1nui^=0(9)\sum_{i=1}^n \hat{u_i}=0 \tag{9}

2、回归元和OLSOLS残差的样本协方差为零。(由(3)可得)

i=1nxiui^=0(10)\sum_{i=1}^n x_i \hat{u_i}=0 \tag{10}

​ 由协方差性质:Cov(X,Y)=E(XY)E(X)E(Y)Cov(X,Y)=E(XY)-E(X)E(Y),故:

Cov(X,U^)=E(XU^)E(X)E(U^)=i=1nxiui^E(x)i=1nui^n=00=0(11)Cov(X,\hat{U})=E(X\hat{U})-E(X)E(\hat{U})=\sum_{i=1}^n x_i \hat{u_i}-E(x)\frac{\sum_{i=1}^n \hat{u_i}}{n}=0-0=0 \tag{11}

3、残差和拟合值之间的样本协方差为零,在上文的基础上:

Cov(Y^,U^)=Cov(β1^X+β0^,U^)=0(12)Cov(\hat{Y},\hat{U})=Cov(\hat{\beta_1}X+\hat{\beta_0},\hat{U})=0 \tag{12}

4、点(xˉ,yˉ)(\bar{x},\bar{y})总是在OLSOLS回归线上。(对(2)进行累加再除以nn

拟合优度(Goodness of fit)

我们定义:

总平方和TotalTotalSST=i=1n(yiyˉ)2SST=\sum_{i=1}^n(y_i-\bar{y})^2

解释平方和ExplainExplainSSE=i=1n(yi^yˉ)2SSE=\sum_{i=1}^n(\hat{y_i}-\bar{y})^2

残差平方和ResidualResidualSSR=i=1nui^2=i=1n(yiy^)2SSR=\sum_{i=1}^n\hat{u_i}^2=\sum_{i=1}^n(y_i-\hat{y})^2

SST=SSE+SSR(13)\pmb{SST= SSE+SSR} \tag{13}

证明如下:

每个因变量均可看作其拟合值残值之和,即:

yi=yi^+ui^y_i = \hat{y_i}+\hat{u_i}

从随机变量的角度来看:

Y=Y^+U^Y =\hat{Y} + \hat{U}

对两边取样本方差同时乘(n1)(n-1)得到:

SST=SSE+SSR+2Cov(Y^,U^)SST=SSE+SSR+2Cov(\hat{Y},\hat{U})

而由(12)可知 Cov(Y^,U^)=0Cov(\hat{Y},\hat{U})=0 ,故得证。

可以发现,(13)本质上是一种方差的分配。此外,该式也与勾股定理的广义形式有关,此处不再赘述。

定义拟合优度: R2=SSE/SST=1SSR/SSTR^2 = SSE/SST = 1 - SSR/SST

R2R^2代表了可解释波动与总波动之比,因此可以理解为yy的样本波动中被xx解释的部分。

如果在理想状态下找到所有影响yy的因素,那么其R2R^2可以达到100%