简单回归模型的定义
总体模型:
y=β0+β1x+u
变量 u 称为误差项或干扰项,表示除 $ x $ 以外其他影响 y 的因素,可视为“观测不到的”因素。
变量 u 需要满足假设 E(u)=0E(u)=0
一些名称
自变量、解释变量、控制变量、预测变量、回归元:x
因变量、被解释变量、响应变量、被预测变量、回归子:y
误差项:u
拟合值:yi^=β0^+β1^xi
回归残差值:ui^=yi−yi^=yi−β0^+β1^xi
零条件均值假定
u的均值与x无关
E(u∣x)=E(u)
意义:
(1)以x为条件取期望,可得:
E(y∣x)=β0+β1x
(2)可以将y看成两部分,一部分是表示E(y∣x)的β0+β1x,被称为y的系统部分,即由x解释的部分,另一部分是非系统部分u,是不能由x解释的部分。
简单回归模型的推导
我们希望最小化残差值的平方和,于是:
minS=mini=1∑nui^2=mini=1∑n(yi−β0^−β1^xi)2(1)
将上式分别对β0^、β1^求导并令导数为零,得到:
∂β0^∂S=−2i=1∑n(yi−β0^−β1^xi)=0(2)
∂β1^∂S=−2i=1∑nxi(yi−β0^−β1^xi)=0(3)
分别化简得到如下结果:
i=1∑nyi−nβo^−β1^i=1∑nxi=0(4)
i=1∑n(xiyi)−β0^i=1∑nxi−β1^i=1∑nxi2=0(5)
对 (4)化简得:
β0^=n∑i=1nyi−nβ1^∑i=1nxi
β0^=yˉ−β1^xˉβ0^=yˉ−β1^xˉ(6)
将(6)代入(5)可得:
i=1∑nxiyi−(yˉ−β1^xˉ)i=1∑nxi−β1^i=1∑nxi2=0(7)
∴β1^=∑i=1n(xi−xˉ)xi∑i=1n(yi−yˉ)xi=∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)(xi−xˉ)∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)(xi−xˉ)(8)
对于(8)式,分母刻画数据的分离程度,分子刻画x,y之间的协方差。
(6)式和(8)式给出的估计值称为β0和β1的普通最小二乘法(OLS)估计值
另一种推导
在总体中,x与u不相关,所以:
E(u)=0Cov(x,u)=E(x,u)=0
用可观测数据代入即可推导出结果。
OLS统计量的代数性质
1、OLS残差项之和及其样本均值都为零 。( 由(2)可得)
i=1∑nui^=0(9)
2、回归元和OLS残差的样本协方差为零。(由(3)可得)
i=1∑nxiui^=0(10)
由协方差性质:Cov(X,Y)=E(XY)−E(X)E(Y),故:
Cov(X,U^)=E(XU^)−E(X)E(U^)=i=1∑nxiui^−E(x)n∑i=1nui^=0−0=0(11)
3、残差和拟合值之间的样本协方差为零,在上文的基础上:
Cov(Y^,U^)=Cov(β1^X+β0^,U^)=0(12)
4、点(xˉ,yˉ)总是在OLS回归线上。(对(2)进行累加再除以n)
拟合优度(Goodness of fit)
我们定义:
总平方和(Total) SST=∑i=1n(yi−yˉ)2
解释平方和(Explain) SSE=∑i=1n(yi^−yˉ)2
残差平方和(Residual) SSR=∑i=1nui^2=∑i=1n(yi−y^)2
SST=SSE+SSRSST=SSE+SSR(13)
证明如下:
每个因变量均可看作其拟合值与残值之和,即:
yi=yi^+ui^
从随机变量的角度来看:
Y=Y^+U^
对两边取样本方差同时乘(n−1)得到:
SST=SSE+SSR+2Cov(Y^,U^)
而由(12)可知 Cov(Y^,U^)=0 ,故得证。
可以发现,(13)本质上是一种方差的分配。此外,该式也与勾股定理的广义形式有关,此处不再赘述。
定义拟合优度: R2=SSE/SST=1−SSR/SST
R2代表了可解释波动与总波动之比,因此可以理解为y的样本波动中被x解释的部分。
如果在理想状态下找到所有影响y的因素,那么其R2可以达到100%