多元回归模型

y=β0+β1x1+β2x2+...+βkxk+uy=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+u

Example:

可以在模型中加入更多的解释变量:

wage=β0+β1educ+β2exper+uwage=\beta_0+\beta_1educ+\beta_2{exper}+u

更加灵活的方程形式:

家庭收入(inc)和消费(cons)的关系:

cons=β0+β1inc+β2inc2+ucons=\beta_0+\beta_1inc+\beta_2inc^2+u

多元回归方程的推导

总体方程:

yi=β0+β1xi1+β2xi2+...+βkxik+uiy_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+...+\beta_kx_{ik}+u_i

拟合值:

yi^=β0^+β1^xi1+β2^xi2+...+βk^xik\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_{i1}+\hat{\beta_2}x_{i2}+...+\hat{\beta_k}x_{ik}

残差:

ui^=yiyi^=yiβ0^β1^xi1β2^xi2...βk^xik\hat{u_i}=y_i-\hat{y_i}=y_i-\hat{\beta_0}-\hat{\beta_1}x_{i1}-\hat{\beta_2}x_{i2}-...-\hat{\beta_k}x_{ik}

最小化残差平方和:

mini=1nui^2=mini=1n(yiβ0^β1^xi1β2^xi2...βk^xik)2min\sum_{i=1}^n \hat{u_i}^2=min\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_{i1}-\hat{\beta_2}x_{i2}-...-\hat{\beta_k}x_{ik})^2

一阶条件(分别对βi\beta_i求导):

i=1nui^2β0^=i=1n2(yiβ0^β1^xi1β2^xi2...βk^xik)=i=1nui^=0\frac{\partial \sum_{i=1}^n \hat{u_i}^2}{\partial \hat{\beta_0}}=\sum_{i=1}^n-2(y_i-\hat{\beta_0}-\hat{\beta_1}x_{i1}-\hat{\beta_2}x_{i2}-...-\hat{\beta_k}x_{ik}) =\sum_{i=1}^n \hat{u_i}=0

i=1nui^2β1^=i=1n2xi1(yiβ0^β1^xi1β2^xi2...βk^xik)=i=1nxi1ui^=0\frac{\partial \sum_{i=1}^n \hat{u_i}^2}{\partial \hat{\beta_1}}=\sum_{i=1}^n-2x_{i1}(y_i-\hat{\beta_0}-\hat{\beta_1}x_{i1}-\hat{\beta_2}x_{i2}-...-\hat{\beta_k}x_{ik}) =\sum_{i=1}^n x_{i1}\hat{u_i}=0

同理对于$ \forall k>0$:

i=1nxikui^=0\sum_{i=1}^n x_{ik}\hat{u_i}=0

k+1个方程求解k+1个变量。

数值特征:

样本均值点在回归线上

yˉ=β0^+β1^xˉ1+β2^xˉ2+...+βk^xˉk\bar{y}=\hat{\beta_0}+\hat{\beta_1}\bar{x}_1+\hat{\beta_2}\bar{x}_2+...+\hat{\beta_k}\bar{x}_k

证明:

i=1nui^=i=1n(yiyi^)=0=>  yˉ=y^ˉ\sum_{i=1}^n\hat{u_i}=\sum_{i=1}^n(y_i-\hat{y_i})=0 \\ => \ \ \bar{y}=\bar{\hat{y}}

再对n个估计式累加再除以n,易得证。

每个自变量和OLS残差之间的样本协方差为零

样本协方差为:

=1n1(i=1n(xi1xˉ)(ui^u^ˉ))=1n1(i=1nxi1ui^i=1nxi1u^ˉi=1nxˉui^+i=1nxˉu^ˉ)=0=\frac{1}{n-1}(\sum_{i=1}^n(x_{i1}-\bar{x})(\hat{u_i}-\bar{\hat{u}})) \\ =\frac{1}{n-1}(\sum_{i=1}^n x_{i1}\hat{u_i}-\sum_{i=1}^n x_{i1}\bar{\hat{u}}-\sum_{i=1}^n \bar{x}\hat{u_i}+\sum_{i=1}^n \bar{x}\bar{\hat{u}}) =0

*高级计量结果

β^=(XX)1Xy\hat{\beta}=(X'X)^{-1}X'y

对多元回归排除其他变量的解释

字面上来说,βi\beta_i是保持其他变量不变时,xix_i变化对yy的影响。而事实上,自变量之间存在或多或少的关联,如x1x_1的变动会导致x2x_2的变动,而x2x_2的变动又会导致yy的变动。但我们在衡量x1x_1yy的影响(即β1\beta_1)时仅仅考虑x1x_1yy的直接影响,通过其他变量间接传导的影响不在考虑之内。

正因如此,多元回归的系数结果通常不等于一元回归,因为多元回归中自变量大概率存在关联性,而多元回归的过程中自动排除了相关变量间接传导的影响。

β1^\hat{\beta_1}可以写成另外一个形式:

β1^=i=1nr^i1yii=1nr^i12\hat{\beta_1}=\frac{\sum_{i=1}^n\hat{r}_{i1}y_i}{\sum_{i=1}^n\hat{r}_{i1}^2}

其中,残差rr来自x1x_1x2,x3,...,xkx_2,x_3,...,x_k的回归。

证明:

已知 xi1=x^i1+r^i1x_{i1}=\hat{x}_{i1}+\hat{r}_{i1},代入原回归的一阶条件得:

i=1n(x^i1+r^i1)(yiβ^0β^1xi1...β^kxik)=0\sum_{i=1}^n (\hat{x}_{i1}+\hat{r}_{i1})(y_i-\hat{\beta}_0-\hat\beta_1x_{i1}-...-\hat{\beta}_kx_{ik})=0

x^i1\hat{x}_{i1}xi2,...,xikx_{i2},...,x_{ik}的线性函数,故 i=1nx^i1u^i=0\sum_{i=1}^n\hat{x}_{i1}\hat{u}_i=0,于是:

i=1nr^i1(yiβ^0β^1xi1...β^kxik)=0\sum_{i=1}^n \hat{r}_{i1}(y_i-\hat{\beta}_0-\hat\beta_1x_{i1}-...-\hat{\beta}_kx_{ik})=0

r^i1\hat{r}_{i1}是残差,故i=1nxijr^i1=0\sum_{i=1}^n x_{ij}\hat{r}_{i1}=0,于是:

i=1nr^i1(yiβ^1xi1)=0i=1nr^i1(yiβ^1(x^i1r^i1))=0i=1nr^i1(yiβ^1r^i1)=0\sum_{i=1}^n \hat{r}_{i1}(y_i-\hat\beta_1x_{i1})=0 \\ \sum_{i=1}^n \hat{r}_{i1}(y_i-\hat\beta_1(\hat{x}_{i1}-\hat{r}_{i1}))=0 \\ \sum_{i=1}^n \hat{r}_{i1}(y_i-\hat\beta_1\hat{r}_{i1})=0

最终得到:

β1^=i=1nr^i1yii=1nr^i12\hat{\beta_1}=\frac{\sum_{i=1}^n\hat{r}_{i1}y_i}{\sum_{i=1}^n\hat{r}_{i1}^2}

理解:

因为残差r^i1\hat{r}_{i1}xi1x_{i1}中与剩余xj1x_{j1}不相关的部分,故β^1\hat{\beta}_1度量了排除其他自变量影响后yyx1x_1的关系。这个结果成为弗里施-沃定理FrishWaugh theoremFrish-Waugh \ theorem),这种回归方式称为分块回归或偏回归。

拟合优度R2R^2

R2R^2等于yiy_i实际值与其拟合值yi^\hat{y_i}的相关系数的平方

R2=(corr(yi,yi^))2=(i=1n(yiyˉ)(yi^y^ˉ))2(i=1n(yiyˉ)2)(i=1n(yi^y^ˉ)2)R^2=(corr(y_i,\hat{y_i}))^2=\frac{(\sum_{i=1}^n(y_i-\bar{y})(\hat{y_i}-\bar{\hat{y}}))^2}{(\sum_{i=1}^n(y_i-\bar{y})^2)(\sum_{i=1}^n(\hat{y_i}-\bar{\hat{y}})^2)}

证明:

OLSOLS估计量的期望值

经典假设条件

Assumption MLR.1 (线性于参数)

y=β0+β1x1+β2x2+...+βkxk+uy=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+u

这是对总体模型真实模型的规范表述

Assumption MLR.2 (随机抽样)

{(xi1,xi2,...,xik,yi):i=1...n}\{ (x_{i1},x_{i2},...,x_{ik},y_i): i = 1...n \}

yi=β0+β1xi1+β2xi2+...+βkxik+uiy_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+...+\beta_kx_{ik}+u_i

该假设控制了单个样本不受其它样本影响。

Assumption MLR.3 (No perfect collinearity不存在完全共线性)

在样本中,没有一个自变量是常数,自变量之间也不存在严格的线性关系(可以有相关性)。

从矩阵来看,如果存在线性关系,就不满秩了,也就没有逆矩阵了。

该假设可以保证存在唯一OLSOLS估计值

Assumption MLR.4(条件均值为零)

E(uixi1,xi2,...,xik)=0E(u_i|x_{i1},x_{i2},...,x_{ik})=0

简单来说,误差项和解释变量是不相关的。

具体意味着,影响yy的其他因素总体上与xi1,xi2,...,xikx_{i1},x_{i2},...,x_{ik}不相关。

定理3.1 无偏性

MLR.1MLR.4MLR.1-MLR.4可以推导出:

E(βj^)=βjE(\hat{\beta_j})=\beta_j

初等代数证明:

我们已知:

β1^=i=1nr^i1yii=1nr^i12\hat{\beta_1}=\frac{\sum_{i=1}^n\hat{r}_{i1}y_i}{\sum_{i=1}^n\hat{r}_{i1}^2}

将总体方程代入:

yi=β0+β1xi1+β2xi2+...+βkxik+uiy_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+...+\beta_kx_{ik}+u_i

可得:

β1^=β1+i=1nr^i1uii=1nr^i12\hat{\beta_1}=\beta_1+\frac{\sum_{i=1}^n\hat{r}_{i1}u_i}{\sum_{i=1}^n\hat{r}_{i1}^2}

考虑到r^i1\hat{r}_{i1}只是样本自变量的函数,于是:

E(β^1X)=β1+i=1nr^i1E(uiX)i=1nr^i12=0E(\hat{\beta}_1|X)=\beta_1+\frac{\sum_{i=1}^n\hat{r}_{i1}E(u_i|X)}{\sum_{i=1}^n\hat{r}_{i1}^2}=0

得证。

矩阵证明:

​ 暂时略,后续补充。

实证研究中,有些情况可能会影响我们获得无偏估计值,如:

哪些情况会影响我们获得无偏估计值?

遗漏变量:

假设真实世界中:

y=β0+β1x1+β2x2+uy=\beta_0+\beta_1x_1+\beta_2x_2+u

但由于种种因素,导致我们忽略了x2x_2的存在,仅以为:

y=α0+α1x1+wy=\alpha_0+\alpha_1x_1+w

x2x_2某种程度上变成了ww的一部分。

x2x_2x1x_1之间存在关系:

x2=δ0+δ1x1+vx_2=\delta_0+\delta_1x_1+v

则:

y=β0+β1x1+β2(δ0+δ1x1+v)+u=(β0+β2δ0)+(β1+β2δ1)x1+(β2v+u)y=\beta_0+\beta_1x_1+\beta_2(\delta_0+\delta_1x_1+v)+u \\ =(\beta_0+\beta_2\delta_0)+(\beta_1+\beta_2\delta_1)x_1+(\beta_2v+u)

这导致我们的估计值为:

α1=β1+β2δ1\alpha_1=\beta_1+\beta_2\delta_1

与真实结果产生了偏差。而估计值由两部分构成,一部分是x1x_1本身的影响,另一部分是x1x_1通过影响x2x_2间接对yy产生的影响。

如果结果不产生偏差,则说明:

δ1=0   或   β2=0\delta_1 =0 \ \ \ 或 \ \ \ \beta_2=0

即,要么样本中x1x_1x2x_2不相关,要么x2x_2本身对yy没有影响。

在回归模型中加入自变量的过程某种程度上可以理解为不断控制变量的过程,例如,在衡量x1x_1的影响时,模型自动排除了x2,x3....xnx_2,x_3....x_n的影响。

如果x2x_2只与yy有关而与x1x_1无关,则不会的β1\beta_1的无偏性造成影响,只是由于遗漏x2x_2导致误差项中的σ2\sigma^2提升,进而会提高Var(β1)Var(\beta_1)。(当然Rj2R_j^2也会有所变化,但因为x2x_2x1x_1无关,所以Rj2R_j^2变化不大)因此,一般认为x2x_2也要加入回归。

OLSOLS统计量的方差

Assumption MLR.5 (同方差性)

Var(uixi1,xi2,...,xik)=σ2Var(u_i|x_{i1},x_{i2},...,x_{ik}) = \sigma^2

给定任意解释变量值,误差uu都具有相同的方差。

MLR.5MLR.5

Var(yX)=σ2Var(y|X)=\sigma^2

即给定xxyy的方差不取决于自变量的值。

定理3.2 OLSOLS斜率估计量的抽样方差

根据假设MLR.1MLR.5MLR.1-MLR.5高斯-马尔科夫假定),可以推导到:

Var(βj^)=σ2SSTj(1Rj2)     ,j=1,2...kVar(\hat{\beta_j})=\frac{\sigma^2}{SST_j(1-R_j^2)} \ \ \ \ \ ,j=1,2...k

其中:

SSTj=i=1n(xijxˉj)2SST_j=\sum_{i=1}^n(x_{ij}-\bar{x}_j)^2

SSTjSST_j用来衡量自变量xjx_j的样本波动性

Rj2R_j^2是一个拟合优度,来自一个回归模型,其中因变量为xjx_j,自变量是其他解释变量(包括常数项),其本质上是在衡量其他xxxjx_j的相关程度。

xj=α0+α1x1+...+αj1xj1+αj+1xj+1+...+αkxk+vx_j=\alpha_0+\alpha_1x_1+...+\alpha_{j-1}x_{j-1}+\alpha_{j+1}x_{j+1}+...+\alpha_kx_k+v

证明

Var(β1^)=Var(i=1nr^i1yii=1nr^i12)=i=1nr^i12Var(uiX)(i=1nr^i12)2=i=1nr^i12σ2(i=1nr^i12)2=σ2i=1nr^i12Var(\hat{\beta_1})=Var(\frac{\sum_{i=1}^n\hat{r}_{i1}y_i}{\sum_{i=1}^n\hat{r}_{i1}^2}) =\frac{\sum_{i=1}^n\hat{r}_{i1}^2Var(u_i|X)}{(\sum_{i=1}^n\hat{r}_{i1}^2)^2} =\frac{\sum_{i=1}^n\hat{r}_{i1}^2\sigma^2}{(\sum_{i=1}^n\hat{r}_{i1}^2)^2} =\frac{\sigma^2}{\sum_{i=1}^n\hat{r}_{i1}^2}

因为i=1nr^i12\sum_{i=1}^n\hat{r}^2_{i1}x1x_1x2,...,xkx_2,...,x_k回归的残差平方和,故:

i=1nr^i12=SST1(1R12)\sum_{i=1}^n\hat{r}^2_{i1} =SST_1(1-R_1^2)

得证。

从上述公式来看,Var(βj^)Var(\hat{\beta_j})受三个部分影响。

  • σ2\sigma^2越大,方差中“噪声”越大,导致方差越大

  • xjx_j的总样本波动越大,跨度越大,结果越准确,β\beta的方差就越小

  • 如果R2R^2很大,代表着相关性很大,代表着很多信息由于相关性而产生了重叠,“有用”的信息越少,方差越大。

多重共线性

两个或多个自变量之间高度(但不完全)相关被称为多重共线性(multicollinearity)(multicollinearity)

解决多重共线性的方法

1、把一些变量加总起来(如各项支出)

2、把某些变量剔除(装看不见嘿嘿),尽管可能会导致变量遗漏问题。

3、构建方差膨胀因子variance inflation factorsvariance\ inflation\ factors

VIFj=11Rj2VIF_j=\frac{1}{1-R_j^2}

常见的指标是 VIFVIF 不能大于10

误设模型中的方差

回归模型中是否添加某特定变量的判断标准。

真实的回归模型:

y=β0+β1x1+β2x2+uy=\beta_0+\beta_1x_1+\beta_2x_2+u

回归模型1:

y^=β0^+β1^x1+β2^x2\hat{y}=\hat{\beta_0}+\hat{\beta_1}x_1+\hat{\beta_2}x_2

回归模型2:

y~=β0~+β1~x1\tilde{y}=\tilde{\beta_0}+\tilde{\beta_1}x_1

通过计算可得:

Var(β1^)=σ2SST1(1R12)Var(\hat{\beta_1})=\frac{\sigma^2}{SST_1(1-R_1^2)}

Var(β1~)=σ2SST1Var(\tilde{\beta_1})=\frac{\sigma^2}{SST_1}

可以看到,Var(β1^)>Var(β1~)Var(\hat{\beta_1})>Var(\tilde{\beta_1})(其实不对,因为两个式子中的σ\sigma不一样),可见增加自变量会增加估计量的去方差(至少不会减少)。

考虑如下情况:

β2=0\beta_2=0 ,则:

E(β1^)=β1   E(β1~)=β1Var(β1^)>Var(β1~)E(\hat{\beta_1})=\beta_1 \ \ \ E(\tilde{\beta_1})=\beta_1 \\ Var(\hat{\beta_1})>Var(\tilde{\beta_1})

这告诉我们不要把无关变量放进模型,无关变量只会加剧共线性问题。

β20\beta_2 \not=0 ,则:

E(β1^)=β1   E(β1~)β1Var(β1^)>Var(β1~)E(\hat{\beta_1})=\beta_1 \ \ \ E(\tilde{\beta_1})\not=\beta_1 \\ Var(\hat{\beta_1})>Var(\tilde{\beta_1})

这时候就需要进行取舍trade offtrade\ off),经济学中一般认为无偏性更加重要一点

估计误差项的方差

我们构造一个估计量:

σ2^=i=1nui^2nk1\hat{\sigma^2}=\frac{\sum_{i=1}^n{\hat{u_i}}^2}{n-k-1}

nk1n-k-1为残差变动的自由度,即残差可以自由取值的个数,即当我们给定残差中的nk1n-k-1个,余下的k+1k+1个便是已知的,k+1k+1个限制来自于最小二乘法时k+1k+1个限制条件。

定理3.3 σ2\sigma^2的无偏估计

由假设MLR.1MLR.5MLR.1-MLR.5,我们有:

E(σ2^)=σ2E(\hat{\sigma^2})=\sigma^2

证明:

矩阵证明,暂时略,后续补。

σ^\hat{\sigma} 称为回归标准误($standard\ error\ of\ the\ regression $),简称 $ SER $,是误差项标准差的估计值。

βj^\hat{\beta_j}标准差($standard\ deviation $)为:

sd(βj^)=Var(βj^)=σSSTj(1Rj2)sd(\hat{\beta_j})=\sqrt{Var(\hat{\beta_j})}= \frac{\sigma}{\sqrt{SST_j(1-R_j^2)}}

由于我们无法获得σ\sigma的真实值,故我们需要使用估计值σ^\hat{\sigma}进行替换,则:

βj^\hat{\beta_j}标准误(standard errorstandard\ error)为:

se(βj^)=Var^(βj^)=σ^SSTj(1Rj2)se(\hat{\beta_j})=\sqrt{\hat{Var}(\hat{\beta_j})}= \frac{\hat{\sigma}}{\sqrt{SST_j(1-R_j^2)}}

标准误是一个随机变量,来源于样本,当样本确定时,标准误也随之确定。

值得注意的是,标准误的依赖于Var(βj^)Var(\hat{\beta_j})的公式,而该公式又依赖与同方差假定MLR.5MLR.5。所以如果误差出现异方差性,不会导致βj^\hat{\beta_j}的偏误,却会导致对Var(βj^)Var(\hat{\beta_j})的错误估计。

我们可以对标准误进行变形,得到:

se(βj^)=σ^n sd(xj)(1Rj2)se(\hat{\beta_j})=\frac{\hat{\sigma}}{\sqrt{n}\ sd(x_j)\sqrt{(1-R_j^2)}}

其中,sd(xj)=n1i=1n(xijxˉj)2sd(x_j)=\sqrt{n^{-1}\sum_{i=1}^n(x_{ij}-\bar{x}_j)^2},是样本标准差。

se(βj^)se(\hat{\beta_j})中的各部分都随nn的变动而变动,但是nn越来越大时,除n\sqrt{n}外各部分均会趋于常数。由此我们知道,标准误大致以$1/ \sqrt{n} $的速率收敛到0。

OLSOLS的有效性:高斯-马尔科夫定理(The GaussMarkov TheoremThe\ Gauss-Markov\ Theorem

我们需要判断普通最小二乘法(OLSOLS)是不是好的,方法是与其他估计值进行比较。我们在比较OLSOLS和其他方法估计值时,我们只比较线性估计值,即:

βj~=i=1nωijyi\tilde{\beta_j}=\sum_{i=1}^n{\omega_{ij}y_i}

其中,wijw_{ij}是自变量xx的函数。

定理3.4

在假定MLR.1MLR.5MLR.1-MLR.5下,β0^,β1^,...βk^\hat{\beta_0},\hat{\beta_1},...\hat{\beta_k}β0,β1,...,βk\beta_0,\beta_1,...,\beta_k最优线性无偏估计量(BLUEsBLUEs) (Best Linear Unbiased EstimatorsBest\ Linear\ Unbiased\ Estimators)

即,在所有线性无偏估计值里面,OLSOLS方差是最小的(因为方差的具体值是随样本变化而变化的,故这里方差最小值的是不管样本如何变化Var(βj^)<Var(β~j)Var(\hat{\beta_j})<Var(\tilde\beta_j)恒成立)。该定理说明了使用OLSOLS估计多元回归模型的合理性。