更多的方程形式

标准化—z分数

进行标准化处理,令:

zi=xixˉiσi^z_i=\frac{x_i-\bar{x}_i}{\hat{\sigma_i}}

则有:

b^i=σ^iσ^yβi^\hat{b}_i=\frac{\hat{\sigma}_i}{\hat{\sigma}_y}\hat{\beta_i}

我们称 bi^\hat{b_i} 为标准化系数 或 β\beta系数,其含义是xix_i提高一倍标准差,那么y^\hat{y}就变化b^i\hat{b}_i倍的标准差。

对数形式

Type 1

yi=β0+β1xi+ϵy_i=\beta_0+\beta_1x_i+\epsilon

Type 2

xx变化一个单位,yy就变化一个单位

yi=β0+β1log(xi)+ϵy_i=\beta_0+\beta_1log(x_i)+\epsilon

Δy=β1Δxx\Delta y= \beta_1 \frac{\Delta x}{x}

xx变化1%1\%yy就变化β1/100\beta_1/100单位

Type 3

log(yi)=β0+β1xi+ϵlog(y_i)=\beta_0+\beta_1 x_i+\epsilon

1yΔyΔx=β1Δyy=β1Δx\frac{1}{y}\frac{\Delta y}{\Delta x} =\beta_1 \\ \frac{\Delta y}{y}=\beta_1 \Delta x

xx变化一个单位yy就变化100β1%\pmb{100\beta_1 \%}

这是一个近似的结果,仅当Δy\Delta y较小时成立,

yy的百分比变化的精确值为:

Δy^ %=100(eβi^Δxi1)\Delta \hat{y}\ \% =100(e^{\hat{\beta_i}\Delta x_i}-1)

推导:

Δlog(y)=βΔx\Delta log(y)=\beta \Delta x

Δlog(y)=log(y)log(y)=log(y+Δyy)=log(1+Δyy)=βΔxΔy^ %=100(eβi^Δxi1)\Delta log(y)=log(y')-log(y)=log(\frac{y+\Delta y}{y})=log(1+\frac{\Delta y}{y})=\beta \Delta_x \\ \Delta \hat{y}\ \% =100(e^{\hat{\beta_i}\Delta x_i}-1)

Type 4

log(yi)=β0+β1log(xi)+ϵlog(y_i)=\beta_0+\beta_1log(x_i)+\epsilon

xx变化 $1 % y变化变化\beta_1 % $

对数形式的其他问题

  • 对数变量的系数与测量单位无关

例如:xx代表钱,分别用元和万元做单位时,其回归式如下:

log(yi)=β0+β1log(xi)+ϵlog(y_i)=\beta_0+\beta_1log(x_i)+\epsilon

log(yi)=β0+β1log(xi/10000)+ϵlog(y_i)=\beta_0+\beta_1log(x_i/10000)+\epsilon

上述两式的回归系数是相同的。

  • 有些变量取对数后更倾向于服从正态性(normalitynormality)和同方差性(homoscedasticityhomoscedasticity),更容易服从CLMCLM假定
  • 部分变量不能取对数,如:年(受教育年限、工作年限、年龄)、一些以百分比形式的变量
  • 如果变量有零值或负值(取不了对数),或者0到1之间(取对数后会出现较大负值)
  • 潜在好处是可以缩小变量的取值范围,使OLSOLS的估计值对异常观察不那么敏感。适用于:大额货币值、销售额、薪水、人口

二次型

例如,薪资方程

wage^=β0+β1exper+β2exper2\hat{wage}=\beta_0+\beta_1 exper+\beta_2 exper^2

对两边求导:

wageexper=β1+2β2exper\frac{\partial wage}{\partial exper} =\beta_1 +2\beta_2 exper

体现为关于experexper的边际影响

交互项 (interaction termsinteraction\ terms

log(price)=β0+β1sqrft+β2bdrms+β3qrftbdrms+ulog(price)=\beta_0+\beta_1 sqrft+\beta_2 bdrms +\beta_3 \pmb{qrft*bdrms}+u

交叉项:房屋面积*卧室数量

设置交叉项的思想是,对于面积不同的房屋,卧室数量可能会对价格产生不同的影响。

log(price)bdrms=β2+β3sqrft\frac{\partial log(price)}{\partial bdrms}=\beta_2+\beta_3 sqrft

据此,卧室数量对房价的影响取决于房屋面积的水平。

对于存在交互项的情况,我们通常做均值化处理

y=β0+β1x1+β2x2+β3x1x2+uy= \beta_0+\beta_1 x_1+\beta_2 x_2 +\beta_3 x_1 x_2 +u

y=α0+δ2x2+β3(x1μ1)(x2μ2)+uy=\alpha_0+\delta_2 x_2 +\beta_3(x_1-\mu_1)(x_2-\mu_2) + u

这样调整可以使系数更具有经济含义。

交互项通常和虚拟变量一同使用。

拟合优度R2R^2

一个很高的R2R^2并不意味着存在因果关系

普通R2R^2

R2=1SSR/SST=1SSR/nSST/nR^2=1-SSR/SST=1-\frac{SSR/n}{SST/n}

普通R2R^2的问题是,只要解释变量越多,R2R^2就越大。(why?)

从经济学的角度,R2R^2衡量的是yy的波动有多少比例可以由xx的波动解释,而yy的波动由xxuu的波动共同造成。当我们增加解释变量时,相当于把一部分uu中的变量放到了xx中,这自然会导致xx波动的解释能力变强。

严格的数学证明:

linear algebra - Prove that R2R^{2} cannot decrease when adding a variable - Mathematics Stack Exchange

总体R2R^2population Rsquaredpopulation\ R-squared)被定义为:

P2=1σu2/σy2P^2 = 1-\sigma_u^2/\sigma_y^2

而使用SSR/nSSR/nSST/nSST/n分别对σu2\sigma_u^2σy2\sigma_y^2估计都是有偏的,故考虑使用无偏估计量进行调整

调整R2R^2

Rˉ2=1SSR/(nk1)SST/(n1)\bar{R}^2=1-\frac{SSR/(n-k-1)}{SST/(n-1)}

调整分子分母的自由度,使得是无偏的。注意,不能说R2R^2是无偏的,因为两个无偏估计量之比未必是一个无偏估计量。

自变量的增加不会必然导致Rˉ2\bar{R}^2的增加,因为SSR/(nk1)SSR/(n-k-1)分子分母同增同减。

当且仅当,增加的变量的t统计量大于1,调整R2R^2才会增加;推广:当增加一组变量时,当且仅当新变量的联合显著性FF统计量大于1,调整R2R^2才会增加。

普通R2R^2与调整R2R^2的关系

Rˉ2=1(1R2)(n1)nk1\bar{R}^2=1-\frac{(1-R^2)(n-1)}{n-k-1}

普通R2R^2的范围是[0,1][0,1],而调整R2R^2可能取负值,代表模型很糟糕。

我们不能使用R2R^2和调整R2R^2来比较自变量定义不同的模型,因为在不同的自变量定义情况下,所需要解释的总平方和是不同的,因此使用R2R^2作为比较标准是不公平的。

如何确定添加哪些变量

如果变量XX通过影响MM来影响YY,那么当我们研究XXYY的影响时,我们的模型就不应该控制MM(即不要把MM放到自变量中)