更多的方程形式

标准化—z分数

进行标准化处理,令:
$$
z_i=\frac{x_i-\bar{x}_i}{\hat{\sigma_i}}
$$
则有:
$$
\hat{b}_i=\frac{\hat{\sigma}_i}{\hat{\sigma}_y}\hat{\beta_i}
$$
我们称 $\hat{b_i}$ 为标准化系数 或 $\beta$系数,其含义是$x_i$提高一倍标准差,那么$\hat{y}$就变化$\hat{b}_i$倍的标准差。

对数形式

Type 1

$$
y_i=\beta_0+\beta_1x_i+\epsilon
$$

Type 2

$x$变化一个单位,$y$就变化一个单位
$$
y_i=\beta_0+\beta_1log(x_i)+\epsilon
$$

$$
\Delta y= \beta_1 \frac{\Delta x}{x}
$$

$x$变化$1%$,$y$就变化$\beta_1/100$个单位

Type 3

$$
log(y_i)=\beta_0+\beta_1 x_i+\epsilon
$$

$$
\frac{1}{y}\frac{\Delta y}{\Delta x} =\beta_1 \
\frac{\Delta y}{y}=\beta_1 \Delta x
$$

$x$变化一个单位,$y$就变化$\pmb{100\beta_1 %}$

这是一个近似的结果,仅当$\Delta y$较小时成立,

$y$的百分比变化的精确值为:
$$
\Delta \hat{y}\ % =100(e^{\hat{\beta_i}\Delta x_i}-1)
$$
推导:
$$
\Delta log(y)=\beta \Delta x
$$

$$
\Delta log(y)=log(y’)-log(y)=log(\frac{y+\Delta y}{y})=log(1+\frac{\Delta y}{y})=\beta \Delta_x \
\Delta \hat{y}\ % =100(e^{\hat{\beta_i}\Delta x_i}-1)
$$

Type 4

$$
log(y_i)=\beta_0+\beta_1log(x_i)+\epsilon
$$

$x$变化 $1 % $,$y$变化$\beta_1 % $

对数形式的其他问题

  • 对数变量的系数与测量单位无关

例如:$x$代表钱,分别用元和万元做单位时,其回归式如下:
$$
log(y_i)=\beta_0+\beta_1log(x_i)+\epsilon
$$

$$
log(y_i)=\beta_0+\beta_1log(x_i/10000)+\epsilon
$$

上述两式的回归系数是相同的。

  • 有些变量取对数后更倾向于服从正态性($normality$)和同方差性($homoscedasticity$),更容易服从$CLM$假定
  • 部分变量不能取对数,如:年(受教育年限、工作年限、年龄)、一些以百分比形式的变量
  • 如果变量有零值或负值(取不了对数),或者0到1之间(取对数后会出现较大负值)
  • 潜在好处是可以缩小变量的取值范围,使$OLS$的估计值对异常观察不那么敏感。适用于:大额货币值、销售额、薪水、人口

二次型

例如,薪资方程
$$
\hat{wage}=\beta_0+\beta_1 exper+\beta_2 exper^2
$$
对两边求导:
$$
\frac{\partial wage}{\partial exper} =\beta_1 +2\beta_2 exper
$$
体现为关于$exper$的边际影响

交互项 ($interaction\ terms$)

$$
log(price)=\beta_0+\beta_1 sqrft+\beta_2 bdrms +\beta_3 \pmb{qrft*bdrms}+u
$$

交叉项:房屋面积*卧室数量

设置交叉项的思想是,对于面积不同的房屋,卧室数量可能会对价格产生不同的影响。
$$
\frac{\partial log(price)}{\partial bdrms}=\beta_2+\beta_3 sqrft
$$
据此,卧室数量对房价的影响取决于房屋面积的水平。

对于存在交互项的情况,我们通常做均值化处理
$$
y= \beta_0+\beta_1 x_1+\beta_2 x_2 +\beta_3 x_1 x_2 +u
$$

$$
y=\alpha_0+\delta_2 x_2 +\beta_3(x_1-\mu_1)(x_2-\mu_2) + u
$$

这样调整可以使系数更具有经济含义。

交互项通常和虚拟变量一同使用。

拟合优度$R^2$

一个很高的$R^2$并不意味着存在因果关系

普通$R^2$

$$
R^2=1-SSR/SST=1-\frac{SSR/n}{SST/n}
$$

普通$R^2$的问题是,只要解释变量越多,$R^2$就越大。(why?)

从经济学的角度,$R^2$衡量的是$y$的波动有多少比例可以由$x$的波动解释,而$y$的波动由$x$和$u$的波动共同造成。当我们增加解释变量时,相当于把一部分$u$中的变量放到了$x$中,这自然会导致$x$波动的解释能力变强。

严格的数学证明:

linear algebra - Prove that $R^{2}$ cannot decrease when adding a variable - Mathematics Stack Exchange

总体$R^2$($population\ R-squared$)被定义为:
$$
P^2 = 1-\sigma_u^2/\sigma_y^2
$$
而使用$SSR/n$和$SST/n$分别对$\sigma_u^2$和$\sigma_y^2$估计都是有偏的,故考虑使用无偏估计量进行调整

调整$R^2$

$$
\bar{R}^2=1-\frac{SSR/(n-k-1)}{SST/(n-1)}
$$

调整分子分母的自由度,使得是无偏的。注意,不能说$R^2$是无偏的,因为两个无偏估计量之比未必是一个无偏估计量。

自变量的增加不会必然导致$\bar{R}^2$的增加,因为$SSR/(n-k-1)$分子分母同增同减。

当且仅当,增加的变量的t统计量大于1,调整$R^2$才会增加;推广:当增加一组变量时,当且仅当新变量的联合显著性$F$统计量大于1,调整$R^2$才会增加。

普通$R^2$与调整$R^2$的关系

$$
\bar{R}^2=1-\frac{(1-R^2)(n-1)}{n-k-1}
$$

普通$R^2$的范围是$[0,1]$,而调整$R^2$可能取负值,代表模型很糟糕。

我们不能使用$R^2$和调整$R^2$来比较自变量定义不同的模型,因为在不同的自变量定义情况下,所需要解释的总平方和是不同的,因此使用$R^2$作为比较标准是不公平的。

如何确定添加哪些变量

如果变量$X$通过影响$M$来影响$Y$,那么当我们研究$X$对$Y$的影响时,我们的模型就不应该控制$M$(即不要把$M$放到自变量中)