更多的方程形式
标准化—z分数
进行标准化处理,令:
zi=σi^xi−xˉi
则有:
b^i=σ^yσ^iβi^
我们称 bi^ 为标准化系数 或 β系数,其含义是xi提高一倍标准差,那么y^就变化b^i倍的标准差。
对数形式
Type 1
yi=β0+β1xi+ϵ
Type 2
x变化一个单位,y就变化一个单位
yi=β0+β1log(xi)+ϵ
Δy=β1xΔx
x变化1%,y就变化β1/100个单位
Type 3
log(yi)=β0+β1xi+ϵ
y1ΔxΔy=β1yΔy=β1Δx
x变化一个单位,y就变化100β1%100β1%
这是一个近似的结果,仅当Δy较小时成立,
y的百分比变化的精确值为:
Δy^ %=100(eβi^Δxi−1)
推导:
Δlog(y)=βΔx
Δlog(y)=log(y′)−log(y)=log(yy+Δy)=log(1+yΔy)=βΔxΔy^ %=100(eβi^Δxi−1)
Type 4
log(yi)=β0+β1log(xi)+ϵ
x变化 $1 % ,y变化\beta_1 % $
对数形式的其他问题
例如:x代表钱,分别用元和万元做单位时,其回归式如下:
log(yi)=β0+β1log(xi)+ϵ
log(yi)=β0+β1log(xi/10000)+ϵ
上述两式的回归系数是相同的。
- 有些变量取对数后更倾向于服从正态性(normality)和同方差性(homoscedasticity),更容易服从CLM假定
- 部分变量不能取对数,如:年(受教育年限、工作年限、年龄)、一些以百分比形式的变量
- 如果变量有零值或负值(取不了对数),或者0到1之间(取对数后会出现较大负值)
- 潜在好处是可以缩小变量的取值范围,使OLS的估计值对异常观察不那么敏感。适用于:大额货币值、销售额、薪水、人口
二次型
例如,薪资方程
wage^=β0+β1exper+β2exper2
对两边求导:
∂exper∂wage=β1+2β2exper
体现为关于exper的边际影响
交互项 (interaction terms)
log(price)=β0+β1sqrft+β2bdrms+β3qrft∗bdrmsqrft∗bdrms+u
交叉项:房屋面积*卧室数量
设置交叉项的思想是,对于面积不同的房屋,卧室数量可能会对价格产生不同的影响。
∂bdrms∂log(price)=β2+β3sqrft
据此,卧室数量对房价的影响取决于房屋面积的水平。
对于存在交互项的情况,我们通常做均值化处理
y=β0+β1x1+β2x2+β3x1x2+u
y=α0+δ2x2+β3(x1−μ1)(x2−μ2)+u
这样调整可以使系数更具有经济含义。
交互项通常和虚拟变量一同使用。
拟合优度R2
一个很高的R2并不意味着存在因果关系
普通R2
R2=1−SSR/SST=1−SST/nSSR/n
普通R2的问题是,只要解释变量越多,R2就越大。(why?)
从经济学的角度,R2衡量的是y的波动有多少比例可以由x的波动解释,而y的波动由x和u的波动共同造成。当我们增加解释变量时,相当于把一部分u中的变量放到了x中,这自然会导致x波动的解释能力变强。
严格的数学证明:
linear algebra - Prove that R2 cannot decrease when adding a variable - Mathematics Stack Exchange
总体R2(population R−squared)被定义为:
P2=1−σu2/σy2
而使用SSR/n和SST/n分别对σu2和σy2估计都是有偏的,故考虑使用无偏估计量进行调整
调整R2
Rˉ2=1−SST/(n−1)SSR/(n−k−1)
调整分子分母的自由度,使得是无偏的。注意,不能说R2是无偏的,因为两个无偏估计量之比未必是一个无偏估计量。
自变量的增加不会必然导致Rˉ2的增加,因为SSR/(n−k−1)分子分母同增同减。
当且仅当,增加的变量的t统计量大于1,调整R2才会增加;推广:当增加一组变量时,当且仅当新变量的联合显著性F统计量大于1,调整R2才会增加。
普通R2与调整R2的关系
Rˉ2=1−n−k−1(1−R2)(n−1)
普通R2的范围是[0,1],而调整R2可能取负值,代表模型很糟糕。
我们不能使用R2和调整R2来比较自变量定义不同的模型,因为在不同的自变量定义情况下,所需要解释的总平方和是不同的,因此使用R2作为比较标准是不公平的。
如何确定添加哪些变量
如果变量X通过影响M来影响Y,那么当我们研究X对Y的影响时,我们的模型就不应该控制M(即不要把M放到自变量中)