定性信息
虚拟变量/哑变量
wage=β0+δ0female+β1educ+u
虚拟变量:female:
female={1,if the person is female0,if the person is male
δ0的含义:给定同等受教育程度,女性和男性在小时工资上的差异。
δ0=E(wage∣female=1)−E(wage∣female=0)
δ0排除了受教育年限的影响,比如有人辩解称男女薪资差异来源于受教育年限,但δ0表明即使控制了受教育年限,男女薪资依然存在差异。
虚拟变量陷阱($Dummy\ varible\ trap $)
不能写成如下方程:
wage=β0+δ0female+λ0male+β1educ+u
因为在这种情况下:
female+male=1
而β0对应的变量值为1,故具有严格的线性关系,此时回归方程误解。
一种少用但可行的改写方式:
wage=δ0female+λ0male+β1educ+u
此时方程有解,但回归系数的含义不好解释,故很少使用。
多类别虚拟变量
log(wage)^=0.321−0.110female+0.213married−0.301female∗married+...
其本质是多个虚拟变量的变形。
多个虚拟变量
四组人:已婚男性、已婚女性、单身男性和单身女性,如果以单身男性为基准组,则其余三个变量的系数都是衡量与单身男性相比的结果。
序数信息变量
数字的大小只起到排序的作用,其绝对差值没有实际意义。如信用评级、排名…
处理方法,对n个等级,设置n−1个虚拟变量。则δi表示与等级为i的变量与基准组相比,在y上的差异。
例:
MBR=β0+β1CR+其他因素
MBR=β0+δ1CR1+δ2CR2+δ3CR3+δ4CR4+其他因素
虚拟变量的交互作用
log(wage)=β0+δ0female+β1educ+δ1female∗educ+u
代入女性female=1:
log(wage)=β0+δ0+(β1+δ1)educ+u
代入男性female=0:
log(wage)=β0=β1educ+u
所以:
β0:男性截距项β1:男性教育对工资的影响β0+δ0:女性的截距项β1+δ1:女性教育对工资的影响
如何检验教育水平对男女工资影响相同?即检验 δ1=0
如何检验男女工资方程相同?即检验 δ0=0,δ1=0
检验不同组(如男女)之间回归模型的差别
假设有一个影响因素X,如何检验X对男女的影响是否一致?
在回归方程中加入:
β1X+δ1female∗X
则X对男性影响为β1,对女性影响为β1+δ1
注意,截距项也应改为β0+δ0female,因为截距项可以理解为恒为1的一个自变量,故也要考虑性别因素。
检验回归模型是否完全无差别需要检验:
H0:δ0=0,δ1=1,...,δk=k,
此时使用F检验。
二值因变量:线性概率模型
因变量y只能取0或1
y=β0+β1x1+...+βkxk+u
E(y∣x)=β0+β1x1+...+βkxk
因为y是离散的,只能取0或1,故:
E(y∣X)=1∗P(y=1∣x)+0∗P(y=0∣x)=P(y=1∣x)
故称为线性概率模型(LPM)(Linear probability model)
βj=∂xj∂P(y=1∣x)
当y是一个二值变量时,其以X为条件的方差为:
Var(y∣X)=p(X)[1−p(X)]
其中p(X)为成功的概率,即:
p(X)=β0+β1x1+...+βkxk