度量单位与函数形式

半对数形式

logy=β0+β1x+u\log y =\beta_0+\beta_1x+u

两边对xx求导:

logyx=β1\frac{\partial \log y}{\partial x} = \beta_1

1yyx=β1\frac{1}{y}*\frac{\partial y}{\partial x}=\beta_1

Δyy=β1Δx\frac{\Delta y}{y}=\beta_1 \Delta x

β1\beta_1表示xx每增加一个单位,$ y $就会增加100β1100\beta_1%

全对数模型(常弹性模型)

logy=β0+β1logx+u\log y =\beta_0+\beta_1\log x+u

同理,对xx求导可得:

Δyy=β1Δxx\frac{\Delta y}{y}=\beta_1 \frac{\Delta x}{x}

β1\beta_1表示xx变化百分之一引起yy变化百分之β1\beta_1

对"线性"回归的理解

线性回归并非要求xxyy之间存在线性关系,关键在于方程中的参数β0\beta_0β1\beta_1是线性的。

OLSOLS估计量的期望值与方差

OLSOLS的无偏性

估计量β1^β0^\hat{\beta_1}、\hat{\beta_0}是随机变量,而非常数,会随着样本的改变而改变。从数据生成的角度来说,β0β1\beta_0、\beta_1是固有的,而xux、u是随机产生的,由这些变量再确定yy的值,故本质上β1^β0^\pmb{\hat{\beta_1} 、 \hat{\beta_0}}的随机性来自于xxuu。随机产生的x,yx,y 构成了总体,我们通过抽样进行估计,不同的样本会产生不同的估计值。

既然是随机变量,就存在期望值与方差。无偏性指的是:

E(β1^)=β1E(β0^)=β0E(\hat{\beta_1})=\beta_1 \\ E(\hat{\beta_0})=\beta_0

其证明的前提是需要满足四个假设:

假定MLR.1\pmb{MLR.1} (线性于参数)

即在总体模型中,变量满足线性关系式:

y=β0+β1x+uy =\beta_0+\beta_1x+u

假定MLR.2\pmb{MLR.2}(随机抽样)

我们假定拥有一个服从总体模型方程的随机样本,其样本容量为nn,即:

{(xi,yi):i=1...n}\{ (x_i,y_i): i = 1...n \}

yi=β0+β1xi+uiy_i =\beta_0+\beta_1x_i+u_i

随机抽样暗示着 uiu_i 之间是不相关的。

目前我们研究的是横截面数据,故uiu_i不相关是大概率满足的,而后续对时间序列分析时就不一定满足。

假定MLR.3\pmb{MLR.3} (解释变量的样本有变动)

我们要求xix_i不是完全相同的数值,等价于:

i=1n(xixˉ)2>0\sum_{i=1}^n(x_i-\bar{x})^2>0

这是一个很弱的条件,其目的在于后续分母不为零。

假定MLR.4\pmb{MLR.4} (零条件均值)

对于给定解释变量的任何值,误差的期望值都为零。换言之,

E(ux)=0E(u|x)=0

理解假设4:近似于要求uuxx无关,因为在不同xx的情况下,uu的均值不发生变化(这与uu的分布不变有一定差距,故只是近似无关)

无偏性证明如下:

β1^=i=1n(xixˉ)yii=1n(xixˉ)2(1)\hat{\beta_1}=\frac{\sum_{i=1}^n (x_i-\bar{x})y_i}{\sum_{i=1}^n(x_i-\bar{x})^2} \tag1

根据MLR.1MLR.1MLR.2MLR.2

yi=β0+β1xi+ui(2)y_i =\beta_0+\beta_1x_i+u_i \tag2

将(2)代入(1)得:

β1^=i=1n(xixˉ)(β0+β1xi+ui)i=1n(xixˉ)2(3)\hat{\beta_1}=\frac{\sum_{i=1}^n (x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}{\sum_{i=1}^n(x_i-\bar{x})^2} \tag3

=β0i=1n(xixˉ)+β1i=1nxi(xixˉ)+i=1nui(xixˉ)i=1n(xixˉ)2=\frac{\beta_0\sum_{i=1}^n (x_i-\bar{x})+\beta_1\sum_{i=1}^n x_i(x_i-\bar{x})+\sum_{i=1}^n u_i(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}

而已知:

i=1n(xixˉ)=0\sum_{i=1}^n (x_i-\bar{x})=0

i=1nxi(xixˉ)=i=1n(xixˉ)2\sum_{i=1}^n x_i(x_i-\bar{x})=\sum_{i=1}^n(x_i-\bar{x})^2

故:

β1^=β1+i=1nui(xixˉ)i=1n(xixˉ)2\pmb{\hat{\beta_1}=\beta_1+\frac{\sum_{i=1}^n u_i(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}}

以 $ x $ 的值作为固定条件,那么估计值的随机性则完全来自于误差项。于是有:

E(β^1xi)=β1+E(i=1nui(xixˉ)i=1n(xixˉ)2xi)=β1+1i=1n(xixˉ)2E(i=1nui(xixˉ)xi)=β1+1i=1n(xixˉ)2i=1n(xixˉ)E(uixi)E(\hat{\beta}_1 | x_i) = \beta_1 + E\left(\frac{\sum_{i=1}^n u_i(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2} | x_i\right) \\ = \beta_1 + \frac{1}{\sum_{i=1}^n(x_i-\bar{x})^2} E\left(\sum_{i=1}^n u_i(x_i-\bar{x}) | x_i\right) \\ = \beta_1 + \frac{1}{\sum_{i=1}^n(x_i-\bar{x})^2} \sum_{i=1}^n(x_i-\bar{x}) E(u_i | x_i)

根据$ MLR.4 $

E(uixi)=0E(u_i|x_i)=0

故:

i=1nui(xixˉ)i=1n(xixˉ)2=0\frac{\sum_{i=1}^n u_i(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}=0

E[ β1^]=β1\pmb{E[\ \hat{\beta_1 }]=\beta_1}

得证。

值得注意的是,估计量的无偏性需要满足以上4个假设条件,现实中可能未必均能满足。例如假设4,在现实的很多情况中xxuu可能存在一定的相关性,这会导致回归结果的错误。