度量单位与函数形式

半对数形式

$$
\log y =\beta_0+\beta_1x+u
$$

两边对$x$求导:
$$
\frac{\partial \log y}{\partial x} = \beta_1
$$

$$
\frac{1}{y}*\frac{\partial y}{\partial x}=\beta_1
$$

$$
\frac{\Delta y}{y}=\beta_1 \Delta x
$$
故$\beta_1$表示$x$每增加一个单位,$ y $就会增加$100\beta_1$%

全对数模型(常弹性模型)

$$
\log y =\beta_0+\beta_1\log x+u
$$

同理,对$x$求导可得:
$$
\frac{\Delta y}{y}=\beta_1 \frac{\Delta x}{x}
$$
故$\beta_1$表示$x$变化百分之一引起$y$变化百分之$\beta_1$

对"线性"回归的理解

线性回归并非要求$x$与$y$之间存在线性关系,关键在于方程中的参数$\beta_0$与$\beta_1$是线性的。

$OLS$估计量的期望值与方差

$OLS$的无偏性

估计量$\hat{\beta_1}、\hat{\beta_0}$是随机变量,而非常数,会随着样本的改变而改变。从数据生成的角度来说,$\beta_0、\beta_1$是固有的,而$x、u$是随机产生的,由这些变量再确定$y$的值,故本质上$\pmb{\hat{\beta_1} 、 \hat{\beta_0}}$的随机性来自于$x$与$u$。随机产生的$x,y$ 构成了总体,我们通过抽样进行估计,不同的样本会产生不同的估计值。

既然是随机变量,就存在期望值与方差。无偏性指的是:
$$
E(\hat{\beta_1})=\beta_1 \ E(\hat{\beta_0})=\beta_0
$$
其证明的前提是需要满足四个假设:

假定$\pmb{MLR.1}$ (线性于参数)

即在总体模型中,变量满足线性关系式:
$$
y =\beta_0+\beta_1x+u
$$
假定$\pmb{MLR.2}$(随机抽样)

我们假定拥有一个服从总体模型方程的随机样本,其样本容量为$n$,即:
$$
{ (x_i,y_i): i = 1…n }
$$

$$
y_i =\beta_0+\beta_1x_i+u_i
$$

随机抽样暗示着 $u_i$ 之间是不相关的。

目前我们研究的是横截面数据,故$u_i$不相关是大概率满足的,而后续对时间序列分析时就不一定满足。

假定$\pmb{MLR.3}$ (解释变量的样本有变动)

我们要求$x_i$不是完全相同的数值,等价于:
$$
\sum_{i=1}^n(x_i-\bar{x})^2>0
$$
这是一个很弱的条件,其目的在于后续分母不为零。

假定$\pmb{MLR.4}$ (零条件均值)

对于给定解释变量的任何值,误差的期望值都为零。换言之,
$$
E(u|x)=0
$$
理解假设4:近似于要求$u$与$x$无关,因为在不同$x$的情况下,$u$的均值不发生变化(这与$u$的分布不变有一定差距,故只是近似无关)

无偏性证明如下:
$$
\hat{\beta_1}=\frac{\sum_{i=1}^n (x_i-\bar{x})y_i}{\sum_{i=1}^n(x_i-\bar{x})^2} \tag1
$$
根据$MLR.1$和$MLR.2$:
$$
y_i =\beta_0+\beta_1x_i+u_i \tag2
$$
将(2)代入(1)得:
$$
\hat{\beta_1}=\frac{\sum_{i=1}^n (x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}{\sum_{i=1}^n(x_i-\bar{x})^2} \tag3
$$

$$
=\frac{\beta_0\sum_{i=1}^n (x_i-\bar{x})+\beta_1\sum_{i=1}^n x_i(x_i-\bar{x})+\sum_{i=1}^n u_i(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}
$$
而已知:
$$
\sum_{i=1}^n (x_i-\bar{x})=0
$$

$$
\sum_{i=1}^n x_i(x_i-\bar{x})=\sum_{i=1}^n(x_i-\bar{x})^2
$$

故:
$$
\pmb{\hat{\beta_1}=\beta_1+\frac{\sum_{i=1}^n u_i(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}}
$$
以 $ x $ 的值作为固定条件,那么估计值的随机性则完全来自于误差项。于是有:
$$
E(\hat{\beta}1 | x_i) = \beta_1 + E\left(\frac{\sum{i=1}^n u_i(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2} | x_i\right) \
= \beta_1 + \frac{1}{\sum_{i=1}^n(x_i-\bar{x})^2} E\left(\sum_{i=1}^n u_i(x_i-\bar{x}) | x_i\right) \
= \beta_1 + \frac{1}{\sum_{i=1}^n(x_i-\bar{x})^2} \sum_{i=1}^n(x_i-\bar{x}) E(u_i | x_i)
$$

根据$ MLR.4 $
$$
E(u_i|x_i)=0
$$
故:
$$
\frac{\sum_{i=1}^n u_i(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}=0
$$

$$
\pmb{E[\ \hat{\beta_1 }]=\beta_1}
$$

得证。

值得注意的是,估计量的无偏性需要满足以上4个假设条件,现实中可能未必均能满足。例如假设4,在现实的很多情况中$x$与$u$可能存在一定的相关性,这会导致回归结果的错误。