高斯分布有偏的样本方差估计

对参数的估计运用了一种从样本数据中进行点估计的技术,这种技术将参数估计看做是样本数据的函数,由于样本数据是随机采样出来的,数据的任何函数都是随机的,因此参数估计也是一个随机变量(此结论最终是为了说明可以通过采样得到的数据来计算参数估计的期望及方差)。

估计的偏差定义为参数估计的期望减去参数真实值,如果等于 0,说明是无偏的,否则就是有偏的,下面的过程是为了说明,样本方差

\[\hat{\sigma}_m^2 = \frac{1}{m}\sum_{i=1}^{m}(x^{(i)} - \hat{\mu}_m)^2\]

是有偏的估计,其中样本均值也是根据采样数据得到的估计参数:

\[\begin{aligned} &\hat{\mu}_m = \frac{1}{m}\sum_{i=1}^{m}x^{(i)} \\ &E[\hat{\mu}_m] = \mu \end{aligned}\]

(样本均值是一个无偏估计)。

并且样本数据为满足高斯分布的一组独立同分布(independent identically distribute, i.i.d)的样本:

\[\{x^{(1)}, \dots, x^{(m)}\}\]

服从高斯分布,采样个数为 m 个:

\[p(x^{(i)};\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{1}{2}\frac{(x^{(i)}-\mu)^2}{\sigma^2})\]

下面是公式推导


估计的偏差为:

\[bias(\hat{\sigma}_m^2) = E[\hat{\sigma}_m^2] - \sigma^2\]

其中:

\[\begin{aligned} E[\hat{\sigma}_m^2] &= E[\frac{1}{m}\sum_{i=1}^{m}(x^{(i)} - \hat{\mu}_m)^2] \\ &= E[\frac{1}{m}\sum_{i=1}^{m}[(x^{(i)} - \mu) - (\hat{\mu}_m-\mu)]^2] \\ &= E[\frac{1}{m}\sum_{i=1}^{m}[(x^{(i)} - \mu)^2 + (\hat{\mu}_m-\mu)^2-2(x^{(i)} - \mu)(\hat{\mu}_m-\mu)]] \\ &= E[\frac{1}{m}\sum_{i=1}^{m}(x^{(i)} - \mu)^2 + (\hat{\mu}_m-\mu)^2 - \frac{2}{m}\sum_{i=1}^{m}(x^{(i)} - \mu)(\hat{\mu}_m-\mu)] \\ &= E[\frac{1}{m}\sum_{i=1}^{m}(x^{(i)} - \mu)^2 + (\hat{\mu}_m-\mu)^2 - \frac{2}{m}(\hat{\mu}_m-\mu)\sum_{i=1}^{m}(x^{(i)} - \mu)] \\ &= E[\frac{1}{m}\sum_{i=1}^{m}(x^{(i)} - \mu)^2 + (\hat{\mu}_m-\mu)^2 -2(\hat{\mu}_m-\mu)^2] \\ &= E[\frac{1}{m}\sum_{i=1}^{m}(x^{(i)} - \mu)^2] - E[(\hat{\mu}_m-\mu)^2] \\ &= \sigma^2 - Var[\hat{\mu}_m] \end{aligned}\]

还需要用到一个公式:

\[Var[x\pm y] = Var[x] + Var[y] \pm 2Cov[x,y]\]

由于样本之间相互独立,协方差为 0,所以:

\[\begin{aligned} \sigma^2 - Var[\hat{\mu}_m] &= \sigma^2 - Var[\frac{1}{m}\sum_{i=1}^mx^{(i)}] \\ &= \sigma^2 - \frac{1}{m^2}Var[\sum_{i=1}^mx^{(i)}] \\ &= \sigma^2 - \frac{1}{m}\sigma^2 \\ &= \frac{m-1}{m}\sigma^2 \end{aligned}\]

代回到 bias :

\[bias(\hat{\sigma}_m^2) = -\frac{1}{m}\sigma^2\]

所以可以证明最开始给出的样本方差是有偏的估计。

为了得到无偏估计,可以做一个贝塞尔修正(Bessel’s correction),将样本方差估计为:

\[\hat{\sigma}_m^2 = \frac{1}{m-1}\sum_{i=1}^{m}(x^{(i)} - \hat{\mu}_m)^2\]

理论上来说,这是因为 m 个样本的样本方差自由度为 m - 1, 其中一个自由度因为均值而消去,所以归一化系数是 1 / m - 1。