2015-10-10

Fisher information and CRLB

Fisher Information

又来抄录 Wikipedia 了，Fisher information 这个词我在好多地方见过，一直是不求甚解地意会着，最近发现这影响到一些东西的理解，于是开始翻看百科。

言归正传，Fisher information 对于学统计的人应该很熟悉，用于描述可观测的变量 X 包含的对于决定它分布的参数 $\theta$ 的信息大小，直观地理解，如果 X 包含的关于 $\theta$ 的信息越多，后者就越确定，也就是其估计的方差越小。了解到这个信息就能得知，对于某些特定的分布模型，我们对于参数 $\theta$ 的极大似然估计 $\hat{\theta}_{ML}$ 的确信程度。

更加精确地：

X 是一个可观测的随机变量
X 的分布由未知参数 $\theta$ 决定
似然函数（likelihood function）表示为 $f(x; \theta) = P(x | \theta)$

Fisher information 的定义如下：

$$
\mathcal{I}(\theta)=\operatorname{E} \left[\left. \left(\frac{\partial}{\partial\theta} \log f(X;\theta)\right) ^2\right|\theta \right] = \int \left(\frac{\partial}{\partial\theta} \log f(x;\theta)\right) ^2 f(x; \theta)\; \mathrm{d}x \\
= - \operatorname{E} \left[\left. \frac{\partial ^2}{\partial\theta ^2} \log f(X;\theta)\right|\theta \right] \tag{1}\label{eq1}
$$

后一个等号成立是因为：

$$
\frac{\partial ^2}{\partial\theta ^2} \log f(X;\theta)=
\frac{\frac{\partial ^2}{\partial\theta ^2} f(X;\theta)}{f(X; \theta)}
\;-\;
\left( \frac{\frac{\partial}{\partial\theta} f(X;\theta)}{f(X; \theta)} \right) ^2=
\frac{\frac{\partial ^2}{\partial\theta ^2} f(X;\theta)}{f(X; \theta)}
\;-\;
\left( \frac{\partial}{\partial\theta} \log f(X;\theta)\right) ^2
\\
\operatorname{E} \left[\left. \frac{\frac{\partial ^2}{\partial\theta ^2} f(X;\theta)}{f(X; \theta)}\right|\theta \right]=\int \frac{\frac{\partial ^2}{\partial\theta ^2} f(x;\theta)}{f(x;\theta)}f(x;\theta)\; \mathrm{d}x=
\frac{\partial ^2}{\partial\theta ^2} \int f(x; \theta)\; \mathrm{d}x=
\frac{\partial ^2}{\partial\theta ^2} \; 1 = 0.
$$

注意：

X 表示随机变量，而 x 表示该变量的特定取值
取期望值的时候 $\theta$ 保持不变，表示其真实值
似然函数表示对应的条件概率密度，故 $\int f(x;\theta)\;\mathrm{d}x = 1$

The Intuition

首先来看为什么上边定义的 information 能够表示上边提到的 “X 包含的对于决定它分布的参数 $\theta$ 的信息大小”。

我们知道后验概率 $P(\theta|x) \propto P(x|\theta) P(\theta)$，当先验分布为均匀分布时（即没有任何对参数的先验知识），$P(\theta|x) \propto f(x;\theta)$

Fisher

上图中，对于两组特定的样本，其后验概率密度函数的形状与图中的曲线相同，较为陡峭的蓝线在其极大似然的参数 $\hat{\theta}_{ML}$ 附近的变化剧烈，对应了参数较为确定，也就是“X 包含了更多关于参数的信息”。而 Fisher information 恰好能够描述这种陡峭程度，由于：

考虑足够多样本的情形，由于 MLE 是 consistent estimator, $\hat{\theta}_{ML} \to \theta$
假设 log likelihood 二阶导数的期望近似于 log likelihood 的期望的二阶导数，而后者为一个以 $\theta$ 为极值的函数的二阶导数（在 $\theta$ 处）。
Fisher information 近似描述了后验概率的 log 期望在 MLE 处的二阶导数的大小，即陡峭程度。

Properties of MLE

顺便提一下有关 MLE (Maximum Likelihood Estimator) 的两个重要属性，这也与 Fisher information 密切相关。

Consistency

说的是，当样本足够多时，MLE 趋近于真实参数值，简单证明如下：

与前文标记略有不同，此处令真实的参数值为 $\theta_0$, 且定义
$$
L(\theta) = E_{\theta_0} l(X|\theta) = \operatorname{E} \left[\left. log\ f(X;\theta)\right|\theta_0 \right] = \int (log f(x; \theta)) f(x; \theta_0) \mathrm{d}x
$$
根据 MLE 的定义
$$
\hat{\theta}_{ML} = \underset{\theta}{\operatorname{argmax}} L_n(\theta) = \underset{\theta}{\operatorname{argmax}} \frac1n \sum\limits_{i=1} ^n log\ f(x_i; \theta)
$$
根据大数定理，有 $L_n(\theta) \to L(\theta)$
根据K-L divergence，有 $\underset{\theta}{\operatorname{argmax}} L(\theta) = \theta_0$
根据 2，3，4 可得 $\hat{\theta}_{ML} \to \theta_0$

Asymptotic normality

$\sqrt{n}(\hat{\theta}_{ML} - \theta_0) \to ^d N(0, 1/\mathcal{I}(\theta_0))$，在 consistency 的基础上，表明了 MLE 服从高斯分布，其方差为 Fisher information 的倒数。简单证明如下：

根据上边的1得到 $L’_n(\hat{\theta}_{ML}) = 0$，同理有 $L’(\theta_0) = E_{\theta_0} l’(X|\theta_0) = 0$
不妨设 $\theta_0 \leq \hat{\theta}_{ML}$, 根据微分中值定理
$$
\exists \theta_1 \in [\theta, \theta_0], 0 = L’_n(\hat{\theta}_{ML}) = L’_n(\theta_0) + L’’(\theta_1)(\hat{\theta}_{ML} - \theta_0)
$$
于是
$$
\sqrt{n}(\hat{\theta}_{ML} - \theta_0) = - \frac{\sqrt{n}L’_n(\theta_0)}{L’’_n(\theta_1)}
$$
根据中心极限定理
$$
\sqrt{n}L’_n(\theta_0) = \sqrt{n}(\frac1n \sum\limits_{i=1} ^ n f’(x_i; \theta_0) - 0) = \sqrt{n}(\frac1n \sum\limits_{i=1} ^ n f’(x_i; \theta_0) - E_{\theta_0}l’(X|\theta_0)) \to N(0, var_{\theta_0}(l’(X|\theta_0)))
$$
根据大数定理（LLN）
$$
L’’_n(\theta) = \frac1n \sum l’’(X_i|\theta) \to E_{\theta_0}l’’(X|\theta)
$$
又 $\hat{\theta}_{ML} \to \theta_0, \theta_1 \to \theta_0$，于是
$$
l’’_n(\theta_1) \to E_{\theta_0}l’’(X|\theta_0) = -\mathcal{I}(\theta_0)
$$
根据 4，5 可得
$$-\frac{\sqrt{n}L’_n(\theta_0)}{L’’_n(\theta_1)} \to ^d N(0, \frac{var_{\theta_0}(l’(X|\theta_0))}{\mathcal{I}(\theta_0) ^2})
$$
又根据 1 以及 $\eqref{eq1}$
$$
var_{\theta_0}(l’(X|\theta_0)) = E_{\theta_0}(l’(X|\theta_0)) ^2 - (E_{\theta_0}l’(X|\theta_0)) ^2 = \mathcal{I}(\theta_0) - 0
$$
再根据 3，6 即得结论

Overview of the Proofs

用一张图表示各个重要结论之间的导出关系：

至于具体的证明细节，就不长篇抄袭了……

Cramér–Rao Lower Bound

另一个关于 Fisher information 的重要结论就是 Cramér–Rao inequality:
对于任意的关于 $\theta$ 的无偏估计 $\hat{\theta}$，必然有 $var(\hat{\theta}) \geq 1/\mathcal{I(\theta)}$.

更一般地，若有偏估计 T 满足 $E(T) = \psi(\theta)$，则 $var(T) \geq \frac{\psi’(\theta) ^2} {\mathcal{I(\theta)}}$.

Proof

对上面的一般结论进行简短的证明：

令
$$
V = l’(\theta) = \frac{\partial}{\partial\theta} log f(X;\theta) = \frac{f’(X;\theta)}{f(X;\theta)}
$$
有
$$
E(V) = \int_x f(x;\theta)[\frac{1}{f(x;\theta)}\frac{\partial}{\partial\theta}f(x;\theta)] \mathrm{d}x = \frac{\partial}{\partial\theta} \int_x f(x;\theta)\mathrm{d}x = 0
$$
根据 1
$$cov(V, T) = E(VT - E(V)T - E(T)V + E(V)E(T)) = E(VT) - E(T)E(V) = E(VT)
$$
$$
cov(V, T) = E(VT) = \int_x t(x)[\frac{\partial}{\partial\theta}f(x;\theta)] \mathrm{d}x = \frac{\partial}{\partial\theta}[\int_x t(x)f(x;\theta)\mathrm{d}x] = \psi’(\theta)
$$
根据柯西-洗袜子不等式
$$
var(T)var(V) \geq cov(V, T) ^2 = \psi’(\theta) ^2
$$
根据定义 $\eqref{eq1}$，$var(V) = \mathcal{I}(\theta)$，带入 4 即得结论

Multivariate Extention

论文中出现较多的情况是多参数的 CRLB, 定义如下：

参数： $\boldsymbol{\theta} = \left[ \theta_1, \theta_2, \dots, \theta_d \right] ^T \in \mathbb{R} ^d$
Fisher information matrix 是一个 d x d 的矩阵，元素
$$
I_{m, k}
= \mathrm{E} \left[
\frac{\partial }{\partial \theta_m} \log f\left(x; \boldsymbol{\theta}\right)
\frac{\partial }{\partial \theta_k} \log f\left(x; \boldsymbol{\theta}\right)
\right] = -\mathrm{E} \left[
\frac{\partial ^2}{\partial \theta_m \partial \theta_k} \log f\left(x; \boldsymbol{\theta}\right)
\right].
$$
偏估计 $\boldsymbol{T}(X) = (T_1(X), \ldots, T_d(X)) ^T$ 满足 $\mathrm{E}(\boldsymbol{T}(X)) = \boldsymbol{\psi}(\boldsymbol{\theta})$

有结论如下：

$$
\mathrm{cov}_{\boldsymbol{\theta}}\left(\boldsymbol{T}(X)\right) \geq
\frac {\partial \boldsymbol{\psi} \left(\boldsymbol{\theta}\right)}
{\partial \boldsymbol{\theta}} [I\left(\boldsymbol{\theta}\right)] ^{-1}
\left( \frac {\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)}
{\partial \boldsymbol{\theta}}
\right) ^T
$$

证明略过，抄数学公式也是累…

综合 CRLB 以及 MLE 的 Asymptotic Normality 性质，可知当样本足够时，MLE 趋向于最优估计（无偏，且方差最小）。

Don't Panic!

Fisher information and CRLB