情報幾何学による最大エントロピー原理の再現

(この記事は数理物理 Advent Calendar 2018 - Adverter 12日目の記事です.)

普段は代数幾何学と統計的学習理論についてやっているのですが, 何かしらでアドベントカレンダーを書きたいなと思っていたところにちょうどよいものを発見し参加させていただいた次第です。数理物理がテーマということで, うまく物理学と関連付けられないかなと考えた結果, 少し前から勉強し始めた情報幾何学とその統計物理学への応用について簡単に書いていこうと思います。(自分自身の勉強メモという側面もあるので一部厳密性を損なった書き方をします...)

概要

確率分布全体の集合を幾何学的空間とみなし情報幾何学の概念を用いて, 「一様分布についてハミルトニアンの期待値が一定になるという制約条件下でエントロピーが最大になる確率分布はカノニカル分布である」ということを導きます。すなわち最大エントロピー原理を情報幾何学的に再現するということについて考えてみようと思います。

確率分布空間の構成

情報幾何学では確率分布全体の集合を多様体(局所的に座標系を設定できる空間)とみなします。つまり

根元事象の有限集合 $X$ 上で定義された確率分布全体の集合を

\begin{align} \mathcal{S} = \left\{ p : X \rightarrow \mathbb{R} \ | \ p(x) > 0 \ (\forall x \in X), \sum _{x \in X} p(x) = 1 \right\} \end{align}

と表すとこれは多様体とみなせます。この確率分布空間 $\mathcal{S}$ の部分多様体で, 確率関数が指数関数の形をとる確率分布の族を定義します。

定義(指数型分布族)

$X$ 上の関数 $C(x), F_1 (x), \ldots , F_k (x)$ , $\mathbb{R}^k$ 上のパラメータ空間 $\Theta$ 上のパラメータ $(\theta ^1, \ldots , \theta ^k) \in \Theta$ によって

\begin{align} p_{\theta }(x) = \exp \left[C(x) + \sum _{i=1} ^k \theta ^i F_i (x) - \psi (\theta ) \right] \end{align}

と表される確率分布族 $M = \{ p_{\theta}(x) ; \theta \in \Theta \}$ を指数型分布族という.

このとき

\begin{align} \psi (\theta) =\log \left\{ \sum _{x \in X} \exp \left[C(x) + \sum _{i=1} ^k \theta ^i F_i (x) \right] \right\} \end{align}

とする.

最大エントロピー原理の再現

上述の定義より指数型確率分布全体の族を $M$ とします。 $M$ において, $k=1$ とし, $F_1(x) = -H(x)$ とおいたとき $M$ 上で $\theta = 0$ で一様分布 $\displaystyle{u = \left( \frac{1}{n}, \ldots , \frac{1}{n} \right)}$ を通る部分指数型分布族 $p_{\theta }(x) = \exp \left[- \theta H(x) - \psi (\theta )\right]$ を考えます。ここで, 指数分布族 $M$ から少し視点を $\mathcal{S}$ に戻して, $F_1 (x) = -H(x)$ の期待値が一定値 $\eta$ を取るような $\mathcal{S}$ 上の確率分布族を

$\begin{align} \Gamma _{\eta} = \{ q \in \mathcal{S} \ ; \ E_q[ -H ] = \eta \} \end{align}$

とします。

ところで, 情報幾何学においては前述のように構成した確率分布族に対して成り立つ興味深い性質が知られています。

定理

$M$ と $\Gamma _{\eta}$ が交わるならば, $M$ と $\Gamma _{\eta}$ はFisher計量に関して幾何学的に直交する.

Fisher計量とは非常にざっくり言えば確率分布空間における距離や角度の測り方のことです。

以上の設定を定理の性質を踏まえて図にまとめると以下のようになります。空間 $\mathcal{S}$ 上で指数型分布族 $M$ は曲面, その部分族 $p_{\theta}$ は曲面上を通る線, $\Gamma _{\eta}$ は $M$ に直交する曲面としてそれぞれ表されます。微分幾何学的には $p_{\theta}$ は曲面 $M$ 上の測地線(曲面上における直線)となります。

図の状況は指数型確率分布族 $p_{\theta}$ 上の点 $q$ で $u$ ともっとも近い距離にあるのは $u$ から $\Gamma _{\eta}$ へ下ろした垂線の足 $p_{\theta _{*}}$ であるということを示しています。すなわち, $E_q[ -H ] = \eta$ という制約条件のもとで一様分布 $u$ ともっとも差異のない確率分布は $p_{\theta _{*}}$ であるということです。

ここで $\log Z(\theta) = \psi (\theta), \ \beta = \theta _{*}$ とおくと

$\begin{align} p_{\theta _{*}} &= p_{\beta} \\ &= e^{-\beta H(x)-\psi (x)} \\ &= \frac{1}{Z(\beta)} e^{-\beta H(x)} \end{align}$

であり, これは熱力学で用いられるカノニカル分布の確率関数です。すなわち $-H(x)$ の期待値が一定値をとるという制約条件のもとで一様分布ともっとも近い指数型分布はカノニカル分布であるということを示していて, これは最大エントロピー原理の情報幾何学的再現に他なりません。

Kullback-LeiblerダイバージェンスとShannonエントロピー

より厳密には統計多様体上の分布間の距離を表すKullback-Leiblerダイバージェンスを考えます。

定義(Kullback-Leiblerダイバージェンス)

根元事象の集合 $X$ 上の統計多様体 $\mathcal{S}$ 上の確率分布 $p, q \in \mathcal{S}$ に対して

\begin{align} D(p \parallel q) = \sum _{x \in X} p(x) \log \frac{p(x)}{q(x)} \end{align}

をKullback-Leiblerダイバージェンスという.

Kullback-Leiblerダイバージェンスは直感的には一般的な統計多様体上での確率分布同士の"近さ"を表す指標です。

いま $q \in \Gamma _{\eta}$ と一様分布 $u$ に対してKullback-Leiblerダイバージェンス $D(q \parallel u)$ を最小化するような $\Gamma _{\eta}$ の族 $\mathrm{arg min} _{q \in \Gamma _{\eta}} D(q \parallel u)$ を計算します。

$\begin{align} p_{\theta _{*}} &= \mathrm{arg min} _{q \in \Gamma _{\eta}} D(q \parallel u) \\ &= \mathrm{arg min} _{q \in \Gamma _{\eta}} \sum _{x \in X} q(x) \log \frac{q(x)}{u(x)} \\ &= \mathrm{arg min} _{q \in \Gamma _{\eta}} \left\{ \sum _{x \in X} q(x)\log q(x) - \sum _{x \in X} q(x)\log u(x) \right\} \\ &= \mathrm{arg min} _{q \in \Gamma _{\eta}} \left\{ \sum _{x \in X} q(x)\log q(x) - \sum _{x \in X} q(x)\log \frac{1}{n} \right\} \\ &= \mathrm{arg min} _{q \in \Gamma _{\eta}} \left\{ \sum _{x \in X} q(x)\log q(x) + \log n \right\} \\ &= \mathrm{arg min} _{q \in \Gamma _{\eta}} \left\{ -S(q) + \log n \right\} \\ &= \mathrm{arg max} _{q \in \Gamma _{\eta}} S(q) \\ \end{align}$

このとき $S(q) = -\sum _{x \in X} q(x)\log q(x)$ を確率分布 $q$ のShannonエントロピーといいます。つまり, $p_{\theta _{*}} = \mathrm{arg max} _{q \in \Gamma _{\eta}} S(q)$ は $\Gamma _{\eta}$ 下でエントロピーが最大化される確率分布であるということです。

最大エントロピー原理は制約条件下での最適化問題であるのでラグランジュの未定乗数法などで導かれるのが一般的だと思いますが, 今回お互いに近い確率分布というのが感覚的に導けることがわかりました。情報幾何学は比較的抽象度の高い分野であることに加え, 確率分布など数理統計学の知識が必要なことから物理畑の人には(特に今回の記事の説明だけだと)なかなか理解しにくいところだと思いますが, 最初の空間の設定と定理さえ認めてしまえば, 図から確率分布の"近さ"が幾何学的な距離で測れることがわかると思います。とにかく情報幾何学を使うと確率分布空間を直感的に把握できるということを主張して筆をおきます。