情報幾何学による最大エントロピー原理の再現
(この記事は数理物理 Advent Calendar 2018 - Adverter 12日目の記事です.)
普段は代数幾何学と統計的学習理論についてやっているのですが, 何かしらでアドベントカレンダーを書きたいなと思っていたところにちょうどよいものを発見し参加させていただいた次第です。数理物理がテーマということで, うまく物理学と関連付けられないかなと考えた結果, 少し前から勉強し始めた情報幾何学とその統計物理学への応用について簡単に書いていこうと思います。(自分自身の勉強メモという側面もあるので一部厳密性を損なった書き方をします...)
概要
確率分布全体の集合を幾何学的空間とみなし情報幾何学の概念を用いて, 「一様分布についてハミルトニアンの期待値が一定になるという制約条件下でエントロピーが最大になる確率分布はカノニカル分布である」ということを導きます。すなわち最大エントロピー原理を情報幾何学的に再現するということについて考えてみようと思います。
確率分布空間の構成
情報幾何学では確率分布全体の集合を多様体(局所的に座標系を設定できる空間)とみなします。つまり
根元事象の有限集合上で定義された確率分布全体の集合を
\begin{align} \mathcal{S} = \left\{ p : X \rightarrow \mathbb{R} \ | \ p(x) > 0 \ (\forall x \in X), \sum _{x \in X} p(x) = 1 \right\} \end{align}
と表すとこれは多様体とみなせます。この確率分布空間の部分多様体で, 確率関数が指数関数の形をとる確率分布の族を定義します。
上の関数, 上のパラメータ空間上のパラメータによって
\begin{align} p_{\theta }(x) = \exp \left[C(x) + \sum _{i=1} ^k \theta ^i F_i (x) - \psi (\theta ) \right] \end{align}
と表される確率分布族を指数型分布族という.
このとき
\begin{align} \psi (\theta) =\log \left\{ \sum _{x \in X} \exp \left[C(x) + \sum _{i=1} ^k \theta ^i F_i (x) \right] \right\} \end{align}
とする.
最大エントロピー原理の再現
上述の定義より指数型確率分布全体の族をとします。において, とし, とおいたとき上でで一様分布を通る部分指数型分布族を考えます。ここで, 指数分布族から少し視点をに戻して, の期待値が一定値を取るような上の確率分布族を
とします。
ところで, 情報幾何学においては前述のように構成した確率分布族に対して成り立つ興味深い性質が知られています。
とが交わるならば, とはFisher計量に関して幾何学的に直交する.
Fisher計量とは非常にざっくり言えば確率分布空間における距離や角度の測り方のことです。
以上の設定を定理の性質を踏まえて図にまとめると以下のようになります。空間上で指数型分布族は曲面, その部分族は曲面上を通る線, はに直交する曲面としてそれぞれ表されます。微分幾何学的にはは曲面上の測地線(曲面上における直線)となります。
図の状況は指数型確率分布族上の点でともっとも近い距離にあるのはからへ下ろした垂線の足であるということを示しています。すなわち, という制約条件のもとで一様分布ともっとも差異のない確率分布はであるということです。
ここでとおくと
であり, これは熱力学で用いられるカノニカル分布の確率関数です。すなわちの期待値が一定値をとるという制約条件のもとで一様分布ともっとも近い指数型分布はカノニカル分布であるということを示していて, これは最大エントロピー原理の情報幾何学的再現に他なりません。
Kullback-LeiblerダイバージェンスとShannonエントロピー
より厳密には統計多様体上の分布間の距離を表すKullback-Leiblerダイバージェンスを考えます。
根元事象の集合上の統計多様体上の確率分布に対して
\begin{align} D(p \parallel q) = \sum _{x \in X} p(x) \log \frac{p(x)}{q(x)} \end{align}
をKullback-Leiblerダイバージェンスという.
Kullback-Leiblerダイバージェンスは直感的には一般的な統計多様体上での確率分布同士の"近さ"を表す指標です。
いまと一様分布に対してKullback-Leiblerダイバージェンスを最小化するようなの族を計算します。
このときを確率分布のShannonエントロピーといいます。つまり, は下でエントロピーが最大化される確率分布であるということです。
最大エントロピー原理は制約条件下での最適化問題であるのでラグランジュの未定乗数法などで導かれるのが一般的だと思いますが, 今回お互いに近い確率分布というのが感覚的に導けることがわかりました。情報幾何学は比較的抽象度の高い分野であることに加え, 確率分布など数理統計学の知識が必要なことから物理畑の人には(特に今回の記事の説明だけだと)なかなか理解しにくいところだと思いますが, 最初の空間の設定と定理さえ認めてしまえば, 図から確率分布の"近さ"が幾何学的な距離で測れることがわかると思います。 とにかく情報幾何学を使うと確率分布空間を直感的に把握できるということを主張して筆をおきます。
参考文献
[2]甘利俊一「情報幾何学」(NII - Electronic Library Service)
- 作者: 藤原彰夫
- 出版社/メーカー: 牧野書店
- 発売日: 2015/08/10
- メディア: 単行本
- この商品を含むブログを見る