情報エントロピーとマルコフ情報源についてみており、以下のオンラインPDFを見て、勉強になったように思うのでメモしてみる
情報理論(No.3)大原康博 *前半部分
講義「情報理論」第5回情報源のモデル(後半)情報理工学部門情報知識ネットワーク研究室 喜田拓也
きっかけ
前回まで考えていたこと
古典的な仕事での定義、MSM、DPDを横断的にGibbs自由エネルギー定義している文献はないかもしれない。なお、DPDでは複数の分子を一塊と考えて、動力学計算を行うため、一つ一つの分子を動かす動力学に比べて、長時間、広い空間(より多い分子)の動力学シュミレーションが可能である。
自由エネルギー定義
- (情報理論)シャノンのエントロピー
- (古典熱力学)仕事で定義されるエントロピー 実感のある定義の仕方
- (統計力学・たんぱく質)MSM理論。分子動力学を実行したうえで定義されるエントロピー
- (統計力学・バルク溶媒等)DPDベースの事実上のエントロピー定義は存在しないかもしれない。界面定義について未確認。Free energyが粗視化粒子を前提にしたもので、期待するGibbs自由エネルギーとは異なる可能性がある。(201003確認中)
MSMに役に立つかもしれない(情報理論)シャノンのエントロピー
ダイナミズムへの統計的アプローチを考える前提
- 無限に存在するコンフォメーションのバリエーション(=アンサンブル)
- 各バリエーションに対応するポテンシャル(=内部エネルギー、電子エネルギー)
- バリエーション間の遷移確率(速度論、逆数としての半減期)
(数理モデル)マルコフ過程 → MSMによる自由エネルギーの基本アイディア。溶媒のような凝集相へも「MSM的な解釈によるシャノンのエントロピーの定義が適用できる」かが気になる。情報理論におけるシャノンのエントロピーを確認してみる。
マルコフ過程のおさらい
(数理モデル)マルコフ過程(マルコフかてい、英: Markov process)とは、マルコフ性をもつ確率過程のことをいう。すなわち、未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質を持つ確率過程である。→ MSMによる動力学シュミレーションの解釈・自由エネルギー見積の基本アイディア
(情報理論)マルコフ情報源のメモ
クロード・シャノンが情報理論を創始した論文"A mathematical theory of communication"(通信の数学的理論)では、マルコフ連鎖を利用してエントロピーの概念を導入している。さらにこのような方法は、データ圧縮やパターン認識に応用されている。
たんぱく質等で研究されてきたMSM理論を情報理論におけるシャノンのエントロピーから見直してみて、自由エネルギー定義との整合性を確認してみる。
- 無記憶情報源
- 分解可能(decomposable)なマルコフ情報源
- 分解不可能(indecomposable)なマルコフ情報源 ⊃ エルゴート(マルコフ)情報源 ⊃ 正規マルコフ情報源
マルコフ情報源の分解可否;不可能(indecomposable)なマルコフ情報源とは
- 本質的な状態集合が一つだけ存在
- 定常分布が唯一(ただ一つ)存在
以下の3つの性質を満たすとき、そのマルコフモデルはエルゴード性(ergodicity)を持つといい、同時に定常分布も存在します。
- 任意の状態から他の任意の状態へ到達可能(accessible)
- 周期性を持たない
- 状態数が有限
正規マルコフ情報源は以下の条件を持たしている必要があります。
- 全ての状態が満遍なく発生する
- 周期性を持たない
- 初期状態によらない
(情報理論)シャノンのエントロピーのメモ
確率変数$X$がとりうる値が$x_1, x_2, ... x_M$とし,$X$がそれぞれの値をとる確率が$p_1, p_2, ... p_M$(ただし,$p_1+ p_2+...+p_M=1$)であるとき,確率変数$X$の(情報)エントロピー$H(X)$を
$$
H(X)=-\sum_{i=1}^M p_i\log_{2}{p_i}
$$
定常状態確率分布が存在する正規マルコフ情報源𝑆では、
$M$ 個の情報源 $A = a_1, a_2, ... a_M$ 、N個の状態 $S = s_0, s_1, ... s_{N-1}$ およびその定常状態確率分布 $W = w_0,w_1,...,w_{N-1}$ とし、状態 $s_i$ にあるときに情報源記号 $a_j$ を発生する確率を $P(a_j\mid s_i)$ とすれば、エントロピー $S$ は次式で表される。
$$
H(S)=\sum_{i=0}^{N-1}{w_i}\left[-\sum_{j=1}^M P(a_j\mid s_i)\log_{2}{P(a_j\mid s_i)}\right]
$$
※式導出と確率分布が指定されないマルコフ情報源(過渡的な(?))に対する拡張は確認しておきたい
(ここまで)