情報エントロピーとマルコフ情報源のメモ

情報エントロピーとマルコフ情報源についてみており、以下のオンラインPDFを見て、勉強になったように思うのでメモしてみる

情報理論(No.3)大原康博 *前半部分
講義「情報理論」第5回情報源のモデル(後半)情報理工学部門情報知識ネットワーク研究室 喜田拓也
きっかけ

前回まで考えていたこと

古典的な仕事での定義、MSM、DPDを横断的にGibbs自由エネルギー定義している文献はないかもしれない。なお、DPDでは複数の分子を一塊と考えて、動力学計算を行うため、一つ一つの分子を動かす動力学に比べて、長時間、広い空間(より多い分子)の動力学シュミレーションが可能である。

自由エネルギー定義

  • (情報理論)シャノンのエントロピー  
  • (古典熱力学)仕事で定義されるエントロピー 実感のある定義の仕方
  • (統計力学・たんぱく質)MSM理論。分子動力学を実行したうえで定義されるエントロピー  
  • (統計力学・バルク溶媒等)DPDベースの事実上のエントロピー定義は存在しないかもしれない。界面定義について未確認。Free energyが粗視化粒子を前提にしたもので、期待するGibbs自由エネルギーとは異なる可能性がある。(201003確認中)

MSMに役に立つかもしれない(情報理論)シャノンのエントロピー

ダイナミズムへの統計的アプローチを考える前提

  • 無限に存在するコンフォメーションのバリエーション(=アンサンブル)
  • 各バリエーションに対応するポテンシャル(=内部エネルギー、電子エネルギー)
  • バリエーション間の遷移確率(速度論、逆数としての半減期)

(数理モデル)マルコフ過程 → MSMによる自由エネルギーの基本アイディア。溶媒のような凝集相へも「MSM的な解釈によるシャノンのエントロピーの定義が適用できる」かが気になる。情報理論におけるシャノンのエントロピーを確認してみる。

マルコフ過程のおさらい

(数理モデル)マルコフ過程(マルコフかてい、英: Markov process)とは、マルコフ性をもつ確率過程のことをいう。すなわち、未来の挙動が現在の値だけで決定され、過去の挙動と無関係であるという性質を持つ確率過程である。→ MSMによる動力学シュミレーションの解釈・自由エネルギー見積の基本アイディア

(情報理論)マルコフ情報源のメモ

クロード・シャノンが情報理論を創始した論文"A mathematical theory of communication"(通信の数学的理論)では、マルコフ連鎖を利用してエントロピーの概念を導入している。さらにこのような方法は、データ圧縮やパターン認識に応用されている。

wikipedia

たんぱく質等で研究されてきたMSM理論を情報理論におけるシャノンのエントロピーから見直してみて、自由エネルギー定義との整合性を確認してみる。

  • 無記憶情報源
  • 分解可能(decomposable)なマルコフ情報源
  • 分解不可能(indecomposable)なマルコフ情報源 ⊃ エルゴート(マルコフ)情報源 ⊃ 正規マルコフ情報源

マルコフ情報源の分解可否;不可能(indecomposable)なマルコフ情報源とは

  • 本質的な状態集合が一つだけ存在
  • 定常分布が唯一(ただ一つ)存在

以下の3つの性質を満たすとき、そのマルコフモデルはエルゴード性(ergodicity)を持つといい、同時に定常分布も存在します。

  • 任意の状態から他の任意の状態へ到達可能(accessible)
  • 周期性を持たない
  • 状態数が有限

参考

正規マルコフ情報源は以下の条件を持たしている必要があります。

  • 全ての状態が満遍なく発生する
  • 周期性を持たない
  • 初期状態によらない

参考
そのほかの参考

(情報理論)シャノンのエントロピーのメモ

確率変数$X$がとりうる値が$x_1, x_2, ... x_M$とし,$X$がそれぞれの値をとる確率が$p_1, p_2, ... p_M$(ただし,$p_1+ p_2+...+p_M=1$)であるとき,確率変数$X$の(情報)エントロピー$H(X)$を

$$
H(X)=-\sum_{i=1}^M p_i\log_{2}{p_i}
$$

定常状態確率分布が存在する正規マルコフ情報源𝑆では、

$M$ 個の情報源 $A = a_1, a_2, ... a_M$ 、N個の状態 $S = s_0, s_1, ... s_{N-1}$ およびその定常状態確率分布 $W = w_0,w_1,...,w_{N-1}$ とし、状態 $s_i$ にあるときに情報源記号 $a_j$ を発生する確率を $P(a_j\mid s_i)$ とすれば、エントロピー $S$ は次式で表される。

$$
H(S)=\sum_{i=0}^{N-1}{w_i}\left[-\sum_{j=1}^M P(a_j\mid s_i)\log_{2}{P(a_j\mid s_i)}\right]
$$

※式導出と確率分布が指定されないマルコフ情報源(過渡的な(?))に対する拡張は確認しておきたい

(ここまで)