情報理論を幾何学的に定式化するには、微分幾何学、特にリーマン幾何学とアフィン接続の理論を使う。
1. 統計多様体: 統計多様体𝓜は、パラメータ空間Θ上の確率分布p(x|θ)の集合として定義され、滑らかな多様体の構造を持つ。ここで、θ = (θ¹, θ², ..., θⁿ)は局所座標系である。
2. フィッシャー情報計量: 統計多様体𝓜上のリーマン計量gは、フィッシャー情報計量として与えられる。これは、次のように定義される二次形式である:
gᵢⱼ(θ) = ∫ (∂ log p(x|θ)/∂θⁱ)(∂ log p(x|θ)/∂θʲ) p(x|θ) dx
1. アフィン接続: 統計多様体には、双対のアフィン接続∇と∇*が定義される。これらは、次の条件を満たす:
- 接続∇は、∇g = 0を満たし、統計多様体の平行移動を定義する。
- 双対接続∇*は、∇*g = 0を満たし、∇に対する双対接続である。
2. 双対平坦性: 統計多様体が双対平坦であるとは、∇と∇*の両方の曲率テンソルがゼロであることを意味する。これにより、𝓜は双対平坦な多様体となる。
1. エントロピー: 確率分布p(x|θ)のエントロピーH(θ)は、次のように定義される:
H(θ) = -∫ p(x|θ) log p(x|θ) dx
2. KLダイバージェンス: 二つの確率分布p(x|θ)とq(x|θ')の間のKLダイバージェンスは、次のように定義される:
Dₖₗ(p ∥ q) = ∫ p(x|θ) log (p(x|θ)/q(x|θ')) dx
KLダイバージェンスは、統計多様体上の測地距離として解釈されることがある。
3. 測地線: フィッシャー情報計量に基づく測地線は、統計多様体上で最小のKLダイバージェンスを持つ経路を表す。測地線γ(t)は、次の変分問題の解として得られる:
δ ∫₀¹ √(gᵧ(t)(ẏ(t), ẏ(t))) dt = 0
ここで、ẏ(t)はtに関するγ(t)の微分を表す。