情報量(じょうほうりょう)やエントロピー(英: entropy)は、情報理論の概念で、あるできごと(事象)が起きた際、それがどれほど起こりにくいかを表す尺度である。ありふれたできごと(たとえば「風の音」)が起こったことを知ってもそれはたいした「情報」にはならないが、逆に珍しいできごと(たとえば「曲の演奏」)が起これば、それはより多くの「情報」を含んでいると考えられる。情報量はそのできごとが本質的にどの程度の情報を持つかの尺度であるとみなすこともできる。

なおここでいう「情報」とは、あくまでそのできごとの起こりにくさ(確率)だけによって決まる数学的な量でしかなく、個人・社会における有用性とは無関係である。たとえば「自分が宝くじに当たった」と「見知らぬAさんが宝くじに当たった」は、前者の方が有用な情報に見えるが、両者の情報量は全く同じである(宝くじが当たる確率は所与条件一定のもとでは誰でも同じであるため)。

自己情報量(自己エントロピー)と平均情報量(エントロピー)

それぞれのできごとの情報量だけでなく、それらのできごとの情報量の平均値も情報量と呼ぶ。両者を区別する場合には、前者を自己情報量自己エントロピーとも)、後者を平均情報量エントロピーとも)と呼ぶ。

自己情報量

事象 E {\displaystyle E} が起こる確率を P ( E ) {\displaystyle P(E)} とするとき、事象 E {\displaystyle E} が起こったことを知らされたとき受け取る自己情報量 I ( E ) {\displaystyle I(E)} は、以下で定義される:

I ( E ) = log 1 P ( E ) = log P ( E ) {\displaystyle I(E)=\log {\frac {1}{P(E)}}=-\log P(E)}

確率は 0 P ( E ) 1 {\displaystyle 0\leq P(E)\leq 1} なので自己情報量 I ( E ) {\displaystyle I(E)} は非負である。また対数の単調増加性により、起こりにくい事象(=生起確率が低い事象)の情報量ほど値が大きい。

対数の底として何を選んでも情報量の値が定数倍変わるだけなので本質的な差はない。慣習的に底に2を選ぶことが多い。底が2の場合、 1 / 2 n {\displaystyle 1/2^{n}} の確率で起こる事象の情報量は n {\displaystyle n} である。

直観的意味

整数 u {\displaystyle u} に対し、 u {\displaystyle u} の対数 log m u {\displaystyle \log _{m}u} m {\displaystyle m} 進法での u {\displaystyle u} の桁数にほぼ等しい値を表す。したがって、確率 1 / u {\displaystyle 1/u} で起こる事象の情報量は、ほぼ u {\displaystyle u} の桁数になる。

情報量の加法性

情報量は加法性を持つ。すなわち独立な事象AとBに対し、事象「AもBも起こる」の情報量は、Aの情報量とBの情報量の和である。これは以下で証明される。

I ( A , B ) = log P ( A , B ) = log ( P ( A ) P ( B ) ) = ( log P ( A ) log P ( B ) ) = I ( A ) I ( B ) {\displaystyle I(A,B)=-\log P(A,B)=-\log(P(A)\cdot P(B))=-(\log P(A) \log P(B))=I(A) I(B)}

例えば、52枚のトランプから無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という事象の情報量は、前述の定義から log 52 であると分かる。ここで、「取り出したカードのスートはハートである」という事象と「取り出したカードの数字は4である」という事象の二つを考えると、前者の情報量は log 4、後者は log 13 である。この両者の和は log 4 log 13 = log (4×13) = log 52 となり、「取り出したカードはハートの4である」という事象の情報量と等しい。これは「独立した情報の和が、全体の情報量と一致する」という直感的要請に合致する。

導出

情報量に対する直感的要請には「発生確率が低いほど大きく(単調減少性)」「確率に関して連続的に変化し(連続性)」「独立同時事象の情報量が周辺事象の情報量和に等しい(加法性)」の三条件が挙げられる。この3条件を満たす関数はコーシーの函数方程式を利用することで C log p {\displaystyle C\log p} と一意に求まる。よって情報量の定義は上記の3条件から一意に導出できる。典型的には対数の底を2としてp=1/2で1となるようにCを設定(C=-1)する。

平均情報量(エントロピー)

( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},P)} を確率空間とする。全事象 Ω の分割 A が与えられたとき、各事象 A i A {\displaystyle A_{i}\in A} の自己情報量 I ( A i ) {\displaystyle I(A_{i})} で定義した値

H ( P ) = A i A P ( A i )   I ( A i ) = A i A P ( A i ) log P ( A i ) {\displaystyle H(P)=\sum _{A_{i}\in A}P(A_{i})\ I(A_{i})=-\sum _{A_{i}\in A}P(A_{i})\log P(A_{i})}

を確率測度 P のエントロピー H(P) と呼ぶ(平均情報量シャノン情報量情報論のエントロピーとも)。ただし、ここで P ( A i ) = 0 {\displaystyle P(A_{i})=0} のときは、 P ( A i ) log P ( A i ) = 0 {\displaystyle P(A_{i})\log P(A_{i})=0} とみなす。これは lim p 0 p log p = 0 {\displaystyle \lim _{p\to 0 }{p\log p}=0} であることによる。

また、離散型確率変数 X が確率分布 P に従う場合には、 X のエントロピー H(X) を自己情報量 I の期待値によって定義する。すなわち、

H ( X ) = E P [ I ( X ) ] = x X f X ( x ) log f X ( x ) {\displaystyle H(X)=\mathbb {E} _{P}[I(X)]=-\sum _{x\in X}f_{X}(x)\log f_{X}(x)}

である。ここで fX は X の確率質量関数である。

0 I ( ) {\displaystyle 0\leqq I(\cdot )} より、エントロピーは常に非負である。

確率変数 X と Y の組 (X, Y) も確率変数とみなせる。この確率変数の値の発生確率すなわち同時確率を P X , Y ( X , Y ) {\displaystyle P_{X,Y}(X,Y)} とすると、 (X, Y) のエントロピー H ( X , Y ) {\displaystyle H(X,Y)}

H ( X , Y ) = E P X , Y [ I ( X , Y ) ] = ( x , y ) ( X , Y ) P X , Y ( x , y ) log P X , Y ( x , y ) {\displaystyle H(X,Y)=\mathbb {E} _{P_{X,Y}}[I(X,Y)]=-\sum _{(x,y)\in (X,Y)}P_{X,Y}(x,y)\log P_{X,Y}(x,y)}

になる。これを結合エントロピーと呼ぶ。

(X, Y) が互いに独立な確率変数である場合には、 H ( X , Y ) {\displaystyle H(X,Y)} H ( X ) H ( Y ) {\displaystyle H(X) H(Y)} に一致する。すなわち、全体の情報量 H ( X , Y ) {\displaystyle H(X,Y)} は、それぞれの確率変数の情報量の和である。

しかし、 X と Y が互いに独立ではない場合は、 H ( X , Y ) {\displaystyle H(X,Y)} H ( X ) H ( Y ) {\displaystyle H(X) H(Y)} は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量と呼び、

I ( X , Y ) = H ( X ) H ( Y ) H ( X , Y ) {\displaystyle I(X,Y)=H(X) H(Y)-H(X,Y)}

で表す。相互情報量は常に非負の値になる。

事象B が生じているという条件下における事象A の条件付き情報量 log Pr ( A B ) {\displaystyle -\log \Pr(A\mid B)} によって定める。確率変数 X が与えられたとき、事象「 X = x {\displaystyle X=x} 」の条件付き情報量 log Pr ( X = x B ) {\displaystyle -\log \Pr(X=x\mid B)} の x に関する加重平均を条件付きエントロピーと言い、

H ( X B ) = E P X B [ I ( X B ) ] = x X Pr ( X = x B ) log Pr ( X = x B ) {\displaystyle H(X\mid B)=\mathbb {E} _{P_{X\mid B}}[I(X\mid B)]=-\sum _{x\in X}\Pr(X=x\mid B)\log \Pr(X=x\mid B)}

で表す。

さらに確率変数 Y が与えられたとき、事象「 Y = y {\displaystyle Y=y} 」が生じているという条件下における条件付きエントロピー H ( X Y = y ) {\displaystyle H(X\mid Y=y)} の y に関する加重平均

H ( X Y ) = y Y Pr ( Y = y ) H ( X Y = y ) = x X , y Y Pr ( X = x , Y = y ) log Pr ( X = x Y = y ) {\displaystyle H(X\mid Y)=\sum _{y\in Y}\Pr(Y=y)H(X\mid Y=y)=-\sum _{x\in X,y\in Y}\Pr(X=x,Y=y)\log {\Pr(X=x\mid Y=y)}}

も、やはり条件付きエントロピーと呼ぶ。

エントロピーの基本的性質

  • 情報量は確率だけによって決まる。
  • 情報量は非負の値または無限大を取る。
  • n ビットのビット列の空間(情報源)から(一様ランダムとは限らない方法で)ランダムにビット列を選んだときのエントロピーは、n 以下になる。エントロピーが n になる必要十分条件は、ビット列が一様ランダムに選ばれることである。
  • 確率変数 XY が独立である必要十分条件は、 H ( X ) H ( Y ) = H ( X , Y ) {\displaystyle H(X) H(Y)=H(X,Y)} が成立することである。

コイン投げの例

あるコインを投げたときに表が出る確率を p {\displaystyle p} 、裏が出る確率を 1 p {\displaystyle 1-p} とする。このコインを投げたときに得られる平均情報量(エントロピー)は、

H ( X ) = p log p ( 1 p ) log ( 1 p ) {\displaystyle H(X)=-p\log {p}-(1-p)\log {(1-p)}}

である。

この関数 f ( p ) = p log p ( 1 p ) log ( 1 p ) {\displaystyle f(p)=-p\log {p}-(1-p)\log {(1-p)}} エントロピー関数と呼ぶ。

図を見ると分かるように、 p = 0 {\displaystyle p=0} p = 1 {\displaystyle p=1} では H はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。 H が最大になるのは p = 1 / 2 {\displaystyle p=1/2} のときであり、一般にすべての事象(できごと)が等確率になるときにエントロピーが最大になる。

連続系のエントロピー

実数値を取る確率変数Xの確率密度関数をp(x)とするとき、Xのエントロピーを

h ( X ) = p ( x ) log p ( x ) d x {\displaystyle h(X)=-\int _{-\infty }^{\infty }p(x)\log p(x)dx}

によって定義する。

Xが有限集合に値を取る確率変数である場合には、Xのシャノン情報量 H ( X ) {\displaystyle H(X)} も定義できる。Xn通りの値を取るとき、 H ( X ) {\displaystyle H(X)} h ( X ) {\displaystyle h(X)} は、

h ( X ) = H ( U n ) H ( X ) {\displaystyle h(X)=H(U_{n})-H(X)}

を満たす。

ただし、ここで U n {\displaystyle U_{n}} n元集合上の一様分布とする(すなわち H ( U n ) = log n {\displaystyle H(U_{n})=\log n} )。

Renyiエントロピー

Ω {\displaystyle \Omega } を、台が有限集合である確率空間とする。P Ω {\displaystyle \Omega } 上の確率分布とし、 α {\displaystyle \alpha } を非負の実数とする。

α 1 {\displaystyle \alpha \neq 1} のとき、Pのdegee α {\displaystyle \alpha } Renyiエントロピー

H α ( P ) = log ( A Ω P ( A ) α ) 1 α {\displaystyle H_{\alpha }(P)={\frac {\log(\sum _{A\in \Omega }P(A)^{\alpha })}{1-\alpha }}}

によって定義する。 また、 α = 1 , {\displaystyle \alpha =1,\infty } の場合には、Renyiエントロピーを

{ H 1 ( P ) = lim α 1 H α ( P ) H ( P ) = lim α H α ( P ) {\displaystyle \left\{{\begin{array}{lll}H_{1}(P)&=\lim _{\alpha \to 1}&H_{\alpha }(P)\\H_{\infty }(P)&=\lim _{\alpha \to \infty }&H_{\alpha }(P)\end{array}}\right.}

によって定義する。

単にRenyiエントロピーと言った場合は H 2 ( P ) {\displaystyle H_{2}(P)} を意味することも多い。

さらに、確率変数Xが確率分布Pに従うとき、 H α ( X ) {\displaystyle H_{\alpha }(X)} H α ( X ) = H α ( P ) {\displaystyle H_{\alpha }(X)=H_{\alpha }(P)} によって定義する。

Renyiエントロピーは以下の性質を満たす:

  • H 0 ( P ) = log # Ω {\displaystyle H_{0}(P)=\log \#\Omega } が成立する。
  • H 1 ( P ) {\displaystyle H_{1}(P)} はシャノン情報量 H ( P ) = A Ω P ( A ) log P ( A ) {\displaystyle H(P)=-\sum _{A\in \Omega }P(A)\log P(A)} と一致する。
  • α {\displaystyle \alpha } が2以上の整数の場合には、 H α ( P ) = 1 1 α log Pr ( X 1 = = X α ) {\displaystyle H_{\alpha }(P)={\frac {1}{1-\alpha }}\log \Pr(X_{1}=\cdots =X_{\alpha })} が成立する。ここで、 X 1 , , X α {\displaystyle X_{1},\ldots ,X_{\alpha }} は確率分布 P {\displaystyle P} に従う独立同一分布であって、 Pr ( X 1 = = X α ) {\displaystyle \Pr(X_{1}=\cdots =X_{\alpha })} x 1 , , x α {\displaystyle x_{1},\ldots ,x_{\alpha }} をそれぞれ X 1 , , X α {\displaystyle X_{1},\ldots ,X_{\alpha }} に従って選んだときに x 1 = = x α {\displaystyle x_{1}=\cdots =x_{\alpha }} が成立する確率とする。
  • H ( P ) = min A Ω { log P ( A ) } {\displaystyle H_{\infty }(P)=\min _{A\in \Omega }\{-\log P(A)\}} が成立する。この H ( P ) {\displaystyle H_{\infty }(P)} minエントロピーともいう。

歴史

「エントロピー」の概念は1865年にルドルフ・クラウジウスがギリシャ語の「変換」を意味する言葉を語源として、熱力学における気体のある状態量として導入した。これは統計力学では微視的な状態数の対数に比例する量として表される。1929年にはレオ・シラードが、気体についての情報を観測者が獲得することと統計力学におけるエントロピーとの間に直接の関係があることを示し、現在 1 ビット(1 シャノン)と呼ぶ量が統計力学で k ln 2 に対応するという関係を導いていた。

現在の情報理論におけるエントロピーの直接の導入は1948年のクロード・シャノンによるもので、その論文『通信の数学的理論』でエントロピーの概念を情報理論に応用した。シャノン自身は熱統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達したが、その名称を考えていたとき同僚フォン・ノイマンが、熱統計力学のエントロピーに似ていることから示唆したもので、フォン・ノイマンは「統計エントロピーが何なのかを理解してる人は少ないから、議論になったら有利であろう」と語ったとされる。しかしシャノンはフォン・ノイマンとの会話は認めつつその影響を否定している。

なお、シャノン以前にもラルフ・ハートレーが1928年に、集合Aに対して log # A {\displaystyle \log \#A} という量を考察している(“ # A {\displaystyle \#A} ”はAの元数)。 log # A {\displaystyle \log \#A} A上の一様分布のエントロピーに一致する。現在では、 log # A {\displaystyle \log \#A} Aハートレー・エントロピーと呼ぶ。

単位

情報量は本来無次元の量である。しかし、対数の底として何を用いたかによって値が異なるので,単位を付けて区別している。前述のように、情報量は確率の逆数の桁数の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e、10を選んだときの情報量の単位は、それぞれビット(bit)、ナット(nat)、ディット(dit)である。

また、今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997(これは国際規格 ISO/IEC 2382-16:1996と一致している)は、これらの量を表す単位を別に定めている。

単位「シャノン」、「ハートレー」の名称は、それぞれ情報量の概念を提案したクロード・シャノン、ラルフ・ハートレーにちなむ。

脚注

参考文献

  • Shannon entropy calculator (English)
  • A Mathematical Theory of Communication Shannon 1948 (English)
  • Cover, Thomas M.; Thomas, Joy A. (2006). Elements of information theory (Second ed.). John Wiley & Sons. ISBN 978-0-471-24195-9. MR2239987. https://books.google.co.jp/books?id=VWq5GG6ycxMC 

関連項目

  • 標本化定理(シャノンの定理)
  • データ量の比較
  • エントロピー
  • マクスウェルの悪魔
  • ハフマン符号
  • コルモゴロフ複雑性
  • ランダウアーの原理
  • 交差エントロピー
  • 結合エントロピー
  • 量子エントロピー

外部リンク

  • 情報量 - 脳科学辞典
  • 『情報量の意味と対数関数を使う理由』 - 高校数学の美しい物語
  • “JISX0016:1997 情報処理用語(情報理論)”. kikakurui.com. 2023年10月28日閲覧。

流通情報量の推移 まーけっち

情報量の単位 基本情報処理技術者試験に合格しよう

【高校情報Ⅰ】情報量とその単位 YouTube

【社会と情報・予習復習動画】情報量の単位を覚えよう! YouTube

情報量とは―具体例を通して平均情報量までわかりやすく解説 情報試験対策室