情報量

出典: フリー百科事典『ウィキペディア（Wikipedia）』

この項目では情報量(エントロピー)の概念の情報理論的側面について説明しています。熱力学的側面についてはエントロピーをご覧ください。

情報量（じょうほうりょう、エントロピーとも）は、情報理論の概念で、ある出来事（事象）が起こった際、その出来事がどれほど起こりにくいかを表す尺度である。頻繁に起こるありきたりの出来事(たとえば「犬が人を噛む」)が起こった事を知ってもそれはたいした「情報」にはならないが、逆に滅多に起こらない出来事(たとえば「人が犬を噛む」)が起これば、それはより多くの「情報」を含んでいると考えられる。よって情報量はその出来事がどれだけの情報を持っているかの尺度であるともみなす事ができる。

なおここでいう「情報」とは、あくまでその出来事の起こりにくさ(確率)のみによって決ま純粋に数学的な量の事で、それが個人・社会にとってどれだけ有意義のあるものであるかとは無関係である。たとえば「自分が宝くじに当たった」という事象と「見知らぬAさんが宝くじに当たった」という事象は、前者の方が有意義な情報であるように見えるが、両者の情報量は全く同じである。(宝くじが当たる確率は誰でも同じであるから)。

[編集] 選択情報量(自己エントロピー)と平均情報量（エントロピー）

各々の出来事の情報量のみならず、それらの出来事の情報量の平均値をも情報量と呼ぶ。両者を区別する場合には、前者を選択情報量(自己エントロピーとも)、後者を平均情報量（エントロピーとも)と呼ぶ。

[編集] 選択情報量

事象 $E$ が起こる確率を $P (E)$ とするとき、事象 $E$ が起こったことを知らされたとき受け取る(選択)情報量 $I (E)$ を

$I(E)=\log \frac{1}{P(E)}=-\log P(E)$

と定義する。

起こりにくい事象(＝生起確率が低い事象)の情報量ほど、値が大きい事に注意されたい。

上式中の対数( $log$ )の底として何を選んでも、情報量の値が定数倍変わるだけなので、本質的な差はないものの、底としては2を選ぶことが多い。

底が2の場合、確率を $1 / 2 n$ で起こる事象の情報量は $n$ である。

[編集] 直観的意味

整数 $u$ に対し、 $u$ の対数 $log m u$ は $m$ 進法での $u$ 桁数を表していた。よって確率 $1 / u$ で起こる事象の情報量は $u$ の桁数を表す。

[編集] 情報の加法性

AとBが独立な事象のとき、「AもBも起こる」という事象の情報量は、Aの情報量とBの情報量の和である。

情報の加法性を例を出して説明する。例えば52枚のトランプから無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という情報は、前述の定義からlog52 であると分かる。ここで、「取り出したカードのスートはハートである」という情報と「取り出したカードの数字は4である」という情報の二つを考えることにすると、前者の情報量はlog4、後者はlog13 である。この両者の和はlog4 + log13 = log(4×13) = log52 となり、「取り出したカードはハートの4である」の情報量と等しい。これは直感的要請に合致する。

[編集] 平均情報量（エントロピー）

確率空間 $Ω$ と $Ω$ 上の確率分布 Pが与えられたとき、各事象 $A\in\Omega$ の選択情報量 $- log P (A)$ の平均値

$H(P) = - \sum_{A\in\Omega} P(A) \log P(A)$

をPのエントロピーと呼ぶ。

また有限集合Uに値を取る確率変数Xが確率分布Pに従う場合には、 XのエントロピーをH(X)=H(P)にによって定める。すなわち、

$H(X) = - \sum_{x\in U} \Pr(X=x) \log \Pr(X=x)$ 。

エントロピーは常に非負の値(または無限大)を取る。

値x、yがそれぞれ確率変数X、Yに従う場合には、組 $(x, y)$ も確率変数とみなせる。この確率変数を $(X, Y)$ と書くことにすると、確率変数を $(X, Y)$ のエントロピーは p:: $H(X,Y) = - \sum_{x,y} \Pr(X=x,Y=y) \log \Pr(X=x,Y=y)$ になる。

$X, Y$ が互いに独立な確率変数である場合には、 $H (X, Y)$ は $H (X) + H (Y)$ に一致する。すなわち、全体の情報量 $H (X, Y)$ は各々の確率変数の情報量の和である。

しかし、XとYが互いに独立ではない場合は、 $H (X, Y)$ と $H (X) + H (Y)$ は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量と呼び、

I (X, Y) = H (X) + H (Y) - H (X, Y)

で表す。相互情報量は常に非負の値を取る。

事象Bが生じているという条件下における事象Aの条件付き情報量を $-\log\Pr(A|B)$ によって定める。確率変数Xが与えられたとき、事象「 $X = a$ 」の条件付き情報量 $\Pr(X=a|B)$ のaに関する平均値を条件付きエントロピーといい、

$H(X|B) = - \sum_{x}\Pr(X=x|B) \log \Pr(X=x|B)$

で表す。

さらに確率変数Yが与えられたとき、条件付きエントロピー $H (X | Y = b)$ のbに関する平均値

H(X \| Y) = −	∑	H(X \| Y = y)logH(X \| Y = y)
	y

もやはり条件付きエントロピーと呼ぶ。

[編集] エントロピーの基本的性質

情報量は確率のみによって決まる。
情報量は非負の値または無限大を取る。
nビットのビット列の空間(情報源)から(一様ランダムとは限らない方法で)ランダムにビット列を選んだときのエントロピーはn以下。エントロピーがnになる必要十分条件はビット列が一様ランダムに選ばれる事。
確率変数XとYが独立である必要十分条件は $H (X) + H (Y) = H (X, Y)$ が成立する事。

[編集] コイン投げの例

あるコインを投げたときに表が出る確率を $p$ 、裏が出る確率を $1 - p$ とする。このコインを投げたときに得られる平均情報量（エントロピー）は、

$\left. H(X)= - p \log{p} - (1-p)\log{(1-p)} \right.$

である。　

図を見ると分かるように、 $p = 0$ と $p = 1$ では $H$ はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。 $H$ が最大になるのは $p = 1 / 2$ のときであり、一般にすべての事象（できごと）が等確率になるときにエントロピーが最大になる。

[編集] 歴史

“エントロピー”の概念は1865年にルドルフ・クラウジウスがギリシャ語の「変換」を意味する言葉を語源として、統計力学における「乱雑さ」などの概念を取り扱うために導入された。

一方1948年、クロード・シャノンはその著書『通信の数学的理論』で、はじめてエントロピーの概念を情報理論に応用した。シャノン自身は統計力学でエントロピーの概念がすでに使われている事を知らずにこの定義した。シャノンがこの概念の名称をどうすべきかをフォン・ノイマンに相談したところ、ノイマンがエントロピーと名付ける事を提唱した。

（参考、H・J・モロウィッツ『ピザの熱力学』。韓太舜、小林欣吾『情報と符号の数理』)

[編集] 単位

情報量は本来無次元の量である。しかし前述のように情報量は確率の逆数の桁数を表すものなので、情報量の単位として便宜的に桁数の単位を使う事が多い。すなわち、対数の底として2、e、10を選んだときの情報量の単位はそれぞれビット(bit)、ナット(nat)、ディット(dit)である。

また今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997（同等の国際規格 ISO/IEC 2382-16:1996）は、上とは異なる単位を提唱している：

**対数の底と単位**
底	通常使う単位	ISOが提唱する単位
2	ビット(bit)	シャノン (shannon)
e=2.718…	ナット (nat)	ナット (nat)
10	ディット(dit)	ハートレー (hartley)

単位「シャノン」の名称は、情報理論を創設したクロード・シャノンにちなむ。（ノートも参照）。

カテゴリ: 情報理論 | 数学に関する記事

情報量