エントロピーって何？教えてアオイ先輩！

「先輩、エントロピーって何ですか？」

由紀は放課後の教室で、葵に尋ねた。情報理論クラブに入って初めての質問だった。

「良い質問だね。エントロピーは、不確実性の量を測るものだ」

「不確実性の量…？」

葵はノートに簡単な図を描いた。「例えば、明日の天気を予測するとしよう。晴れか雨か、どちらかだとする」

「はい」

「もし、明日は100パーセント晴れだと確信していたら、どう感じる？」

「安心します。傘を持たなくていいから」

「そう。そこには不確実性がない。エントロピーはゼロだ」

由紀が頷く。「逆に、晴れと雨が50パーセントずつなら？」

「その通り。最も不確実な状態。エントロピーは最大になる」葵はグラフを描き加えた。「2つの選択肢が等しく確からしいとき、エントロピーは1ビットだ」

「ビット？データの単位ですよね」

「情報理論では、情報量の単位でもある。1ビットは、2つの選択肢から1つを選ぶ情報量」

由紀は考え込んだ。「じゃあ、選択肢が増えたら？」

「良い質問。サイコロを考えてみよう。6つの目があって、どれが出るかわからない」

「6つの選択肢…」

「エントロピーは log₂(6) で、約2.58ビットになる」葵が式を書いた。

「log₂って何ですか？」

「2を何回掛けたら6になるか、という意味。2の2.58乗がおよそ6だ」

「なんで2なんですか？」

「ビットが2進数だから。でも自然対数を使えば、単位は『ナット』になる。本質は同じだ」

由紀がノートに書き写す。「でも、なんで対数なんですか？」

葵が微笑んだ。「良い疑問だね。情報量は加法性を持つ。2つの独立なイベントの情報量は、それぞれの和になる。確率は掛け算になるけど、対数をとると足し算になる」

「ああ、log(a×b) = log(a) + log(b)！」

「正解。だから対数が自然な尺度なんだ」

由紀は少し考えて、また質問した。「でも、もしサイコロが細工されていて、1の目が出やすかったら？」

「鋭いね。その場合、エントロピーは低くなる。一般的な式は H(X) = -Σ p(x) log₂ p(x) だ」

「p(x)は確率…」

「そう。各結果の確率で重み付けした平均。偏った分布ほど、エントロピーは低い」

葵はホワイトボードに例を書いた。

「例: p(1)=0.5, p(2)=0.1, p(3)=0.1, p(4)=0.1, p(5)=0.1, p(6)=0.1 H = -0.5×log₂(0.5) - 5×(0.1×log₂(0.1)) H ≈ 2.16ビット」

「2.58より小さい！」

「そう。1の目が出やすいとわかっているから、不確実性が減る。情報量も減る」

由紀が興奮気味に言った。「じゃあ、エントロピーが高いほど、予測が難しいってことですね」

「まさに。そして、エントロピーが高いほど、そのシステムから得られる情報の潜在量が大きい」

「情報の潜在量…」

「何かを伝えるとき、受信者の不確実性が大きいほど、メッセージの価値は高い。既に知っていることを伝えても、情報量はゼロだ」

由紀は窓の外を見た。「だから、ニュースは珍しい出来事を伝えるんですね」

「その通り。高エントロピーなイベントほど、ニュース価値が高い」

「エントロピー、なんだか面白いです」

葵が優しく笑った。「情報理論の入り口はここから。エントロピーは全ての基礎だ」

「もっと勉強したいです」

「次は、エントロピーと符号化の関係を教えるよ」

由紀は胸が高鳴った。情報理論という新しい世界が、目の前に広がっていた。