最適な伝え方を考える午後

エントロピー、不確実性、そして情報理論が世界を理解するのにどう役立つかの探求。

  • #source coding
  • #compression limits
  • #lossless compression
  • #entropy bound

「無駄なく伝える方法ってあるんですか?」

由紀の質問に、葵が頷いた。「情報源符号化定理。シャノンが証明した美しい定理だ」

ミラがノートを開き、静かに聞いていた。

「情報源のエントロピーHが、平均符号長の下限を決める」葵が説明した。「どんなに賢く圧縮しても、H以下にはできない」

「つまり、理論的な限界がある?」

「そう。でも逆に、Hに限りなく近づけることはできる。それが最適符号化だ」

葵がホワイトボードに例を描いた。

「英文テキスト。アルファベット26文字なら、固定長で5ビット必要。でも実際の英語のエントロピーは、1文字あたり約1.5ビット」

「3分の1以下!」由紀が驚いた。

「頻度が偏ってるから。'e'や't'は頻繁、'z'や'q'は稀。この偏りが圧縮を可能にする」

ミラが書いた。「Uniform distribution: no compression」

「正確」葵が認めた。「完全にランダムなデータは圧縮できない。エントロピーが最大だから」

由紀が考えた。「じゃあ、パスワードは圧縮できない方が良い?」

「鋭い。圧縮できないほど、エントロピーが高く、推測しにくい。良いパスワードの条件だ」

葵が新しい概念を導入した。「可逆圧縮と非可逆圧縮。可逆は、完全に元に戻せる。非可逆は、情報を捨てる」

「ZIPとJPEGの違いですね」由紀が理解した。

「そう。ZIPは可逆、JPEGは非可逆。JPEGは、人間が気づかない情報を削る」

ミラが補足した。「Lossy compression: perceptual coding」

「知覚的符号化」葵が説明を続けた。「人間の感覚器官の限界を利用する。耳に聞こえない高周波、目に見えない細かい色の違い。それらを削っても、体感では同じ」

「でも情報は失われてる」由紀が確認した。

「そう。だから、医療画像や法的文書では可逆圧縮を使う。失われては困るデータだ」

葵がグラフを描いた。圧縮率と品質の関係。

「非可逆圧縮は、品質を犠牲にして高圧縮を実現する。トレードオフだ」

由紀がノートに書いた。「可逆圧縮の限界がエントロピー。非可逆は、何を捨てるかで決まる」

「完璧なまとめ」

ミラが静かに立ち上がり、ホワイトボードに書いた。

「Communication = source coding + channel coding」

「そう」葵が感心した。「最適な通信は、二段階。まず情報源を圧縮する。次に、誤り訂正符号を加える」

「圧縮と冗長化、逆のことをしてる」由紀が気づいた。

「美しい対称性だ。情報源符号化で無駄を削り、通信路符号化で意図的な冗長性を加える」

「全体としては?」

「エントロピーに近い効率で、ノイズに強い通信が実現できる。シャノンが示した理論的枠組みだ」

由紀が考え込んだ。「人間の会話も、同じ構造ですか?」

「興味深い視点だ。脳は、言いたいことを圧縮して、言葉に変換する。同時に、誤解を防ぐため、冗長な表現を加える」

「『つまり』とか『要するに』とか」

「そう。それが自然な誤り訂正だ」

ミラが微笑んで書いた。「Optimal communication: balance of efficiency and robustness」

由紀が頷いた。「効率と頑健性のバランス。それが最適な伝え方なんですね」

夕日が部室を照らした。最適な伝え方を考える午後。それは、情報理論の核心に触れる時間だった。