共有できる"驚き"の量

「ミラは何を考えてるか、全然わからない」

由紀が図書館の隅で呟いた。ミラは向かい側で本を読んでいる。無表情のまま。

葵が静かに答えた。「それは、相互情報量が低いからだ」

「相互情報量？」

「二つの変数が共有する情報の量。I(X;Y)と書く」

ミラがノートを差し出した。いつの間にか、式が書かれている。

「I(X;Y) = H(X) - H(X|Y)」

葵が解説した。「Xのエントロピーから、Yを知った後のXの条件付きエントロピーを引いたもの」

「難しい...」

「簡単に言えば、YがわかることでXの不確実性がどれだけ減るか、ということ」

由紀が考えた。「じゃあ、ミラを観察しても、ミラの気持ちがわからないのは...」

「観察可能な情報Yと、内面の状態Xの相互情報量が小さいから」

ミラが微かに笑った。そして、新しい例を書いた。

「天気と傘の持参」

葵が続けた。「曇りの日は傘を持つ人が多い。晴れの日は少ない。この相関が相互情報量だ」

「完全に独立なら？」

「相互情報量はゼロ。お互いから何も学べない」

由紀がノートにメモした。「逆に、完全に決まってたら？」

「相互情報量は最大。一方を知れば、もう一方も完全にわかる」

ミラが追加で書いた。「友情 = high mutual information?」

由紀が目を輝かせた。「そうか！仲が良いって、お互いの状態を予測できるってこと？」

葵が頷いた。「ある意味そうだ。長年の友人なら、相手の反応が予測できる。これは、相互情報量が高い証拠」

「でも、完全に予測できたら？」

「つまらないかもしれない。適度な不確実性が関係を面白くする」

ミラが新しいページを開いた。図が描かれている。二つの円が重なっている。

「ベン図」葵が説明した。「XとYの情報量を円で表す。重なった部分が相互情報量」

「きれいな図だ」

「相互情報量には重要な性質がある。対称性だ。I(X;Y) = I(Y;X)」

「XとYを入れ替えても同じ？」

「そう。KLダイバージェンスとは違って、順序が関係ない」

由紀が質問した。「相互情報量はどうやって使うんですか？」

葵が例を挙げた。「機械学習で特徴選択をするとき。目的変数Yと相互情報量が高い特徴Xを選ぶ」

「予測に役立つってこと？」

「正確。相互情報量が高いほど、その特徴は予測に貢献する」

ミラが書いた。「Communication = transfer of mutual information」

「通信も相互情報量で測れる」葵が続けた。「送信メッセージXと受信メッセージYの相互情報量が、通信路容量の上限だ」

「ノイズがあると？」

「相互情報量が減る。完全なノイズの中では、送信と受信が独立になり、I(X;Y) = 0」

由紀が深く考えた。「じゃあ、人と人のコミュニケーションも...」

「相互情報量で測れる。完璧に伝わるとは、相互情報量が最大ということ」

ミラがさらに書いた。「Redundancy = low mutual information?」

「面白い視点」葵が認めた。「冗長性は、新しい情報が少ない。既知の情報との相互情報量が高い」

由紀が整理した。「つまり、驚きが共有できる量が相互情報量」

「詩的な表現だけど、本質を捉えてる」

ミラが初めて声を発した。「あなたたちとは、相互情報量が高くなってきた」

由紀と葵は驚いた。ミラが話すのは珍しい。

「ミラの観察から、気持ちが少しずつ予測できるようになった」葵が言った。

「それって、仲良くなったってこと？」由紀が嬉しそうに聞いた。

ミラが小さく頷いた。

葵が微笑んだ。「関係が深まるとは、相互情報量が増えること。お互いの状態が相関し始める」

「でも、完璧には予測できない方がいい」

「適度な独立性も必要」

由紀がまとめた。「共有できる驚きの量が、関係の深さを測る」

ミラがノートに最後の式を書いた。

「I(人と人) = 共有された驚き」

三人は微笑み合った。情報理論は、人間関係さえも数式で表現できる。でも、数式で表せない部分もまた、重要なのだろう。

図書館の窓から夕日が差し込んだ。この瞬間の静かな理解も、一種の相互情報だった。