KL先輩は期待外れが嫌いらしい

「KL先輩、また首を振ってる」

陸が小声で言った。情報理論研究会の発表会で、先輩は誰かの説明を聞くたびに不満そうな表情を浮かべる。

「期待外れが嫌いなんだよ、あの人」葵が答えた。

由紀が興味を持った。「期待外れ？」

「正確には、KLダイバージェンスが大きいことを嫌う。本名より、みんなKL先輩って呼んでる」

発表が終わり、KL先輩が近づいてきた。

「君たちの仮説、実測データとの乖離が大きすぎる」

陸が聞き返した。「乖離？」

KL先輩がノートを開いた。「Kullback-Leibler divergence。二つの確率分布がどれだけ異なるかを測る指標だ」

葵が補足する。「期待していた分布Pと、実際の分布Qの差を測るんです」

KL先輩が式を書いた。

「D_KL(P||Q) = Σ P(x) log(P(x)/Q(x))」

「これが大きいほど、期待と現実が離れている」

由紀が理解しようとする。「つまり、予測がずれてるってこと？」

「その通り。機械学習でも重要な概念だ。モデルの予測分布と真の分布のKLダイバージェンスを小さくすることが目標になる」

陸が具体例を求めた。「例えば？」

KL先輩が説明を続けた。「天気予報を考えよう。気象モデルが『明日は晴れ80%、雨20%』と予測した。でも実際には晴れが30%、雨が70%だった」

「大外れだ」

「このとき、KLダイバージェンスを計算すると、予測の悪さが数値化できる」

葵がノートに計算を始めた。「P=(0.3, 0.7)、Q=(0.8, 0.2)として...」

「0.3×log(0.3/0.8) + 0.7×log(0.7/0.2) ≈ 0.635ビット」

KL先輩が頷いた。「これが情報的な損失。もし完璧に予測できていれば、KLダイバージェンスはゼロだ」

由紀が質問した。「でも、完璧な予測は無理ですよね？」

「だからこそ、継続的な改善が必要だ。ベイズ更新で、新しいデータが来るたびにモデルを修正する」

陸が思い出した。「この前のテスト、俺も期待と現実のダイバージェンスが大きかった」

「人生にも適用できる概念だ」KL先輩が珍しく笑った。「期待を現実に近づけるか、現実を期待に近づけるか」

葵が続けた。「面白いのは、KLダイバージェンスが非対称なこと。D_KL(P||Q)とD_KL(Q||P)は違う」

「順序が重要？」

「そう。どちらの分布を基準にするかで値が変わる。だから、『Pの視点でQを見た距離』という解釈になる」

KL先輩が追加説明した。「交差エントロピーとも関係が深い。H(P,Q) = H(P) + D_KL(P||Q)という関係式がある」

「交差エントロピー？」

「分布Pに従うデータを、分布Qでエンコードしたときの平均符号長だ。機械学習の損失関数でよく使われる」

由紀がまとめた。「つまり、KLダイバージェンスは、期待と現実のズレを測る道具」

「正確だ」KL先輩が認めた。「そして、そのズレを小さくすることが学習のプロセスだ」

陸が笑った。「先輩、期待外れが嫌いなのは、KLダイバージェンスを最小化したいからか」

「人間も一種の予測器だ。世界をモデル化し、予測し、誤差を修正する。期待外れは、モデルの改善機会だ」

葵が深く頷いた。「失望は、情報なんですね」

「まさに。驚きが大きいほど、学習信号も強い。だから私は期待外れを嫌うが、同時に必要だとも思っている」

発表会が再開した。KL先輩は自席に戻りながら言った。

「次回は、もっと良いモデルを期待してるよ」

由紀が小声で言った。「優しい人なんですね、実は」

「期待値の更新が上手なんだろう」葵が答えた。

三人は次の発表者を見た。期待と現実の間には常にギャップがある。でも、そのギャップこそが、成長の原動力だ。KLダイバージェンスは、そのギャップを測る定規なのだ。