「KL先輩、また首を振ってる」
陸が小声で言った。情報理論研究会の発表会で、先輩は誰かの説明を聞くたびに不満そうな表情を浮かべる。
「期待外れが嫌いなんだよ、あの人」葵が答えた。
由紀が興味を持った。「期待外れ?」
「正確には、KLダイバージェンスが大きいことを嫌う。本名より、みんなKL先輩って呼んでる」
発表が終わり、KL先輩が近づいてきた。
「君たちの仮説、実測データとの乖離が大きすぎる」
陸が聞き返した。「乖離?」
KL先輩がノートを開いた。「Kullback-Leibler divergence。二つの確率分布がどれだけ異なるかを測る指標だ」
葵が補足する。「期待していた分布Pと、実際の分布Qの差を測るんです」
KL先輩が式を書いた。
「D_KL(P||Q) = Σ P(x) log(P(x)/Q(x))」
「これが大きいほど、期待と現実が離れている」
由紀が理解しようとする。「つまり、予測がずれてるってこと?」
「その通り。機械学習でも重要な概念だ。モデルの予測分布と真の分布のKLダイバージェンスを小さくすることが目標になる」
陸が具体例を求めた。「例えば?」
KL先輩が説明を続けた。「天気予報を考えよう。気象モデルが『明日は晴れ80%、雨20%』と予測した。でも実際には晴れが30%、雨が70%だった」
「大外れだ」
「このとき、KLダイバージェンスを計算すると、予測の悪さが数値化できる」
葵がノートに計算を始めた。「P=(0.3, 0.7)、Q=(0.8, 0.2)として...」
「0.3×log(0.3/0.8) + 0.7×log(0.7/0.2) ≈ 0.635ビット」
KL先輩が頷いた。「これが情報的な損失。もし完璧に予測できていれば、KLダイバージェンスはゼロだ」
由紀が質問した。「でも、完璧な予測は無理ですよね?」
「だからこそ、継続的な改善が必要だ。ベイズ更新で、新しいデータが来るたびにモデルを修正する」
陸が思い出した。「この前のテスト、俺も期待と現実のダイバージェンスが大きかった」
「人生にも適用できる概念だ」KL先輩が珍しく笑った。「期待を現実に近づけるか、現実を期待に近づけるか」
葵が続けた。「面白いのは、KLダイバージェンスが非対称なこと。D_KL(P||Q)とD_KL(Q||P)は違う」
「順序が重要?」
「そう。どちらの分布を基準にするかで値が変わる。だから、『Pの視点でQを見た距離』という解釈になる」
KL先輩が追加説明した。「交差エントロピーとも関係が深い。H(P,Q) = H(P) + D_KL(P||Q)という関係式がある」
「交差エントロピー?」
「分布Pに従うデータを、分布Qでエンコードしたときの平均符号長だ。機械学習の損失関数でよく使われる」
由紀がまとめた。「つまり、KLダイバージェンスは、期待と現実のズレを測る道具」
「正確だ」KL先輩が認めた。「そして、そのズレを小さくすることが学習のプロセスだ」
陸が笑った。「先輩、期待外れが嫌いなのは、KLダイバージェンスを最小化したいからか」
「人間も一種の予測器だ。世界をモデル化し、予測し、誤差を修正する。期待外れは、モデルの改善機会だ」
葵が深く頷いた。「失望は、情報なんですね」
「まさに。驚きが大きいほど、学習信号も強い。だから私は期待外れを嫌うが、同時に必要だとも思っている」
発表会が再開した。KL先輩は自席に戻りながら言った。
「次回は、もっと良いモデルを期待してるよ」
由紀が小声で言った。「優しい人なんですね、実は」
「期待値の更新が上手なんだろう」葵が答えた。
三人は次の発表者を見た。期待と現実の間には常にギャップがある。でも、そのギャップこそが、成長の原動力だ。KLダイバージェンスは、そのギャップを測る定規なのだ。