「葵先輩、ちょっと変な質問いいですか?」
由紀は部室の窓際で、二つのグラフを見比べていた。
「変な質問ほど面白い。何?」
「二つの確率分布って、どれくらい『違う』かって測れるんですか?」
葵の目が輝いた。「カルバック・ライブラー・ダイバージェンス。KLダイバージェンスと呼ばれる概念だ」
「KL…距離?」
「正確には距離じゃない。でも、分布同士の『隔たり』を数値化できる」
陸が横から覗き込んだ。「なんかカッコいい名前!KL先輩みたいだな」
「KL先輩は架空の人物だけどね」葵が苦笑する。「でも良い比喩かもしれない。KLダイバージェンスは、いつも二つの分布の距離を測りたがる」
葵はノートに式を書いた。
「D_KL(P||Q) = Σ P(x) log(P(x)/Q(x))」
「うわ、また難しそうな式」由紀が眉をひそめる。
「落ち着いて。Pを真の分布、Qをモデルの分布とする。KLダイバージェンスは、Qを使ってPを近似したときの『情報的な損失』を表す」
「情報的な損失?」
陸が手を挙げた。「例えば、俺が天気予報を作るとする。本当は晴れが70パーセント、雨が30パーセントなのに、俺のモデルでは晴れ50パーセント、雨50パーセントって予測したら?」
「良い例だ、陸」葵が頷いた。「その誤差を数値化するのがKLダイバージェンス」
由紀が計算を試みる。「えっと、0.7×log(0.7/0.5) + 0.3×log(0.3/0.5)...」
「約0.08ビット。つまり、陸のモデルは真の分布から1イベントあたり0.08ビットずれてる」
「少なく見えるけど、長期的には大きな差になる」葵が補足した。
陸が考え込んだ。「じゃあ、俺が完璧に70対30を当てたら?」
「KLダイバージェンスはゼロ。完全一致だ」
「でも、逆に測ったら?つまり、D_KL(Q||P)は?」
由紀が計算し始めたが、葵が止めた。
「一般的には違う値になる。だからKLダイバージェンスは非対称なんだ。真の距離ではない理由がこれ」
「非対称…?」由紀が不思議そうに聞く。
「そう。PからQへの隔たりと、QからPへの隔たりは、同じじゃない」
葵はホワイトボードに図を描いた。
「例えば、Pが広い分布で、Qが狭い分布だとする。PでめったにないイベントがQで頻繁に起きると予測すると、D_KL(P||Q)は小さいかもしれない。でも、Qで頻繁なイベントがPでめったに起きないと予測すると、D_KL(Q||P)は大きくなる」
陸が首をひねった。「なんか、観察する立場で違うみたいな?」
「まさに。KLダイバージェンスは、『どちらから見るか』が重要」
由紀がふと思いついた。「これって、機械学習で使われるんですか?」
「鋭い。モデル訓練では、予測分布を真の分布に近づけるために、KLダイバージェンスを最小化する」
「クロスエントロピーって聞いたことある」陸が言った。
「それはKLダイバージェンスの一部。H(P,Q) = H(P) + D_KL(P||Q)。Pのエントロピーは固定だから、クロスエントロピーを最小化するのは、KLダイバージェンスを最小化するのと同じだ」
由紀が目を輝かせた。「だから損失関数でクロスエントロピーを使うんですね」
「正解。情報理論と機械学習は、ここで交差する」
陸がノートに絵を描いた。「KL先輩、いつも二つの分布の間に立って、『君たち、0.08ビットずれてるよ!』って言ってる感じ?」
由紀と葵が笑った。
「陸の擬人化、時々的を射てる」葵が認めた。
「でも非対称ってことは、KL先輩も立ち位置で見え方が変わるんだな」
「哲学的だね」由紀が言った。
「情報理論は、数学と哲学の境界にあるんだ」葵が静かに言った。
窓の外で、夕日が沈み始めていた。KL先輩は今日も、見えない分布の距離を測り続けている。