KL先輩はいつも距離を測りたがる

エントロピー、不確実性、そして情報理論が世界を理解するのにどう役立つかの探求。

  • #KL divergence
  • #probability distributions
  • #cross entropy
  • #model comparison

「葵先輩、ちょっと変な質問いいですか?」

由紀は部室の窓際で、二つのグラフを見比べていた。

「変な質問ほど面白い。何?」

「二つの確率分布って、どれくらい『違う』かって測れるんですか?」

葵の目が輝いた。「カルバック・ライブラー・ダイバージェンス。KLダイバージェンスと呼ばれる概念だ」

「KL…距離?」

「正確には距離じゃない。でも、分布同士の『隔たり』を数値化できる」

陸が横から覗き込んだ。「なんかカッコいい名前!KL先輩みたいだな」

「KL先輩は架空の人物だけどね」葵が苦笑する。「でも良い比喩かもしれない。KLダイバージェンスは、いつも二つの分布の距離を測りたがる」

葵はノートに式を書いた。

「D_KL(P||Q) = Σ P(x) log(P(x)/Q(x))」

「うわ、また難しそうな式」由紀が眉をひそめる。

「落ち着いて。Pを真の分布、Qをモデルの分布とする。KLダイバージェンスは、Qを使ってPを近似したときの『情報的な損失』を表す」

「情報的な損失?」

陸が手を挙げた。「例えば、俺が天気予報を作るとする。本当は晴れが70パーセント、雨が30パーセントなのに、俺のモデルでは晴れ50パーセント、雨50パーセントって予測したら?」

「良い例だ、陸」葵が頷いた。「その誤差を数値化するのがKLダイバージェンス」

由紀が計算を試みる。「えっと、0.7×log(0.7/0.5) + 0.3×log(0.3/0.5)...」

「約0.08ビット。つまり、陸のモデルは真の分布から1イベントあたり0.08ビットずれてる」

「少なく見えるけど、長期的には大きな差になる」葵が補足した。

陸が考え込んだ。「じゃあ、俺が完璧に70対30を当てたら?」

「KLダイバージェンスはゼロ。完全一致だ」

「でも、逆に測ったら?つまり、D_KL(Q||P)は?」

由紀が計算し始めたが、葵が止めた。

「一般的には違う値になる。だからKLダイバージェンスは非対称なんだ。真の距離ではない理由がこれ」

「非対称…?」由紀が不思議そうに聞く。

「そう。PからQへの隔たりと、QからPへの隔たりは、同じじゃない」

葵はホワイトボードに図を描いた。

「例えば、Pが広い分布で、Qが狭い分布だとする。PでめったにないイベントがQで頻繁に起きると予測すると、D_KL(P||Q)は小さいかもしれない。でも、Qで頻繁なイベントがPでめったに起きないと予測すると、D_KL(Q||P)は大きくなる」

陸が首をひねった。「なんか、観察する立場で違うみたいな?」

「まさに。KLダイバージェンスは、『どちらから見るか』が重要」

由紀がふと思いついた。「これって、機械学習で使われるんですか?」

「鋭い。モデル訓練では、予測分布を真の分布に近づけるために、KLダイバージェンスを最小化する」

「クロスエントロピーって聞いたことある」陸が言った。

「それはKLダイバージェンスの一部。H(P,Q) = H(P) + D_KL(P||Q)。Pのエントロピーは固定だから、クロスエントロピーを最小化するのは、KLダイバージェンスを最小化するのと同じだ」

由紀が目を輝かせた。「だから損失関数でクロスエントロピーを使うんですね」

「正解。情報理論と機械学習は、ここで交差する」

陸がノートに絵を描いた。「KL先輩、いつも二つの分布の間に立って、『君たち、0.08ビットずれてるよ!』って言ってる感じ?」

由紀と葵が笑った。

「陸の擬人化、時々的を射てる」葵が認めた。

「でも非対称ってことは、KL先輩も立ち位置で見え方が変わるんだな」

「哲学的だね」由紀が言った。

「情報理論は、数学と哲学の境界にあるんだ」葵が静かに言った。

窓の外で、夕日が沈み始めていた。KL先輩は今日も、見えない分布の距離を測り続けている。