KLダイバージェンスが小さい日

「今日、陸と話が合うな」

由紀が不思議そうに言った。

「え？そう？」陸が首をかしげた。

葵が笑った。「KLダイバージェンスが小さいんだろう」

「KL...何？」

「Kullback-Leiblerダイバージェンス。二つの確率分布の距離を測る指標だ」

由紀がノートを開いた。「確率分布の距離？」

「人の思考も、一種の確率分布として見られる。何を重視するか、何を考えやすいか」

陸が興味を示した。「じゃあ、俺と由紀の思考分布が近いってこと？」

「そう。D_KL(P||Q) = Σ P(x) log(P(x)/Q(x))。分布Pから見た、分布Qとの違いを測る」

由紀が考えた。「なぜ普通の距離じゃなくて、KLダイバージェンス？」

「良い質問。KLダイバージェンスは非対称だ。D_KL(P||Q) ≠ D_KL(Q||P)」

「非対称？」

「Pの視点からQを見るのと、Qの視点からPを見るのは違う」

葵が例を出した。「君が相手を理解するのと、相手が君を理解するのは、対称じゃない」

陸が膝を叩いた。「確かに！俺が葵先輩を理解するより、葵先輩が俺を理解する方が簡単そう」

「それがKLダイバージェンスの非対称性だ」

由紀が書き込んだ。「KLダイバージェンスがゼロのときは？」

「二つの分布が完全に一致する。つまり、完璧に同じ思考をしている」

「でも、それって現実的じゃないですよね」

「そう。だから、小さければ十分。理解し合えている証拠だ」

陸がふと真面目になった。「じゃあ、喧嘩するときは、KLダイバージェンスが大きいの？」

「おそらくね。相手の思考分布を正しく推定できていない」

葵が続けた。「情報理論では、KLダイバージェンスは驚きの差とも解釈できる」

「驚きの差？」

「Pという分布を持つ人が、Qという分布から来た出来事に遭遇したとき、予想外に感じる度合い」

由紀が理解した。「価値観が違うと、同じ出来事でも受け取り方が違う」

「まさに。だから、KLダイバージェンスが大きいと、コミュニケーションが難しくなる」

陸が質問した。「どうやってKLダイバージェンスを小さくするの？」

「対話だ。相手の確率分布を学習する」

「学習？」

「相手が何を重視するか、どう考えるか。データを集めて、自分の中のモデルを更新する」

由紀が頷いた。「だから、長く一緒にいると、理解し合えるようになる」

「統計的学習だね。相手の分布を推定する精度が上がる」

葵が補足した。「機械学習でも同じ。訓練データから真の分布を推定する。その誤差がKLダイバージェンス」

「全部繋がってるんだ」陸が感心した。

由紀がふと聞いた。「じゃあ、自分と過去の自分のKLダイバージェンスは？」

「面白い視点。人は成長する。価値観が変わる。つまり、確率分布が変化する」

「昔の自分を理解できなくなるのも、KLダイバージェンスが増えたから？」

「その通り。時間は分布を変える」

陸が笑った。「でも、今日の俺と由紀は、KLダイバージェンスが小さい」

「うん。今日は話しやすい」

葵が微笑んだ。「それは、お互いが歩み寄ったからだ」

「歩み寄り？」

「相手の分布を尊重しながら、自分も調整する。最適化問題だよ」

由紀がまとめた。「KLダイバージェンスは、理解の距離を測る定規」

「そして、小さくする努力が、コミュニケーションの本質」

三人は静かに頷いた。

放課後の教室で、三つの確率分布が優しく重なり合っていた。