「確率分布にも、個性があるんですよ」
葵が唐突に言った。
「個性?」由紀が不思議そうに聞く。
「擬人化してみると面白い。均一分布は平等主義者、正規分布は中庸を好む人、とか」
陸が笑った。「またその比喩か」
その時、ミラが静かに近づき、ノートに描かれた様々な分布のグラフを見せた。
「これは...」由紀が見入った。
「様々な確率分布」葵が説明を始めた。「それぞれが、異なる性質を持つ」
葵は最初の図を指した。
「均一分布。サイコロみたいに、全ての結果が等確率。エントロピーが最大だ」
「フェアな分布」陸が言った。
「そう。でも、自然界では珍しい。ほとんどの現象は、偏りを持つ」
ミラが別のグラフを指した。ベル型の曲線。
「正規分布」葵が続けた。「自然界で最も一般的。身長、体重、測定誤差。中心に集まって、両端は稀」
「なんで正規分布が多いんですか?」由紀が聞く。
「中心極限定理。独立な変数を多数足し合わせると、正規分布に近づく」
陸が考え込んだ。「複雑な現象の結果が、シンプルな分布になるのは不思議だな」
「それが数学の美しさ」葵が言った。
ミラが次のグラフを見せた。片側に偏った分布。
「指数分布」葵が解説する。「待ち時間や寿命によく使われる。『次に起こるまでの時間』をモデル化する」
由紀がノートに書き留める。「無記憶性がある、って聞いたことあります」
「素晴らしい」葵が感心した。「過去を知っても、未来の確率が変わらない。バス待ちに使われる」
「でも実際のバスは、時刻表があるから違うよね」陸が指摘した。
「鋭い。モデルは現実の近似。完璧じゃないけど、有用だ」
ミラが別のページを開いた。離散的な棒グラフ。
「二項分布」葵が言った。「コイン投げを複数回。成功回数の分布だ」
「ポケモンのゲーム?」陸が連想した。
「アイテムのドロップ率とか、まさに二項分布だね」
由紀が質問した。「分布を選ぶとき、どうやって決めるんですか?」
「データの性質と、問題のモデル」葵が答えた。「連続か離散か、範囲は有限か無限か、独立性はあるか」
ミラがメモを書いた。「Distribution is a language for modeling randomness」
「そう。確率分布は、ランダムさを記述する言語だ」
陸が複数のグラフを見比べた。「これら全部、エントロピーが違う?」
「もちろん。同じ台の上でも、分布が違えばエントロピーは変わる」
葵が計算例を示した。
「均一分布のエントロピーが最大。偏れば偏るほど、エントロピーは下がる」
「完全に確定していたら、ゼロ」由紀が理解した。
「正確。デルタ分布と呼ばれる、一点に全確率が集中した分布のエントロピーはゼロ」
ミラが新しい図を描いた。複雑な多峰性分布。
「これは?」陸が聞く。
「混合分布。複数のグループが混ざっている状態」葵が説明した。「例えば、男性と女性の身長分布を合わせると、二つのピークが現れる」
由紀が感心した。「分布を見れば、データの背景が分かるんですね」
「まさに。データサイエンスでは、分布の形を理解することが第一歩だ」
陸が窓の外を見た。「木の葉の大きさも、何かの分布に従うのかな」
「恐らくね。観察して、データを集めれば分かる」
ミラが最後にメモを残した。「Every distribution tells a story」
「全ての分布は、物語を語る」由紀が訳した。
葵が頷いた。「確率分布は、世界を理解するための窓なんだ」
三人は静かに、目に見えない分布の世界を想像していた。