確率分布の気持ちを想像してみた

確率が情報と不確実性の理解をどのように形作るかについての放課後の議論。

  • #probability distributions
  • #uniform distribution
  • #normal distribution
  • #discrete vs continuous

「確率分布にも、個性があるんですよ」

葵が唐突に言った。

「個性?」由紀が不思議そうに聞く。

「擬人化してみると面白い。均一分布は平等主義者、正規分布は中庸を好む人、とか」

陸が笑った。「またその比喩か」

その時、ミラが静かに近づき、ノートに描かれた様々な分布のグラフを見せた。

「これは...」由紀が見入った。

「様々な確率分布」葵が説明を始めた。「それぞれが、異なる性質を持つ」

葵は最初の図を指した。

「均一分布。サイコロみたいに、全ての結果が等確率。エントロピーが最大だ」

「フェアな分布」陸が言った。

「そう。でも、自然界では珍しい。ほとんどの現象は、偏りを持つ」

ミラが別のグラフを指した。ベル型の曲線。

「正規分布」葵が続けた。「自然界で最も一般的。身長、体重、測定誤差。中心に集まって、両端は稀」

「なんで正規分布が多いんですか?」由紀が聞く。

「中心極限定理。独立な変数を多数足し合わせると、正規分布に近づく」

陸が考え込んだ。「複雑な現象の結果が、シンプルな分布になるのは不思議だな」

「それが数学の美しさ」葵が言った。

ミラが次のグラフを見せた。片側に偏った分布。

「指数分布」葵が解説する。「待ち時間や寿命によく使われる。『次に起こるまでの時間』をモデル化する」

由紀がノートに書き留める。「無記憶性がある、って聞いたことあります」

「素晴らしい」葵が感心した。「過去を知っても、未来の確率が変わらない。バス待ちに使われる」

「でも実際のバスは、時刻表があるから違うよね」陸が指摘した。

「鋭い。モデルは現実の近似。完璧じゃないけど、有用だ」

ミラが別のページを開いた。離散的な棒グラフ。

「二項分布」葵が言った。「コイン投げを複数回。成功回数の分布だ」

「ポケモンのゲーム?」陸が連想した。

「アイテムのドロップ率とか、まさに二項分布だね」

由紀が質問した。「分布を選ぶとき、どうやって決めるんですか?」

「データの性質と、問題のモデル」葵が答えた。「連続か離散か、範囲は有限か無限か、独立性はあるか」

ミラがメモを書いた。「Distribution is a language for modeling randomness」

「そう。確率分布は、ランダムさを記述する言語だ」

陸が複数のグラフを見比べた。「これら全部、エントロピーが違う?」

「もちろん。同じ台の上でも、分布が違えばエントロピーは変わる」

葵が計算例を示した。

「均一分布のエントロピーが最大。偏れば偏るほど、エントロピーは下がる」

「完全に確定していたら、ゼロ」由紀が理解した。

「正確。デルタ分布と呼ばれる、一点に全確率が集中した分布のエントロピーはゼロ」

ミラが新しい図を描いた。複雑な多峰性分布。

「これは?」陸が聞く。

「混合分布。複数のグループが混ざっている状態」葵が説明した。「例えば、男性と女性の身長分布を合わせると、二つのピークが現れる」

由紀が感心した。「分布を見れば、データの背景が分かるんですね」

「まさに。データサイエンスでは、分布の形を理解することが第一歩だ」

陸が窓の外を見た。「木の葉の大きさも、何かの分布に従うのかな」

「恐らくね。観察して、データを集めれば分かる」

ミラが最後にメモを残した。「Every distribution tells a story」

「全ての分布は、物語を語る」由紀が訳した。

葵が頷いた。「確率分布は、世界を理解するための窓なんだ」

三人は静かに、目に見えない分布の世界を想像していた。