未知の分布を追いかけて

statistical learning, parameter estimationについて、情報理論の観点から探求する物語。

  • #statistical learning
  • #parameter estimation
  • #maximum likelihood
  • #bayesian inference

「これ、何の分布だと思う?」

ミラが由紀にグラフを見せた。データ点が散らばっている。

「分からないです。でも、どうやって調べるんですか?」

葵が会話に加わった。「それが統計的学習の本質だ。データから分布を推定する」

「推定?」

「観測から、背後にある確率分布を推測すること」

S教授が部室に入ってきた。「面白い課題だね。これは推論の根本問題だ」

四人はテーブルを囲んだ。

葵が説明を始めた。「まず、分布の形を仮定する。正規分布か、ポアソン分布か、それとも別のものか」

「でも、どうやって選ぶんですか?」由紀が聞いた。

「データの性質を見る。連続か離散か。範囲は有限か無限か」

ミラがデータの特徴をリストアップした。連続値、対称、負の値なし。

「正規分布かガンマ分布が候補だ」葵が判断した。

「次は、パラメータ推定」S教授が続けた。「分布の形を決めても、平均や分散は分からない」

「どうやって推定するんですか?」

「最尤推定が一般的だ。観測データが得られる確率を最大化するパラメータを選ぶ」

葵がホワイトボードに式を書いた。

「L(θ|x) = Π p(x_i|θ)。尤度関数だ。これを最大化するθを見つける」

「対数を取ると計算しやすい」S教授が補足した。「log L(θ|x) = Σ log p(x_i|θ)」

由紀が計算を試みた。「これ、微分して、ゼロと置けば…」

「正解。多くの場合、解析的に解ける」

ミラが別の視点を提示した。ベイズ推論の式。

「ベイズ的アプローチもある」葵が説明した。「事前分布を仮定して、データで更新する」

「事前分布?」

「パラメータについての初期の信念。観測前の知識だ」

S教授が詳しく説明した。「p(θ|x) ∝ p(x|θ) p(θ)。事後分布は、尤度と事前分布の積に比例する」

「最尤推定とどう違うんですか?」由紀が聞いた。

「最尤は、パラメータを固定値として推定。ベイズは、パラメータも確率分布として扱う」

葵が補足した。「ベイズは不確実性を明示的に表現できる。『平均は5だと思うけど、4から6の可能性もある』という形で」

「どっちが良いんですか?」

「状況による」S教授が答えた。「事前知識があるならベイズが強力。ないなら最尤がシンプルだ」

ミラがデータに最尤推定を適用した。平均7.2、標準偏差2.1の正規分布。

「でも」由紀が言った。「これが正しい保証はないですよね?」

「鋭い。推定は常に不確実性を伴う」葵が認めた。

「だから、信頼区間を計算する」S教授が続けた。「推定値の周りに、真の値が含まれる範囲」

「95パーセント信頼区間なら、100回推定して95回は真の値を含む」

由紀が納得した。「不確実性を定量化するんですね」

「そう。それが統計的推論の美しさだ」

葵が新しい視点を提示した。「もし分布の形も分からないなら?」

「ノンパラメトリック法だ」S教授が答えた。「カーネル密度推定とか。分布の形を仮定しない」

ミラが複雑な図を描いた。データ点の周りに山が重なっている。

「各データ点を中心に小さな分布を置く。それらを足し合わせる」葵が説明した。

「柔軟だけど、データがたくさん必要」

由紀が質問した。「機械学習も、これと同じですか?」

「根本的には同じだ」S教授が頷いた。「ニューラルネットも、データから分布を学習してる」

「ただし、超高次元空間での推定だ」葵が補足した。「画像なら、ピクセル数が次元になる」

「途方もない」由紀が呟いた。

「でも、データが豊富にあれば、推定できる。それが現代の機械学習の力だ」

ミラが最初のグラフを見た。「真の分布は、永遠に分からないかもしれない」

「そうかもしれない」S教授が静かに言った。「でも、データを集めるほど、真実に近づく。それが学習だ」

葵が言った。「未知の分布を追いかける。それは、真理を求める旅そのものだ」

由紀が窓の外を見た。「世界中の現象が、未知の分布なんですね」

「そう。そして、私たちは観測者として、データから学び続ける」

四人は、見えない確率分布を追いかける旅人のように、静かにデータを見つめ続けた。