その説明、冗長すぎませんか?

redundancy, efficiencyについて、情報理論の観点から探求する物語。

  • #redundancy
  • #efficiency
  • #trade-off
  • #natural language redundancy

「つまり、エントロピーは不確実性で、符号化は圧縮で、通信路にはノイズがあって…」

陸が説明を始めたが、途中で混乱した。

「えっと、それで、ハフマン符号は…いや、違うな。リードソロモンが…」

葵が苦笑した。「陸、説明が冗長すぎる」

「冗長?俺、ちゃんと説明してるつもりなんだけど」

「冗長性は、情報理論の重要な概念だよ」由紀が笑った。

「どういうこと?」

葵がホワイトボードに文を書いた。

「明日は晴れです」 「明日は晴れるでしょう」 「明日、天気、晴れ」

「全部、同じ情報を伝えてる。でも、情報量は違う」

「ああ、三つ目が一番短い」陸が気づいた。

「短いけど、理解しにくくない?」由紀が指摘する。

「そう。自然言語には、意図的な冗長性がある。理解を助けるため、誤解を防ぐため」

葵は続けた。「英語の冗長率は約75パーセント。つまり、文字の75パーセントは予測可能だ」

「そんなに!」陸が驚く。

「だから、一部が欠けても理解できる。『T_e w_ath_r is n_ce t_d_y』」

由紀が読んだ。「The weather is nice today!母音がなくても読める」

「これが冗長性の力。通信では、ノイズに対する耐性になる」

陸が真剣になった。「じゃあ、冗長性は良いものなんだ?」

「状況による。データ圧縮では冗長性は敵。通信では味方」

「矛盾してない?」

「そこがトレードオフ。効率と頑健性は、しばしば対立する」葵が図を描いた。

「圧縮: 冗長性を削除→データ量減少→でもノイズに弱い 誤り訂正: 冗長性を追加→データ量増加→でもノイズに強い」

由紀がノートに書き込む。「両方を同時には得られない…」

「でも、シャノンは言った。圧縮と誤り訂正は分離できると」

「分離?」

「まず、情報源符号化で圧縮。次に、通信路符号化で誤り訂正符号を追加。二段階に分けられる」

陸が考えた。「最初に無駄を削って、次に必要な無駄を追加する?」

「完璧な理解だ」葵が感心した。「データの本質的な冗長性と、通信のための冗長性は別物」

「陸の説明が冗長なのは、どっち?」由紀が茶化す。

「う…」陸が言葉に詰まった。

葵が笑った。「陸の冗長性は、むしろ混乱を増やしている。有害な冗長性だね」

「ひどい!」

「でも、学習過程では冗長な説明も役立つ。繰り返しは理解を深める」

由紀が真面目に言った。「確かに、一回で理解できないとき、言い換えが助けになります」

「そう。冗長性にも質がある。良い冗長性と悪い冗長性」

葵は別の例を示した。

「『今日は12月25日、クリスマスです』 『今日は12月25日です』

前者は冗長。12月25日と言えば、クリスマスは自明」

「でも、文化によっては自明じゃないかも」陸が指摘した。

「鋭い。冗長性は、受信者の知識に依存する」

「相手が何を知っているかで、必要な情報量が変わる…」由紀が呟く。

「それが条件付きエントロピー。H(X|Y)。Yを知っているとき、Xを伝えるのに必要な情報量」

陸が嬉しそうに言った。「じゃあ、俺が同じことを何度も言うのは、相手が理解してないと思ってるから?」

「優しさの表れかもね」葵が認めた。「でも、効率は悪い」

「効率と親切のトレードオフか」

「人間のコミュニケーションも、情報理論で分析できる」

由紀が窓の外を見た。「会話って、複雑ですね」

「だからこそ面白い。最適な冗長性を見つけるのが、良いコミュニケーションだ」

陸が決意した。「次はもっと簡潔に説明する!」

「期待してるよ」葵が微笑んだ。

「でも、簡潔すぎて伝わらなかったら?」由紀が心配する。

「その時は、冗長性を追加すればいい」

三人は笑った。冗長性もまた、バランスの芸術だった。