> 突然の数学記事 <
 ̄Y^Y^Y^Y^Y^Y^Y^Y^Y^ ̄
- はじめに
- ガンマ分布について
- 改めて疑問
- そもそも「身長は正規分布、体重はガンマ分布」は本当か?
- 平均が分散に対して大きければ正規分布に従う
- shape の大きいガンマ分布は正規分布に近似できることの説明
- おわりに
はじめに
統計の勉強をしていると、確率分布のところで、よく次のような例示を目にします。つい素通りしてしまうそうになる記述ですが、僕は初見でうまく飲み込めませんでした。
身長も体重も似たようなものなのに、なぜその標本が従う確率分布が違うのでしょうか?
正規分布はガンマ分布の特別な場合であるため、この疑問は次のように表現できます。
はじめに答えから。上記の疑問の「答え」は、以下です。
- 身長の標本平均は大きいが、体重の標本平均は小さいから。
- 何に対して「大きい」かというと、標本分散に対して。
上記をもう少し一般化して、実務上使いやすいようハウツー的に言い換えると、次のようになります。
正の連続値をランダムに取るデータが従う分布を考えるとき、
- そのデータの平均が、分散に対して大きい場合は、正規分布に従うとみなせる。
- そのデータの平均が、分散に対して大きいとは言えない場合は、ガンマ分布に従うとみなせる。
以下で、これらのことについて解説を試みます。
ただし、はじめに注意。
この記事では、数学的な証明などは行いません。そのため、ガンマ分布、正規分布に関する厳密な証明を探しにきた方の役には立たないかもしれません。
一方、僕のように「何となく腑に落ちない疑問に、厳密でなくてもよいから、納得できる説明を得たい」という方の助けにはなるかもしれません。
ガンマ分布について
ガンマ分布の確率密度関数は、次の式で表されます。ただし、これは の場合であり、 では です。また、 は shape、 は scale と呼ばれるパラメータで、どちらも正の値を取ります。(後で出てきます)
改めて疑問
改めて、「疑問」について考えてみます。少し調べてみると、「正の連続値を取る確率変数が従う分布は、ガンマ分布である」という事実が分かります。これに関しても「…なぜ?」と言いたくなるところですが、一旦、ここでは天下り的に受け入れることにします。(この記事では、この事実に関する説明は行いません)
確かに、身長も体重も、正の連続値です。
しかしどちらも人間の身体的特徴を表す量であり、同じような性質のものに思えます。にも関わらず、「身長は正規分布に従い、体重はガンマ分布に従う」と言われると、「なぜ身長も体重も同じようなものなのに、従う確率分布が違うの?体重が何か悪いことでもしたの?」と思ってしまいます。
また、たとえば実務上で、正の連続値を取るデータの確率密度推定をしたいときなどには、このデータが従う分布が正規分布とみなせば良いのかガンマ分布とみなせば良いのか分からず、困ります。「身長っぽいデータなら正規分布だよ。体重っぽいならガンマ分布」とか言われても、「身長っぽいって何?」となってしまいます。
ということで、僕はいまいち腑に落ちず、Google検索してみたのですが、納得のできる答えは見つからず。
それどころか、
などの怪しげな言説が並ぶ始末…(1番目のものは、高度な数学を考えれば実は本当なのかもしれませんが、不明)
あまりにも自明であるがゆえに説明がないのかもしれませんが、少なくとも僕にとっては自明ではなかったため、自分なりに色々と考えてみました。そして、自分で納得できる説明を思いついたので、自分用も兼ねて、まとめることにしました。
そもそも「身長は正規分布、体重はガンマ分布」は本当か?
そもそも「身長は正規分布に従い、体重はガンマ分布に従う」というのは本当でしょうか?ここでは、文科省の平成27年度 学校保健統計調査 身長の年齢別分布と平成28年度 学校保健統計調査 体重の年齢別分布を使い、確かめてみましょう。(年度が違うのは、ググって出てきた最初の結果がこれだっただけで、特に意味はありません)
上記の統計情報から男性17歳の身長・体重のデータを使い、密度ヒストグラムを描きます。また、それらを正規分布、ガンマ分布の確率密度関数でフィッティングしてみます。確かに「身長は正規分布に従い、体重はガンマ分布に従う」ことが分かりました。
また、体重の分布は明らかに左右非対称の形をしており、正規分布には従いそうにないことも確かめられました。
平均が分散に対して大きければ正規分布に従う
それでは、冒頭に「答え」として書いたように、前述の身長、体重のデータの平均と分散を調べてみます。- 身長
- 平均: 170.687
- 分散: 33.355
- 体重
- 平均: 62.553
- 分散: 103.145
確かに、身長の平均は分散に対して大きいですが、体重の平均は分散よりも小さいです。
ではなぜ、平均が分散に対して大きいと、従う分布は正規分布になるのでしょうか?
それには、ガンマ分布の次の性質が大いに関係します。
また、もうひとつのガンマ分布の性質に、次のものがあります。
ガンマ分布の平均(期待値) および分散 は、次の式で与えられる。
さて、性質2の式から、shape を平均 および分散 で表すと、
となります。この式から、ガンマ分布において「平均 が分散 に対して大きい」とは「shape が大きい」と同値であることが分かります。そして、性質1から、「平均 が分散 に対して大きいガンマ分布は、正規分布に近似できる」ことが導かれます。
これで揃いました。つまり、こういうことです。
ですが、僕はこの説明が腑に落ち、疑問を晴らすことができました。
shape の大きいガンマ分布は正規分布に近似できることの説明
説明1: 論より証拠
論より証拠、ということで、shape を振ったガンマ分布の描画を見てみましょう。以下の記事が分かりやすいです。
記事中程の図から、shape の値を大きくすれば、ガンマ分布が正規分布に近づくことが分かりました。
記事の筆者の方も、
「左右非対称さ」を決めるのがshapeで、大きければ大きいほど左右対称(正規分布)に近づいていきます。
と述べていますね。
以上!QED!めでたしめでたし!
説明2: もうちょっと数学的な証明(の紹介)
…と終わらせると、さすがに数学クラスタからぶん殴られそうなので、もう少し厳密な説明をします。と言っても、他のページを紹介するだけです。ネット上に公開されている、以下の講義資料に証明が示されています。
こちらの資料によると、Stirling の公式の証明のp.5の真ん中あたりで、ガンマ分布が正規分布に近似されることが示されている…ような気がします。
正直、「あーそういうことね完全に理解した(わかってない)」状態なので、これ以上の言及は控えておきます。
おわりに
さて、以上の説明で、僕は冒頭に述べた「疑問」が99%スッキリ解消されました。…残りの1%は何か。そう、最初に天下り的に受け入れた「正の値の連続値を取る確率変数が従う分布は、ガンマ分布である」というところです。これは何故なのでしょうか?
それは……、調べましたがよくわかりませんでした!いかがでしたでしょうか?
ガンマ分布の数学的な意味を調べると、「期間 ごとに1回くらい起こるランダムな事象が 回起こるまでの時間の分布」というようなことが出てきます。(参考: 「高校数学の美しい物語: ガンマ分布の意味と期待値、分散」)
これと、「正の値の連続値を取る確率変数が従うのはガンマ分布」ということが、いまいち繋がったような〜繋がらないような〜、という状態です。
もし読者の方でここを上手く説明できる方がいらっしゃったら、コメントで教えてくださいm(_ _)m (丸投げ
おわり。