ほうかいのじゅもん

写真を中心に、その他趣味のことなど、気ままに綴るブログです。

身長は正規分布、体重はガンマ分布…なぜ?

_人人人人人人人人人_
> 突然の数学記事 <
 ̄Y^Y^Y^Y^Y^Y^Y^Y^Y^ ̄







はじめに

統計の勉強をしていると、確率分布のところで、よく次のような例示を目にします。
「人間の身長は正規分布に従い、体重はガンマ分布に従う」
………なぜ!?

つい素通りしてしまうそうになる記述ですが、僕は初見でうまく飲み込めませんでした。
身長も体重も似たようなものなのに、なぜその標本が従う確率分布が違うのでしょうか?

正規分布はガンマ分布の特別な場合であるため、この疑問は次のように表現できます。

疑問
なぜ身長は正規分布に従うのに、体重はガンマ分布にしか従わないのか?
自分なりに勉強していて、この疑問に対して納得できる答えに至れたので、記事にしてみます。

はじめに答えから。上記の疑問の「答え」は、以下です。

答え

  • 身長の標本平均は大きいが、体重の標本平均は小さいから。
  • 何に対して「大きい」かというと、標本分散に対して

以後、便宜上、「標本平均」「標本分散」を、単に「平均」「分散」と記述します。
上記をもう少し一般化して、実務上使いやすいようハウツー的に言い換えると、次のようになります。
ハウツー的な表現
正の連続値をランダムに取るデータが従う分布を考えるとき、

  • そのデータの平均が、分散に対して大きい場合は、正規分布に従うとみなせる。
  • そのデータの平均が、分散に対して大きいとは言えない場合は、ガンマ分布に従うとみなせる。

以下で、これらのことについて解説を試みます。
ただし、はじめに注意。
この記事では、数学的な証明などは行いません。そのため、ガンマ分布、正規分布に関する厳密な証明を探しにきた方の役には立たないかもしれません。
一方、僕のように「何となく腑に落ちない疑問に、厳密でなくてもよいから、納得できる説明を得たい」という方の助けにはなるかもしれません。


ガンマ分布について

ガンマ分布の確率密度関数は、次の式で表されます。
\displaystyle{
f(x) = \frac{1}{\Gamma(\alpha)\theta^{\alpha}} x^{\alpha - 1} e^{-\frac{x}{\theta}}
}
ただし、これは x>0 の場合であり、 x \leq 0 では f(x) = 0 です。
また、 \alphashape\thetascale と呼ばれるパラメータで、どちらも正の値を取ります。(後で出てきます)


改めて疑問

改めて、「疑問」について考えてみます。
少し調べてみると、「正の連続値を取る確率変数が従う分布は、ガンマ分布である」という事実が分かります。これに関しても「…なぜ?」と言いたくなるところですが、一旦、ここでは天下り的に受け入れることにします。(この記事では、この事実に関する説明は行いません)
確かに、身長も体重も、正の連続値です。
しかしどちらも人間の身体的特徴を表す量であり、同じような性質のものに思えます。にも関わらず、「身長は正規分布に従い、体重はガンマ分布に従う」と言われると、「なぜ身長も体重も同じようなものなのに、従う確率分布が違うの?体重が何か悪いことでもしたの?」と思ってしまいます。
また、たとえば実務上で、正の連続値を取るデータの確率密度推定をしたいときなどには、このデータが従う分布が正規分布とみなせば良いのかガンマ分布とみなせば良いのか分からず、困ります。「身長っぽいデータなら正規分布だよ。体重っぽいならガンマ分布」とか言われても、「身長っぽいって何?」となってしまいます。

ということで、僕はいまいち腑に落ちず、Google検索してみたのですが、納得のできる答えは見つからず。
それどころか、

  • ガンマ分布は正規分布の三乗根であり、体重は身長の三乗に比例すると近似されるから。
  • 身長が正規分布に従うのに理由はありません。たまたまです。
  • そもそも体重がガンマ分布に従うというのは嘘!

などの怪しげな言説が並ぶ始末…(1番目のものは、高度な数学を考えれば実は本当なのかもしれませんが、不明)
あまりにも自明であるがゆえに説明がないのかもしれませんが、少なくとも僕にとっては自明ではなかったため、自分なりに色々と考えてみました。そして、自分で納得できる説明を思いついたので、自分用も兼ねて、まとめることにしました。


そもそも「身長は正規分布、体重はガンマ分布」は本当か?

そもそも「身長は正規分布に従い、体重はガンマ分布に従う」というのは本当でしょうか?
ここでは、文科省平成27年度 学校保健統計調査 身長の年齢別分布平成28年度 学校保健統計調査 体重の年齢別分布を使い、確かめてみましょう。(年度が違うのは、ググって出てきた最初の結果がこれだっただけで、特に意味はありません)
上記の統計情報から男性17歳の身長・体重のデータを使い、密度ヒストグラムを描きます。また、それらを正規分布、ガンマ分布の確率密度関数でフィッティングしてみます。

確かに「身長は正規分布に従い、体重はガンマ分布に従う」ことが分かりました。
また、体重の分布は明らかに左右非対称の形をしており、正規分布には従いそうにないことも確かめられました。


平均が分散に対して大きければ正規分布に従う

それでは、冒頭に「答え」として書いたように、前述の身長、体重のデータの平均と分散を調べてみます。

  • 身長
    • 平均: 170.687
    • 分散: 33.355
  • 体重
    • 平均: 62.553
    • 分散: 103.145

確かに、身長の平均は分散に対して大きいですが、体重の平均は分散よりも小さいです。

ではなぜ、平均が分散に対して大きいと、従う分布は正規分布になるのでしょうか?
それには、ガンマ分布の次の性質が大いに関係します。

ガンマ分布の性質1
shape \alpha が大きい場合、ガンマ分布は正規分布に近似できる。
「いや突然なに!?」と思われるかもしれませんが、後ほど説明するので、ここでは受け入れてください。
また、もうひとつのガンマ分布の性質に、次のものがあります。
ガンマ分布の性質2
ガンマ分布の平均(期待値)  E および分散 V は、次の式で与えられる。

\begin{aligned}
E &= \alpha \theta \\
V &= \alpha \theta^2
\end{aligned}
これはWikipediaにも載っているくらいなので受け入れやすいと思います。

さて、性質2の式から、shape \alpha を平均 E および分散 V で表すと、

\displaystyle{
\alpha = \frac{E^2}{V}
}
となります。
この式から、ガンマ分布において「平均 E が分散 V に対して大きい」とは「shape \alpha が大きい」と同値であることが分かります。そして、性質1から、「平均 E が分散 V に対して大きいガンマ分布は、正規分布に近似できる」ことが導かれます。

これで揃いました。つまり、こういうことです。

疑問に対する説明
身長も体重も、正の連続値を取るのだから、ガンマ分布に従う。
身長は、平均が分散に対して大きいので、身長が従うガンマ分布の shape は大きい。したがって、このガンマ分布は正規分布とみなせる。
一方、体重は、平均が分散に対して大きくはないので、体重が従うガンマ分布は正規分布とはみなせない。
まぁ、自明と言えば自明ですかね。
ですが、僕はこの説明が腑に落ち、疑問を晴らすことができました。


shape の大きいガンマ分布は正規分布に近似できることの説明

説明1: 論より証拠

論より証拠、ということで、shape \alpha を振ったガンマ分布の描画を見てみましょう。
以下の記事が分かりやすいです。
記事中程の図から、shape の値を大きくすれば、ガンマ分布が正規分布に近づくことが分かりました。
記事の筆者の方も、

「左右非対称さ」を決めるのがshapeで、大きければ大きいほど左右対称(正規分布)に近づいていきます。

と述べていますね。
以上!QED!めでたしめでたし!


説明2: もうちょっと数学的な証明(の紹介)

…と終わらせると、さすがに数学クラスタからぶん殴られそうなので、もう少し厳密な説明をします。
と言っても、他のページを紹介するだけです。ネット上に公開されている、以下の講義資料に証明が示されています。

ガンマ分布の中心極限定理と Stirling の公式

こちらの資料によると、Stirling の公式の証明のp.5の真ん中あたりで、ガンマ分布が正規分布に近似されることが示されている…ような気がします。
正直、「あーそういうことね完全に理解した(わかってない)」状態なので、これ以上の言及は控えておきます。


おわりに

さて、以上の説明で、僕は冒頭に述べた「疑問」が99%スッキリ解消されました。
残りの1%は何か。そう、最初に天下り的に受け入れた「正の値の連続値を取る確率変数が従う分布は、ガンマ分布である」というところです。これは何故なのでしょうか?
それは……、調べましたがよくわかりませんでした!いかがでしたでしょうか?

ガンマ分布の数学的な意味を調べると、「期間 \theta ごとに1回くらい起こるランダムな事象が \alpha 回起こるまでの時間の分布」というようなことが出てきます。(参考: 「高校数学の美しい物語: ガンマ分布の意味と期待値、分散」)
これと、「正の値の連続値を取る確率変数が従うのはガンマ分布」ということが、いまいち繋がったような〜繋がらないような〜、という状態です。

もし読者の方でここを上手く説明できる方がいらっしゃったら、コメントで教えてくださいm(_ _)m (丸投げ

おわり。