ポアソン分布について勉強する必要が生じたので、ポアソン分布について勉強してみました。ポアソン分布と考え方が似ているものとして、指数分布やガンマ分布が挙げられます。それらの違いについて簡単にまとめています。(ちょっとだけアーラン分布についても言及しています)。
式の導出などは行わずに、今回は概要だけです。
ポアソン分布
ポアソン分布とは、ある単位時間あたりに平均\(\lambda\)回起こる現象が、ある単位時間に\(k\)回起きる確率の分布です。つまり、1日で平均10個の不良品が出る工場で、1日で不良品が3個出る確率は?という問題に使用されます。
平均\(\lambda\)回起こる現象が単位時間に\(k\)回起きる確率は、下記の式で求めることが可能です。
$$P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!} (k=0,1,2,…)$$
このとき、確率変数\(X\)はポアソン分布に従うと言います。
例題
式だけではイメージしにくいので、例題で考えてみます。
例題:ある区間において平均10人の乗客が乗る電車があります。この区間で5人の乗客が乗る確率は?
先程の式に代入して求めてみます。\(\lambda=10\)と\(k=5\)を代入すると、下記の計算になります。
$$ latex P(X=10)=\frac{10^5 e^{-10}}{5!} = 0.0378… $$
つまり、約3.8%の確率となります。
おもしろい特徴
ポアソン分布の面白い特徴として、ポアソン分布の平均と分散が\(\lambda\)になることです。
平均が\(\lambda\)になることは直感的ですが、分散が\(\lambda\)になるのは興味深いです。
指数分布
次に指数分布です。指数分布とは、ある単位時間あたりに平均\(\lambda\)回起こる現象において、ある現象から次の現象が起こるまでの期間が従う確率分布です。
ポアソン分布と似ていますが、ポアソン分布は単位時間に起きる回数に注目した離散分布に対して、指数分布は現象と現象の期間に注目した連続分布です。
指数分布の確率密度関数は下記の式です。
$$ f(x)=\lambda e^{-\lambda x} (x\geq 0) $$
なお、\(x < 0\)のときは\(f(x)=0\)になります。
指数分布の確率密度関数\( f(x) \)は単調減少の式になるので、ある現象が起きた後に次の現象が起きる確率は、ある現象の直後が最大となります。これは直感的ではないかもしれませんが、現象が起きない確率を考慮すると納得できるはずです。
例えば50%の確率でAが起き、50%の確率でBが起きる現象を考えます。
Aの後にAが起きる確率は50%です。一方で、AのあとにBが起きてその後にAが起きる確率は、Bが起きる確率×Aが起きる確率なので、25%となります。つまり、Aの後にAが起きる確率は最初のAの直後が最も高くなることになります。
ガンマ分布
最後にガンマ分布についてです。ガンマ分布は指数分布を一般化したもので、連続確率分布のひとつです。ここでの一般化とは、考慮する現象を1回から\(k\)回にすることを意味します。
指数分布ではある現象から次の現象に起きるまでの時間の確率を考えていましたが、ガンマ分布ではある現象から\(k\)回現象が起きるまでの時間の確率を考えます。
確率密度関数は下記になります。
$$ f(x)= \frac{\lambda^k}{\Gamma(k)} x^{k – 1} e^{-\lambda x} (x \geq 0) $$
なお、\( x<0 \)のときは\(f(x)=0\)になります。
\(\Gamma(x)\)はガンマ関数で、\(k\)は回数です。
\(k=1\)のときに指数分布の確率密度関数と等しくなることがわかると思います。
アーラン分布
ガンマ分布では\(k\)は連続値として扱われているので、2.5回や7.8回などを考慮することが可能です。一方で、\(k\)を離散(k=0,1,2,…)として扱うときにはアーラン分布と呼ばれる確率分布に従うようになります。
アーラン分布の確率密度関数は指数分布とほぼ同じで、下記になります。
$$ f(x)= \frac{\lambda^k}{(k-1)!} x^{k – 1} e^{-\lambda x} (x \geq 0) $$
もともと\(\Gamma\)関数は階乗の概念を複素数全体に拡張した関数なので、離散値だけを考えるときには普通の階乗にすればいいだけとなります。
まとめ
ポアソン分布、指数分布、ガンマ分布についてまとめてみました。
ポアソン分布は、平均\(\lambda\)回起きる現象に対して、単位時間あたりに起きる現象の回数に注目した離散の確率分布です。
一方で、指数分布とガンマ分布は、現象と現象の期間に注目した連続確率分布です。そして、ガンマ分布は指数分布を一般化した分布でした。
これらの分布を知っていると、日常生活の中で起きている現象が珍しいのか当たり前なのかを知ることができそうです。