二項分布の極限がポアソン分布になることを文章変形によりイメージする

二項分布の極限はポアソン分布になります。どういうことだか最初意味がわからなかったので、それをイメージできるようにしました。

本記事は次の3つの記事の1つ目です。

  1. 二項分布の極限がポアソン分布になることを文章変形によりイメージする
  2. 二項分布の極限がポアソン分布になることを数式変形によりイメージする
  3. 二項分布の極限がポアソン分布になることをグラフによりイメージする

二項分布とは / ポアソン分布とは

二項分布とポアソン分布は次のとおりです。

  • 二項分布
    • 母数 (分布のパラメータ)
      •  n (0以上の整数)
      •  p (0以上1以下の実数)
    • 確率質量関数:  P(k) = {}_nC_k p^k (1-p)^{n-k}
    • 期待値:  np
    • 分散:  np(1-p)
  • ポアソン分布
    • 母数 (分布のパラメータ)
      •  \lambda (0より大きい実数)
    • 確率質量関数:  P(k) = \frac{\lambda^k e^{-\lambda}}{k!}
    • 期待値:  \lambda
    • 分散:  \lambda

二項分布の具体例としてわかりやすいのは、くじ引きを複数回実行したときの当たりの回数です。ポアソン分布の具体例としてわかりやすいのは、ウェブサイトの秒間リクエスト数です。

二項分布:当たりの確率が  p のくじ引きを  n 回試しすとき、  k 回当たりを引く確率  P(k) の分布を二項分布といいます。 n  p が二項分布の母数(分布のパラメータ)、 k が確率変数です。確率分布の期待値(当たりの回数の平均)は  np です。

ポアソン分布:あるウェブサイトで秒間リクエスト数の平均が  \lambda のとき、秒間  k リクエスト発生する確率  P(k) の分布をポアソン分布といいます。 \lambda ポアソン分布の母数(分布パラメータ)、 k が確率変数です。確率分布の期待値(秒間リクエスト数の平均)は  \lambda です。

文章でだらだら書いてあっても読みづらいので、箇条書きにするとこんな感じです。

  • 二項分布
    • 当たりの確率が  p のくじ引きを  n 回試すとき
    •  k 回当たりを引く確率  P(k) の分布
    • 二項分布の母数(分布のパラメータ):  n  p
    • 確率変数:  k
    • 確率分布の期待値(当たりの回数の平均):  np
  • ポアソン分布
    • あるウェブサイトで秒間リクエスト数の平均が  \lambda のとき
    • 秒間  k リクエスト発生する確率  P(k) の分布
    • ポアソン分布の母数(分布パラメータ):  \lambda
    • 確率変数:  k
    • 確率分布の期待値(秒間リクエスト数の平均):  \lambda

二項分布の例をちょっとずつ書き換えることでポアソン分布に近づくことを示します。

二項分布の例をちょっとずつ書き換えてポアソン分布に変える

  • 二項分布
    • 当たりの確率が  p のくじ引きを  n 回試すとき
    •  k 回当たりを引く確率  P(k) の分布
    • 二項分布の母数(分布のパラメータ):  n  p
    • 確率変数:  k
    • 確率分布の期待値(当たりの回数の平均):  np

これを少しずつ書き換えていきます。

 T というパラメータを新たに用意して  T=\frac{1}{p} とします。つまり、 p  \frac{1}{T} と読み替えます。 T 回に1回当たる確率ということです。

  • 二項分布
    • 当たりの確率が  \frac{1}{T} のくじ引きを  n 回試すとき
    •  k 回当たりを引く確率  P(k) の分布
    • 二項分布の母数(分布のパラメータ):  n  p=\frac{1}{T}
    • 確率変数:  k
    • 確率分布の期待値(当たりの回数の平均):  \frac{n}{T}

ここで、ウェブサイトでの例への置き換えを考えます。

あるウェブサイトで特定の一定時間  T 秒間に1回リクエストが発生したとして、その  T 秒間のうちのどのタイミングで発生するかは一様な確率でランダムだとすると、その  T 秒間のうちの最初の1秒間にそのリクエストが発生する確率は  \frac{1}{T} です。

これは、当たりの確率が  \frac{1}{T} のくじ引きを1回試すときの当たりの確率と同じことです。くじ引きを  n 回試すことは、ウェブサイトの例で  n リクエスト発生させることに対応します。

これを踏まえ、二項分布のくじ引きの例をウェブサイトのリクエスト発生のタイミングの例に書き換えると次のようになります。

  • 二項分布
    • あるウェブサイトで特定の一定時間  T 秒間に  n リクエストがその一定時間に一様な確率でランダムに発生するとき
    • 最初の1秒間に  k リクエスト発生する確率  P(k) の分布
    • 二項分布の母数(分布のパラメータ):  n  p=\frac{1}{T}
    • 確率変数:  k
    • 確率分布の期待値(秒間リクエスト数の平均):  \frac{n}{T}

ここでまた新たなパラメータ  \lambda というパラメータを新たに用意して  \lambda = \frac{n}{T} = np とします。つまり  n  \lambda T と読み替えます。

  • 二項分布
    • あるウェブサイトで特定の一定時間  T 秒間に   \lambda T リクエスがその一定時間に一様な確率でランダムに発生するとき
    • 最初の1秒間に  k リクエスト発生する確率  P(k) の分布
    • 二項分布の母数(分布のパラメータ):  n= \lambda T  p=\frac{1}{T}
    • 確率変数:  k
    • 確率分布の期待値(秒間リクエスト数の平均):  \lambda

箇条書きの1個目の日本語の書き方を変えます。

  • 二項分布
    • あるウェブサイトで特定の一定時間  T 秒間に秒間リクエスト数の平均が   \lambda でその一定時間に一様な確率でランダムに発生するとき
    • 最初の1秒間に  k リクエスト発生する確率  P(k) の分布
    • 二項分布の母数(分布のパラメータ):  n= \lambda T  p=\frac{1}{T}
    • 確率変数:  k
    • 確率分布の期待値(秒間リクエスト数の平均):  \lambda

「最初の1秒間に  k リクエスト発生する確率」としていますが、この1秒間は最初に限定する必要はありません。一様な確率といっているのでどの1秒も同じ確率です。箇条書きの2個目の日本語の書き方を変えます。

  • 二項分布
    • あるウェブサイトで特定の一定時間  T 秒間に秒間リクエスト数の平均が   \lambda でその一定時間に一様な確率でランダムに発生するとき
    • 秒間  k リクエスト発生する確率  P(k) の分布
    • 二項分布の母数(分布のパラメータ):  n= \lambda T  p=\frac{1}{T}
    • 確率変数:  k
    • 確率分布の期待値(秒間リクエスト数の平均):  \lambda

ここでポアソン分布と比較してみます。

  • ポアソン分布
    • あるウェブサイトで秒間リクエスト数の平均が   \lambda のとき
    • 秒間  k リクエスト発生する確率  P(k) の分布
    • ポアソン分布の母数(分布のパラメータ):  \lambda
    • 確率変数:  k
    • 確率分布の期待値(秒間リクエスト数の平均):  \lambda

二項分布の文章から  T を消すだけでポアソン分布になります。

二項分布において  T=1, \lambda=10 では、その1秒間の間に必ず10リクエスト発生するということになります。

これが  T=10, \lambda=10 になると、特定の10秒間の間に100リクエスト発生するという条件ですので、1秒間で区切ると10リクエストかもしれないけど、9リクエストしか発生しない1秒間もありえますし、11リクエストある1秒間もありえます。

このように、 T=1  T=10 とでは同じ  \lambda でもリクエスト数の分布は違います。

これがさらに  T=100, \lambda=10 になると、特定の100秒間の間に1000リクエスト発生するという条件になりますが、この場合でも、1秒間で区切ると10リクエストかもしれないけど、9リクエストしか発生しない1秒間もありえますし、11リクエストある1秒間もありえます。

 T がある程度大きくなると、分布は  T によらず一定の分布になりそうです。

ウェブサイトのリクエスト数というのは特定の  T 秒間に発生するリクエスト数が決まっている、という状況はあまりなくて、秒間リクエスト数の平均が10という条件のほうが考えやすいです。 T の値が決まっている状況は、二項分布を無理やり考えるための状況でした。

秒間リクエスト数の平均のみが決まっている状況というのは、 T を大きくした場合の近似と考えることができます。 \lambda=np を一定にしたまま  T を大きくすると  n は大きくなって  p は0に近づいていきます。この  \lambda を分布のパラメータとみなし、  T を大きくした場合というのがポアソン分布です。

もう一度文章で比較してみます。

  • 二項分布
    • あるウェブサイトで特定の一定時間  T 秒間に秒間リクエスト数の平均が   \lambda でその一定時間に一様な確率でランダムに発生するとき
    • 秒間  k リクエスト発生する確率  P(k) の分布を二項分布という
    • 二項分布の母数(分布のパラメータ):  n= \lambda T  p=\frac{1}{T}
    • 確率変数:  k
    • 確率分布の期待値(秒間リクエスト数の平均):  \lambda
  • ポアソン分布
    • あるウェブサイトで秒間リクエスト数の平均が   \lambda のとき
    • 秒間  k リクエスト発生する確率  P(k) の分布をポアソン分布という
    • ポアソン分布の母数(分布のパラメータ):  \lambda
    • 確率変数:  k
    • 確率分布の期待値(秒間リクエスト数の平均):  \lambda

二項分布を変形してその極限がポアソン分布になることがイメージできました。