数学B : 統計的な推測 二項分布と正規分布

例題

さいころを100回投げたとき、3の倍数の目が出る回数をXとする。
40Xとなる確率の近似値を求めよ。

前振り

求める確率をP(40X)とする。
数Ⅰの確率で考えると、これは、Xn回の確率をP(X=n)として、
P(40X)=P(X=40)+P(X=41)++P(X=100) とかける。

この式の右辺をばらばらに書くと
P(X=40)=(13)40(113)60100C40P(X=41)=(13)41(113)59100C41P(X=100)=(13)100(113)0100C100 となる。これを全部足すのだ。気が遠くなりそうな計算だ。

余事象を使うと、
P(40X)=1P(X<40)=1{P(X=0)+P(X=1)++P(X=39)} となる。
少し楽になったけれど、やっぱりとても面倒だ。
なので、他の方法を考えよう。


復習

確率pで事象Aが起こる試行をn回繰り返し、Aが起こった回数をXとすると、確率変数Xは二項分布B(n,p)に従う。

例題の場合、
試行回数n=100
pは3の倍数の目が出る確率なので、p=26=13
だから、確率変数X
B(100, 13)
に従う。
これが材料になる二項分布だ。

イメージをつかむために、Aの確率分布をヒストグラムにしてみた。この図が描けるようになる必要はない。私もPCで作図した。

図A
二項分布と正規分布 解説図A

横軸はXで、3の倍数の目が出る回数、縦軸はその確率である。

例題で問われているのは40Xとなる確率で、図Aで言えば青い部分の和、つまり面積にあたる。
正規分布表を使って青い面積の近似値を求めるのが今回の方法である。

アドバイス

回数の多い反復試行の確率は、正規分布表を使って求める。

この方法は完全にパターン化していて、やり方さえ知っていれば機械的に計算できるので、方法を憶えておいてほしい。
以下、
1.二項分布を正規分布で近似する 2.正規分布を標準化する 3.正規分布表から確率を読み取る の3ステップで問題を解く。

1.二項分布を正規分布で近似する

復習

nが十分に大きい数であるとき、二項分布B(n,p)は、正規分布N(np,np(1p))で近似できる
だった。

100は十分に大きい数と考えられるので、Aの二項分布は、正規分布
N(100×13,100×13×23)=N(1003,2009) に近似する。

余談

実は、n=100は十分に大きい数かどうか微妙な線だ。
pが12に近い数だと nが小さくても二項分布と正規分布はよく近似するのだけど、n01に近くなるにつれてズレが大きくなる。なので、ホントのところを言うと、nの大小だけで「十分大きい」かどうかは分からなかったりする。だけど、その辺の話はセンター試験や共通テストには出ないので、問題文に「十分に大きい」って書いていれば 正規分布で近似して問題ないと考えてよい。

図Aに、Bの正規分布のグラフを重ねたのが、図Bである。しつこく言うが、このグラフが描けるようになる必要はない。

図B
二項分布と正規分布 解説図B

Aの二項分布はBの正規分布で近似できるので、図中の青い面積は赤い斜線の面積とほとんど変わらない。
なので、青い面積を求める代わりに 赤い斜線部分の面積を求める。

2.正規分布を標準化する

図Bの斜線の面積を求めるために、正規分布表を使う。
教科書や参考書に載っている正規分布表を見てもらいたい。図Cのようなグラフがついていると思う。このグラフから分かるように、正規分布表は、正規分布のグラフの面積をまとめた表である。

図C
二項分布と正規分布 解説図C

全体の面積は1で、グラフは左右対称なので、0.5から緑の部分の面積を引けば、赤い斜線の面積が求められる。

あとは正規分布表を見るだけと言いたいところだが、ひとつ問題がある。
Bの正規分布は、N(1003,2009)なので、平均値が1003,標準偏差が2009
正規分布表に載っているのは、標準正規分布で、平均値が0,標準偏差が1
なので、どちらかを変換してもう一方にあわせてやらないといけない。普通は、標準正規分布にあわせる。


ある分布のグラフを、平均値が0,標準偏差が1になるように z軸方向に平行移動・拡大縮小することを、標準化という。
標準化するには、

公式

確率変数Xの平均値をμ,標準偏差をσとする。標準化した確率変数をZとすると、
Z=Xμσ
である。

とすればよい。
これを使って図Bを標準化する。

横軸の0は、
010032009=527.07

33は、
3310032009=12000.07

40は、
4010032009=21.41式A

100は、
10010032009=10214.14

になる。

今は例としてすべての目盛を計算したけど、問題を解くのに必要なのは式Aだけだ。
この計算結果をもとに、図Bを標準化すると図Dになる。

図D
二項分布と正規分布 解説図D

3.正規分布表から確率を読み取る

ここまでくれば勝ったも同然だ。
正規分布表で1.41をさがすと、図Dの緑の部分の面積は0.4207であることが分かる。

緑の面積と赤い斜線の面積の和は0.5なので、
0.50.4207=0.0793
より、求める確率の近似値は0.0793である。

解答0.0793

余談

上の解説で、あれ?40以上の面積を求めるの?って思った人は、以下の説明を読んでください。
疑問に思わなかった人は、読まなくていいです。てか、読まない方がいいかも知れない。


分かりやすいように、図Bを拡大して図Eにしてみた。
図中のヒストグラムが二項分布、赤い曲線が近似する正規分布のグラフである。

図E
二項分布と正規分布 解説図E

上の解法の流れを整理すると、
求める確率は図Eの青い部分の和、つまり面積 青い部分は、赤い斜線の面積で近似できる だから、赤い斜線の面積を求めよう というストーリーだった。


図Eの面積を求める部分をもっと拡大すると、図Fになる。

図F
二項分布と正規分布 解説図F

上の解説では、赤い斜線の部分の面積として、X=40より右の部分の面積を求めた。

でも、赤い斜線の部分はX=39.5より右の部分にあたる。X=40より右の部分だと、図Fのオレンジで囲んだ部分になってしまい、赤い斜線の面積じゃない。

なので、39.5を標準化して、
39.510032009=39.5103×101032=310×39.51021.31 より、正規分布表では
1.31
をさがさないといけない。

上の解説よりもこちらの方がより近似した値が求められるんだけど、センター試験や共通テストでは不正解になる
つまり、センター試験や共通テスト的には、図Fのオレンジの面積が正解で、赤い斜線の面積は不正解である。
なので、センター試験や共通テストでは、疑問を持たずにオレンジの部分の面積を求めてください。