数学B : 統計的な推測 母比率の推定

例題

ある県で無作為に回答者を選んでアンケートを行った結果、2400人中960人が「猫が好き」と答えた。
この県の全人口に占める猫好きの割合の、信頼度95%の信頼区間を求めよ。

公式から求める

公式

標本比率をR,標本の大きさをnとすると、母比率pの信頼区間を求める式は、
RzR(1R)npR+zR(1R)n
ただし、z
信頼度95%のとき、1.96
信頼度99%のとき、2.58

例題の標本の大きさは2400,標本比率は9602400=0.4
また、信頼度は95%なので、母比率pの信頼区間は、公式より、
0.41.960.4(10.4)2400p0.4+1.960.4(10.4)2400式A
となる。

これを計算して、
0.41.9611002p0.4+1.9611002
0.41.96100p0.4+1.96100
0.3804p0.4196
となる。

解答[0.3804, 0.4196]

アドバイス

これでは原理がゼンゼン分からないので、以下に公式を使わない解法を説明した。
ただし、過程がちょっと複雑で面倒なので、センター試験本番では公式を使って解くことをおすすめする。

公式を使わない解法

前振り

分かりにくいけれど、この問題は反復試行だ。

例えば県民全体のちょうど40%が猫好きだった場合(つまり母比率が0.4だった場合)、
一人目の回答者が猫好きの確率は410
二人目の回答者が猫好きの確率も410
三人目の回答者が猫好きの確率も410

2400人目の回答者が猫好きの確率も410
である。

これは、赤球が4個 白球が6個入っている袋の中から、球を1個取り出して、色を見て袋に戻す試行を繰り返す実験と同じ確率だ。
なので、この問題は反復試行の問題なのだ。


材料になる二項分布をつくる

表A
X P(X)
0 p0(1p)24002400C0
1 p1(1p)23992400C1
2 p2(1p)23982400C3
2399 p2399(1p)12400C2399
2400 p2400(1p)02400C2400
1

復習

確率pで事象Aが起こる試行をn回繰り返し、Aが起こった回数をXとすると、Xの確率分布は二項分布B(n,p)である。

先に書いたように、これは反復試行の問題だ。なので、県民全体に占める猫好きの割合(母比率)をpとすると、回答者に含まれる猫好きの人数Xの確率分布は二項分布B(2400,p)である。
以上より、Xの確率分布表をつくると表Aになる。


二項分布を正規分布で近似する

復習

nが十分に大きい数であるとき、二項分布B(n,p)は、正規分布N(np,np(1p))(期待値(平均値)がnp,標準偏差がnp(1p))で近似できる

2400は十分に大きい数だと考えられるので、表Aの二項分布は、正規分布
N(2400p,2400p(1p))式B
で近似できる。
これをグラフにすると、図Bのようになる。

図B
母比率の推定 解説図B

図中、緑の部分が平均値を中心とした95%の範囲である。
問題では信頼度95%で答えよというので、回答者中の猫好きの人数である960が緑の部分に入るようなpの値の範囲を求めればよい。
つまり、緑の範囲の下限をα,上限をβとすると、
緑の部分の面積が95%条件1 α960β条件2 が成り立つようなpの値の範囲を求めればよい。


標準正規分布表を見る

まず条件1から解決しよう。
緑の部分の面積が95%=0.95なので、そのときの緑の部分の右端の値を求める。

標準正規分布表(こちらのページ)を見るんだけど、表に載っているのはグラフの真ん中より右の面積。
正規分布のグラフは左右対称なので、図Bの緑の面積の半分の0.952=0.475を標準正規分布表で探すと、範囲の右端は
1.96
であることが分かる。

これをグラフに描くと、図Cができる。

図C
母比率の推定 解説図C

正規分布の標準化

だけど、
図Bのグラフは、N(2400p,2400p(1p))
平均値が2400p
分散が2400p(1p)
図Cのグラフは
平均値が0
分散が1
なので、そのまま比較はできない。
なので、図Bのグラフの正規分布を標準化して、図Cに合わせる。

復習

正規分布の標準化
正規分布N(m,σ2)に従う確率変数X(期待値(平均値)がm,標準偏差がσ)を、
Z=Xmσ式B
とすると、Zは標準正規分布N(0,1)(期待値(平均値)が0,標準偏差が1)に従う。

式Bを使って条件2の各辺を標準化する。式が長くなるので、以下、標本の大きさの2400nとかく。
αnpnp(1p)960npnp(1p)βnpnp(1p)式C
これをグラフに描くと、図Dができる。

図D
母比率の推定 解説図D

図Cと図Dは同じ
平均値が0 分散が1 の正規分布(これを標準正規分布という)なので、式Cは
1.96960npnp(1p)1.96式D
と書き直せる。


あとは計算

式Dを変形して、母比率pを求める。
1.96np(1p)960np1.96np(1p)

途中式 9601.96np(1p)np960+1.96np(1p)9601.96np(1p)np960+1.96np(1p)n9601.96np(1p)np960+1.96np(1p)n
960n1.96np(1p)np960n+1.96np(1p)n ここで、
960n=9602400=0.4 nn=1n なので、上の式は
0.41.96p(1p)np0.4+1.96p(1p)n
式E
となる。

根号の中にpが残ってしまった。
しかし、p0p1の数で、根号の中の分母のn=2400が大きい数だから、あまり厳密に考える必要はないだろう。
なので、根号の中のpを標本比率の9602400=0.4で代用すると、式Eは、
0.41.960.4(10.4)2400p0.4+1.960.4(10.4)2400
となる。式Aと同じになった。

あとはこれを計算して、
0.3804p0.4196
となる。

解答[0.3804, 0.4196]

余談

この部分の計算は、厳密には、式Dより、
|960npnp(1p)|1.96
両辺を2乗して、
(960np)2np(1p)1.962
分母を払って、
(960np)21.962np(1p)
として、pについての二次不等式を解くのだが、高校数学では「あとは計算」で説明した方法で十分だ。
もっと言うと、センター試験を解くだけなら、このページ最初の「公式から求める」方法が時間がかからないのでお薦めである。