数学B : 統計的な推測 母比率の推定
例題
ある県で無作為に回答者を選んでアンケートを行った結果、$2400$人中$960$人が「猫が好き」と答えた。
この県の全人口に占める猫好きの割合の、信頼度95%の信頼区間を求めよ。
公式から求める
公式
標本比率を$R$,標本の大きさを$n$とすると、母比率$p$の信頼区間を求める式は、
$\displaystyle R-z\sqrt{\frac{R(1-R)}{n}}\leqq p\leqq R+z\sqrt{\frac{R(1-R)}{n}}$
ただし、$z$は
信頼度95%のとき、$1.96$
信頼度99%のとき、$2.58$
例題の標本の大きさは$2400$,標本比率は$\displaystyle \frac{960}{2400}=0.4$。
また、信頼度は$ 95\%$なので、母比率$p$の信頼区間は、公式より、
$0.4-1.96\sqrt{\frac{0.4\cdot(1-0.4)}{2400}}\leqq p\leqq 0.4+1.96\sqrt{\frac{0.4\cdot(1-0.4)}{2400}}$式A
となる。
これを計算して、
$0.4-1.96\sqrt{\frac{1}{100^{2}}}\leqq p\leqq 0.4+1.96\sqrt{\frac{1}{100^{2}}}$
$0.4-\displaystyle \frac{1.96}{100}\leqq p\leqq 0.4+\frac{1.96}{100}$
$0.3804\leqq p\leqq 0.4196$
となる。
解答$[0.3804,\ 0.4196]$
アドバイス
これでは原理がゼンゼン分からないので、以下に公式を使わない解法を説明した。
ただし、過程がちょっと複雑で面倒なので、センター試験本番では公式を使って解くことをおすすめする。
公式を使わない解法
前振り
分かりにくいけれど、この問題は反復試行だ。
例えば県民全体のちょうど40%が猫好きだった場合(つまり母比率が$0.4$だった場合)、
一人目の回答者が猫好きの確率は$\displaystyle \frac{4}{10}$
二人目の回答者が猫好きの確率も$\displaystyle \frac{4}{10}$
三人目の回答者が猫好きの確率も$\displaystyle \frac{4}{10}$
$\vdots$
$2400$人目の回答者が猫好きの確率も$\displaystyle \frac{4}{10}$
である。
これは、赤球が4個 白球が6個入っている袋の中から、球を1個取り出して、色を見て袋に戻す試行を繰り返す実験と同じ確率だ。
なので、この問題は反復試行の問題なのだ。
材料になる二項分布をつくる
$X$ | $P(X)$ |
---|---|
$0$ | $p^{0}(1-p)^{2400}\cdot {}_{2400}\mathrm{C}_{0}$ |
$1$ | $p^{1}(1-p)^{2399}\cdot {}_{2400}\mathrm{C}_{1}$ |
$2$ | $p^{2}(1-p)^{2398}\cdot {}_{2400}\mathrm{C}_{3}$ |
$\vdots$ | |
$2399$ | $p^{2399}(1-p)^{1}\cdot {}_{2400}\mathrm{C}_{2399}$ |
$2400$ | $p^{2400}(1-p)^{0}\cdot {}_{2400}\mathrm{C}_{2400}$ |
計 | $1$ |
復習
確率$p$で事象$\mathrm{A}$が起こる試行を$n$回繰り返し、$\mathrm{A}$が起こった回数を$X$とすると、$X$の確率分布は二項分布$B(n,p)$である。
先に書いたように、これは反復試行の問題だ。なので、県民全体に占める猫好きの割合(母比率)を$p$とすると、回答者に含まれる猫好きの人数$X$の確率分布は二項分布$B(2400,p)$である。
以上より、$X$の確率分布表をつくると表Aになる。
二項分布を正規分布で近似する
復習
$n$が十分に大きい数であるとき、二項分布$B(n,p)$は、正規分布$N(np,np(1-p))$(期待値(平均値)が$np$,標準偏差が$\sqrt{np(1-p)}$)で近似できる
$2400$は十分に大きい数だと考えられるので、表Aの二項分布は、正規分布
$N(2400p,2400p(1-p))$式B
で近似できる。
これをグラフにすると、図Bのようになる。
図中、緑の部分が平均値を中心とした$ 95\%$の範囲である。
問題では信頼度$ 95\%$で答えよというので、回答者中の猫好きの人数である$960$が緑の部分に入るような$p$の値の範囲を求めればよい。
つまり、緑の範囲の下限を$\alpha$,上限を$\beta$とすると、
緑の部分の面積が$ 95\%$条件1
$\alpha\leqq 960\leqq\beta$条件2
が成り立つような$p$の値の範囲を求めればよい。
標準正規分布表を見る
まず条件1から解決しよう。
緑の部分の面積が$95\%=0.95$なので、そのときの緑の部分の右端の値を求める。
標準正規分布表(こちらのページ)を見るんだけど、表に載っているのはグラフの真ん中より右の面積。
正規分布のグラフは左右対称なので、図Bの緑の面積の半分の$\displaystyle \frac{0.95}{2}=0.475$を標準正規分布表で探すと、範囲の右端は
$1.96$
であることが分かる。
これをグラフに描くと、図Cができる。
正規分布の標準化
だけど、
図Bのグラフは、$N(2400p,2400p(1-p))$で
平均値が$2400p$
分散が$2400p(1-p)$
図Cのグラフは
平均値が$0$
分散が$1$
なので、そのまま比較はできない。
なので、図Bのグラフの正規分布を標準化して、図Cに合わせる。
復習
正規分布の標準化
正規分布$N(m,\sigma^{2})$に従う確率変数$X$(期待値(平均値)が$m$,標準偏差が$\sigma$)を、
$Z=\displaystyle \frac{X-m}{\sigma}$式B
とすると、$Z$は標準正規分布$N(0,1)$(期待値(平均値)が$0$,標準偏差が$1$)に従う。
式Bを使って条件2の各辺を標準化する。式が長くなるので、以下、標本の大きさの$2400$を$n$とかく。
$\displaystyle \frac{\alpha-np}{\sqrt{np(1-p)}}\leqq\frac{960-np}{\sqrt{np(1-p)}}\leqq\frac{\beta-np}{\sqrt{np(1-p)}}$式C
これをグラフに描くと、図Dができる。
図Cと図Dは同じ
平均値が$0$
分散が$1$
の正規分布(これを標準正規分布という)なので、式Cは
$-1.96\displaystyle \leqq\frac{960-np}{\sqrt{np(1-p)}}\leqq 1.96$式D
と書き直せる。
あとは計算
式Dを変形して、母比率$p$を求める。
$-1.96\sqrt{np(1-p)}\leqq 960-np\leqq 1.96\sqrt{np(1-p)}$
途中式
$-960-1.96\sqrt{np(1-p)}\leqq-np\leqq-960+1.96\sqrt{np(1-p)}$
$\displaystyle \frac{-960-1.96\sqrt{np(1-p)}}{-n}\geqq p\geqq\frac{-960+1.96\sqrt{np(1-p)}}{-n}$
$\displaystyle \frac{960-1.96\sqrt{np(1-p)}}{n}\leqq p\leqq\frac{960+1.96\sqrt{np(1-p)}}{n}$
ここで、
$\displaystyle \frac{960}{n}=\frac{960}{2400}=0.4$
$\displaystyle \frac{\sqrt{n}}{n}=\sqrt{\frac{1}{n}}$
なので、上の式は
$0.4-1.96\sqrt{\frac{p(1-p)}{n}}\leqq p\leqq 0.4+1.96\sqrt{\frac{p(1-p)}{n}}$式E
となる。
根号の中に$p$が残ってしまった。
しかし、$p$は$0\leqq p\leqq 1$の数で、根号の中の分母の$n=2400$が大きい数だから、あまり厳密に考える必要はないだろう。
なので、根号の中の$p$を標本比率の$\displaystyle \frac{960}{2400}=0.4$で代用すると、式Eは、
$0.4-1.96\sqrt{\frac{0.4\cdot(1-0.4)}{2400}}\leqq p\leqq 0.4+1.96\sqrt{\frac{0.4\cdot(1-0.4)}{2400}}$
となる。式Aと同じになった。
あとはこれを計算して、
$0.3804\leqq p\leqq 0.4196$
となる。
解答$[0.3804,\ 0.4196]$
余談
この部分の計算は、厳密には、式Dより、
$\left|\frac{960-np}{\sqrt{np(1-p)}}\right|\leqq 1.96$
両辺を2乗して、
$\displaystyle \frac{(960-p)^{2}}{np(1-p)}\leqq 1.96^{2}$
分母を払って、
$(960-p)^{2}\leqq 1.96^{2}np(1-p)$
として、$p$についての二次不等式を解くのだが、高校数学では「あとは計算」で説明した方法で十分だ。
もっと言うと、センター試験を解くだけなら、このページ最初の「公式から求める」方法が時間がかからないのでお薦めである。