大学入学共通テスト 2021年(令和3年) 本試 数学ⅡB 第3問 解説
(1)
まず、二項分布の復習から。
復習
確率$p$で事象$\mathrm{A}$が起こる試行を$n$回繰り返し、$\mathrm{A}$が起こった回数を$X$とすると、$X$の確率分布は二項分布$B(n,p)$である。
確率変数$X$の
平均値は、$np$
分散は、$np(1-p)$
標準偏差は、$\sqrt{np(1-p)}$
になる。
読書をしなかった生徒の比率(母比率)が$0.5$である母集団から一人選んだとき、それが読書をしなかった生徒である
は、
当たりが全体の$0.5$($50$%)入っているくじの中から1本引いたとき、それが当たりである
というのと同じことだ。
なので、母集団が十分に大きい場合、
$100$人を無作為に選ぶ
は、
くじを$100$回ひく
のと同じで、反復試行である。
よって、復習より、抽出した$100$人の生徒に含まれる読書をしなかった生徒数$X$は、二項分布
$B(100,0.5)$
に従う。
解答ア:3
また、復習より、$X$の平均値は、
$np=100\times 0.5$
$np$$=50$
解答イ:5, ウ:0
標準偏差は
$\sqrt{np(1-p)}=\sqrt{100\times 0.5\times 0.5}$
$\sqrt{np(1-p)}$$=\sqrt{10^{2}\times 0.5^{2}}$
$\sqrt{np(1-p)}$$=10\times 0.5$
$\sqrt{np(1-p)}$$=5$
である。
解答エ:5
(2)
二項分布と正規分布の関係について復習しておく。
復習
$n$が十分に大きい数であるとき、
二項分布$B(n,p)$
は、
正規分布$N(np,np(1-p))$
で近似できる。
復習より、$X$の確率分布は、近似的に
$N(100\cdot 0.5,100\cdot 0.5\cdot(1-0.5))=N(50,25)$
に従う。
一応確認しておくと、$N(50,25)$の
平均値は、$50$
分散は$25$だから、標準偏差は$\sqrt{25}=5$
である。
なので、確率分布図は図Aのようになる。
図中の赤い部分の面積が、求める確率$p_{5}$だ。
というわけで、正規分布表を使って赤い部分の面積を求めるんだけど、
正規分布表に載っているのは$N(0,1)$(標準正規分布)
面積を求めたいのは$N(50,25)$
だから、そのままでは正規分布表は使えない。
正規分布表が使えるように、
$N(50,25)$
を標準化して
$N(0,1)$
に変換しよう。
復習
確率変数を、
平均値$0$
標準偏差$1$
に変換することを、標準化という。
もとの確率変数を$X$とし、$X$の
平均値を$m$
標準偏差を$\sigma$
とするとき、標準化の式は
$\displaystyle \frac{X-m}{\sigma}$式A
である。
復習より、図Aを標準化すると、
$N(50,25)$は、$N(0,1)$
式Aより、$36$は
$\displaystyle \frac{36-50}{5}=-2.8$
になるので、図Aは図Bのようになる。
図Aの赤い部分の面積と図Bの赤い部分の面積は等しいので、図Bの方を使って求める。
ところが、正規分布表には$0$より右の部分の面積しか載っていない。
正規分布は左右対称なので、赤い面積とオレンジの面積は等しいから、代わりにオレンジの面積を求めよう。
正規分布表で
$2.8$
を探すと、面積は
$0.4974$
となっている。
これは、図Bの青い部分の面積だ。
$0$より右の面積は、すべての確率の半分なので、$0.5$である。
なので、図Bで
青$+$オレンジ$=0.5$
とかける。
これに、正規分布表で調べた$0.4974$を代入すると
$0.4974+$オレンジ$=0.5$
なので、
オレンジ$=0.5-0.4974$
オレンジ$$$=0.0026$
オレンジ$$$\doteqdot 0.003$
より、求める確率$p_{5}$は、選択肢の
①
である、
解答オ:1
母比率が$0.4$の場合、$X$が従う二項分布は
$B(100,0.4)$
になるから、近似する正規分布は
$N(100\cdot 0.4,100\cdot 0.4\cdot(1-0.4))=N(40,24)$
である。
この正規分布の
平均値は$40$
標準偏差は$\sqrt{24}$
だ。
さっきと同じように、これを標準化すると、
$N(40,24)$は、$N(0,1)$に
$36$は、
$\displaystyle \frac{36-40}{\sqrt{24}}=-\frac{4}{\sqrt{24}}$
に
変換される。
よって、$p_{4}$は、図Cの赤い面積にあたる。
図Bと図Cを見比べると、
確率分布は同じ$N(0,1)$
$-2.8 \lt -\displaystyle \frac{4}{\sqrt{24}}$
詳しく
$-\displaystyle \frac{4}{\sqrt{24}}$だけど、
$\sqrt{16} \lt \sqrt{24} \lt \sqrt{25}$
なので
$\displaystyle \frac{4}{\sqrt{16}} \gt \frac{4}{\sqrt{24}} \gt \frac{4}{\sqrt{25}}$
より
$-\displaystyle \frac{4}{\sqrt{16}} \lt -\frac{4}{\sqrt{24}} \lt -\frac{4}{\sqrt{25}}$
$-1 \lt -\displaystyle \frac{4}{\sqrt{24}} \lt -\frac{4}{5}$
となるから、$-1$と$-0.8$の間の数だ。
以上より、
$p_{4} \gt p_{5}$
であることが分かる。
解答カ:2
(3)
母平均の信頼区間については公式があった。
公式
母標準偏差を$\sigma$,標本平均を$\overline{X}$,標本の大きさを$n$とすると、母平均$m$の信頼区間を求める式は、
$\displaystyle \overline{X}-z\cdot\frac{\sigma}{\sqrt{n}}\leqq m\leqq\overline{X}+z\cdot\frac{\sigma}{\sqrt{n}}$式B
ただし、信頼度が$c$%のとき、$z$は、右図を標準正規分布の確率分布図として、図中の$z_{0}$の値。
特に、
信頼度$95$%のとき、$z=1.96$
信頼度$99$%のとき、$z=2.58$
である。
式Bより、
$C_{1}=\displaystyle \overline{X}-z\cdot\frac{\sigma}{\sqrt{n}}$ | |
$C_{2}=\displaystyle \overline{X}+z\cdot\frac{\sigma}{\sqrt{n}}$ |
とかける。
よって、
$C_{1}+C_{2}=\left(\overline{X}-z\cdot\frac{\sigma}{\sqrt{n}}\right)+\left(\overline{X}+z\cdot\frac{\sigma}{\sqrt{n}}\right)$
$=2\overline{X}$
$C_{2}-C_{1}=\left(\overline{X}+z\cdot\frac{\sigma}{\sqrt{n}}\right)-\left(\overline{X}-z\cdot\frac{\sigma}{\sqrt{n}}\right)$
$=2z\displaystyle \cdot\frac{\sigma}{\sqrt{n}}$
となる。
これに
$n=100$
$\overline{X}=204$
$\sigma=150$
$z=1.96$
を代入すると、
$C_{1}+C_{2}=2\cdot 204$
$=408$
解答キ:4, ク:0, ケ:8
$C_{2}-C_{1}=2\displaystyle \cdot 1.96\cdot\frac{150}{\sqrt{100}}$
$=58.8$
解答コ:5, サ:8, シ:8
となる。
これじゃ原理がゼンゼン分からないけど、原理通り解くと時間がかかるから、共通テスト本番では機械的に公式を使おう。
原理に関してはこのページを参照してほしい。
ここで考えた信頼区間は、信頼度$95$%の場合だった。
言いかえれば、$95$%の確率で、母平均$m$は信頼区間に入っている。
式にすると、$95$%の確率で
$C_{1}\leqq m\leqq C_{2}$式C
が成り立つ。
数直線にすると、図Dの緑の範囲だ。
逆に言うと、$5$%の確率で式Cは成り立たない。
つまり、式Cの外側に$m$がある。
このとき、大きい方と小さい方、図Dでいうと赤い範囲とオレンジの範囲のどちらかに$m$が存在することになる。
なので、
$C_{1}\leqq m$も$m\leqq C_{2}$も成り立つとは限らない。
解答ス:3
(4)
最初に考えたように、
読書をしなかった生徒の比率(母比率)が$p$である母集団から$100$人選び、それに含まれる読書をしなかった生徒数
は、
当たりが全体の$p$入っているくじの中から$100$本引いたときの当たりの数
と同じことだ。
なので、当たりが全体の$p$入っているくじの中から$100$本引くとして、
$36$は、校長が引いたときの当たりの数
$n$は、図書委員会が引いたときの当たりの数
だと考えられる。
このように考えると、当然ながら、
$n$と$36$の大小は分からない
ことになる。
解答セ:3
(5)
ちょっと話がややこしくなってきたので、いったん整理しておこう。
校長先生と図書委員会が別々に調査を行った。
ふたつの調査は、
母集団が同じなので、母標準偏差$\sigma$は等しい。
とりだした生徒数も同じなので、標本の大きさ$n$も等しい。
ここで(3)の公式をもう一度見ると、信頼区間は
標本平均を中心として
$\displaystyle \pm z\cdot\frac{\sigma}{\sqrt{n}}$の範囲
になっている(図E)。
$z$,$\sigma$,$n$はふたつの調査で同じ値なので、
ふたつの調査で信頼区間の幅は等しい
ことになる。
また、ふたつの調査の標本は異なるので、
標本平均は等しいとは限らない。
なので、ふたつの調査による母平均の信頼区間は、
同じ幅
大小関係は不明
であることが分かる。
よって、校長先生と図書委員会の調査による母平均の信頼区間をそれぞれ赤,オレンジで表すと、ふたつの範囲は
のように完全に重なっているかも知れないし、
のように一部が重なっているかも知れないし、
のように離れているかも知れない。
また、図は赤を右に描いたけど、オレンジが右にあるかも知れない。
ただし、何度も言うけど、赤とオレンジの幅は等しい。
以上より、正しい選択肢は
②,④
である。
解答ソ:2, タ:4 (順不同)
別解
上の解のように、ふたつの信頼区間のイメージが思い描ければいいんだけど、そうじゃなければ仕方がないから計算だ。
校長先生の調査の標本平均を$\overline{X_{C}}$ 図書委員会の調査の標本平均を$\overline{X_{D}}$ とすると、式Bより、
$C_{1}=\displaystyle \overline{X_{C}}-z\cdot\frac{\sigma}{\sqrt{n}}$ | 式D | |
$C_{2}=\displaystyle \overline{X_{C}}+z\cdot\frac{\sigma}{\sqrt{n}}$ | ||
$D_{1}=\displaystyle \overline{X_{D}}-z\cdot\frac{\sigma}{\sqrt{n}}$ | ||
$D_{2}=\displaystyle \overline{X_{D}}+z\cdot\frac{\sigma}{\sqrt{n}}$ |
とかける。
以上を頭に置いて、選択肢をひとつずつ確認しよう。
⓪
$C_{1}=D_{1}$,$C_{2}=D_{2}$に式Dを代入すると、
$C_{1}=D_{1}$より、
$\displaystyle \overline{X_{C}}-z\cdot\frac{\sigma}{\sqrt{n}}=\overline{X_{D}}-z\cdot\frac{\sigma}{\sqrt{n}}$
$\overline{X_{C}}=\overline{X_{D}}$
$C_{2}=D_{2}$より、
$\displaystyle \overline{X_{C}}+z\cdot\frac{\sigma}{\sqrt{n}}=\overline{X_{D}}+z\cdot\frac{\sigma}{\sqrt{n}}$
$\overline{X_{C}}=\overline{X_{D}}$
となる。
なので、$C_{1}=D_{1}$かつ$C_{2}=D_{2}$になるのは、ふたつの調査の標本平均が等しいとき。
ふたつの調査の標本平均は等しいとは限らないので、⓪は誤り。
①
$C_{1} \lt D_{2}$,$D_{1} \lt C_{2}$に式Dを代入すると、
$C_{1} \lt D_{2}$より、
$\displaystyle \overline{X_{C}}-z\cdot\frac{\sigma}{\sqrt{n}} \lt \overline{X_{D}}+z\cdot\frac{\sigma}{\sqrt{n}}$
$\displaystyle \overline{X_{C}}-\overline{X_{D}} \lt 2z\cdot\frac{\sigma}{\sqrt{n}}$式E
$D_{1} \lt C_{2}$より、
$\displaystyle \overline{X_{D}}-z\cdot\frac{\sigma}{\sqrt{n}} \lt \overline{X_{C}}+z\cdot\frac{\sigma}{\sqrt{n}}$
$-2z\displaystyle \cdot\frac{\sigma}{\sqrt{n}} \lt \overline{X_{C}}-\overline{X_{D}}$式F
となる。
これを数直線で表すと、図Fのようになる。
$C_{1} \lt D_{2}$と$D_{1} \lt C_{2}$のどちらか一方だけが成り立つのは、図Fの赤い範囲。
$\overline{X_{C}}-\overline{X_{D}}$はふたつの調査の標本平均の差なので、赤い範囲は
ふたつの調査の標本平均の差が$2z\displaystyle \cdot\frac{\sigma}{\sqrt{n}}$より大きいとき
にあたる。
ふたつの調査の標本平均の差は分からないので、①は誤り。
②
$D_{2} \lt C_{1}$,$C_{2} \lt D_{1}$に式Dを代入すると、
$D_{2} \lt C_{1}$より、
$\displaystyle \overline{X_{D}}+z\cdot\frac{\sigma}{\sqrt{n}} \lt \overline{X_{C}}-z\cdot\frac{\sigma}{\sqrt{n}}$
$2z\displaystyle \cdot\frac{\sigma}{\sqrt{n}} \lt \overline{X_{C}}-\overline{X_{D}}$式G
$C_{2} \lt D_{1}$より、
$\displaystyle \overline{X_{C}}+z\cdot\frac{\sigma}{\sqrt{n}} \lt \overline{X_{D}}-z\cdot\frac{\sigma}{\sqrt{n}}$
$\displaystyle \overline{X_{C}}-\overline{X_{D}} \lt -2z\cdot\frac{\sigma}{\sqrt{n}}$式H
となる。
式G,式Hより、②は、
ふたつの調査の標本平均の差が$2z\displaystyle \cdot\frac{\sigma}{\sqrt{n}}$より大きくなることもある
という意味であることが分かる。
なので、②は正しい。
③,④,⑤
コサシを求めるときに計算したように、
$C_{2}-C_{1}=2z\displaystyle \cdot\frac{\sigma}{\sqrt{n}}$
だった。
式Dから$D_{2}-D_{1}$を計算すると、
$D_{2}-D_{1}=2z\displaystyle \cdot\frac{\sigma}{\sqrt{n}}$
となる。
なので、常に
$C_{2}-C_{1}=D_{2}-D_{1}$
が成り立つ。
よって、
③,⑤は誤り。
④は正しい。
以上より、正しい選択肢は
②,④
である。
解答ソ:2, タ:4 (順不同)