大学入試センター試験 2020年(令和2年) 本試 数学ⅠA 第2問 [2] 解説
(1)
まず、四分位数の復習をしておこう。
復習
第1四分位数
データの下位半分の中央値。データの大きさが奇数のときは、全体の中央値を除いて偶数にし、その下位半分の中央値をとる。
第2四分位数
中央値に等しい。データの大きさが偶数のときには、中央2数の平均値。
第3四分位数
データの上位半分の中央値。データの大きさが奇数のときは、全体の中央値を除いて偶数にし、その上位半分の中央値をとる。
四分位範囲
第3四分位数$-$第1四分位数。
復習より、$99$個の値を小さい順に並べると、図Aのようになる。
アドバイス
ここで気をつけなきゃいけないことが2つある。
1つめは、図Aの説明に「小さい順に並べる」と書いたけど、すべての観測値が異なる値とは限らないこと。
つまり
$\lt$$\lt\cdots\lt$$\lt$
とは限らない。
同じ値が含まれていることもある。
極端な話、$99$個の観測値全てが等しくて
$=$$=\cdots=$$=$
ということだってあり得る。
2つめは、四分位数はデータを並べたときの順位だけで決まること。
なので、平均値や標準偏差とは関係がない。
ここまで理解したところで、選択肢をひとつずつ確認しよう。
アドバイスに書いたように、四分位数と平均値は無関係。
なので、常に成り立つわけではない。
これもアドバイスに書いたように、四分位数と標準偏差は無関係。
なので、常に成り立つわけではない。
観測値を小さい順に左から並べると、確かに図Aのように中央値の左には値が$49$個ある。
けれど、アドバイスに書いたように、この$49$個の値が中央値より小さいとは限らない。
$49$個の値がすべて中央値と等しいことだってあり得る。
なので、常に成り立つわけではない。
図Bのように、最大値に等しい観測値(オレンジ色)を削除した場合、データの大きさは1個減って偶数になり、上位$49$個は左に一つずれる。けれど、下位$49$個は変わらない。
下位$49$個の中央値(赤)が第1四分位数なので、これも変わらない。
なので、常に成り立つ。
アドバイスに書いたけど、観測値には同じ値が含まれていることもある。
なので、図Aのように第1四分位数の左には$24$個値があるけれど、そのうち何個が第1四分位数より小さいかは分からない。
同様に、第3四分位数より右にある$24$個のうち、何個が第3四分位数より大きいかは分からない。
よって、削除される観測値の数は$48$個とは限らない。
なので、常に成り立つわけではない。
第1四分位数を$a$,第3四分位数を$b$とすると、四分位範囲は
$b-a$
である。
第1四分位数(つまり$a$)より小さい観測値をすべて削除すると、データの最小値は$a$になる。
さらに、第3四分位数(つまり$b$)より大きい観測値をすべて削除すると、データの最大値は$b$になる。
よって、削除後のデータの範囲は
$b-a$
となるから、常に成り立つ。
以上より、常に成り立つものは
③⑤
である。
解答コ:3, サ:5 (順不同)
(2)
まず、箱ひげ図の復習から。
復習
範囲は、最大値$-$最小値
四分位範囲は、第3四分位数$-$第1四分位数
復習したところで、選択肢をひとつずつ確認しよう。
問題文中の図1のP10とP11だけを取り出して、図Cをつくった。
復習より、四分位範囲は箱の幅にあたる。
図Cを見ると、P10の箱(緑の箱)の幅は明らかに$1$より大きい。
なので、誤り。
図Cを見ると、P11の中央値(オレンジの線)はP10の中央値(赤い線)より小さい。
つまり、下に行くほど中央値が大きいわけではない。
なので、誤り。
問題文中の図1のP1とP47だけを取り出して、図Dをつくった。
P1の最大値(赤い線)とP47の最小値(オレンジの線)の差は$1.5$より大きい。
よって、P1,P47からそれぞれどの値を取り出しても、差は$1.5$以上である。
なので、正しい。
以上より、正しい組合せは
⑥
である。
解答シ:6
(3)
本文中の図2と箱ひげ図に、分かりやすいように色をつけて図E,図Fをつくった。
図Eと図Fで、同じ色のところは同じ階級だ。
それぞれの階級は、左端を含み、右端を含まない。
図Eより、この県の最小値は紫の階級,最大値は赤の階級に入る。
なので、図Fでも、最小値は紫の階級,最大値は赤の階級にないといけない。
よって、⓪①②③⑥⑦は不適。
残るのは④と⑤だ。
④と⑤の中央値(第2四分位数)は同じオレンジの階級に含まれているので、見分けるのには使えない。
第1四分位数を使ってみよう。
この県の市区町村数は$20$なので、データの大きさは$20$。
下位半分の市区町村数は$10$で偶数だから、第1四分位数は下から5番目と6番目の値の平均値だ。
図Eを見ると、下から5番目と6番目の値はともに緑の階級に含まれている。
なので、5番目と6番目の平均値である第1四分位数も緑の階級に含まれていることになる。
図Fを見ると、④は第1四分位数が緑の階級だけど、⑤はオレンジの階級だから不適。
以上より、ヒストグラムに対応する箱ひげ図は
④
である。
解答ス:4
アドバイス
ちなみに、第3四分位数を使うと、次のように上手く行かない。
この県の市区町村数は$20$なので、データの大きさは$20$。
上位半分の市区町村数は$10$で偶数だから、第3四分位数は上から5番目と6番目の値の平均値だ。
図Eを見ると、
上から5番目の値は青の階級
上から6番目の値はオレンジの階級
に含まれているため、平均値がどちらの階級に入るか分からない。
なので、第3四分位数は使えない。
(4)
最後は、散布図からヒストグラムを見つける問題だ。
一見面倒だけど、たいしたことはないので落ち着いて解こう。
図Gは、問題文中の図3に色をつけたものだ。
まず、図中の斜めの線の意味を考えよう。
図Gの赤い線は、問題文の説明から、切片が$7.5$で傾きが$1$の直線だ。
なので、横軸を$x$,縦軸を$y$とすると、赤い線の式は
$y=x+7.5$
より
$y-x=7.5$式A
である。
いま、横軸は男性の平均寿命,縦軸は女性の平均寿命なので、式Aは
女性の平均寿命$-$男性の平均寿命$=7.5$
とかける。
つまり、この線上は、男女の平均寿命の差が$7.5$である。
同様に図Gのオレンジの線を考えると、
女性の平均寿命$-$男性の平均寿命$=7.0$
となるから、この線上は男女の平均寿命の差が$7.0$だ。
このことから、赤い線とオレンジの線の間にある点(オレンジの線上にある場合を含む)は、男女の平均寿命の差が$7.0$以上$7.5$未満であり、含まれる点の数は3個であることが分かる。
というわけで、ヒストグラムのうち、$7.0$以上$7.5$未満の度数が3であるものが答えだ。
これに当てはまるものは
③
である。
解答セ:3