数学Ⅰ : データの分析 データの変換
はじめに
重要事項
データ$x$の平均値を$\overline{x}$,分散を$s_{x}^{2}$,標準偏差を$s_{x}$とする。
データのすべてを$a$倍して$b$を加え、
$y=ax+b$
としてデータ$y$をつくるとき、
データ$y$の
平均値$\overline{y}=a\overline{x}+b$
分散$s_{y}^{2}=a^{2}s_{x}^{2}$
標準偏差$s_{y}=|a|s_{x}$
である。
このページでは、上の重要事項の説明をする。
視覚的な説明
A君,B君,C君,D君4人の小テストの成績を棒グラフにした、図Aのようなデータを考えてみよう。
赤い点線が平均値で、緑の矢印の長さがそれぞれの偏差を表している。偏差の2乗の平均が分散で、分散の正の平方根が標準偏差だから、緑の矢印の長さで分散や標準偏差が決まる。
データに定数を加えたとき
図Aのデータのそれぞれに5点たすと、図Bのグラフになる。
図Aと図Bを見比べると、図Bは図Aのグラフを右に$5$平行移動したものだ。
赤い線も右に$5$平行移動するので、平均値は$5$増える。
緑の矢印の長さは変わらないので、分散と標準偏差は変わらない。
今度は図Aのデータのそれぞれに20点たしてみる。すると、グラフは図Cになる。
図Aと図Cを見比べると、図Cは図Aのグラフを右に$20$平行移動したものだ。
赤い線も右に$20$平行移動するので、平均値は$20$増える。
緑の矢印の長さは変わらないので、分散と標準偏差は変わらない。
このことから、もとのデータのすべてに$+b$した場合、
平均値は、もとの平均値$+b$になる。
分散,標準偏差は変わらない。
ことが分かる。
データを定数倍したとき
図Aのデータのそれぞれを$1.5$倍すると、図Dのグラフになる。上のグラフが図A、下のグラフは図Aを$1,5$倍したものだ。
ふたつのグラフを見比べると、赤い線も$1.5$倍の位置に移動し、緑の矢印の長さも$1.5$倍になっているのに気づく。
なので、
平均値は$1.5$倍になる。
分散は緑の矢印の2乗の平均だから、分散は$1.5^{2}$倍になる。
標準偏差分散の正の平方根なので、$\sqrt{1.5^{2}}=1.5$より、標準偏差は$1.5$倍になる。
標準偏差はデータの散らばりを表すので、散らばりが$1.5$倍になるから標準偏差も$1.5$倍、分散はその2乗なので$1.5^{2}$倍、と思ってもらってもいい。本当は分散が先に決まるので、順番が逆だけど、センター試験では問題ないです。
図Aのデータのそれぞれを$3$倍すると、図Eのグラフになる。
ふたつのグラフを見比べると、赤い線も$3$倍の位置に移動し、緑の矢印の長さも$3$倍になっているのに気づく。
なので、
平均値は$3$倍になる。
分散は$3^{2}$倍になる。
標準偏差は$3$倍になる。
これも、標準偏差はデータの散らばりを表すので、散らばりが$3$倍になるから標準偏差も$3$倍、分散はその2乗なので$3^{2}$倍、と思ってもらってもいいです。
このことから、もとのデータのすべてを$a$倍した場合、 平均値は、もとの平均値の$a$倍になる。 分散は、もとの分散の$a^{2}$倍になる。 標準偏差は、もとの標準偏差の$|a|$倍になる。 ことが分かる。
まとめ
以上より、最初に書いた式のとおり
重要事項
データ$x$の平均値を$\overline{x}$,分散を$s_{x}^{2}$,標準偏差を$s_{x}$とする。
データのすべてを$a$倍して$b$を加え、
$y=ax+b$
としてデータ$y$をつくるとき、
データ$y$の
平均値$\overline{y}=a\overline{x}+b$
分散$s_{y}^{2}=a^{2}s_{x}^{2}$
標準偏差$s_{y}=|a|s_{x}$
である。
ことが分かる。
式による説明
データ$\{x_{1},x_{2},x_{3},\cdots,x_{n}\}$があり、
平均値を
$\displaystyle \frac{1}{n}(x_{1}+x_{2}+x_{3}+\cdots+x_{n})=\overline{x}$式A
分散を
$\displaystyle \frac{1}{n}\{(x_{1}-\overline{x})^{2}+(x_{2}-\overline{x})^{2}+(x_{3}-\overline{x})^{2}+$
$\cdots+(x_{n}-\overline{x})^{2}\}=s_{x}^{2}$式B
標準偏差を
$\sqrt{s_{x}^{2}}=s_{x}$式C
とする。
データ$\{y_{1},y_{2},y_{3}.\cdots,y_{n}\}$を、定数$a$,$b$を用いて
$y_{1}=ax_{1}+b$
$y_{2}=ax_{2}+b$
$y_{3}=ax_{3}+b$
$\vdots$
$y_{n}=ax_{n}+b$
と決める。式D
平均
$y$の平均$\overline{y}$は、
$\displaystyle \overline{y}=\frac{1}{n}(y_{1}+y_{2}+y_{3}+\cdots+y_{n})$
$\displaystyle \overline{y}$$\displaystyle =\frac{1}{n}\{(ax_{1}+b)+(ax_{2}+b)+(ax_{3}+b)+$
$\cdots+(ax_{n}+b)\}$
$\displaystyle \overline{y}$$\displaystyle =\frac{1}{n}\{a(x_{1}+x_{2}+x_{3}+\cdots+x_{n})+nb\}$
$\displaystyle \overline{y}$$\displaystyle =a\cdot$$\frac{1}{n}(x_{1}+x_{2}+x_{3}+\cdots+x_{n})$$+b$
式Aより、緑の部分は$\overline{x}$なので、
$\overline{y}$$=a\overline{x}+b$式E
となる。
分散・標準偏差
$y$の分散$s_{y}^{2}$は、
$s_{y}^{2}=\displaystyle \frac{1}{n}\{(y_{1}-\overline{y})^{2}+(y_{2}-\overline{y})^{2}+(y_{3}-\overline{y})^{2}+$
$\cdots+(y_{n}-\overline{y})^{2}\}$
これに式D,Eを代入して、
$s_{y}^{2}\displaystyle $$\displaystyle =\frac{1}{n}[\{(ax_{1}+b)-(a\overline{x}+b)\}^{2}$
$+\{(ax_{2}+b)-(a\overline{x}+b)\}^{2}$
$+\{(ax_{3}+b)-(a\overline{x}+b)\}^{2}$
$+\cdots$
$+\{(ax_{n}+b)-(a\overline{x}+b)\}^{2}]$
$s_{y}^{2}\displaystyle $$\displaystyle =\frac{1}{n}\{(ax_{1}-a\overline{x})^{2}+(ax_{2}-a\overline{x})^{2}$
$+(ax_{3}-a\overline{x})^{2}+\cdots+(ax_{n}-a\overline{x})^{2}\}$
$s_{y}^{2}\displaystyle $$\displaystyle =\frac{1}{n}\{a^{2}(x_{1}-\overline{x})^{2}+a^{2}(x_{2}-\overline{x})^{2}$
$+a^{2}(x_{3}-\overline{x})^{2}+\cdots+a^{2}(x_{n}-\overline{x})^{2}\}$
$s_{y}^{2}\displaystyle $$\displaystyle =a^{2}$$\frac{1}{n}\{(x_{1}-\overline{x})^{2}+(x_{2}-\overline{x})^{2}$
$+(x_{3}-\overline{x})^{2}+\cdots+(x_{n}-\overline{x})^{2}\}$
式Bより、緑の部分は$s_{x}^{2}$なので、
$s_{y}^{2}$$=a^{2}s_{x}^{2}$
となる。
$y$の標準偏差$s_{y}$は、分散の正の平方根なので、
$s_{y}=\sqrt{a^{2}s_{x}^{2}}$
$s_{x}$は$x$の標準偏差だから、$0\leqq s_{x}$なので、
$s_{y}=\sqrt{a^{2}}s_{x}$
$a \lt 0$のとき、
$s_{y}=-as_{x}$
$0\leqq a$のとき、
$s_{y}=as_{x}$
あわせて、
$s_{y}=|a|s_{x}$
である。
まとめ
以上より、最初に書いた式のとおり
重要事項
データ$x$の平均値を$\overline{x}$,分散を$s_{x}^{2}$,標準偏差を$s_{x}$とする。
データのすべてを$a$倍して$b$を加え、
$y=ax+b$
としてデータ$y$をつくるとき、
データ$y$の
平均値$\overline{y}=a\overline{x}+b$
分散$s_{y}^{2}=a^{2}s_{x}^{2}$
標準偏差$s_{y}=|a|s_{x}$
である。
ことが分かる。