数学Ⅰ : データの分析 データの変換

はじめに

重要事項

データxの平均値をx,分散をsx2,標準偏差をsxとする。
データのすべてをa倍してbを加え、
y=ax+b
としてデータyをつくるとき、
データy平均値y=ax+b 分散sy2=a2sx2 標準偏差sy=|a|sx である。

このページでは、上の重要事項の説明をする。

視覚的な説明

図A
データの変換 解説図A

A君,B君,C君,D君4人の小テストの成績を棒グラフにした、図Aのようなデータを考えてみよう。
赤い点線が平均値で、緑の矢印の長さがそれぞれの偏差を表している。偏差の2乗の平均が分散で、分散の正の平方根が標準偏差だから、緑の矢印の長さで分散や標準偏差が決まる。


データに定数を加えたとき

図Aのデータのそれぞれに5点たすと、図Bのグラフになる。

図B
データの変換 解説図B

図Aと図Bを見比べると、図Bは図Aのグラフを右に5平行移動したものだ。

赤い線も右に5平行移動するので、平均値は5増える
緑の矢印の長さは変わらないので、分散と標準偏差は変わらない

今度は図Aのデータのそれぞれに20点たしてみる。すると、グラフは図Cになる。

図C
データの変換 解説図C

図Aと図Cを見比べると、図Cは図Aのグラフを右に20平行移動したものだ。

赤い線も右に20平行移動するので、平均値は20増える
緑の矢印の長さは変わらないので、分散と標準偏差は変わらない

このことから、もとのデータのすべてに+bした場合、
平均値は、もとの平均値+bになる。 分散,標準偏差は変わらない。 ことが分かる。


データを定数倍したとき

図Aのデータのそれぞれを1.5倍すると、図Dのグラフになる。上のグラフが図A、下のグラフは図Aを1,5倍したものだ。

図D
データの変換 解説図D

ふたつのグラフを見比べると、赤い線も1.5倍の位置に移動し、緑の矢印の長さも1.5倍になっているのに気づく。

なので、
平均値は1.5倍になる
分散は緑の矢印の2乗の平均だから、分散は1.52倍になる
標準偏差分散の正の平方根なので、1.52=1.5より、標準偏差は1.5倍になる

標準偏差はデータの散らばりを表すので、散らばりが1.5倍になるから標準偏差も1.5倍、分散はその2乗なので1.52倍、と思ってもらってもいい。本当は分散が先に決まるので、順番が逆だけど、センター試験では問題ないです。

図Aのデータのそれぞれを3倍すると、図Eのグラフになる。

図E
データの変換 解説図E

ふたつのグラフを見比べると、赤い線も3倍の位置に移動し、緑の矢印の長さも3倍になっているのに気づく。

なので、
平均値は3倍になる
分散は32倍になる
標準偏差は3倍になる

これも、標準偏差はデータの散らばりを表すので、散らばりが3倍になるから標準偏差も3倍、分散はその2乗なので32倍、と思ってもらってもいいです。

このことから、もとのデータのすべてをa倍した場合、 平均値は、もとの平均値のa倍になる。 分散は、もとの分散のa2倍になる。 標準偏差は、もとの標準偏差の|a|倍になる。 ことが分かる。


まとめ

以上より、最初に書いた式のとおり

重要事項

データxの平均値をx,分散をsx2,標準偏差をsxとする。
データのすべてをa倍してbを加え、
y=ax+b
としてデータyをつくるとき、
データy平均値y=ax+b 分散sy2=a2sx2 標準偏差sy=|a|sx である。

ことが分かる。

式による説明

データ{x1,x2,x3,,xn}があり、
平均値を
    1n(x1+x2+x3++xn)=x式A
分散を
    1n{(x1x)2+(x2x)2+(x3x)2+
            +(xnx)2}=sx2式B
標準偏差を
    sx2=sx式C
とする。

データ{y1,y2,y3.,yn}を、定数abを用いて
y1=ax1+b
y2=ax2+b
y3=ax3+b

yn=axn+b
と決める。式D


平均

yの平均yは、
y=1n(y1+y2+y3++yn)
y=1n{(ax1+b)+(ax2+b)+(ax3+b)+
            +(axn+b)}
y=1n{a(x1+x2+x3++xn)+nb}
y=a1n(x1+x2+x3++xn)+b

式Aより、緑の部分はxなので、
y=ax+b式E
となる。


分散・標準偏差

yの分散sy2は、
sy2=1n{(y1y)2+(y2y)2+(y3y)2+
            +(yny)2}

これに式D,Eを代入して、
sy2=1n[{(ax1+b)(ax+b)}2
          +{(ax2+b)(ax+b)}2
          +{(ax3+b)(ax+b)}2
          +
          +{(axn+b)(ax+b)}2]
sy2=1n{(ax1ax)2+(ax2ax)2
          +(ax3ax)2++(axnax)2}
sy2=1n{a2(x1x)2+a2(x2x)2
          +a2(x3x)2++a2(xnx)2}
sy2=a21n{(x1x)2+(x2x)2
          +(x3x)2++(xnx)2}

式Bより、緑の部分はsx2なので、
sy2=a2sx2
となる。

yの標準偏差syは、分散の正の平方根なので、
sy=a2sx2
sxxの標準偏差だから、0sxなので、
sy=a2sx
a<0のとき、
sy=asx
0aのとき、
sy=asx

あわせて、
sy=|a|sx
である。


まとめ

以上より、最初に書いた式のとおり

重要事項

データxの平均値をx,分散をsx2,標準偏差をsxとする。
データのすべてをa倍してbを加え、
y=ax+b
としてデータyをつくるとき、
データy平均値y=ax+b 分散sy2=a2sx2 標準偏差sy=|a|sx である。

ことが分かる。