分散の真実
統計の分野で、よく使われる統計量としては、平均、分散、標準偏差が有名どころで、こ
れらの数値から資料のおおよその雰囲気が伝わる。
標準偏差は分散の平方根なので、分散が求まれば標準偏差は直ちに求められる。
平均は、すべての資料の数値を加えて資料数で割れば直ぐに求められる。一般の方に
最も馴染みがある統計量だろう。
それに対して、分散は、
偏差(資料の数値と平均の差)の2乗の平均
ということもあり、何となく計算することが億劫になりそうな...雰囲気。
最近、この分散に関して、次のような計算法があることを知った。
この方法を用いて、暗算で分散でも求めてみようかという気にさせられるから不思議だ。
例 データ数が2個の場合 データ
: x1
、x2
平均 m=(x1+x2)/2
分散 V={(x1−m)2+(x2−m)2}/2=(x1−x2)2/4
例 データ数が3個の場合 データ
: x1 、x2
、x3
平均 m=(x1+x2+x3)/3
分散 V={(x1−m)2+(x2−m)2+(x3−m)2}/3 が定義であるが、
分散=(2乗の平均)−(平均の2乗)
という公式を用いる方が計算がスッキリするだろう。
すなわち、 V=(x12+x22+x32)/3−{(x1+x2+x3)/3}2
=(2x12+2x22+2x32−2x1x2−2x2x3−2x3x1)/9
={(x1−x2)2+(x2−x3)2+(x3−x1)2}/32
この公式を知っていれば、たとえば、データ
: 2 、4
、5 の分散は暗算で求められるか
も...。
すなわち、 V=(4+1+9)/9=14/9
(コメント) 平均の計算を経由せず、データから直に求められる点が素晴らしいですね!
もっと、データの個数を増やそう。
例 データ数が4個の場合 データ
: x1 、x2 、x3
、x4
V=(x12+x22+x32+x42)/4−{(x1+x2+x3+x4)/4}2
=(3x12+3x22+3x32+3x42−2x1x2−2x1x3−2x1x4−2x2x3−2x2x4−2x3x4)/16
={(x1−x2)2+(x1−x3)2+(x1−x4)2+(x2−x3)2+(x2−x4)2+(x3−x4)2}/42
上記の計算から、一般化することは容易だろう。
すなわち、
となる。
(コメント) 分散の計算式から「平均」の言葉が消えて、こんなにも分かりやすい式になると
は!始めから「この式で分散を求めます」と言ってくれた方が統計嫌いが減らせる
かも...。
ただ、この公式は、データの個数が増えると計算量は2乗に比例して増大するので、あま
りデータ数が多い場合は実用的ではない。せいぜい5個ぐらいまでか...な?
例 データ
: 4 、6 、 3 、6
、4 の分散を求めよ。
V=(4+1+4+0+9+0+4+9+1+4)/25=36/25
なお、参考までに、標準偏差は分散の平方根なので、 6/5 となる。
(追記) 平成26年1月18日付け
分散は、偏差(資料の数値と平均の差)の2乗の平均 で計算されるが、なぜ平均との偏
差を考えるのだろう。今までは、平均からの散らばり方を数量化するためと思っていたが、
最近、別な意味があることを知った。
例えば、3個のデータ a、b、c を考え、その平均をmとする。
関数 F(x)={(a−x)2+(b−x)2+(c−x)2}/3 とおく。このとき、
F(x)={3x2−2(a+b+c)x+a2+b2+c2}/3
={x−(a+b+c)/3}2−(a+b+c)2/9+(a2+b2+c2)/3
={x−(a+b+c)/3}2+(2a2+2b2+2c2−2ab−2bc−2ca)/9
=(x−m)2+{(a−b)2+(b−c)2+(c−a)2}/9
よって、関数 F(x)は、x=mのとき最小で、最小値は、
F(m)={(a−m)2+(b−m)2+(c−m)2}/3={(a−b)2+(b−c)2+(c−a)2}/9
このように計算を進めると、なぜ分散の定義で平均が登場するのかとか、上記の平均を
使わない計算公式の意味が明確になってくる。
(追記) 標準偏差についての話題を、当HPがいつもお世話になっているHN「YI」さんより頂
いた。(平成26年5月28日付け)
3個の自然数 a、b、c があるとき、a、b、c の標準偏差は多くの場合無理数になります。
a、b、c の標準偏差が、0以外の整数になることはあるでしょうか。
a、b、c が 100以下のときに、解はありませんでした。
平均を求めて、偏差を出して、・・・と計算が長く、証明は大変そうな気がします。
DD++さんからのコメントです。(平成26年5月28日付け)
ないと思います。以下で証明できていると思いますのでご確認ください。
a、b、c の標準偏差をσとすると、σ2=(a2+b2+c2)/3-(a+b+c)2/9 で、これを整理、変形
して、
9σ2=(a-b)2+(b-c)2+(c-a)2 …… (1)
(1)を満たす自然数 a、b、c およびσが存在しないことを背理法で証明する。
いま、σが最小の自然数になる場合を考える。
(a-b)+(b-c)+(c-a)=0 より、(a-b)、(b-c)、(c-a)は、1つが偶数で2つが奇数、または全て偶数。
仮に、(a-b)、(b-c)、(c-a) の1つは偶数で2つは奇数だとすると、
(a-b)2+(b-c)2+(c-a)2≡2 (mod 4) となり、9σ2≡0 または 1 (mod 4) と矛盾。
仮に、(a-b)、(b-c)、(c-a) が全て偶数 かつ a が偶数とすると、b も c も偶数、σも偶数で、
a=2a'、b=2b'、c=2c'、σ=2σ' とおくと、9σ'2=(a'-b')2+(b'-c')2+(c'-a')2 かつ σ'<σ
これはσの最小性に矛盾。
仮に、(a-b)、(b-c)、(c-a) が全て偶数 かつ a が奇数とすると、b と c は奇数で、σは偶数
a=2a'-1、b=2b'-1、c=2c'-1、σ=2σ' とおくと、9σ'2=(a'-b')2+(b'-c')2+(c'-a')2 かつ σ'<σ
これはσの最小性に矛盾。
よって、(1)を満たす自然数 a、b、c およびσは存在しない。すなわち、3つの自然数の標
準偏差が自然数になることはない。
らすかるさんからのコメントです。(平成26年5月28日付け)
DD++さんとちょっと違う証明です。途中までは、DD++さんと同じ計算になりますので省略し
ます。
(標準偏差)=√{(a-b)2+(b-c)2+(c-a)2}/9 において、a-b=u、b-c=v とおくと、
c-a=-(u+v) だから、(標準偏差)=√{u2+v2+(u+v)2}/9=√{2(u2+v2+uv)}/9
u、v のいずれかが奇数だと、u2+v2+uv が奇数となり不適。
よって、u と v は、両方とも偶数なので、両方とも2で割り、√の外に2を出すことができる。
この操作で、u、v のいずれかが奇数になると、u2+v2+uv が奇数となり不適なので、u、vは
何回割っても偶数、すなわち、u=v=0。
従って、標準偏差が0以外の整数になることはない。
(コメント) なるほど...。
YI さんからの続報です。(平成26年5月31日付け)
数を増やして、4つの数の標準偏差について考えてみると、何らかの n で、
n-s 、n-s 、n+s 、n+s
の標準偏差は明らかに、s になるので、自明解として除外。すると、以下のようになります。
3:1 3 3 9 、5:1 7 9 15 、6:1 5 5 17 、7:1 3 9 19 、9:1 1 7 23 、10:1 13
17 29
11:1 1 3 27 、12:1 9 9 33 、13:1 3 19 33 、14:1 5 17 37 、15:1 11 11 41
17:1 3 9 43 、18:1 1 13 45 、19:1 1 23 47
と続き、作れないのは、1、2、4、8、16、32、64、・・・ と、2の累乗になるようです。
(ちなみに、これらは見つかった中で合計が一番小さいものを選んでいます。)
YI さんからのコメントです。(平成26年6月1日付け)
64も作れないことを確認しました。
(追記) 令和2年6月11日付け
平均と分散に関する問題をまとめてみました。(参考:裏技の記録 「平均と分散を求める」)
問題 20人の生徒が、問題が2問(1問1点で2点満点)のテストを受けた。20人の得点を
合計すると、28点であった。
(1) 平均点を求めよ。
(2) 1点の生徒が8人のとき、0点と2点の生徒の人数を求め、得点の分散と標準偏差を
求めよ。
(解)(1) 28÷20=1.4(点)
(2) 28−1×8=20 で、20÷2=10 より、2点の生徒は、10人、0点の生徒は、2人
よって、得点の2乗の平均は、(02×2+12×8+22×10)÷20=48÷20=2.4
したがって、 分散=2.4−1.42=2.4−1.96=0.44 で、
標準偏差=√0.44=0.66 (終)
問題 生徒10人に対して、10点満点の数学の小テストを2回行った。1回目の小テストの
成績は平均点5(点)、標準偏差2(点)であった。
2回目の小テストでは、成績が1回目3点から2点上がって5点になった生徒が3人、5点
から3点上がって8点になった生徒が2人、逆に7点から1点下がって6点になった生徒が
2人いた。
他の3人の成績は、それぞれ1回目と変わらなかった。
このとき、1回目の小テストの成績の分散と2回目の小テストの平均、標準偏差を求めよ。
(出典) 立命館大学 薬学方式(2020)
(解) 1回目の小テストの成績で標準偏差2(点)より、分散=(標準偏差)2=4
3点→5点 ・・・ 3人
5点→8点 ・・・ 2人
7点→6点 ・・・ 2人
a点 ・・・ 1人
b点 ・・・ 1人
c点 ・・・ 1人
題意より、 (3×3+5×2+7×2+a+b+c)/10=5 なので、 a+b+c=17
また、(32×3+52×2+72×2+a2+b2+c2)/10−52=4 なので、
a2+b2+c2=115
よって、2回目の小テストの成績で、平均は、
(5×3+8×2+6×2+a+b+c)/10=(43+17)/10=6
分散は、 (52×3+82×2+62×2+a2+b2+c2)/10−62=390/10−62=3
よって、標準偏差は、 √3 (終)
(コメント) 高校時代にチラッと統計を学ぶ機会があり、そこで学んだ公式が、
(分散)=(2乗の平均)−(平均の2乗)
で、これ以外学んだ記憶がない。かなり重宝する公式で、計算の軽減化に威力を発揮する。
問題 A君は小テスト(1回当たり10点満点)を5回受けた。1回目は10点、2回目は4点
で、Aの5回の平均点と中央値は、ともに6点で、標準偏差は2√2であった。
このとき、3〜5回目の点数を求めよ。(2、6、8)
(解) 3〜5回目の点数を、a、b、c (a≦b≦c)とすると、題意より、
10+4+a+b+c=6×5=30 なので、 a+b+c=16
(102+42+a2+b2+c2)/5−62=(2√2)2 なので、 a2+b2+c2=104
データの個数が奇数個で、中央値が6であることから、 b=6
よって、 a+c=10 、 a2+c2=68 を解くと、 a=2 、c=8
以上から、3〜5回目の点数は、 2点、6点、8点 である。 (終)
問題 36 のすべての正の約数の平均をm、分散をv とするとき、v/m の値を求めよ。
(解) 36 のすべての正の約数は、
1、2、3、4、6、9、12、18、36
よって、 m=(1+2+3+4+6+9+12+18+36)/9=91/9
x2の平均=(1+4+9+16+36+81+144+324+1296)/9=1911/9=637/3
よって、 v=637/3−8281/81=8918/81
v/m=8918/81÷(91/9)=98/9 (終)
(追記) 令和3年3月7日付け
私の高校時代は、統計の問題というと、
(分散)=(2乗の平均)−(平均の2乗)
を知っていれば十分だったような気がするが、最近は、大学入試センター試験などでも、相
関係数を求めさせる問題が散見されるようになった。相関係数は、
相関係数=(x、yの共分散)/(xの標準偏差)(yの標準偏差)
で求められ、正の相関、負の相関などを数値的に表現する量である。
相関係数は、−1以上で1以下の数で、
相関係数が1に近い数であれば、強い正の相関
相関係数が−1に近い数であれば、強い負の相関
があると言われ、相関係数が0に近い数の場合は、ほとんど相関はないと言われる。
ところで、上式の共分散とは何だろうか?定義は次の通りである。
x1、x2、・・・、xN の平均値は、 =(Σk=1〜N xk)/N で求められる。このとき、
xk− を偏差といい、σx2=(Σk=1〜N (xk−)2)/N を分散という。
標準偏差は、σxとなる。
共分散は、データの組 (x1,y1)、(x2,y2)、・・・、(xN,yN) について考える量である。
y1、y2、・・・、yN の平均値を、 とおくと、偏差は、yk− となる。
このとき、共分散 σxy は、 σxy=(Σk=1〜N (xk−)(yk−))/N で定義される。
具体例で計算してみよう。
x | y | xk− | yk− | (xk−)2 | (yk−)2 | (xk−)(yk−) | |
(1) | 3 | 3 | 0 | −2 | 0 | 4 | 0 |
(2) | 5 | 4 | 2 | −1 | 4 | 1 | −2 |
(3) | 1 | 5 | −2 | 0 | 4 | 0 | 0 |
(4) | 4 | 6 | 1 | 1 | 1 | 1 | 1 |
(5) | 2 | 7 | −1 | 2 | 1 | 4 | −2 |
計 | 15 | 25 | 0 | 0 | 10 | 10 | −3 |
上記の表から、 =3、=5 で、 σx=σy=、σxy=−0.6 なので、
相関係数 r は、 r=−0.6/2=−0.3 となる。
分散の計算で簡便法があったように、実は、共分散の計算でも簡便法が存在する。
共分散=(xyの平均)−(xの平均)(yの平均)
(解) σxy=(1/N)Σ(xk−)(yk−)
=(1/N)Σxkyk−(1/N)Σyk−(1/N)Σxk+・
=(1/N)Σxkyk−・ (終)
上記の例に適用してみよう。
xyの平均は、 (9+20+5+24+14)/5=72/5=14.4 なので、
共分散は、 14.4−3・5=−0.6 となり、確かに一致する。
(コメント) わざわざ偏差の積を求めなくてもいいところが素晴らしいですね!
今年度の入試問題に相関係数に関する問題があったので挑戦してみた。
慶應義塾大学 医学部(2021)
n人のクラス(ただしn>1)で英語と理科のテストを実施する。ただし、どちらの科目にも同
順位の者はいないとする。
出席番号i(i=1、2、・・・、n)の生徒について、その英語の順位xと理科の順位yの組を
(xi,yi)で表す。
(1) 変量xの平均値と分散sx2をそれぞれ求めよ。
(2) 変量x、yの共分散をsxyとする。クラスの人数nが奇数の2倍であるとき、sxy≠0とな
ることを示せ。
(3) i=1、2、・・・、nに対して、di=xi−yiとおく。変量x、yの相関係数を r とするとき、r を
nとd1、d2、・・・dnを用いて表せ。
(4) xiとyiの間にyi=( )の関係が成り立つとき、rは最大で、最大値を求めよ。
yi=( )の関係が成り立つとき、rは最小で、最小値を求めよ。
(解)(1) =(1/n)Σi=(n+1)/2
sx2=(x2の平均)−()2=(n+1)(2n+1)/6−(n+1)2/4=(n2−1)/12
(2) (1)と同様にして、 =(n+1)/2 、sy2=(n2−1)/12
共分散の公式 sxy=(xyの平均)−・ より、 sxy=(1/n)Σ(xiyi)−(n+1)2/4
ここで、sxy=0 と仮定すると、 4Σ(xiyi)=n(n+1)2
このとき、 左辺は4の倍数であるが、nは奇数の2倍、すなわち、n=4k+2(kは自然数)
とおけて、 n(n+1)2=(4k+2)(4k+3)2 は明らかに4の倍数でない。これは矛盾。
以上から、 sxy≠0 である。
(3) di2=(xi−yi)2=xi2−2xiyi+yi2 より、 xiyi=(xi2+yi2−di)/2 なので、
sxy=(Σ(xi2+yi2−di)/2)/n−・=(Σxi2)/n−(Σdi)/(2n)−()2
=sx2−(Σdi)/(2n)
したがって、 r=sxy/(sxsy)=1−(Σdi)/(2nsx2)=1−6(Σdi)/(n(n2−1))
(4) i=1、2、・・・、nに対して、yi=xi のとき、rは最大で、最大値 1
また、 yi=n+1−xi のとき、rは最小で、最小値 −1
(コメント) (4)はほとんど直感で、散布図から類推しました!