第4章 母集団と標本の関係
考えようとする資料全体を母集団という。母集団から一つ一つ抜き出してきたものの集合を
標本といい、その抜き出してきた標本の要素の個数を標本の大きさという。標本を抜き出すこ
とを標本の抽出という。
標本の分布から全体を推定しようというのが標本調査である。これに対して、もれなく資料を
集めて調べることを全数調査という。
抽出法には無作為抽出(母集団の縮図となるように乱数表などを利用)と有意抽出がある。
(問) 乱数表を利用して、50名から無作為に5名抽出せよ。
今、母集団(xk が fk 個(1≦k≦n)ある)を考える。N=Σk=1〜n fk とする。
この母集団から1個抜き出して、そのときの値を確率変数Xとすると、Xの確率分布は、
|
このとき、この分布を母集団分布という。また、E(X)を母平均、σ(X)を母標準偏差という。
母集団から毎回元に戻しながら資料を1個ずつ取り出すことを復元抽出といい、元に戻さ
ずに1個ずつ取り出すことを非復元抽出という。
定理 母集団に属する資料の個数Nが大きく、かつ抽出された無作為標本の大きさがN
に比べて小さいときは、すべて復元抽出と見なしてよい。
大きさ n の無作為標本を X1、X2、・・・、Xn とする。これらは全て独立な確率変数である。
=(X1+X2+・・・+Xn)/n を標本平均という。 も1つの確率変数である。
≪公式≫ 母集団の平均をm、標準偏差をσとすると、標本平均 について、
E()=m 、σ()=σ/√n
が成り立つ。
(問) 箱の中に製品が多数入っていて、その中の不良品の割合が1/6である。この箱の中
から無作為に30個の製品を抽出する。このとき、k番目に抽出された製品が不良品な
ら1、良品なら0の値を対応させる確率変数をXkとする。標本中の不良品の割合を表す
ことになる標本平均の期待値と標準偏差を求めよ。
(問) 上の(問)で、標本平均の標準偏差が0.05以下とするためには、箱の中から抽出さ
れる標本の大きさ n は少なくともどれくらい必要か。
第5章 平均の推定
一般に次のことが知られている。
母平均 m、母標準偏差 σ の母集団から抽出された大きさ n の無作為標本の標本平均
は、n が十分大きいとき、正規分布N(m,σ2/n)に従うものと見なせる。
母平均の推定
母標準偏差が既知のとき、 P(m−2σ/√n≦≦m+2σ/√n)=0.95
すなわち、 P(−2σ/√n≦m≦+2σ/√n)=0.95 から、
mが、区間[−2σ/√n,+2σ/√n]に入ることは95%の確からしさで起こるから、
区間[−2σ/√n,+2σ/√n] を信頼度95%の信頼区間という。
同様に、区間[−3σ/√n,+3σ/√n] を信頼度99%の信頼区間という。
(注意) 母標準偏差は未知の場合が多い。その場合は標本の標準偏差を代用する。
(例) ある店に入荷してある砂糖の袋の中から、100個を無作為に抽出して重さを量った
ところ、平均が297.4gであった。重さの母標準偏差を7.5gとして、この店に入荷し
てある砂糖の1袋あたりの重さを、信頼度95%で推定してみよう。
n=100、=297.4、σ=7.5 より、 2σ/√n=1.5 なので、信頼度95%
の信頼区間は、[295.9,298.9]となる。
(問) 上記の(例)について、信頼度99%で推定
練習問題
1.18歳の男子400人の身長を測って、平均168.8cm、標準偏差6.5cmを得た。この
結果より、日本全体の18歳男子の平均身長を95%の信頼度で推定せよ。
2.胸囲の標準偏差が4.6cmのとき、胸囲の平均を±0.4cmの誤差の範囲で求めるに
は、何人について調査を行うとよいか。95%の信頼度で考えよ。
3.ある清涼飲料水入りの瓶40本について、A成分の含有量を調査したところ、平均値が
32.5mg、標準偏差が3.1mgとなった。この清涼飲料水1瓶当たりのA成分の含有量
を95%の信頼度で推定せよ。
4.期末テストで、あるクラス50名から無作為に9名抽出してみたら、平均点が40点、標準
偏差が3点であった。この結果から、クラスの平均点を99%の信頼度で推定せよ。
第6章 検定
母集団の特性を表すある数値について、1つの仮説が立てられているとき、標本から得ら
れた数値によって、その仮説を棄てるべきかどうかを判断することを検定という。
例えば、今1個のさいころを720回投げたとき、1の目が60回しか出なかった。このさい
ころは正しいさいころと言えるだろうか。ただし、正しいさいころとは、どの目の出る確率も
1/6であるものをいう。
常識的に考えて、このさいころは正しくないと思われる。このことを数学的に示すのが検
定の問題である。この検定の手法は、真実でないことを立証する反証の論理である。
ところで、正しい、正しくないの判断を下すには、ある基準を設定しておかなければならな
い。それを棄却域という。上記の例について検定の手順を示す。
(手順1) 仮説の設定、すなわち、次の命題を真とする。
H : このさいころは正しいさいころである。
すると、1の目が出る確率は、1/6 となり、1の目の出る回数をXとすると、Xは
2項分布B(720,1/6)に従うことになる。さらに、近似的に、正規分布N(120,100)
に従うものと見なせる。
よって、 Z=(X−120)/10 とおくと、Zは標準正規分布N(0,1)に従う。
(手順2) 棄却域の設定
確率P(|Z|>k)≦0.05 となるとき、|Z|>k を危険率5%の棄却域という。
正規分布表より、P(1.96)=0.475 なので、危険率5%の棄却域は、|Z|>1.96
(手順3) 検定
X=60 より、 |Z|=6>1.96
よって、X=60は棄却域を満たすので、仮説Hは棄てられる。
従って、このさいころは、危険率5%で正しくないと判断される。
すなわち、「さいころは正しい」という仮説のもとで、X=60となる確率は非常に小さく0.05
以下である。従って、その仮説の下では、非常に起こりにくいことが起こったということで、仮
説は間違いと判断し棄てるのである。そのときの判断基準が棄却域である。しかし、もしかし
たらその仮説は正しいかもしれない。仮説を棄てる危険率が5%ということである。
(注意) 危険率のことを有意水準ともいう。
(追記) 当HPがいつもお世話になっているHN「よおすけ」さんから、上記の類題をご紹介
頂きました。(平成26年7月19日付け)
一つのさいころを120回投げたところ、1の目が28回出た。このさいころは異常であると
言えるか。有意水準5%で検定せよ。(出典:数学ワンポイント36 平均値の統計 p.112)
書籍では「1の目が27回」とありましたが、ここでは28回としました。以下、略解です。
両側検定を行う。
正常なさいころであれば、1の目が出る確率は、1/6 、母比率 p0=1/6 であり、標本
調査 t :
t={(x/n)−p0}/{(√(p0(1−p0))/n} ※ n:標本の大きさ、x:回数
の値を計算すると、
|t|={(28/120)−(1/6)}/{(√(1/6)(1-1/6))/120}=4/5=1.959591・・<1.96
したがって、異常であるとは認められない。
計算前は「このさいころは異常だろう」と思って標本調査 t の値を計算したら、「異常では
ない」という結果になって、がっかりしたのを覚えています。淡い期待でした!
(コメント) 私も、よおすけさんのさいころを検定してみた。
「仮説 H : このさいころは正しいさいころである。」とする。
1の目の出る回数をXとすると、Xは、2項分布B(120,1/6)に従うことになる。さらに、近
似的に、正規分布N(20,50/3)に従うものと見なせる。
よって、 Z=(X−20)/10 とおくと、Zは標準正規分布N(0,1)に従う。
正規分布表より、P(1.96)=0.475 なので、危険率5%の棄却域は、|Z|>1.96
である。ここで、 X=28 より、 |Z|=4/5=1.959592・・・<1.96
よって、X=28は棄却域を満たさないので、仮説Hは棄てられない。すなわち、
有意水準95%で、よおすけさんのさいころは正しいと判断される。
検定の数値から、仮説を棄てる、棄てないのぎりぎりの判断になるんですね!よおすけさん
が期待するのも理解できます。
練習問題
1.7月の期末テストで、3年生全体の平均点は、56.3点であった。ところで、あるクラスの
生徒から20名を抽出すると、その平均点は、58.6点、標準偏差は、12.5点であった。
この場合、このクラスの平均点は3年全体のうちで高い方であると判断してよいか。危険率
5%で検定せよ。
2.全国模試で、ある高校の数学の受験生は88名で、平均点は55.1点であった。全国平
均は、49.8点、標準偏差は、22.7点であったとすれば、この高校の成績は全国平均に
比べて特に差があると言えるか。危険率5%で検定せよ。