・度数分布の階級値                   moonlight 氏

 先日、20個ほどのデータから度数分布を調べるという問題を見ました。問題の設定として
は、20人それぞれが「一年間で図書室で借りた本の冊数」を調べたデータというものでした。

 それを、0から初めて、3冊ごとに(表現はうろ覚え)度数分布にまとめるというものでした。

0冊以上3冊未満ということですね。このとき階級値は、1冊なのか、1.5冊なのか、という
話です。

 最初の階級は、0、1、2冊のデータがカウントされるので、と思えば、階級値は1冊が妥
当かと思います。

 しかし、どうも「0冊以上3冊未満」なら、0と3の平均?(中位値?)をとると教わっているよ
うです。はてさて、どうなっているのでしょう。

 そこで色々考えていて、百点満点のテストの点を同様に0点から10点刻みで度数分布を
とるとき、100点は、90点以上100点未満とは別に、100点以上110点未満の階級を設
けるのかなど、様々な疑問がふつふつと・・・。こちらもご教示願えればありがたく思います。


 DD++さんからのコメントです。(平成28年9月23日付け)

 「0冊以上3冊未満」の階級値は、1.5冊です。階級値はあくまで「範囲(端を含むか否か
は不問)の真ん中の値」であり、納得いかないからと勝手に定義を変えてしまえばそれは捏
造された統計ということになります。

 これが統計として適切かどうかは、階級値の定義の問題ではなく、階級の区切り方が適切
かどうかで考えるべき問題です。


 moonlightさんからのコメントです。(平成28年9月24日付け)

 早速お返事ありがとうございます。先ず「範囲(端を含むか否かは不問)の真ん中の値」な
のですが、連続であろうが離散であろうが、「0以上3未満」と考えるという根拠がわかりませ
ん。

 例えば、件の例で、1冊幅でという「表記」なら、「0以上1冊未満なので、0.5冊が階級値」
ということなのでしょうか?

 「納得がいく」、「捏造された統計」、「統計として適切」、「階級の定義」、これらの言葉の使
い方にどうも一貫性がないような気がするのは気のせいでしょうか。
(多分私の読解力が甘いのでしょうけど。)

 あるいは、統計の定義は「妥当でないものが多数含まれているので使用者は注意」するべ
きなのか、あるいは、やはり、−0.5冊(!)以上2.5冊(!)未満と階級を定義するのでしょ
うか?冊数という、基本自然数値しかとらないものでも?どうもその辺りがよくわからないの
です。


 DD++さんからのコメントです。(平成28年9月24日付け)

 あくまで定義上はそういうことになります。ただ、その階級の区切り方に何の意味があるか
全くわかりませんけどね。

 統計の定義は「妥当でないものが多数含まれているので使用者は注意」するべきなのか

 これは、違います。「使い方が悪いと妥当でない結果になるので使用者は注意」です。統計
というのはそもそも膨大なデータを扱いやすくする代わりに誤差を許容する計算であることを
お忘れではないですか?

 0.5冊の差が許容できる状況なら、気にせず階級値を1.5にすればよし、05冊の差が許
容できないような統計なら、そんな細かいことを気にする統計なのに階級に区切ろうと思うこと
自体がおかしい、そういう話なのです。

 今回なら、20人のデータですが、これが全校生徒のデータを全部扱うのが大変だから20
人調べたという話だとしましょう。どの20人を選ぶかはランダムです。ランダムなだけで、均
等に選ぶわけではありません。なので偶然性による誤差が出ます。おそらくは、3冊とか4冊
とかいうレベルで...。

 その誤差の前では、+0.5冊のズレなんてどうでもいいと思いませんか?だから細かいこ
とは気にせず、定義通りの階級値1.5で計算するわけです。


 moonlightさんからのコメントです。(平成28年9月26日付け)

 話がよれてきているのは尋ね方が悪かったのかも。階級を、0冊以上1冊未満と判断する
のはどうにも変です、冊数ですから。

 つまり、この場合該当する値は0冊のみで、階級値も0冊とするのでしょう。であれば、3冊
の幅であれば、0、1、2冊が該当するから、1冊を階級値とするというのは、何がおかしいの
だろう?という疑問です。

 次の3、4、5冊の階級では、4冊となり、何も至極当然なものとなります。そのような定義
は「ない」のでしょうか。

 ちなみに、ググるとそのように書いておられるモノも多少は見つかります。そこには、0冊か
ら2冊までの値しかとらない、つまり、0以上2以下だから、1冊と「計算する」と説明があるも
のもあります。(多くは、仰る通りの0から3なら、「定義から」1.5とするものなのですが...)


 DD++さんからのコメントです。(平成28年9月26日付け)

 いえ、0冊以上1冊未満の階級値は、0.5冊です。階級というのは、「1つの階級内でデー
タが満遍なく散っているようにとらなければならない」ものです。

 満遍なくの基準は、統計としてどの程度誤差を許容するか次第。つまり、「0冊以上1冊未
満という階級に区切る」という時点で、「私は、0冊と1冊の間に満遍なくデータが散らばって
いると思っています」の意味です。満遍なく散らばっているなら、0.5でいいですよね。

 満遍なく散らばっていないなら、階級値以前にこの階級の取り方がおかしいですよね。

 0以上2以下だから、1冊と「計算する」と説明があるものもあるとのことですが、そういった
ものは、小数以下を四捨五入して「0以上2以下(という名の実質−0.5以上2.5未満)」「3
以上5以下(という名の実質2.5以上5.5未満)」「6以上8以下(という名の実質5.5以上
8.5未満)」と階級に区切っているのでしょう。

 物理量の測定値の統計の場合は、四捨五入して記録する都合で階級の区切り方がこうな
りやすいですから。尤も、それでも気にせず、0以上3未満だから階級値1.5でやっちゃうこ
とが多いと思いますが。
(もちろん、それ以上に階級を作らず処理することがほとんどです)


(コメント) moonlightさんの混乱の原因は、離散変量のものを連続変量で度数分布を作ろう
      としている点にあると思います。20個ほどのデータから度数分布を調べるという問
      題だと、5〜7個の階級に分けるのが普通なので、「0冊以上3冊未満」という階級
      幅は妥当と思われますが、離散変量なので、ここは、「0冊〜2冊」「3冊〜5冊」・・・
      と階級を設定する方が適切だと思います。そのときの階級値はもちろん「1冊」「4
      冊」・・・となります。

       離散変量に対して、「0冊以上3冊未満」という階級を作って階級値1.5というの
      は少し無理がありますね!階級値はその階級を代表する値のはずですが、「1.5」
      という数値は全く階級の代表値にはなっていないと思われます。


 moonlightさんからのコメントです。(平成28年9月29日付け)

 階級というのは、「1つの階級内でデータが満遍なく散っているようにとらなければならない」
ものです。満遍なくの基準は、統計としてどの程度誤差を許容するか次第。つまり、「0冊以
上1冊未満という階級に区切る」という時点で、「私は、0冊と1冊の間に満遍なくデータが散
らばっていると思っています」の意味です。満遍なく散らばっているなら、0.5でいいですよ
ね。


は全くその通りだと思います。

 例えば、このことは100点満点のテストの結果を、0から始めて10点刻み(幅)で度数分布を
利用する場合、最初の階級が現実には0〜9の離散値で中位が4.5であるにもかかわらず5と
されることにも通じているのでしょうが、小学校来「これは数学や算数ではない粗悪品だな」
感が拭えないままです。

 これが例えば、幅100の隙間にビー玉を転がして隙間のどこを通るかの計測結果ならまだ
しもです。(この「まだしも」な話でも,100はどうするねん問題が...)

 結局データはどこまでも可算有限であるのに、連続無限な量としての計算との融合の為に
(スッキリしますから)無視されている必要悪だということなのでしょうか。

 それにしてもどうにも妙です。やはり、統計(特にこの手の「庶民が知ってればよい手法的
な」)は算数や数学ではないのでしょうか?などと思ってしまいます。
(今はともかく子供のころはまさにそういう印象で、それってとても害悪なような)

 また、「投稿」に纏めていただいて感謝します。僕の疑問は混乱しているというよりは、「ど
う決められていてどの根拠や妥当性はどうなっているのだろう?」という話です。

 連続量と離散量という話も出ていますが、3冊4冊5冊は、3、4、5であって3冊以上6冊未満
だけど、だから3と6の平均をとるのはどうだろうというか、それは同じ物事に対する表現の
違いが結果の違いを導くことに関してどうなのか?という話であれば、例えば、「0〜1000の
離散値データを100刻みで度数数えたときに」のような粒度?の違いによる判断の変化につ
いて「どのような約束」があるのかという多分非常に基本的だけど何故かきちんと書かれて
いない「ルール?」の問題です。

 まぁ四分位数に関しても様々なバージョンがあるので、この話も方言やバージョン違いが
山のようにあるのかもしれません。でもそれならそれで、どこかがきちんとまとめるべきだと
は思うのですが・・・。とにかく感謝です。


 DD++さんからのコメントです。(平成28年9月29日付け)

 どの程度正確かというのはなにぶん複雑な積分を用いる話になりますから、小中学生に
は大雑把な理解すらできませんし、高校生でも教えるとなれば教科書を何ページも使って
授業時間を何時間も割いてということになるでしょう。

 しかも、「正確さをどのように見積もるか」には様々な方法がありますから、そこまでやって
もただの一側面にしかすぎないという。初等中等教育の数学の授業で理解すべき内容とし
て、かかるコストが内容と釣り合わないのでしょうね。

 ちゃんとした統計学の書籍には、よく用いられる方法それぞれの計算手順の取り決め、そ
れぞれどの程度の信頼性で結果が得られるのかの理論的見積もり、必要な計算量の見積
もり、それぞれの方法で定性的に注意すべきことは何か、きちんと書いてあると思います。

 体系的に納得したいのであれば、おそらくインターネットの掲示板よりもそういうものを探し
て紐解いた方がスムーズに納得できるのではないかと思います。


 moonlightさんからのコメントです。(平成28年9月30日付け)

 DD++さん、早速のご返事ありがとうございます。おっしゃる通りで、「正確さをどのように見
積もるか」に関しては評価の問題となり、まったく別種の「統計の問題」となるのでしょう。

 このHPやその掲示板の読者の想定は、特に「限定されたものではない」とは思うので、色
々な立場で考えてみることが必要だと思います。

 私の疑問は、考えてみればおそらくは「小学生以来」の道理が通らない事への疑問(鬱憤)
なのだと思います。(さらによく考えてみれば、もしかするとそれが遠因で、大学生の時に、折
角の数学科向きの統計の講義も単位も投げだしたのかなぁなどとも思います。同学年も先輩
後輩たちも多数(笑)

 せめて少しは「小学生にでも通じる道理が」とは思ったのですが、やはり統計は「謎な大人
の理屈でいつまで経っても理不尽としか思えないことが大手を振って強制指導される」お話
だということなのでしょうか?

 微積や確率や検定の話をいくら持ち込んでも、0、1、2を代表する値を、(0+3)/2=1.5 とす
る妥当性に思い当りません。そして何より「ちゃんとした統計の本にはきちんと書いてあると
思います。」なのですが、私は(適当に見ているだけなのでアレですが)知りません。

 ここで聞けば、「実際に知っている方」が「これこれこういう本にこう書いてあります。」とか、
どの本にも「こうあります」という話が聞けるかと薄い期待を抱いていた次第です。
(今や時代も変わり、小学生の娘も何でもスマホで検索するので本当のところはネット上で
という情報も期待していました。)

 恐ろしいのは、大抵の本には「単純に平均をとる約束になっている」と書いてあるのではな
いかということなのですが...。


 DD++さんからのコメントです。(平成28年9月30日付け)

 微積や確率や検定の話をいくら持ち込んでも、0、1、2を代表する値を、(0+3)/2=1.5 とす
る妥当性に思い当りません。


 まだ何か勘違いされているのだろうと思うのですが、別に、1.5が完全無欠の妥当性を持
つわけではないですよ?1.5とすることにはもちろん問題があります。しかし、1とすることに
も同程度に問題があります。0以上3未満(実際は、0、1、2)という区間のどこを代表にして
も、「階級にわけて真ん中付近で代表値を1つ決める」という行為をする限り、どういう取り決
めでも同程度に問題があります。(というのが、微積とか確率を用いると確認できます)

 どうやったって同レベルに問題が生じるんだから、「計算がわかりやすい」という理由がある
分1.5が最適だよね、じゃあみんなで統一してそうしよう、というだけの話です。(言い方を変
えて、同じ話を既に何回もしている気がしますが)

 仮に階級の代表値を1にすると、こういうことになります。

・「階級値」という呼称は用いることができません。階級値の定義とは異なる計算ですから。
・定義通りに階級値1.5を用いた場合の統計の妥当性は多くの人によりさまざまな議論が
 なされ定式化されていますが、1を用いるのは別の統計手順なので、統計の妥当性の評
 価方法を一から自分で考えて証明せねばなりません。
・みんなと統計方法が違うせいで、他人の統計結果と単純比較できなくなる可能性がありま
 す。これは統計を取る目的からすれば本質を揺るがすデメリットです。
・以上のデメリットを大量に抱えておきながら、実際にやってみると統計の妥当性が普通に
 階級値1.5にした場合と比べて大して変わりません。

 これを了承した上で、なお「1」を使いたいというのであれば、ご自由にどうぞ。私は素直に
1.5を使いますけど。

 書籍に関しては、一部前言撤回します。階級値で代表値を求めるのに限って言えば、よく
よく考えてみればあまり細かくは取り扱ってないのかもしれません。現代は誰でもコンピュー
タが使えるので、代表値を求めるなら「階級なんか使わずにコンピュータの計算力でやっつ
ける方が速くて正確」ですからね。階級について、データの分布を見ること以上に使う意義が
もはやないわけで、そうなると書籍からは消えていく運命……。

 階級に区切らずに統計する方法については、どの本でも誤差論のページを開けば載って
いますね。それらを使えば、階級にとった場合も考えることができます。ネット上だと、例えば、
「武内 修(筑波大学) 著 『はじめての誤差論』」辺りがわかりやすいでしょうか?

 物理学実験用の話になっていますが、例示等がそうなっているだけで話自体は統計学全
般に使えます。「誤差の分布」のところに標準偏差の話が載っていて、その意味まで書いて
あります。階級に区切った場合、fx(x)がその階級外では常に0と思ってこの積分の平方根を
計算することが、「階級の代表値をx*とすると偶然誤差としてどの程度不正確になるか」とい
う意味を持ちます。

 言い換えると、諸々の精度としてこれくらいのズレ以内ならそこを気にしたところで精度は
大してよくならないという指標です。
(あくまで参考値の一つであり、絶対の指標ではありません。偶然誤差と系統誤差の違いも
ありますし)

 fx(x)がわからない(わかる状況なら統計する必要がない)のですが、1つの階級内でならほ
ぼ一定だろうと信じてfx(x)=1/幅(階級内)とすれば概算できますね。あるいは一次式でやっ
てもいいかもしれません。実行するといくつになるでしょう。意外と大きいと思いませんか?



                         投稿一覧に戻る