・ 数字の出やすさ                 S.H氏

 「最初の有効数字の分布」と題して、埼玉県立岩槻北陵高校の福住 譲さんという方が
報告された内容はとても興味深い。

 取り得る値が十分広範囲に広がっていて、かつ、特定な値に集中していない場合を考え
る。このような場合は、身近にはたくさん存在する。

 たとえば、各自治体の人口とか面積など...。

 福住さんによれば、それらの数字の先頭の数字に着目すると、「1、2、3、4」の出やすさ
が70%で、「5、6、7、8、9」の出やすさ30%と比べて突出していて、しかも、同様な比率
になるという。

 この研究成果には大変驚いたが、福住さんの説明で合点がいった。

 数字 N の先頭の数字は、N の常用対数 log10N の小数部分(これを仮数という)から求
められる。

例 2100 の最高位の数字は何か?

 (答) log10100 =100×0.3010=30.10
  ここで、
    log101.25=0.0969、log101.26=0.1004、・・・、
                       log101.28=0.1072、log101.29=0.1106
  から、最高位の数字は、1 となる。

 したがって、数字 N の先頭の数字の分布を調べるには、N の常用対数 log10N の小数
部分の分布を調べればよいことになる。

 常用対数 log10N の小数部分の分布を調べるということは、常用対数 log10N の値を、
1を法として考えることと同じになり、その分布はほぼ一様分布(確率密度関数が定数関数)
になるという。(これは、ポアンカレのルーレットの原理と言われるものからいえるそうだ!)

 数字 N の先頭の数字が k となるのは、常用対数 log10N の値が、

     log10k ≦ [log10N mod 1] < log10(k+1)

を満たすときである。

 よって、数字 N の先頭の数字が k となる確率は、a を定数として、

      P=a(log10(k+1)−log10k)

で与えられる。

 ここで、 P1+P2+P3+P4+P5+P6+P7+P8+P9=a(log1010−log101)=a=1

より、 P=log10(k+1)−log10k  となる。

 したがって、 P1+P2+P3+P4=log105−log101=log105=1−log102=0.6990

          P5+P6+P7+P8+P9=log1010−log105=log102=0.3010


 この結果を知ると、これまでの統計データを見る目が変わるかもしれない。数値データの
先頭の数字がヤケに、1、2、3、4が多いな〜と感じていたのは、実は上記のことから必然
的なことだったと言うことである。


                                             投稿一覧に戻る