・ 数字の出やすさ S.H氏
「最初の有効数字の分布」と題して、埼玉県立岩槻北陵高校の福住 譲さんという方が
報告された内容はとても興味深い。
取り得る値が十分広範囲に広がっていて、かつ、特定な値に集中していない場合を考え
る。このような場合は、身近にはたくさん存在する。
たとえば、各自治体の人口とか面積など...。
福住さんによれば、それらの数字の先頭の数字に着目すると、「1、2、3、4」の出やすさ
が70%で、「5、6、7、8、9」の出やすさ30%と比べて突出していて、しかも、同様な比率
になるという。
この研究成果には大変驚いたが、福住さんの説明で合点がいった。
数字 N の先頭の数字は、N の常用対数 log10N の小数部分(これを仮数という)から求
められる。
例 2100 の最高位の数字は何か?
(答) log102100 =100×0.3010=30.10
ここで、
log101.25=0.0969、log101.26=0.1004、・・・、
log101.28=0.1072、log101.29=0.1106
から、最高位の数字は、1 となる。
したがって、数字 N の先頭の数字の分布を調べるには、N の常用対数 log10N の小数
部分の分布を調べればよいことになる。
常用対数 log10N の小数部分の分布を調べるということは、常用対数 log10N の値を、
1を法として考えることと同じになり、その分布はほぼ一様分布(確率密度関数が定数関数)
になるという。(これは、ポアンカレのルーレットの原理と言われるものからいえるそうだ!)
数字 N の先頭の数字が k となるのは、常用対数 log10N の値が、
log10k ≦ [log10N mod 1] < log10(k+1)
を満たすときである。
よって、数字 N の先頭の数字が k となる確率は、a を定数として、
Pk=a(log10(k+1)−log10k)
で与えられる。
ここで、 P1+P2+P3+P4+P5+P6+P7+P8+P9=a(log1010−log101)=a=1
より、 Pk=log10(k+1)−log10k となる。
したがって、 P1+P2+P3+P4=log105−log101=log105=1−log102=0.6990
P5+P6+P7+P8+P9=log1010−log105=log102=0.3010
この結果を知ると、これまでの統計データを見る目が変わるかもしれない。数値データの
先頭の数字がヤケに、1、2、3、4が多いな〜と感じていたのは、実は上記のことから必然
的なことだったと言うことである。