・予測                         うんざりはちべえ氏

 昨年末に放送大学で、機械学習と深層学習をみました。また、先日BSフジのガリレオXで
も、「運」をみました。機械学習は、

1)教師あり学習
2)教師なし学習
3)強化学習

の3つがあります。まあ、統計学です。

 さて、地震が1000年に1回起きるとすると、ばらつきがあるので、10万年とか100万年のデ
ータがないと統計的な結論は出ないでしょう。でも、統計学では、それらのデータたちの特徴
で、未来の事案については、目安にしかなりません。

 さて、1000年1回だから、1年を365日として、1/(365x1000)がその日起きる確率です。起き
ない確率は、1-1/(365x1000)ですね。

 ですから、100日連続して起きない確率は、 {1-1/(365x1000)}^100=99.9726% です。

 100年連続して起きない確率は、 {1-1/(365x1000)}^(100x365)=90.4837294% です。
 500年連続して起きない確率は、 {1-1/(365x1000)}^(500x365)=60.65% です。
 700年連続して起きない確率は、 {1-1/(365x1000)}^(700x365)=49.658% です。

ですから、700年以内に地震が起こる確率は、50% ですね。

 でも、1000年に一度じゃなかったですか?

 でもこれは、統計的に意味がありません。でも、予測には使えます。そこで、機械学習では、
ベイスの定理を使っているようです。


 Dengan kesaktian Indukmu さんからのコメントです。(令和5年3月19日付け)

 さて、1000年1回だから、1年を365日として、1/(365x1000)がその日起きる確率です。

■御参考 → 「ヒッチハイク


(コメント) らすかるさんの解答を参考にすると、

 地震が1000年間に1回起こるので、その確率は、1/1000

 700年間で地震が起こる確率を p とすると、1000年間で地震が起こらない確率は、

  (1−p)^(10/7)=1−1/1000=999/1000 から、 p≒0.00070011

でいいのかな?


 うんざりはちべえさんからのコメントです。(令和5年3月19日付け)

 1年に起きる確率は、1/1000=0.1%、起きない確率は、1-(1/1000)=99.9%
 100年間起きない確率は、(1-(1/1000))^100=90.47921%
 500年間起きない確率は、(1-(1/1000))^500=60.637984%
 700年間起きない確率は、(1-(1/1000))^700=49.6411%

 らすかるさんの計算では、700年間起きない確率は、1-p です。

したがって、1-p は、(1-(1/1000))^700=49.6411% となりますから、p=50.3589% です。

 700年間で起きる確率がpで、1000年間で起きる確率は1より、残り300年間で起きる確率は
1-pです。

また、700年間起きない確率は1-pで1000年間で起きない確率は0なので、残り300年間で起
きない確率は0-(1-p)=p-1より、p-1となります。

となるはずでは、ないでしょうか?


 DD++ さんからのコメントです。(令和5年3月19日付け)

 dengan さんが持ってきた記事は、関連はあるものの似て非なる問題なような。

 平均して 1000 年に 1 回起こることは平均して 700 年に 0.7 回起こるので、ポアソン分布
の λ=0.7, k=0 を計算して、700 年間地震が起こらない確率は、

 0.7^0*e^(-0.7)/0! = 0.49658530……

つまり、700 年の間に地震が起こる確率は、

 1-0.49658530…… = 0.50341469 ……

になりますね。

 尤も、ある瞬間の地震の発生率と別の瞬間の地震の発生率が独立であると仮定して計算
していますが、実際にはその独立性は怪しいような気がします。実際には地震は前震とか余
震とかで立て続けに起こるものですし。

 なお、1 年以内に起こる確率は、 1-0.001^0*e^(-0.001)/0! = 0.0009995001666……

 1000 年以内に起こる確率は、 1-1^0*e^(-1)/0! = 0.6321205588…… です。


 うんざりはちべえさんからのコメントです。(令和5年3月21日付け)

 おや、1,000年に一度じゃないんですね。データ達の特徴から得られた1000年に一度という
結果と予測から得られた結果が食い違うんですね。

 タグチメソッド(品質工学)も統計学者たちと田口博士の討論会で、統計学ではないとされ
ています。

 教員もタグチメソッドの考えを取り入れて、ばらつきの少ないことを目標にすれば、あとは、
中心値を少しずらすだけで、すみますね。タグチメソッドは、実験計画法でもある・・・・。


 DD++ さんからのコメントです。(令和5年3月21日付け)

 おや、1,000年に一度じゃないんですね。

 どういう意味でしょう。

 1000 年間に k 回発生する確率を P[k] として、1000 年間の発生回数の期待値が

  1*P[1] + 2*P[2] + 3*P[3] + …… = 1

で、1000 年間の発生確率は、 P[1] + P[2] + P[3] + …… = 1/e

 何もおかしいところはないと思いますが...。


 うんざりはちべえさんからのコメントです。(令和5年3月21日付け)

 おや、1,000年に一度じゃないんですね。

 データ達の特徴から得られた1000年に一度という結果と予測から得られた結果が食い違
うんですね。タグチメソッドもそういう結果があり、予想と統計とは、違うのだそうです。機械
学習もベイズ統計を使って、事前確率から事後確率という「予想」を導き出しているそうです。

 統計はデータ達の特徴であり、予想にはならないそうです。

 例えば、バレンタインデーにチョコレートをもらったのだけど、これは本命チョコのか、義理
チョコなのかは、統計では、バレンタインデーが終わったあとに、調査結果として、確率何%
が決まるのです。でも、ベイズ統計では、確率何%で本命であると、過去の調査結果を利用
して、もらった時に計算できるのです。でもそれは予想にしかすぎませんけどね。BSフジのガ
リレオXの「運」でそう言っていたと思います。


 DD++ さんからのコメントです。(令和5年3月21日付け)

 いや、だから「何と何に食い違いが発生しているのか」と聞いています。具体的に答えてく
ださい。「自分が食い違っていると思うからだ」では、ただの妄想です。


 うんざりはちべえさんからのコメントです。(令和5年3月22日付け)

 700年起きない確率は、

%i1) float((1-(1/1000))^700);
(%o1) 0.4964114134310993

 800年起きない確率は、

(%i2) float((1-(1/1000))^800);
(%o2) 0.4491491486100754

 900年起きない確率は、

(%i3) float((1-(1/1000))^900);
(%o3) 0.4063866225452045

 1000年起きない確率は、

(%i4) float((1-(1/1000))^1000);
(%o4) 0.367695424770964

 2000年起きない確率は、

(%i7) float((1-(1/1000))^2000);
(%o7) 0.1351999253974996

 3000年起きない確率は、

(%i8) float((1-(1/1000))^3000);
(%o8) 0.0497123939980363

となって、データたちの特徴から得られた結果と予測が合わないと言うこ
とです。


 通りすがりさんからのコメントです。(令和5年3月22日付け)

 無限ではないような気もします。
(→ 参考:「確率 1/10 で当たるんなら 10 回やれば当たる?」)


 DD++ さんからのコメントです。(令和5年3月22日付け)

 それら8個の数値(若干間違ってますが)が何と矛盾するんです?


 うんざりはちべえさんからのコメントです。(令和5年3月22日付け)

 データ達の特徴から得られた1000年に一度は起きるという結果と1000年経っても起きる確
率は63.23%(36.77%は起こらない)という予測と矛盾しませんか?

 予測の根拠は1000年に一度は起きるという前提から出発したのです。

 とおりすがりさんへ、

 700年起きない確率は、
(%i1) float((1-(1/1000))^700);
(%o1) 0.4964114134310993

 3000年起きない確率は、
(%i2) float((1-(1/1000))^3000);
(%o2) 0.0497123939980363

 10000年起きない確率は、
(%i3) float((1-(1/1000))^10000);
(%o3) 4.517334597704865E-5

 50000年起きない確率は、
(%i4) float((1-(1/1000))^50000);
(%o4) 1.88109746912366E-22

 どんどん小さくなるみたいですよ。


 DD++ さんからのコメントです。(令和5年3月22日付け)

 1000年に一度は起きる

 「平均して 1000 年に一度起こる」は、1000 年あったら絶対に起こるわけじゃありませんよ?

 もっとわかりやすくコインで話しましょう。

 コインは「平均して 2 回に 1 回表が出る」ようになっています。でも、「2 回投げたら絶対に
1 回表が出る」わけではありません。2 回投げて両方裏ということは十分にあり得て、その確
率は (1-1/2)^2 = 0.25 です。つまり、「2 回投げる間に表が出る確率」は 1-0.25 = 0.75 です。

 では、これが「平均して 2 回に 1 回表が出る」と矛盾するか? という話をしましょう。

 2 回投げる間に k 回表が出る確率を P(k) と書くと、P(0) = 0.25、P(1) = 0.5、P(2) = 0.25
となります。

 「2 回投げる間に表が出る確率」は、表が 1 回だろうと 2 回だろうと区別なく「表が出た」と
考えるので、P(1) + P(2) = 0.75 という計算になります。

 「2 回投げる間に表が出る平均回数」は、表が 2 回出たら当然 2 倍数えるので、
1*P(1) + 2*P(2) = 1 となります。

 考えているものがそもそも違うので、異なる数値が出てくるのは当然の話です。

 だから、「平均して 2 回に 1 回起こる」ことが 2 回の間に起こる確率が 1 にならなくても
何も矛盾はしていないのですよ。

 地震の話の場合もこれと同じです。

 1000 年間に複数回発生した場合をどう考えるかに差があるので、「平均して 1000 年に
1 回起こる」ことが 1000 年の間に起こる確率が 1 にならなくても何も矛盾はしていないの
ですよ。

 はちべえさんは、おそらくこの 2 つの数値の区別をつけられていないのではないかと思う
のですが、どうでしょう。

 ついでに、これ、私もよくやらかすミスなのですが、

 「平均して 1000 回に 1 回起こることが最初の 1 回で発生しない確率」は、
1 - (1/1000) = 0.999

「平均して 1000 年に 1 回起こることが最初の 1 年で発生しない確率」は、
e^(-1/1000) = 0.9990004998333……

 前者は「最初の 1 回でその現象は最大 1 回しか発生しない」のに対し、後者は「最初の
1 年でその現象が複数回発生する場合がある」という違いがあります。

 確率の数値自体も変わってくるので、この 2 つはちゃんと区別して適切な方を使用しない
といけません。今回の地震の話は、後者です。


 うんざりはちべえさんからのコメントです。(令和5年3月22日付け)

 DD++ さん、非常にわかりやすい説明でした。私の間違いがわかりました。ありがとうござ
います。


 通りすがりさんからのコメントです。(令和5年3月22日付け)

 ポアソン分布で誤差が出ないか、裏を取ってみました。

■御参考 → 「ヒッチハイク

 こちらの問題:

 ある道路では、1時間以内に車が通る確率は、95%であるという。では、10分以内に車
が通る確率は?

(解答) 10分以内に車が通る確率を p とすると、1時間以内で車が全く通らない確率は、
(1−p)^6=1−0.95=0.05 から、p≒0.393


を厳密に計算すると、p=0.3930377

 一方、ポアソン分布で求めると、ポアソン分布 Pp(x)=e^(-μ)・(μ^x/x!)(x=0,1,2,…)

 1時間以内に車が1台も通らない確率は、x=0(0台だから)として、

 Pp(x)=e^(-μ)・(μ^0/0!)=e^(-μ)=0.05

 ∴e^(-μ)=0.05(μは1時間以内に通る平均台数)

 この両辺の自然対数を取ると、 −μ=log0.05=−2.9957323 より、 μ=2.9957323 

よって、10分以内に通る平均台数は、 μ/6=0.4992887

これと x=0 をポアソン分布の式に代入すると、

 Pp(0)=e^(-0.4992887)・(0.4992887^0/0!)=e^(-0.4992887)=0.6069622

これは、10分以内に車が1台も通らない確率より、10分以内に車が通る確率は、

 1−0.6069622=0.3930378

最後の1桁は8桁の電卓なので仕方がありません。よって、全く誤差がないのでOKですね。

 というのは、例えば、コインを60回投げて表が丁度30回出る確率は、

 6030(1/2)^30(1/2)^30=0.1026・・・

ですが、正規分布で近似すると、0.1034・・・と誤差が出るからです。

 もっとも、この場合は、29.5〜30.5でやるから誤差が出るのかもしれませんが...。


 うんざりはちべえさんからのコメントです。(令和5年3月22日付け)

 通りすがりさん、わかりやすく、ご解説ありがとうございました。

 参考:「確率 1/10 で当たるんなら 10 回やれば当たる?」も、

 10回連続して外れる場合、

(%i1) float((1-(1/10))^10);
(%o1) 0.3486784401

100回連続して外れる場合、

(%i2) float((1-(1/10))^100);
(%o2) 2.656139888758747E-5

1000回連続して外れる場合、

(%i3) float((1-(1/10))^1000);
(%o3) 1.747871251722651E-46

で、100,1000回も連続して外れることはないということですね。


 さて、コインを投げて、表を1裏を0とすると、何回かをやった結果を横に並べると、2進数
ですね。10回やれば、10桁の2進数で、表が、5回連続するということは、10桁の2進数で1が
連続して5個並ぶので、

1111100000
0111110000
0011111000
0001111100
0000111110
0000011111

の6通りですね。10桁の2進数は、2^10=1024個ありますから、確率 6/1024=0.005859375
という計算は、どこで間違っているのでしょう?

 ああ、そうか、x は、0か1

111110xxxx  16通り
0111110xxx  8通り
x0111110xx  8通り
xx0111110x  8通り
xxx0111110  8通り
xxxx011111  16通り

合計 64通り

 ところで、10C5=252 ・・・ まだ、どこかおかしい・・・・。


 DD++ さんからのコメントです。(令和5年3月22日付け)

 コインを 10 回投げて、連続で表が出る最大回数がぴったり 5 回になる確率なら、64/1024
であっているような...。

 通りすがりさんへ、二項分布を正規分布に近似する場合、事象が発生した回数(本来は整
数しか取らない)を実数として連続値を取るとみなして連続的な確率分布にしています。だか
ら、その過程で誤差が生じるわけですね。

 ポアソン分布は試行回数(本来は整数しか取らない)を試行期間という連続値にする極限
をとっていますが、事象が発生した回数の方はちゃんと整数値であることを保ったまま離散
的な確率分布を出しています。だから、実は近似は行われていないので、厳密に正しい…
はず、だと思います。


 通りすがりさんからのコメントです。(令和5年3月23日付け)

 ええ、私も「確率統計 キャンパス・ゼミ」(馬場敬之 著)で、導き方から確認しました。

 「平均して 1000 回に 1 回起こることが最初の 1 回で発生しない確率」は、
1 - (1/1000) = 0.999


 「平均して 1000 年に 1 回起こることが最初の 1 年で発生しない確率」は、
e^(-1/1000) = 0.9990004998333……


 前者は「最初の 1 回でその現象は最大 1 回しか発生しない」のに対し、後者は「最初の
1 年でその現象が複数回発生する場合がある」という違いがあります。


 これは大変勉強になりました。関係ありませんが、0.05の6乗根とe^(-0.4992887)が一致す
るのはちょっと不思議ですね。(勿論、他の例も同様ですね。)


 DD++ さんからのコメントです。(令和5年3月23日付け)

 0.05の6乗根とe^(-0.4992887)

 その -0.4992887 の元がなんだったか確認すると、(1/6)log0.05 なので……。


 通りすがりさんからのコメントです。(令和5年3月23日付け)

 うっかりしました。log0.05=-2.9957323 より、(1/6)log0.05=-0.4992887 
即ち、log0.05^(1/6)=-0.4992887 より、e^(-0.4992887)=0.05^(1/6)

でしたね。

 ところで、うんざりはちべえさんの投稿の

 「らすかるさんの計算では、700年間起きない確率は、1-p です。したがって、1-p は、
(1-(1/1000))^700=49.6411% となりますから、p=50.3589% です。」とDD++さんの投稿の

 「つまり、700 年の間に地震が起こる確率は、1-0.49658530…… = 0.50341469 ……にな
りますね。」

が一致していない理由は何故なのでしょうか。誤差かと思い込んでしまいました。


 DD++ さんからのコメントです。(令和5年3月23日付け)

 上記の投稿をご覧いただければ、スッキリするかと思います。


 通りすがりさんからのコメントです。(令和5年3月23日付け)

 了解しました。その後、よく見たら、うんざりはちべえさんの投稿に

 「700年連続して起きない確率は{1-1/(365x1000)}^(700x365)=49.658%です」

とありましたので、起こる確率は、50.342%で、DD++さんの投稿の

 「つまり、700 年の間に地震が起こる確率は1-0.49658530…… = 0.50341469 ……になり
ますね」

と一致していると見て良いですね。


 DD++ さんからのコメントです。(令和5年3月23日付け)

 その式も、1 日に 2 回起こることはない前提で計算してるので、正しいかというとそうでもな
いですね。e^(-1/365000) とするべきところです。

 e^(-x) ≒ 1-x の精度が x が 0 に近づいた分だけ精度がよくなってはいますが、完全に
「 =」にはなっていません。


 通りすがりさんからのコメントです。(令和5年3月23日付け)

 e^(-1/365000) とするべきところです。

 これはどういう事でしょうか。

 平均して 1000 年に 1 回起こることは平均して 700 年に 0.7 回起こるので、ポアソン分布
の λ=0.7, k=0 を計算して、700 年間地震が起こらない確率は、

 0.7^0*e^(-0.7)/0! = 0.49658530……

つまり、700 年の間に地震が起こる確率は、 1-0.49658530…… = 0.50341469 …… にな
りますね。

 -0.7と-1/365000ではあまりにも掛け離れていますが...。


 DD++ さんからのコメントです。(令和5年3月24日付け)

 言葉不足でしたかね。

 「700年連続して起きない確率は、{1-1/(365x1000)}^(700x365)」の中括弧の中を、
1-1/(365x1000) ではなく、 e^(-1/(365x1000)) として、

 「700年連続して起きない確率は、{e^(-1/(365x1000))}^(700x365)」とするべきという話です。


 通りすがりさんからのコメントです。(令和5年3月24日付け)

 1000年に1回起こる事象は、365×1000日に1回起こる事象で、1日に平均

1/(365×1000)回起こる事象が(1日に)1回も起こらない確率はポアソン分布より、

e^(-1/(365x1000))

 これが、700年=365×700日連続起こらない確率は、{e^(-1/(365x1000))}^(700x365)

という事ですね。因みに、これは、DD++さんの投稿の、

「平均して 1000 年に 1 回起こることは平均して 700 年に 0.7 回起こるので、ポアソン分布
の λ=0.7, k=0 を計算して、700 年間地震が起こらない確率は、

 0.7^0*e^(-0.7)/0! = 0.49658530…… つまり、700 年の間に地震が起こる確率は

1-0.49658530…… = 0.50341469 …… になりますね。」


と同じですね。

 また、うんざりはちべえさんの投稿で

 「700年連続して起きない確率は、{1-1/(365x1000)}^(700x365)=49.658%です」

をpythonで厳密に計算してみました。

 1-(1-1/(365*1000))**(700*365)
結果:0.5034151723845666

確かに、「つまり、700 年の間に地震が起こる確率は1-0.49658530…… = 0.50341469 ……」
と異なりますね。

ところで、

 「平均して 1000 回に 1 回起こることが最初の 1 回で発生しない確率」は、
1 - (1/1000) = 0.999


 「平均して 1000 年に 1 回起こることが最初の 1 年で発生しない確率」は、
e^(-1/1000) = 0.9990004998333……


 前者は「最初の 1 回でその現象は最大 1 回しか発生しない」のに対し、後者は「最初の
1 年でその現象が複数回発生する場合がある」という違いがあります。


に関して、あまり関係ないかもしれませんが、有名な40人のクラスに同じ誕生日の人はいる
かという問題で、正解は、0.891(89.1%)ですが、

 1−(1−1/366)^780=0.8816447 (402=780)が3人以上一致する事を考えていない事
に似ていますね。(ずいぶん昔に自分で考えました。)

 DD++さん、とても勉強になりました。ありがとうございました。


 GAI さんからのコメントです。(令和5年3月24日付け)

 0.05の6乗根とe^(-0.4992887・・・) が等しくなるのは、一般に、

 exp(log(A))=A ( また log(exp(A))=Aでもある)

が成り立つので、A=(0.05)^(1/6) を使えば、

 exp(log(A))=exp(log(0.05)/6)=exp(-0.4992887・・・)=A

とみれば・・・。


 通りすがりさんからのコメントです。(令和5年3月24日付け)

 その式も、1 日に 2 回起こることはない前提で計算してるので、正しいかというとそうでもな
いですね。


 逆のような気がするのは私の気のせいでしょうか。


 通りすがりさんからのコメントです。(令和5年3月25日付け)

 「平均して 1000 回に 1 回起こることが最初の 1 回で発生しない確率」は、
1 - (1/1000) = 0.999


 「平均して 1000 年に 1 回起こることが最初の 1 年で発生しない確率」は、
e^(-1/1000) = 0.9990004998333……


 前者は「最初の 1 回でその現象は最大 1 回しか発生しない」のに対し、後者は「最初の
1 年でその現象が複数回発生する場合がある」という違いがあります。

 確率の数値自体も変わってくるので、この 2 つはちゃんと区別して適切な方を使用しない
といけません。


 これは自分で考えられたのでしょうか。ポアソン分布の統計誤差の可能性はないのでしょ
うか。例えば、

「次のグラフは,λ=10のポアソン分布の確率分布を k≦30について表したものです。」
(k>30の確率はゼロではありませんが無視できる程度です)  (→ 引用元

などとありますが。


 DD++ さんからのコメントです。(令和5年3月25日付け)

  ポアソン分布の統計誤差の可能性はないのでしょうか。

 ないですね。統計誤差というのは、有限個の実データに対して統計処理を行うと「本当は
無限個ないと収束しないので、それに足りない分誤差が出てしまう」というものです。

 ポアソン分布の公式は実データではなく理論値を取り扱う計算ですので、統計誤差が生じ
る余地はありません。

 後半のサイトを引用してきたのは何が言いたかったのかわかりませんでしたが、その k>30
云々が書いてあるすぐ上にポアソン分布のちゃんとした導出が載ってますので、まずはそち
らを読んでみてはいかがでしょう。


 通りすがりさんからのコメントです。(令和5年3月25日付け)

 ええ、私も否定している訳ではありません。しかし、DD++さんの投稿の、

「平均して 1000 年に 1 回起こることは平均して 700 年に 0.7 回起こるので、ポアソン分布
の λ=0.7, k=0 を計算して、700 年間地震が起こらない確率は、

 0.7^0*e^(-0.7)/0! = 0.49658530…… つまり、700 年の間に地震が起こる確率は

1-0.49658530…… = 0.50341469 …… になりますね。」


も、うんざりはちべえさんの投稿の

 「700年連続して起きない確率は{1-1/(365x1000)}^(700x365)=49.658%です。ですから、700
年以内に地震は起こる確率は50%ですね。」


も、全く起こらない確率の余事象を使っていますので、どちらも少なくとも1回起こる確率なの
で、片方だけ1回だけというのはおかしいのではないでしょうか。

 「平均して 1000 年に 1 回起こることが最初の 1 年で発生しない確率」は、
e^(-1/1000) = 0.9990004998333……


 これは平均して確率1/1000(1/1000回)で起こる事象が起こらない確率ですよね。

 「平均して 1000 回に 1 回起こることが最初の 1 回で発生しない確率」は、
1 - (1/1000) = 0.999


 これも同じではないでしょうか。

 ポアソン分布のちゃんとした導出が載ってますので、まずはそちらを読んでみてはいかが
でしょう。


 「期待値μ=np を一定に保って、n→∞、p→0 としていくと、ポアソン分布
Pp(x)=e^-μ・(μ^x)/x!(μ:定数)になる。」(「確率統計 キャンパス・ゼミ」馬場敬之著より)

 個人的には、∞×0に多少のゆがみが現れるのかなと思っています。もちろん、DD++ さん
がよく言う「「自分が食い違っていると思うからだ」ではただの妄想」というのはよく判っていま
す。

 誰か他の人にも訊いてみたいですね。


 DD++ さんからのコメントです。(令和5年3月25日付け)

 再三書いていますが、「起こる回数の期待値が 1/1000」と「起こる確率が 1/1000」の、こ
れらを混同しないでください。


 通りすがりさんからのコメントです。(令和5年3月25日付け)

 見解の相違ですね。もうこの話は止めましょう。


 DD++ さんからのコメントです。(令和5年3月25日付け)

 「確率」とか「期待値」とかの定義を無視することを、「見解の相違」とは言わない気がします
が……まあ、同じ話が無駄に3回くらいループしてるだけになってますし、終わりにしようとい
うことに同意します。



  以下、工事中!



              投稿一覧に戻る