Python×ロト6データ分析(書きかけ、随時更新)
QC検定保持しているという品質管理、統計学の知見から、昨今のトレンドである機械学習の学びを模索中です。プログラム言語Pythonが必要ということで練習もかねてLOTO6について、つれづれなるままに分析したこと記載していきたいと思います。
宝クジなんてどう分析したってほぼ運だと思いますが(言っちゃダメ…)、過去のデータを活用して攻略できるものなのかどうか。楽しみながらまとめていきたいともいます。これは!?という気づきがあれば幸いです。
Pythonを練習しながらデータを充実させていきます。
('20/7/2更新)
基本的な考え方
ロト6は、1~43の数字を6つ選んで、それが抽選で出た番号とどれだけ近いかで賞金が変わるもの。もちろん6つそろえば1等です。すべての数字の出る確率が同じと考えれば1等の当選確率は600万分の1程度!!いや、当たらないでしょ。でも、でも、週に2回抽選は行われている中、毎回ほぼ1等が出ているのですから不思議です。なんであたるのか?
参考になる論文がありましたので、リンクを付けておきます。
http://jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n4/A7_RGiarelli.pdf
著:Renato GIANELLA
表題:"THE GEOMETRY OF CHANCE:LOTTO NUMBERS FOLLOW A PREDICTED PATTERN"
論文1で言っていることは、出現する番号に対して何らかの分布が考えられ、もし確率の低いような裾野のところ(例えば「1,2,3,4,5,6」なんか)を選んで書いてるんだったら、やっぱり一生あたらないですよ、ということ。確率的にボリュームゾーンである平均値±○○σみたいなところを選ぶべきということ。
これも面白いです。
https://lottometrix.com/blog/how-to-win-the-lottery-according-to-math/
データ分析(使用データ ’18/1/4~'20/7/2 全257回)'20/7/2更新
単数字出現頻度
それぞれの番号の出現頻度です。
異常なまでに「24」が出ており、もっとも少ない「13」の2倍以上となっています。
連続数字の出現頻度
同じ開催回で2つの連続する数字の組合せが出現した頻度です。
やはり最頻数字「24」につられて当然「24-25」が最も多いようですが、「9-10」も同じ程度に頑張っているようです。
ペア数字の出現頻度
特定の2つの数字の組合せで出現頻度が高いものの上位5位までを示しています。1~43の組合せから2つ選ぶことになるので、組合せは「」となり、全部で903通り。そのなかでも当選した数字で頻度の高い組合せがあるようです。
(11,37)のペアが最も多く13回も出現しています。もちろんここでも「24」の影響は強く、いたるところにペア数字として出現しています。
(11,37)のペアが出現する当選番号を詳しく見ると、以下のようになります。「th」は開催回、「Set」はセット球を示しています。
じゃあ、(11,37)の組合せが出た上記の開催回の中で、(11,37)以外にはどの番号がセットで出ているか調べてみましょう。
やはり、24は強いです。4回も出ています。つづいて10、23、42が3回出現でつづいています。
いかがでしょうか?何か数字を選ぶ時のヒントになりましたでしょうか。
ちなみにこんなのあるんですよ、知ってました?