今回紹介する記事は「stockedge.jpの技術メモ」様の
競馬の予測をガチでやってみた
という記事です。
競馬のデータ予想の仕組みが詳しく解説されています。
簡潔にまとめると
netkeiba.com様のデータをスクレイピングして予想、各馬を以下のファクターで評価
馬の年齢
過去4レースのスピード指数の平均
過去4レースの三着までに入っていた割合
コースが右回りか左回りか直線か
前回のレース時からの馬の体重変化量
今回と同一の距離コースにおけるスピード指数の平均
平均距離との差÷平均距離
今回のコースの距離
前回のレースから何日空いたか
出場回数
馬の平均獲得賞金額
グレードは何か
馬番
馬の現在の重さ
騎手の過去4走の勝率
騎手の平均獲得賞金額
騎手の一着率
馬主の一着率
競馬場はどこか
前走の順位
2走前の順位
前回のスピード指数
前走の上がり3ハロンタイム
一日の内の何レース目か
馬の脚質
出遅れ率
レース日は何月か
馬の性別
コースは芝かダートか
馬場指数
調教師の勝率
レース日の天候
斤量
斤量÷馬の体重
馬の勝ち回数
それに加えて出走馬の能力差を見る
といった感じです。
スクレイピングの方法など技術的な事は上記リンク先の記事を見て下さい。
データ派の基礎的な事が丁寧に書かれているので、データ派をやりたい人は参考になる記事だと思います。
ただこの記事だけでは100%競馬で勝つのは不可能です。
理由はシンプルで
「やっている事は一般の競馬ファンがやる予想を機械化して手間を省いただけだから」
手間を省いて機械的にやるのはいいですが、回収率が高い予想をする事とあまり関係がありません。
まだスタートライン上に居る状態です。
この記事を書いている方もここから色々と改良を加えて
次のような形に到達しました。
買うレースを絞る
この記事が出てからしばらくして、
という記事が出てきます。
噛み砕いて説明すると
・回収率は「オッズが歪んで美味しい部分の良いとこどり」をすれば上がる
・オッズの歪みを検出するファクターを探す
・美味しさ指数を算出し、一定の数字を超えるレース(馬券)だけ買えば回収率が100%以上になる
といった感じです。
記事の結論にある「100%を超える買い目の検出率が低い」という弱点を自認しているのは凄いと思います。
普通の人ならここで満足して終了でしょう。
実際に馬券で稼いでいる人がこの次にやるのは「破綻率の予測モデルを立てる」事です。
買うレースを絞ると「収束する期間が長くなる」という問題が発生します。
サンプル数が10000に対して回収率が100%を超えるのが453だと約22レースに1回です。
障害や新馬を含めて1/22だとしても年間に買うレースは150~200程度となります。
破綻率の算出については
生活状況を考慮しなければいけません。
この記事を書いた人や記事の参考文献で出てくる人々はメタボ教授と違って立派な本職を持っています。
そういう人は「破綻率≒連敗率」でマネジメントすればいいのですが、
競馬オンリーで食べていくとなると話は別です。
的中率が14%、回収率が113%、年間にやるレースが150~200程度だと年間トータルマイナスも覚悟しておく必要があり、それに耐えるだけの資金量が必要となります。
そのため、ここから更に回収率を上げるのはもちろん、的中率を上げる事、試行レース数を増やす事も重要です。
競馬で生涯収支をプラスにするのは現実的に可能ですが、食べていくためのハードルは結構高いと思います。
メタボ教授は
競馬予想の精度を上げる事よりも
パチスロや株でリスクヘッジをする事を選んだわけです。
問題点
とここまで解説して来ましたが、このモデルには問題点もあります。
確定オッズで色々検証している事です。
モデル予測で使う確定オッズと実践上のリアルタイムオッズとの隔たりはデータ派における永遠の課題だと言われています。
JRAのオッズ発表は数分遅れているため、締め切り直前に投票しても正確なオッズは解りません。
ここで重要なのは
様々な角度のデータを放り込んで美味しいオッズ(買い目・レース)を見つけ出す事なんて何十年も昔からある考え方である事です。
既に気づいた人も居るかもしれませんが
netkeibaのデータをわざわざスクレイピングしなくてもJRA-VANのソフトを使えば同じ事が出来るわけ。
期待値を正確に導き出したつもりでも、人と同じファクターを使って予想していたら、最終的な期待値は下がります。
データ派の飽和
近年データ派が台頭してきた理由として
・競馬が成熟して来た
・取り込めるデータの種類が増えた
という2要因があります。
昔は過去のデータが一切参考に出来ないレベルで競馬の質が変わっていました。
オグリキャップの時代、ナリタブライアンの時代、テイエムオペラオーの時代、それぞれ競馬の常識が色々打ち破られた時代だったと思います。
そんな時代のデータを集計しても馬券には役立ちません。
しかし、ここ10年は競馬の質がそれ程変わってないと思います。
ゆえにデータ分析が通用するようになりました。
それに加えて、数値化されるデータの種類が増えたという要因もあります。
これによりデータ予想の精度が向上しました。
データ予想で勝てるようになったため、データ派が増えてきたわけですが、スロットのハイエナと一緒で飽和する運命が待っています。
データの組み合わせには限界があるため、データ予想をする人が増えれば増えるほど理論上配当が下がるからです。
でも、競馬で本当に勝っている人は
その点にもしっかり対応しています。
それが何かを思いついた人はデータ予想をやれば成功するはずです。
にほんブログ村トラコミュ