日本のプロ野球の各球団優勝確率、及びそれぞれの順位の確率を計算し、一喜一憂するページを作りました。

二項分布を基本として、引き分けも含む勝敗確率を、ベイズ統計の事後確率としてモデル化しました。最も単純なモデルよりも、実際の勝敗では大連勝や大連敗が多く起こっているため、モンテカルロ試行の段階で、連敗連勝が現実世界と同程度に怒りやすくしています。その結、二項分布よりロングテイルな振る舞いをします。それでも、このモデルはとてもシンプルな統計モデルに、現実をより反映させた試行計算です。

シーズン開始から今日までの対戦成績などの既知のパラメータを用い、真の勝率を仮定してブートストラップ法モンテカルロ試行を行います。様々な勝率を仮定して3億回ペナントレースを試行する事で、有効数字4桁の精度で各順位で終了する確率として、現在までの勝敗ペースを評価しています。

これだけの情報で、大学数学を勉強した人なら(ほぼ)同じ物が作れます。ただし、幾つかの経験則による補正項で、より現実の勝敗傾向を再現するように微調整しているので、全く同じ値が出ることはないと思います。


未来は確定的に決まっているものではなく、台風進路予想のように、ある程度確からしい中心と、その近辺を通過する確率しか予測できません。これまでの対戦成績から、最終順位の確率を計算していますが、これは未来予想ではなくこれまでの戦歴を数値化したものです。リーグ内の各チーム、及び交流戦の対戦成績を相性として、この調子でシーズン最後まで行った場合の残り試合の勝敗確率を予測し、最終順位ごとの確率を計算します。必要勝利数は、当然優勝(CS)争いの熾烈さによって随時上下します。ただし、引き分けは特別扱いしています。シーズン序盤にはあまり考慮しませんが、終盤になるに従って、12球団の平均的な引き分け率で引き分けるものとして計算に考慮します。

これは最終順位を予測するものではないのですが、せっかく確率を計算しているので、確率95%で「濃厚」(50%未満で取消)を出しています。95%ですから「濃厚」がでても5%程度は必ず覆ります。正しい確率とはそういうものです。(後述しているとおり、実際は5%よりやや多めに覆ります。) シーズンのどの時点でも、優勝確実な勢いがあれば、その時点の素直な値として優勝確実な確率が出てきます。数字は正直なので当然ですよね。


「優勝まであと17勝とあるが、クリンチナンバーではあと34勝らしい。どゆこと?」という質問がよくあります。クリンチナンバー(マジック)は、あと34勝すれば、他のどの球団が残り全勝してもひっくりかえせない、100%優勝決定です。当サイトの計算は、あと17勝して、他球団がこの調子なら95%優勝確実、という意味の違いです。もちろん「あと17勝できなければ優勝できない」という意味でもありません(もちろん勝利が少なくなれば優勝できる確率は下がります)

クリンチナンバーの方は、ゼロになれば確実に優勝が決まりますが、残り39試合を34勝(5敗)で行くわけはないし、他球団も残り全勝とかあり得ないので、もっと現実的な計算をしてみようというのが当サイトの趣旨です。他球団がこの調子なら17勝で概ね優勝確実です。他球団の勢いによっても増減します。(クリンチナンバーは、他球団の勝敗によって減り方が加減されます。)

前述したように引き分け率を下げているのは、「71勝30敗42分」でも貯金41で優勝できますが、42分といわれてもしっくりきません。この場合「83勝42敗」の方がすっきりするので、できるだけ引き分けないようにしています。シーズン終盤は引き分けも順位を左右するので、終盤ほど引き分けを重要視します。


四捨五入の結果、100%や0%になった場合、セルの色を2段階に分けています。薄い色は 0.5%未満だが僅かに可能性がある場合で、濃い色は約1億分の1(この計算の精度限界)以下の可能性しかない(完全にゼロを含む)場合です。
この計算で求まる確率は、今までの成績のみを反映したものであり、選挙速報のように結果を予測できません。(それには出口調査に相当する情報が必要です。)

しかし、結果が全ての勝負の世界ですので、ペナントレースが終盤にさしかかるとだんだん意味を持ってきます。逆を言えば、シーズン序盤の数字は、まだまだ大きく変動する余地があります。シーズン終盤は、1つの勝ちや負けで大きく数字が動きます。

モデル計算はモデル計算でしかない

最後に、そもそも人間の行動は二項分布(≒ポワソン分布)で近似するよりもロングテイルな確率分布をとります(レビー統計のような分布を示すはず)。ですから、この計算では、その効果を確率関数に補正項を加えることで再現しています。「偶然」とは、教科書で習うポワソン分布で予言されるよりもずっと高い頻度で起きるのです。

また、この計算には、当然、選手の疲れや調子、怪我などによる離脱、選手のモチベーションの急変など、不測の要素は入っていません。そもそも、前提である「このまま行けば」がこのまま行かないからおもしろいのであって、計算は計算、現実は現実です。毎日の結果に一喜一憂しながら、最後まで応援しましょう。

その他、質問などは @tsuchim までお寄せください。

情報を拡散される方へ

個人が、ここで扱っている確率や統計が分からないなら分からないでいいのですが、まとめサイトを含むメディアには、正確な情報を報道する責任があります。引用先でいい加減な意見を二次拡散される場合には、拡散者の責任で反論して下さい。最も簡単な方法は「詳しくは優勝確率のページへ」とリンクに丸投げする事です。くれぐれも、 公の場で私の名誉を毀損しないようお願いします。


Comments are closed