日本のプロ野球の各球団優勝確率、及びそれぞれの順位の確率を計算し、一喜一憂するページを作りました。

二項分布とレヴィ分布をベースにした独自の数理統計モデルを元に、これまでの対戦相手と球場との相性を数値化した係数を用いて、仮想球団を100万回つくり、それぞれ残りの日程に従って300シーズンを経験させて、最終順位の頻度を表にしています。とても素直な統計モデル計算ですので、ブートストラップ法・モンテカルロ法・ベイズ統計・二項分布・レヴィ分布を調べると誰でも類似のモノが作れてしまいます。それだけは勘弁して下さい。

未来は確定的に決まっているものではなく、降水確率のように確率でしか予測できません。これまでの対戦成績から、最終順位の確率を計算します。つまり、未来予想ではなくこれまでの戦歴を数値化したものです。リーグ内の各チーム、及び交流戦の対戦成績を相性として、この調子でシーズン最後まで行った場合の残り試合の勝敗確率を予測し、最終順位ごとの確率を計算します。必要勝利数は、当然優勝(CS)争いの熾烈さによって随時上下します。ただし、引き分けは特別扱いしています。シーズン序盤にはあまり考慮しませんが、終盤になるに従って、12球団の平均的な引き分け率で引き分けるものとして計算に考慮します。

これは最終順位を予測するものではないのですが、せっかく確率を計算しているので、確率95%で当確(50%未満で取消)を出しています。95%ですから、当確がでても5%程度は必ず覆ります。正しい確率とはそういうものです。(後述しているとおり、実際は5%よりやや多めに覆ります。) シーズンのどの時点でも、優勝確実な勢いがあれば、その時点の素直な値として優勝確実な確率が出てきます。数字は正直なので当然ですよね。

「優勝まであと17勝とあるが、クリンチナンバーではあと34勝らしい。どゆこと?」という質問がよくあります。クリンチナンバー(マジック)は、あと34勝すれば、他のどの球団が残り全勝してもひっくりかえせない、100%優勝決定です。うちの計算は、あと17勝して、他球団がこの調子なら95%優勝確実。という意味の違いです。
クリンチナンバーの方は、ゼロになれば確実に優勝が決まりますが、残り39試合を34勝(5敗)で行くわけはないし、他球団も残り全勝とかあり得ないので、もっと現実的な計算をしてみようというのがうちの趣旨です。他球団がこの調子なら17勝で概ね優勝確実です。他球団の勢いによっても増減します。(クリンチナンバーは、他球団の勝敗によって減り方が加減されます。)

前述したように引き分け率を下げているのは、「71勝30敗42分」でも貯金41で優勝できますが、42分といわれてもしっくりきません。この場合「83勝42敗」の方がすっきりするので、できるだけ引き分けないようにしています。シーズン終盤は引き分けも順位を左右するので、終盤ほど引き分けを重要視します。

計算の詳細

まず対戦相手と球場ごとの勝敗数から、真の勝率分布を仮定し、その勝率分布に従う場合の最終順位の分布をモンテカルロ法で求め、積分します。いわゆるBootstrap法ですが、離散分布を平滑化する際に、正規分布の乱数を付加するのではなく、両端が有限の三項分布(引き分けもあるので)をベースに、レビー関数的な振る舞いをする補正係数を導入し、連勝連敗の頻度を高めた有限離散分布関数を用います。サンプリング回数100万回につき、それぞれ300回の試行を行うので、総試行回数は3億回です。疑似乱数にはみんな大好きメルセンヌツイスタを用います。3億回の積分値を試行回数で割り、小数第2位を四捨五入して表にしています。

四捨五入の結果、100%や0%になった場合、セルの色を2段階に分けています。薄い色は 0.05%未満だが僅かに可能性がある場合で、濃い色は約1億分の1(この計算の精度限界)以下の可能性しかない(完全にゼロを含む)場合です。
この計算で求まる確率は、今までの成績のみを反映したものであり、選挙速報のように結果を予測できません。(それには出口調査に相当する情報が必要です。)

しかし、結果が全ての勝負の世界ですので、ペナントレースが終盤にさしかかるとだんだん意味を持ってきます。逆を言えば、シーズン序盤の数字は、まだまだ大きく変動する余地があります。シーズン終盤は、1つの勝ちや負けで大きく数字が動きます。

最後まで諦めず応援しよう

最後に、そもそも人間の行動は二項分布(≒ポワソン分布)で近似するよりもロングテイルな確率分布をとります(レビー統計に近いと思います)。ですから、この計算では、その効果を確率関数に補正項を加えることで再現しています。「偶然」とは、教科書で習うポワソン分布で予言されるよりもずっと高い頻度で起きるのです。

また、この計算には、当然、選手の疲れや調子、怪我などによる離脱、選手のモチベーションの急変など、不測の要素は入っていません。そもそも、前提である「このまま行けば」がこのまま行かないからおもしろいのであって、計算は計算、現実は現実です。毎日の結果に一喜一憂しながら、最後まで応援しましょう。

その他、質問などは @tsuchim までお寄せください。

苦言

確率や統計が分からないなら分からないでいいのですが、引用先でいい加減な事を言う人には反論して下さい。くれぐれも、 公の場で弊社の名誉を毀損しないようお願いします。


Comments are closed