ソフトバンクの優勝確率が1日で急落しています。

シーズン最終盤なので、大きく変動することは想定されていますが、さすがに1日でここまで動くのは不自然で、計算を調査中です。

手動の簡易計算で、81%程度になるようなので、自動計算に何か不具合があるようです。

明らかに挙動がおかしいときはバグや誤動作の可能性もあります。ご了承ください。

追記 22:25
再計算の結果を掲載しました。
新しい計算エンジンで計算している「優勝決定日」のほうでは、優勝そのものの確率が65~70%となっているので、旧エンジンから「球場との相性」も考慮した新エンジンへの移行を進めていきます。


セ・リーグの優勝戦線が3週間で激変しました。

セントラルリーグ優勝確率推移(8/4)

7月18日には巨人がおおよそ優勝を決めそうな勢いでしたが、そこからカードの負け越しが続き、2位DeNAとの決戦に3連敗し、0.5ゲーム差と迫られました。

一方、11連敗で自滅した広島が復調してDeNAのあとをピタリとついてきています。優勝確率的には、残り試合の兼ね合いとリーグ内での勝率から、広島がほんの少しDeNAの優勝確率を上回っています。

なかなか「確率が変わる」ことがピンとこない方もいらっしゃるかと思います。この計算に用いている数値モデルが振れやすいモデルなのも原因ですが、今更マイルドなモデルに変更するのも接続性が悪くなるので悩ましいです。

ただ、直感と比べてみて下さい。7月18日時点の巨人が「このまま行けば95%優勝する」勢いだったのは、多くの方の感覚とも一致するのではないでしょうか。そして、今、8月4日の状況が「巨人が有利なものの、3チームに可能性がある」というのも、感覚と違うという方は少ないと思います。もちろん、阪神ファンはまだ優勝に絡む可能性を諦めてはないでしょう。

もっと振り返れば、6月の広島ファンは「優勝いけるんじゃ?」と思ったはずですし、交流戦に入って11連敗中の広島ファンは「もう絶望的だ」と思ったはずです。

それがそのまま数字になっているわけですね。

という広島ファンの期待の乱高下が、そのまま定量的なグラフに現れています。



一時は独走だった巨人に負けが込み、広島とDeNAが迫っています。勝率ではDeNAが2位ですが、リーグ内の勝率と残り試合を考慮した場合の優勝確率は、広島の方が上になっています。

7月28日終了時点の優勝確率 : 巨人 65.8%・広島 20.8% となっています。

今日からの巨人・広島の3連戦がどのぐらい大事か、ちょっと計算してみました。

Continue reading

巨人のリーグ優勝の確率が95%を超えましたので「優勝濃厚」とします! 波乱の多い今シーズン、このままいくでしょうか。

そして、広島のCS進出確率が50%を下回りましたので、5/31 に点灯した「優勝濃厚」は一旦取消とします。まあ、誰がどう見ても5月の快進撃は5月だけだったみたいです。このままずるずる行くんでしょうか…。


まだ優勝濃厚とはなっていませんが、92%を超えてきましたので、この調子でいった場合の巨人の優勝決定日確率分布の計算を始めました。ホームがドーム球場なので天候によって延びる心配もありませんね。

計算量が多いので、日付が近づくまでは精度の低い計算となります。

7月15日時点での最尤日は、9月11日(9.2%)。思ったより早く決まっちゃうかも! これは他球団には結構衝撃では!?


日本のプロ野球の各球団優勝確率、及びそれぞれの順位の確率を計算し、一喜一憂するページを作りました。

二項分布を基本として、引き分けも含む勝敗確率を、ベイズ統計の事後確率としてモデル化しました。最も単純なモデルよりも、実際の勝敗では大連勝や大連敗が多く起こっているため、モンテカルロ試行の段階で、連敗連勝が現実世界と同程度に怒りやすくしています。その結、二項分布よりロングテイルな振る舞いをします。それでも、このモデルはとてもシンプルな統計モデルに、現実をより反映させた試行計算です。

シーズン開始から今日までの対戦成績などの既知のパラメータを用い、真の勝率を仮定してブートストラップ法モンテカルロ試行を行います。様々な勝率を仮定して3億回ペナントレースを試行する事で、有効数字4桁の精度で各順位で終了する確率として、現在までの勝敗ペースを評価しています。

これだけの情報で、大学数学を勉強した人なら(ほぼ)同じ物が作れます。ただし、幾つかの経験則による補正項で、より現実の勝敗傾向を再現するように微調整しているので、全く同じ値が出ることはないと思います。


未来は確定的に決まっているものではなく、台風進路予想のように、ある程度確からしい中心と、その近辺を通過する確率しか予測できません。これまでの対戦成績から、最終順位の確率を計算していますが、これは未来予想ではなくこれまでの戦歴を数値化したものです。リーグ内の各チーム、及び交流戦の対戦成績を相性として、この調子でシーズン最後まで行った場合の残り試合の勝敗確率を予測し、最終順位ごとの確率を計算します。必要勝利数は、当然優勝(CS)争いの熾烈さによって随時上下します。ただし、引き分けは特別扱いしています。シーズン序盤にはあまり考慮しませんが、終盤になるに従って、12球団の平均的な引き分け率で引き分けるものとして計算に考慮します。

これは最終順位を予測するものではないのですが、せっかく確率を計算しているので、確率95%で「濃厚」(50%未満で取消)を出しています。95%ですから「濃厚」がでても5%程度は必ず覆ります。正しい確率とはそういうものです。(後述しているとおり、実際は5%よりやや多めに覆ります。) シーズンのどの時点でも、優勝確実な勢いがあれば、その時点の素直な値として優勝確実な確率が出てきます。数字は正直なので当然ですよね。


「優勝まであと17勝とあるが、クリンチナンバーではあと34勝らしい。どゆこと?」という質問がよくあります。クリンチナンバー(マジック)は、あと34勝すれば、他のどの球団が残り全勝してもひっくりかえせない、100%優勝決定です。当サイトの計算は、あと17勝して、他球団がこの調子なら95%優勝確実、という意味の違いです。もちろん「あと17勝できなければ優勝できない」という意味でもありません(もちろん勝利が少なくなれば優勝できる確率は下がります)

クリンチナンバーの方は、ゼロになれば確実に優勝が決まりますが、残り39試合を34勝(5敗)で行くわけはないし、他球団も残り全勝とかあり得ないので、もっと現実的な計算をしてみようというのが当サイトの趣旨です。他球団がこの調子なら17勝で概ね優勝確実です。他球団の勢いによっても増減します。(クリンチナンバーは、他球団の勝敗によって減り方が加減されます。)

前述したように引き分け率を下げているのは、「71勝30敗42分」でも貯金41で優勝できますが、42分といわれてもしっくりきません。この場合「83勝42敗」の方がすっきりするので、できるだけ引き分けないようにしています。シーズン終盤は引き分けも順位を左右するので、終盤ほど引き分けを重要視します。


四捨五入の結果、100%や0%になった場合、セルの色を2段階に分けています。薄い色は 0.5%未満だが僅かに可能性がある場合で、濃い色は約1億分の1(この計算の精度限界)以下の可能性しかない(完全にゼロを含む)場合です。
この計算で求まる確率は、今までの成績のみを反映したものであり、選挙速報のように結果を予測できません。(それには出口調査に相当する情報が必要です。)

しかし、結果が全ての勝負の世界ですので、ペナントレースが終盤にさしかかるとだんだん意味を持ってきます。逆を言えば、シーズン序盤の数字は、まだまだ大きく変動する余地があります。シーズン終盤は、1つの勝ちや負けで大きく数字が動きます。

モデル計算はモデル計算でしかない

最後に、そもそも人間の行動は二項分布(≒ポワソン分布)で近似するよりもロングテイルな確率分布をとります(レビー統計のような分布を示すはず)。ですから、この計算では、その効果を確率関数に補正項を加えることで再現しています。「偶然」とは、教科書で習うポワソン分布で予言されるよりもずっと高い頻度で起きるのです。

また、この計算には、当然、選手の疲れや調子、怪我などによる離脱、選手のモチベーションの急変など、不測の要素は入っていません。そもそも、前提である「このまま行けば」がこのまま行かないからおもしろいのであって、計算は計算、現実は現実です。毎日の結果に一喜一憂しながら、最後まで応援しましょう。

その他、質問などは @tsuchim までお寄せください。

情報を拡散される方へ

個人が、ここで扱っている確率や統計が分からないなら分からないでいいのですが、まとめサイトを含むメディアには、正確な情報を報道する責任があります。引用先でいい加減な意見を二次拡散される場合には、拡散者の責任で反論して下さい。最も簡単な方法は「詳しくは優勝確率のページへ」とリンクに丸投げする事です。くれぐれも、 公の場で私の名誉を毀損しないようお願いします。