About 槌本 裕二

えっとワークのシステムを作っています。

プロ野球確率ページをご愛顧下さりありがとうございます。1分お時間を頂いて、プロ野球確率計算の拡張をクラウドファウンディングで支援頂けるかのアンケートにご協力お願い致します。

新時代の野球データを開拓したい

「この投手と野手の対戦成績は、3打数2安打、.667 と当たっています!」

こういう解説をよく聞きますが、2安打しただけなんて、まぐれなんか、ほんまに相性が良いんかわからんだろー! って思いませんか? もう21世紀ですよ。ビッグデータとAIの技法をふんだんに取り入れた統計指標を生み出して、昭和のデータ野球に平成最後の革命を起こしませんか!?

時々目にする謎のスタメンや采配。この投手と打者の相性は本当に良い(悪い)んでしょうか?

中途半端なデータで干されている選手が不憫ではありませんか?

AIが車を運転する時代に相応しい、高度なデータと共に選手を見たくありませんか?

この「プロ野球 順位確率」ページは、元々カープ応援ページの一部でしたが、今や、カープファンだけでなく、多くのプロ野球ファンに親しんて頂いております。これは本当に喜ばしいことであり、また、本物の統計データに価値を感じて下さる皆様に感謝しております。

プロ野球データに「客観的な確率」を導入したことで、思ったより余裕、思ったよりやばい、そんな一喜一憂が生まれたと思います。この興奮をみなさんと共有できて、毎日のペナントレースがとても楽しく、また他球団のファンの方との交流も増えました。

それと同時に、大きなもどかしさを覚える毎日でもあります。

この確率計算は、もっとデータと時間、有り体に言えば、お金をつぎ込めば、もっと色々な値が出せる設計なんです。

できそうなこと

今すぐにでもやりたいのは、現在試合ごとにしか得られていない対戦データを、打席ごとのデータに置き換えたいのです。そうすれば、次のような数値を出す事ができるようになります。

  • 予告先発を考慮したオッズ計算
  • ファーム成績を一軍換算した値の計算
  • 最近の調子の波を考慮した計算(これはもう少し熟慮が必要)
  • 今日の先発投手との相性を考慮した、スタメン各打者の打点期待値
  • 同様に、先発投手の失点期待値
  • 代打・投手交代などにおける、得点期待値の上下
  • 一球ごとの、凡退・安打・出塁・打点期待値

上から、実装が簡単な順に書きました。時間が無限にあれば、もっと色々できるのですが、特に、これらは最初から想定してモデルを設計しているため、今できていないことがもどかしいものでもあります。

これらの計算は、過去の対戦結果を単純に引いているのではなく、独自の数値統計モデルを用いて数値化した仮想選手同士を、AI将棋のように何度も仮想対戦させて確率を計算するので、初対戦でもある程度の精度で計算可能です。この手法は、セイバーメトリクス導入以来の、野球データの革命と言えると思います。

ただ、これらを計算するのには、大きな困難があります。

とにかく最初のコストが高い

  • 一打席ごとの過去データがとても高い
  • 一球ごとの過去データはもっと高い
  • リアルタイムでデータを受け取るのはもっと高い
  • リアルタイムで計算させるには、かなり高性能な計算機が必要
  • データの購入には継続して費用が発生する
  • こんなの一朝一夕にはつくれないので、年単位で継続して開発資源を投入し続けなければならない

これらは、それぞれが、おおまかに何百万円単位の話になってしまい、資産家でも大企業でもない私(と私の会社)には、とても手が届きません。そんな中、先日、クラウドファウンディングのような形でご支援頂けるなら、それが可能になるのではないか、との助言を頂きまして、その予備調査として、このアンケートを行っております。

これまで、趣味の範囲で、仕事の合間にコツコツ開発してきて、10年近くたってやっとここまで来ました。次の10年、いや、まず1年、本気でやらせて貰えませんか?  いかんせん、次のステップに必要な金額が大きすぎて行き詰まっているのです。

はたして、これらの計算にどれだけの需要があるのか分かりません。そもそも、なぜ、野球中継で、選手の打率や防御率が見たいのか、突き詰めて考えると、余計に分からなくなってきました。そこで、思い切って皆さんに聞いてみようと思うに至りました。

理想を言えば、今後も皆さんに野球データを楽しんで頂くため、基本データは無料公開のままにしつつ、ご支援頂いている方には、さらに精度の高い数値をお知らせするなど、プレミアムサービスを返礼に充てられればと思っています。もしかしたら、将来的には、もっと色々な人の知恵を借りて、ビジネスとして自立できる日が来るかもしれません。その日まで、皆様のご支援を賜ることはできませんでしょうか。

プロ野球確率計算の拡張をクラウドファウンディングで支援頂けるかのアンケートにご協力お願い致します。


マジック点灯から勢いがあるのかないのか分からない広島東洋カープ。7連勝したかと思えば6連敗(9/11まで)というジェットコースターを走っており、ファンは一喜一憂どころか七喜六憂していることでしょう。

さて、ここでは、話を簡単にするために、今日も負けて7連敗したとしますね! (←怒られそう) ― 追記:7連敗には至りませんでした

7連勝とか7連敗とか、そりゃあもう1シーズンに1回あるかないかの出来事です。ま、7連敗が3回も4回もあれば、もうそのシーズンは絶望的ですからね。

広島東洋カープの平均的な勝率は6割前後で推移しているので、簡単のために、6割に固定して計算していきましょう。

勝率6割の広島が7連勝する確率は、0.6^7 で、2.8% です。では、同じく勝率6割の広島が7連敗する確率は (1-0.6)^7 = 0.16% となります。

これが勝率5割のチームだと、どちらも 0.78% ですから、勝率5割と6割の差がどれだけ凄い事かが分かりますね。

そして、7連勝する確率は 2.8% もあるのに、7連敗する確率は 0.16% しかないので、ここに来ての7連敗となれば、広島ファンにはどれだけショックなこととなるでしょう。

さて、せっかく7連勝の直後に7連敗した(まだしてないけど)わけですから、「7連勝したあとに7連敗する確率」を求めてみましょう。これは、単純なかけ算で、2.8%×0.16% = 0.0046% と、2万分の1の珍事となるわけです。とんでもないことが起きたわけです!!

ペナントレース全体から見れば、ただの7勝7敗

しかし、ペナントレース全体から見ると、結果的には14試合を7勝7敗でぬけただけです。勝率6割の広島が、14試合を7勝7敗で抜ける確率は、14C7 0.6^7 0.4^7 = 15.7% となります。まあ、普通に考えても普通ですよね。

14試合を7勝7敗した時、それが7連勝7連敗になるのは数万分の1ですが、どの順番でかっても勝敗は変わりません。ペナントレースを決める、7勝7敗という結果は、16%ほどで極々普通に起こることなのでした。

7勝7敗ならなんてことないのに、7連勝7連敗だと世界の破滅に感じるのは、勝率6割のチームが7連敗する確率が0.16%しかない上に、心理的にも連勝より連敗のインパクトが大きいので、その相乗効果なんでしょうね。

ロングテイル

しかしながら、実は、7連勝や7連敗の起こる可能性は、この計算よりも頻度が高いのです。完全ランダムな二項分布より、すこし裾野が広がった確率分布をとり、その部分を「ロングテイル」と呼んだりします。このサイトの確率計算でも、このロングテイルの効果を最尤法の中で組み込んで再現しています。

しかし、こんな記事を書いて、本当に7連敗になりませんように…

※言い訳
この新しいエディタで、<sup> <sub> の使い方が分かりません、また分かったら修正しますね。


2018年シーズンも首位を独走するカープ。このデータを見ると、必ず優勝できるパターンが見えてきました! 全ての試合に勝たなくても、この試合だけ勝てば良いのです! 各球団の監督必見です!!

今年のセ・リーグは、カープが首位を独走する一方で、2位以下がめまぐるしく入れ替わっています。2位以下の争いはまだ(9月3日現在)決着がついておらず、ペナントレースを最後まで面白くしています。

めまぐるしく2位が入れ替わる原因は、実はカープにもあるのかもしれません。9月2日までに、カープが1位で迎えた首位攻防戦(2位との対戦)は10カードあります。そのカードの勝敗と終了後の相手チームの順位を見てみましょう

カード初日対戦相手対戦前順位対戦成績対戦後順位
4/3ヤクルト2○●○4
5/1巨人2○×○3
5/22巨人2●○2
6/26巨人2○○○4
7/3ヤクルト2×○×3
7/20巨人2○○○2
7/31ヤクルト2○○●3
8/10巨人2○△●2
8/21ヤクルト2●○○2
8/31ヤクルト2○○○2

なんと、首位攻防戦の10カードで負け越し無し。下位が混戦の時は、一気にBクラスまで押し返したこともあります。

勝率を見てみると、

首位攻防戦        20勝  5敗 1分 の .800
その他の試合    35勝28敗 1分 の .555

と、首位攻防戦にめっぽう強いことが分かります。

せっかくなので、フィッシャー検定をしてみましょう。

> fisher.test(matrix(c(20,5,35,28), ncol=2, byrow=T))
Fisher's Exact Test for Count Data
data: matrix(c(20, 5, 35, 28), ncol = 2, byrow = T)
p-value = 0.04972
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.9843529 12.1573690
sample estimates:
odds ratio
3.160325

p値は 0.05 を下回りました。これは社会科学などで、偶然では起こりにくい事柄の目安とされている値です。首位攻防戦と、そうでない試合との間で、勝率に統計的に有意な差が認められた、と言えます。この差は、偶然では 5% 以下の確率でしか起こりえず、偶然ではないなにかが作用している可能性が示唆されます。

首脳陣が、戦略的に2位に勝つ布陣を敷いているのか、と言われると、あまりそうは見えませんので、選手達の気合いが入るのか、はたまた、5%の偶然か、この件、選手や監督に訊いてみたいですね!!


西日本豪雨に限らず、水害の多い日本列島。毎日多くのストレージが水に浸かっていることと思います。

幾つかのストレージの復旧をお手伝いさせて貰って思う事。HDDは泥水に浸かると、ほぼダメ、みたいです。元々、HDDのディスクとヘッドは空力で距離をとっているので、完全には密封されていません。穴にシールが貼ってあるものが多いように思います。ここから泥水が入ると、ディスクをバラして、特殊な洗浄をして、クリーンルームで再び組み立てないとダメでしょう。数百万円コースかと思います。

他方、SSDのほうは、アルコールで洗浄して脱水すると、ほぼ(というか全部)動きました。水没時にショートを起こしたりすると壊れることもあるかもしれませんが、SSDは水没にも強いストレージと言えるようです。

Windows Update や、起動時間が劇的に変わるSSD、最近は価格もこなれてきましたし、ちょっと昔のパソコンも、HDD を SSD にアップグレードできます。是非ご相談下さい。


どちらかといえば暗中模索の中で立ち上げた弊社ですが、みなさまのおかげをもちまして、無事第8期に入ることができました。色々なものを10年一区切りで設計しておりますので、あと3年(と少し)で、創業時の「一区切り」を迎えることになります。

10年前とは色々な状況が分かってしまったので、一部は整理しながら、また新しい事に細々と挑戦していきます。

これからどんなサービスが重要になって、どんなサービスが淘汰されていくのか、先を見通すことはますます難しくなっていますが、なんとか、この世界の片隅で、世界を少し良くする仕事ができればと思っています。

今後ともごひいきによろしくお願いします。


「昨日のカレー、作りすぎたので、よかったらどうですか?」

これは、田舎暮らしや、上京したての一人暮らしのアパート(ただし漫画に限る)でよくみられる光景ですね。しかし、これがもっとシステマティックになって、カレーを作りすぎた人とカレーを食べたい人を効率的かつ安全にマッチングできるようになるとどうなるでしょう。(ここでは単純化のため、保健所などの規制は考えないものとします。)

カレーを作りすぎるコストはとても低いです。一方で、カレーを外食するときの販売価格は、そこそこ高いです。もちろん、カレー屋が高すぎるというのではなく、きちんと市販しようと思うとそれなりのコストがかかるのです。

よくカレーを作りすぎてしまうAさんは、カレーを作りすぎた人と、カレーを食べたい人とのマッチングアプリを作りました。家の鍋で一人分を作るのも5人分を作るのもほとんど同じ。ならば、最初から5人分作ってお裾分けしたら良いと思ったのです。カレーを食べるほうも、お裾分け価格で色々なカレーを楽しめるのは、とてもお得です。このアプリはとても流行りました。1年後、その地域の老舗のカレー店は、ひっそりとのれんを下ろしました。

今、巷で起きている第4次産業革命は、こういう事ではないかと思います。

車の相乗り送迎や民泊のマッチングサービスは面白いものですが、いずれも、従来の民宿やタクシーといった専業の方がいらした業種です。それを、素人の提供者と利用者とが、リスクとコストを自腹で抱えることで、その分、安価にしたサービスとも言えると思います。プロが生業として長期的に営業するには、様々なリスクや安全管理コストなども経費として織り込みますので、トータルのサービスコストはどうしても、素人が暇つぶしに提供するものよりは高くなります。一方、それらを束ねる「マッチング会社」は、ここのトラブルのリスクを、当人同士(や保険会社)にリスク分散することが出来ます。当事者が廃業に追い込まれても、顧客の一人が酷い被害を被っても、替わりはいくらでも居ます。そもそも、安価なサービスにフルサービスを要求するなと言う事もできます。

利用者も支払金額こそ少なくてすみますが、電話一本で済むところを、自分で探して手配するコストを払っています。自分はスマホも使えるし、そんなの苦にならない、という方が多いでしょうが、そういう専門技能を無償提供しているのです。他方、提供者も、本来貰えるはずの報酬の一部や、年金などの福利厚生費、リスクを織り込んだ積立などが含まれていない価格で受注しています。その時だけなら良いかも知れませんが、生業でやっていくには、長期的視野に欠けるモデルです。日雇いが基本で貯蓄率の低い国のシステムとも言えるかもしれません。

このような新しいサービスは、こうした「技能やリスクを無料で拠出させる」ことで成り立っているように思います。タダでさえ、日本は、リスクや専門技能に対価を払うことを嫌う風潮があるので、(皮肉にも日本の価値観に合っているのかもしれませんが)、いずれ専門技術全体が、安く叩かれるようにならないか心配です。そうなれば既存の専門職は、技術に見合う対価が得られなくなるので、自由化に反対することは至極当然のように思います。

これまでも、テクノロジーの進歩は、常に専門職を駆逐してきました。電話の自動交換機は電話交換手の仕事を駆逐しましたし、 ガソリンがセルフ給油できるようになりました。 スーパーマーケットのレジも無人になっていきます。

こうした効率的な機械化に伴う省力化とは異なり、第4次産業革命は、リスクと専門技能を、大勢で分散して安売りすることで成り立っているように思います。
これまでのコストカットが、ブラック企業による徹底した人件費削減だとするならば、これらは、人件費を利用者に全て押しつける「トウメイ」ビジネスモデルと言えるのではないかと思います。 利用者もハズレを引けば損をしますし、提供側も、暇だからとうっかり「ひさし」を安価に貸すと、やがて専門技能の価値が社会的に下がり、母屋の価値までなくなることになりかねません。

しかし、この流れを規制で妨げても、世界はどんどん動いていきます。技術に対する収入がきちんと確保できるような制度が必要なのかもしれませんが、今のところ、それを一番上手くコントロールできるのは「公正な市場原理」のような気がします。下手に○○法人に丸投げされた資格認定制度より、「トウメイ企業」による評価制度と市場による淘汰の方がうまく回りそうな気がします。


Waifu2x

Up系のモデルはノイズ低減と拡大がセットで学習されている。
ResNet10 が高性能らしい。→ UpResNet10 が出たが好みが割れている?

waifu2x-chainer + UpResNet10 (どうしても線が太くなる) + Lanczosで縮小すれば線が痩せる

TTA – test-time augmentation

回転や反転 8パターンの平均を取ることで構造的ノイズを低減させる。時間は8倍かかる。
https://github.com/nagadomi/waifu2x/issues/148#issuecomment-255754265


まとめサイトやメディア、SNSなどで引用される発信者の皆様へ。

このページを読んで下さってありがとうございます。
画像やスクリーンショットの掲載や発信を、私もとても嬉しく思っています。ただ、数字は一人歩きしやすいので、コンテンツの一部をWeb上で引用する際は、必ずそのページへのリンク(もしくは、リンクに相当するもの)を添えて下さい。(当サイトに限らず「引用」全般に言えます)

スクリーンショットを含む全ての「引用」は無断で行えます。もし、出典として表記いただける場合「栄諧情報システム Webサイト版」と御表記ください(必須ではありません)。

お願いついでにもう少し贅沢を申しますと、当サイトの数字について、下記のような誤った情報(レス・コメント・解説など)が付加される場合については、編集注等で情報を補足してくだされば嬉しいです(あくまで感情的なお願いです)。

よくある反応と、それへの反論


ホンマなんかな?

少なくとも嘘(目的ありきの数字を出すために人為的な調整)は行っていません。
ただし、モデル計算では人間(野球)の全てをモデル化できませんから、現実との乖離は必ずあります(大きな乖離は無いはずですが…)。
例えば、既に生じた怪我での離脱・今日の気候・過密日程など、確定的なチーム事情の変化は計算に含まれていません。長いシーズン中、未来に起こりうる不確定な要素は統計的に織り込んでいます。


まだ、○○が引き分けて□□が勝てばチャンスある

計算モデルの性質上、他チームの引き分けが絡む局面を数字に反映させるのが難しい事があります。現在は改良が進みほとんど無くなったはずですが、バランスが難しく、さらに改善していきますので、今のところご容赦下さい。(2014年以降、このような事態は発生しないはずですが、発生していればご連絡ください)


まだ可能性はあるのに、0%とは何事か

有効数字と四捨五入の結果です。ただし、1千万分の1以下の微少な可能性に関しては計算漏れすることがあります。現実的な確率に戻れば、計算精度も復活します。また、本当に計算ミスの可能性もあります。ご了承ください。


ピタゴラス勝率から算出してるだけ

デマです。ピタゴラス勝率からの計算ではありません。


当たるの?

当サイトは「現状」を統計モデルで計算した数字ですので、当たり・ハズレを予想するものではありません。

以前、95%確実になった時点で「当確」という言葉を使っていましたが、言葉の方が一人歩きし始めたので、使うのをやめました。


結局いつ優勝するの?

当サイトは未来予知ではありません。確率「60:40」は「60のチームが勝つと予想」ではありません。統計モデルを用いた確率計算ですので、ご理解頂ける方のみ言及いただければと存じます。


ちょっと前に数%だったのに、数十%になってるものなんてあてにならない

これは、事後確率の性質です。確率を押し広げるシナリオを現実が辿って、確率が上がってきたのです。


確率が変わる理由が分からない

これは、事後確率の性質です。もちろん、個人の信条として確定論を否定するつもりはございません。


過去のデータを見てこの状況ならこの先この順位になってることが多いですってだけだから

この計算は完全な統計数理モデルによる計算です。過去の順位などは係数の算出に用いていますが、ご意見のような(スポーツ紙によく見られるような)過去データの単純参照ではありません。


去年、99.5%から逆転された

いくらなんでもこれはデマです。 もちろん、確率ですので、99.5%から逆転されることも0.5%あり得ますが、まだ起きていません。


確率の世界は、迷信の方が優勢だったりします。

  • サイコロを6回振ったら、必ず1回1が出る
  • 降水確率20%で雨が降らない日が4日続いたら、5日目は必ず降る
  • コイントスで、3回連続で表が出たから、そろそろ裏が出る頃

のような気がする気持ちも分かります。
誕生日や血液型で優勝を占うのも自由ですし、下駄を飛ばして占うのも自由です。

ただ、それとこれとを同じ土俵で評価しないでください。考え方が違うのは仕方のないことなので、気に入らないならそっとしておいて下さい。


順位確率に戻る


昨日、SSD水没の話を書いていたら、今日、洗濯機の中からUSBメモリが…。どうやら、昨晩、あの記事を書きながら、USBメモリを洗濯していたようです。今回のケースは、もう「すすぎ」まで終わっているので、追加で精製水やアルコールで洗浄するか迷うところですが、外側のプラスチックカバーを壊さずに開けられないので、このままシリカゲルで3日ほど乾燥させてみましょう。それにしてもタイムリーな凡ミス…。

―追記―

十分な乾燥で無事使えるようになりました。データも残っていました。よかった~。


さきほどの「水没したパソコン・データの復旧」で出てきましたが、ストレージの HDD と SSD、時代は SSD になってきています。災害に強いほかにも、毎日の起動が早い、突然故障する確率が低い、などの利点があります。

メーカ保証は切れてしまいますが、お使いのパソコンの環境をそのまま SSD に載せ替えることもできます。ただし、今お使いの HDD より大容量のものが必要になりますので、購入費用が効果になります。場合によっては、容量の少ない SSD に移行することもできますが、お使いの条件によります。

あまりディスクを使っていなければ、容量の少ない SSD に Windows を再セットアップして、データのみ移行する手段もあります。

この機会に、HDD の SSD換装をやってみませんか? 512GB で3万円ぐらいからです。