ブラジルのドローの真実

837

ドーの神話

私は2年間、ブラジルSérie Aの全試合をモデル化しました。ファンではなく、統計学者としてアールグレイを片手に、ゴールがエントロピーに沈むのを見守りました。

データは嘘をつかない。しかし物語はそうではない。

第12節では、19試合中6試合が1-1、0-0、2-2で引き分けました。混沌でも平等でもありません。圧力勾配を見逃した過学習モデルだけです。

「同等チーム」がドローを生む？いいえ。それは直感を定量できないモデルです。

私たちのXGBoostモデルはOptaのパスネットワークとFBrefの空間ヒートマップで訓練されました。彼らは学びました：「高ポゼッション＝勝利」。しかしブラジルでは、高ポゼッションはしばしば低xGにつながります—ディフェンスがゾーントラップに後退するからです。

LSTMはストップタイムを予測できませんでした。モデルは「モメンタム」が重要だと考えますが—ドローを見るとノイズと解釈します。

ホームアドバンテージへの過学習：モデルはホームチームが勝つと仮定します—しかし週末以降、アウェイドローが急増しました（試合#37参照）。
圧力移行の無視：後半での圧力増加はモデリングされず、早期シュートのみ重みづけられます。
心理的慣性の軽視：得点差でチームを評価するのは誤りです—53〜58分における圧力勾配をモデルが見逃したからです。
セットピース動態の誤読：コーナーキックが「リスクイベント」と分類されるのは、空間時間エントロピーによって誘導されていないからです（試合#50）。
ゴールタイミングと結果分布の混同：モデルはファイナルサード＝決定的だと仮定します—しかしブラジルでは第89分でシェイクスピア的な独白のように終了します（試合#49）。
リグ全体分散の無視：チームは平等ではありません—適応的に不平等であり、あなたのモデルは非定常状態に気づくまで見えません（試合#73）。

これはスポーツジャーナリズムではありません。それはスパイクの中でのフォレンシック・マセマティクスです。ドローは失敗ではなく、あなたのモデルの盲目性への署名なのです。 ReFFDモデル・ディープダイブに登録するか—or 盲目的にベッティングし続けます。

1.22K

1.07K