主题
语言 EN
返回项目列表 YSKM523 / worldcup-oracle

World Cup Oracle

AI vs Polymarket —— 用时序基础模型集成预测 2026 FIFA 世界杯。48 队、104 场、累计成交 $3.6B 的市场。

Active · Research 独立作者 最后更新: 2026年7月2日

背景

Polymarket 上 2026 FIFA 世界杯的市场累计成交已超 $3.6B——用真钱给真比赛定价。在结构化赛事里,这是 forecasting 系统能找到的最诚实的 benchmark。

worldcup-oracle 问:TSFM 集成 + 经典体育预测组件,能否在这个市场上找到系统性错价?

比赛进行中(2026-06-11 – 07-19)。所有预测都在开赛前用书面形式 commit——所以下面是一份正在被真实结果实时打分的记录,不是事后追认。

方法

  • TSFM 集成 — Chronos-2 / TimesFM 2.5 / FlowState 各自预测球队 Elo 轨迹,经 Bradley-Terry-Davidson 桥转成逐场胜平负概率。
  • Club Elo — 难超越的先验,作为第四个投票者做 sanity check。
  • XGBoost — 直接的、非 TSFM 的逐场分类器,一并入集成。
  • Poisson 进球模型 — 强度 → 比分联合分布,重标定到与胜平负概率永不矛盾。
  • Monte Carlo — 50K 次完整赛事模拟;比赛开打后,已赛结果钉死为事实,每天只重模拟剩余赛程。
  • 边缘筛选:绝对差 > 5pp 且 4 模型方向一致才标 STRONG;半 Kelly 下注。
  • 回测:76 项自动化测试 + 2014/2018/2022 三届世界杯 walk-forward 回测(仅用赛前数据)。四个模型在 2/3 届把真冠军放进 top 3;TSFM 比纯 Elo 有小而稳的提升(Chronos-2 avg BSS +0.131 vs Elo +0.118)——是”小”,不是”魔法”。

赛前边缘(2026-06 开赛前 commit)

模型相对市场重仓做多西班牙、做空巴西 / 英格兰 / 葡萄牙:

  • 西班牙 —— 32.2% AI vs 16.0% 市场 = +16.2pp STRONG BUY(4/4 模型一致)
  • 巴西 —— 3.0% vs 8.6% = −5.6pp STRONG SELL
  • 英格兰 —— 6.0% vs 11.3% = −5.4pp STRONG SELL
  • 葡萄牙 —— 1.9% vs 7.0% = −5.2pp STRONG SELL

这些已冻结,7/19 前被真实结果证实或证伪。AI vs Polymarket 实时战绩在看板持续更新。

天气研究:美国高温会改变结果吗?

赛事整个夏天在美国踢,我做了两轮观察性研究,用赛事自身的比赛数据检验高温是否体现在记分牌上。结论:高温明显消耗球员身体、改变球队踢法,但这份消耗在抵达比分前就被吸收了。

每一环都被测量:

  • 湿热(湿球温度)→ 露天球员跑动下降:ρ = −0.55,p < 0.0001,约 −0.78 km/°C。
  • 阴性对照:三座室内空调球场(达拉斯 / 休斯顿 / 亚特兰大)效应消失(ρ = −0.17,p = 0.57)——室内与室外温度无关,正是真实因果该有的样子。
  • 球员级(OCR FIFA 赛后报告,953 人):冲刺次数下降(−0.49),但最高速度不变——高温砍的是冲刺频率,不是上限。
  • 球队改跑为传(传球、突破线增加)而 xG 不变——是踢法替代,不是机会减少。
  • 强弱队跑动差在湿热下反转(交互 p = 0.08)——有暗示,未显著。
  • 爆冷、进球、进球时间、下半场崩盘:全部 null。

两队一起变慢、一起改踢法,强弱排序几乎不动。所以天气不进官方预测。 看板天气 tab 展示这些发现,以及一个明确标注为实验性的调整(James-Stein 收缩到 −0.71pp/°C,封顶 ±3pp),样本变大若信号消失会自动归零。能干净地发表一个 null,正是赛前 commit 的意义。

诚实的 no-op(预测优化审计)

我为”改进”预测测试的每个杠杆都过同一道 walk-forward 关卡,几乎都没上线:

  • 混入市场:17 场双报价比赛上,AI 的最优权重是 0(Polymarket Brier 0.350 胜过 AI 0.497)——混合等于放弃实验。
  • 休息日 Elo 加成:帮 2018/2022 淘汰赛、坑 2014 → 未过”beats all”。
  • 强度相关的再校准:实时校准曲线是非单调噪声。
  • 天气:见上。

唯一被证明有效的机制——每日按真实结果做 (温度, 平局率) 再校准——每天 06:00 UTC 自动跑。其余都是 no-op,而如实说出来,比堆一堆旋钮更有用。

学到了什么

  • 很多所谓”边缘”其实是集成在抱 Elo 大腿——TSFM 向基线压缩,所以跟市场分歧最大的地方,往往是 Elo 本身声音大(西班牙),而非模型发现了新东西。
  • 真正站得住的改进很无聊:是校准,不是信号。按真实结果再校准,胜过我试过的每一个花哨的结构性杠杆。
  • 高温是个干净的例子:一个真实、强、且识别良好的效应(ρ = −0.55,还配了能用的阴性对照),却依然预测不了结果——提醒”统计显著”和”能动钱”是两个问题。

无论西班牙最后如何,我都会得到一个具体答案:混合 TSFM 预测在哪里加分、在哪里只是给 Elo 洗白。

实时看板: worldcup-oracle.pages.dev —— 每日自动重建:逐场预测与比分、小组积分、夺冠概率、AI vs Polymarket 实时战绩、天气研究 tab。比分从 ESPN 流入;窗口内 Polymarket 赔率经 CLOB WebSocket 逐笔推送(订单簿中点,赛日约 68 msg/s)。

完整说明见 英文版。姊妹项目:UEFA Champions League Oracle