World Cup Oracle — Shuai Yao

AI vs Polymarket —— 用时序基础模型集成预测 2026 FIFA 世界杯。48 队、104 场、累计成交 $3.6B 的市场。

背景

Polymarket 上 2026 FIFA 世界杯的市场累计成交已超 $3.6B——用真钱给真比赛定价。在结构化赛事里，这是 forecasting 系统能找到的最诚实的 benchmark。

worldcup-oracle 问：TSFM 集成 + 经典体育预测组件，能否在这个市场上找到系统性错价？

比赛进行中（2026-06-11 – 07-19）。所有预测都在开赛前用书面形式 commit——所以下面是一份正在被真实结果实时打分的记录，不是事后追认。

方法

TSFM 集成 — Chronos-2 / TimesFM 2.5 / FlowState 各自预测球队 Elo 轨迹，经 Bradley-Terry-Davidson 桥转成逐场胜平负概率。
Club Elo — 难超越的先验，作为第四个投票者做 sanity check。
XGBoost — 直接的、非 TSFM 的逐场分类器，一并入集成。
Poisson 进球模型 — 强度 → 比分联合分布，重标定到与胜平负概率永不矛盾。
Monte Carlo — 50K 次完整赛事模拟；比赛开打后，已赛结果钉死为事实，每天只重模拟剩余赛程。
边缘筛选：绝对差 > 5pp 且 4 模型方向一致才标 STRONG；半 Kelly 下注。
回测：76 项自动化测试 + 2014/2018/2022 三届世界杯 walk-forward 回测（仅用赛前数据）。四个模型在 2/3 届把真冠军放进 top 3；TSFM 比纯 Elo 有小而稳的提升（Chronos-2 avg BSS +0.131 vs Elo +0.118）——是”小”，不是”魔法”。

赛前边缘（2026-06 开赛前 commit）

模型相对市场重仓做多西班牙、做空巴西 / 英格兰 / 葡萄牙：

西班牙 —— 32.2% AI vs 16.0% 市场 = +16.2pp STRONG BUY（4/4 模型一致）
巴西 —— 3.0% vs 8.6% = −5.6pp STRONG SELL
英格兰 —— 6.0% vs 11.3% = −5.4pp STRONG SELL
葡萄牙 —— 1.9% vs 7.0% = −5.2pp STRONG SELL

这些已冻结，7/19 前被真实结果证实或证伪。AI vs Polymarket 实时战绩在看板持续更新。

天气研究：美国高温会改变结果吗？

赛事整个夏天在美国踢，我做了两轮观察性研究，用赛事自身的比赛数据检验高温是否体现在记分牌上。结论：高温明显消耗球员身体、改变球队踢法，但这份消耗在抵达比分前就被吸收了。

每一环都被测量：

湿热（湿球温度）→ 露天球员跑动下降：ρ = −0.55，p < 0.0001，约 −0.78 km/°C。
阴性对照：三座室内空调球场（达拉斯 / 休斯顿 / 亚特兰大）效应消失（ρ = −0.17，p = 0.57）——室内与室外温度无关，正是真实因果该有的样子。
球员级（OCR FIFA 赛后报告，953 人）：冲刺次数下降（−0.49），但最高速度不变——高温砍的是冲刺频率，不是上限。
球队改跑为传（传球、突破线增加）而 xG 不变——是踢法替代，不是机会减少。
强弱队跑动差在湿热下反转（交互 p = 0.08）——有暗示，未显著。
爆冷、进球、进球时间、下半场崩盘：全部 null。

两队一起变慢、一起改踢法，强弱排序几乎不动。所以天气不进官方预测。 看板天气 tab 展示这些发现，以及一个明确标注为实验性的调整（James-Stein 收缩到 −0.71pp/°C，封顶 ±3pp），样本变大若信号消失会自动归零。能干净地发表一个 null，正是赛前 commit 的意义。

诚实的 no-op（预测优化审计）

我为”改进”预测测试的每个杠杆都过同一道 walk-forward 关卡，几乎都没上线：

混入市场：17 场双报价比赛上，AI 的最优权重是 0（Polymarket Brier 0.350 胜过 AI 0.497）——混合等于放弃实验。
休息日 Elo 加成：帮 2018/2022 淘汰赛、坑 2014 → 未过”beats all”。
强度相关的再校准：实时校准曲线是非单调噪声。
天气：见上。

唯一被证明有效的机制——每日按真实结果做 (温度, 平局率) 再校准——每天 06:00 UTC 自动跑。其余都是 no-op，而如实说出来，比堆一堆旋钮更有用。

学到了什么

很多所谓”边缘”其实是集成在抱 Elo 大腿——TSFM 向基线压缩，所以跟市场分歧最大的地方，往往是 Elo 本身声音大（西班牙），而非模型发现了新东西。
真正站得住的改进很无聊：是校准，不是信号。按真实结果再校准，胜过我试过的每一个花哨的结构性杠杆。
高温是个干净的例子：一个真实、强、且识别良好的效应（ρ = −0.55，还配了能用的阴性对照），却依然预测不了结果——提醒”统计显著”和”能动钱”是两个问题。

无论西班牙最后如何，我都会得到一个具体答案：混合 TSFM 预测在哪里加分、在哪里只是给 Elo 洗白。

实时看板： worldcup-oracle.pages.dev —— 每日自动重建：逐场预测与比分、小组积分、夺冠概率、AI vs Polymarket 实时战绩、天气研究 tab。比分从 ESPN 流入；窗口内 Polymarket 赔率经 CLOB WebSocket 逐笔推送（订单簿中点，赛日约 68 msg/s）。

完整说明见英文版。姊妹项目：UEFA Champions League Oracle。