返回博客
预测 · ·8 min

83 场淘汰赛足够让我把 TSFM 从 baseline 里踢出去

UEFA Oracle 回测笔记:3 模型 TSFM 集成在 83 场历史欧冠淘汰赛 ties 上没跑赢一个调好的 Elo + xG + 伤病加权 baseline。为什么数据 regime 比模型更重要。

  • #forecasting
  • #time-series
  • #tsfm
  • #sports
  • #backtest
  • #negative-result

UEFA Oracle 启动时,设计直觉是复用 fin-forecast-arena世界杯模型 已经在跑的 stack:3 模型 TSFM 集成(Chronos-2 / TimesFM-2.5 / FlowState)输出队伍攻防强度轨迹 → 集成 → Poisson 进球模型。同一套工具箱,同一类赛事,同样跟 Polymarket 比。

5 个赛季、83 场淘汰赛 ties 的回测说不行。TSFM 集成相对纯 Club Elo + xG 调整 baseline 没有可测量的点预测增益。所以我把 TSFM 从生产栈里挪掉,藏进 --with-tsfm flag 当 ablation / research 层。

最愿意写下的结论:淘汰赛 ties 数据 regime 不奖励 Elo + xG + 伤病之外的额外信号。Bayern 这一刻的实力,被一个持续更新的评分系统已经一阶很好地捕获了。TSFM 从 30 场比赛轨迹里提取的边际信息,是 Club Elo 已经在编码的同一信息。两个先验相关;TSFM 没贡献第二个信号,只是产生了第一个的噪声版本。

对比组:世界杯 oracle,同一套方法找到了强 edges(西班牙 AI 32% vs 市场 16% 等)。区别:World Cup 数据样本更大、Polymarket 上的市场先验更弱、长期轨迹更值得学。TSFM 是工具,在已有先验弱或样本足够大时付租金。

完整回测细节、检查清单、为什么我仍然保留 TSFM 代码而不删,见 英文版

相关