2025未来杯数据竞赛B题解决方案
日前电价在新能源高渗透率下呈现非线性与极值特征。本文以2025年1—4月多源数据为基础,构建了一套端到端的可复现预测流程。
电力市场化发展已成为全球趋势,新能源发电的随机性与波动性增加了电价预测的难度。
解决方案:
解决方案:
图 1: 随机森林模型误差解释性及预测结果
图 2: 新能源发电量与气象指标周平均变化趋势
光伏发电与光照强度呈现高度一致的季节性波动。
图 3: 日内电价与新能源发电量平均变化趋势
电价曲线呈现明显的“双峰”特征,午间光伏高峰期电价回落。
图 4(a): 光伏发电量与实时电价散点图
图 4(b): 风能发电量与实时电价散点图
图 5(a): 按月份划分的电价分布
图 5(b): 按开/停状态划分的电价分布
图 6: 归一化的特征核密度估计 (KDE)
图 7: Pearson 与 Spearman 相关系数热力图
统计发现:地板价触及频率高达 40.5%(日均38次),而天花板价仅占 2.95%。地板价随季节(1-4月)呈上升趋势。
图 8(a): 实时电价小时分布
图 8(b): 日前电价小时分布
图 8(c): 实时电价周内分布
图 8(d): 日前电价周内分布
图 8(e): 实时电价月度分布
图 8(f): 日前电价月度分布
图 8(g): 实时电价7天滚动频次
图 8(h): 日前电价7天滚动频次
利用连续小波变换 (CWT) 提取主导周期。地板价呈现显著的 24.6小时(日)周期,天花板价则表现出 5.7天 的多日叠加周期(对应天气系统变化)。
图 9(a): 实时电价小波功率谱
图 9(b): 日前电价小波功率谱
图 10(a): 实时电价-地板价
图 10(b): 实时电价-天花板价
图 10(c): 日前电价-地板价
图 10(d): 日前电价-天花板价
关键发现:“停”状态下实时电价均值(292.86)比“开”状态(246.22)高出 19%。偏差均值从 73.77 飙升至 102.32,风险显著增加。
图 11: 实时电价与日前电价按“开/停”状态分组对比
图 12: 周内-日内偏差值热力图
图 13(a): 日内偏差规律
图 13(b): 周内偏差规律
图 13(c): 月度偏差规律
图 14(a): 实时电价与偏差值对比
图 14(b): 极值出现率对比
图 14(c): 时段-状态-偏差热力图
构建因果网络量化风险。推断显示:当处于“停”状态时,出现高负偏差 (Neg_High) 的概率增加至 31.57%(正常为19.38%),验证了竞价失败对价格的单向拉动作用。
图 13: 状态-时间-极值-偏差因果关系贝叶斯网络结构
利用 AutoFeat 生成 35 个高阶交互特征。基于 LightGBM Gain 和 SHAP 值筛选出 Top 5 关键特征:
图 14: XGBoost模型的SHAP特征重要性图
采用 Transformer + GBDT 串行融合 策略。Transformer 负责捕捉长时序趋势,LightGBM 专门识别极端概率,最后通过概率门控 (Probability Gating) 进行保守覆写。
查看每个步骤的具体作用与数学原理。
Transformer 在趋势拟合上优于 LSTM (R²: 0.58 vs 0.44)。融合模型 (Fusion) 进一步将 MAE 降低了 9.3% (83.37 → 75.50),显著提升了极端值预测精度。
图 15(a): XGBoost 测试集预测
图 15(b): LightGBM 测试集预测
图 16(a): Transformer 测试集预测
图 16(b): LSTM 测试集预测
图 17(a): Transformer 基线 (无覆写)
图 17(b): Fusion 融合模型 (极值覆写)
* 数值越小越好 (R²除外)
全天 96 点预测统计:均值 192.02,范围 47.71 - 429.40。融合模型成功识别并覆写了 24 个地板价时段,精准刻画了“夜间低谷-午间回落-晚间高峰”的日内特征。
图 18: 2025年4月15日实时电价预测曲线 (96点)
| 时间 | 预测电价 | 时间 | 预测电价 | 时间 | 预测电价 | 时间 | 预测电价 |
|---|---|---|---|---|---|---|---|
| 00:15 | 92.34 | 06:15 | 297.66 | 12:15 | 48.24 | 18:15 | 229.43 |
| 00:30 | 228.68 | 06:30 | 342.38 | 12:30 | 48.74 | 18:30 | 255.58 |
| 00:45 | 208.76 | 06:45 | 337.58 | 12:45 | 49.19 | 18:45 | 275.52 |
| 01:00 | 186.28 | 07:00 | 309.96 | 13:00 | 49.79 | 19:00 | 295.83 |
| 01:15 | 158.87 | 07:15 | 282.60 | 13:15 | 50.46 | 19:15 | 304.60 |
| 01:30 | 131.96 | 07:30 | 255.66 | 13:30 | 51.15 | 19:30 | 316.37 |
| 01:45 | 119.54 | 07:45 | 242.37 | 13:45 | 51.71 | 19:45 | 332.71 |
| 02:00 | 115.94 | 08:00 | 272.96 | 14:00 | 52.57 | 20:00 | 351.84 |
| 02:15 | 115.11 | 08:15 | 253.37 | 14:15 | 53.25 | 20:15 | 405.75 |
| 02:30 | 117.46 | 08:30 | 233.46 | 14:30 | 53.70 | 20:30 | 409.33 |
引入 12个月以上长周期数据验证季节泛化性;探索在线学习 (Online Learning) 机制以适应实时市场变化。