1 / 18
// Shenzhen University

基于多源大数据的
日前电价预测研究

2025未来杯数据竞赛B题解决方案

+

摘要 (Abstract)

日前电价在新能源高渗透率下呈现非线性与极值特征。本文以2025年1—4月多源数据为基础,构建了一套端到端的可复现预测流程。

  • 数据治理:随机森林插补功率缺失 (R²=0.97),3σ准则与物理约束剔除异常,统一15分钟粒度。
  • 极值归因:揭示“停”状态导致偏差均值增加38%,贝叶斯网络量化极值风险概率。
  • 特征挖掘:AutoFeat 构建光照/负荷高阶交互项,SHAP 验证滞后特征(Lag-96)的核心地位。
  • 模型创新:提出 Transformer-GBDT 串行融合 架构,引入概率门控机制修正极值。
  • 应用成效:融合模型 MAE 降低 9.3%,成功预测 4月15日 96点电价曲线。

引言与问题分析

研究背景

电力市场化发展已成为全球趋势,新能源发电的随机性与波动性增加了电价预测的难度。

关键问题

Q1 & Q2: 数据治理与极值解析

  • Q1 数据清洗:如何处理多源异构数据(负荷、气象)的缺失与异常?
  • Q2 极值机制:地板价/天花板价的时空分布规律及其驱动因素是什么?

Q3 & Q4: 特征挖掘与模型融合

  • Q3 关键因子:哪些特征对电价波动(尤其是极值)影响最大?
  • Q4 预测模型:如何构建高精度模型以适应高波动市场?

数据预处理:清洗与插补

  • 缺失值插补:针对变电站功率缺失,构建随机森林回归模型,利用时间与气象特征进行填补,训练集 R² = 0.9720。
  • 异常值处理:采用 3σ 准则剔除统计异常,结合物理约束(如光伏≥0)修正传感器漂移。
  • 时间对齐:统一至 15分钟粒度。气象数据(1h)线性插值升采样,功率数据(5min)均值聚合降采样。
随机森林插补

图 1: 随机森林模型误差解释性及预测结果

可视化分析:趋势特征

周趋势

图 2: 新能源发电量与气象指标周平均变化趋势

光伏发电与光照强度呈现高度一致的季节性波动。

日内趋势

图 3: 日内电价与新能源发电量平均变化趋势

电价曲线呈现明显的“双峰”特征,午间光伏高峰期电价回落。

可视化分析:相关性与分布

光伏相关性

图 4(a): 光伏发电量与实时电价散点图

风能相关性

图 4(b): 风能发电量与实时电价散点图

月度箱线图

图 5(a): 按月份划分的电价分布

状态箱线图

图 5(b): 按开/停状态划分的电价分布

可视化分析:多变量关系

KDE分布

图 6: 归一化的特征核密度估计 (KDE)

相关性热力图

图 7: Pearson 与 Spearman 相关系数热力图

极端电价时间分布

统计发现:地板价触及频率高达 40.5%(日均38次),而天花板价仅占 2.95%。地板价随季节(1-4月)呈上升趋势。

实时电价小时分布

图 8(a): 实时电价小时分布

日前电价小时分布

图 8(b): 日前电价小时分布

实时电价周内分布

图 8(c): 实时电价周内分布

日前电价周内分布

图 8(d): 日前电价周内分布

实时电价月度分布

图 8(e): 实时电价月度分布

日前电价月度分布

图 8(f): 日前电价月度分布

实时电价滚动趋势

图 8(g): 实时电价7天滚动频次

日前电价滚动趋势

图 8(h): 日前电价7天滚动频次

小波变换周期性分析

利用连续小波变换 (CWT) 提取主导周期。地板价呈现显著的 24.6小时(日)周期,天花板价则表现出 5.7天 的多日叠加周期(对应天气系统变化)。

实时电价小波功率谱

图 9(a): 实时电价小波功率谱

日前电价小波功率谱

图 9(b): 日前电价小波功率谱

实时地板价

图 10(a): 实时电价-地板价

实时天花板价

图 10(b): 实时电价-天花板价

日前地板价

图 10(c): 日前电价-地板价

日前天花板价

图 10(d): 日前电价-天花板价

电价偏差与“开/停”状态

关键发现:“停”状态下实时电价均值(292.86)比“开”状态(246.22)高出 19%。偏差均值从 73.77 飙升至 102.32,风险显著增加。

状态对比

图 11: 实时电价与日前电价按“开/停”状态分组对比

偏差热力图

图 12: 周内-日内偏差值热力图

日内偏差

图 13(a): 日内偏差规律

周内偏差

图 13(b): 周内偏差规律

月度偏差

图 13(c): 月度偏差规律

验证箱线图

图 14(a): 实时电价与偏差值对比

极值出现率

图 14(b): 极值出现率对比

三维热力图

图 14(c): 时段-状态-偏差热力图

贝叶斯网络因果建模

构建因果网络量化风险。推断显示:当处于“停”状态时,出现高负偏差 (Neg_High) 的概率增加至 31.57%(正常为19.38%),验证了竞价失败对价格的单向拉动作用。

贝叶斯网络

图 13: 状态-时间-极值-偏差因果关系贝叶斯网络结构

特征工程 (Feature Engineering)

AutoFeat & 关键因子识别

利用 AutoFeat 生成 35 个高阶交互特征。基于 LightGBM Gain 和 SHAP 值筛选出 Top 5 关键特征:

  • 1. Lag-96 (Pt-96): 滞后一天电价,反映强日周期性。
  • 2. Solar Intensity (It): 光照强度,新能源出力的核心驱动。
  • 3. Time × Load (ht²Qt): 时段与负荷交互,刻画早晚高峰供需敏感度。
  • 4. Solar × PV (It²St²): 极端光照下的非线性响应。
  • 5. Humidity × Load (HtQt): 湿热条件下的负荷耦合效应。
SHAP Summary

图 14: XGBoost模型的SHAP特征重要性图

模型融合策略 (Fusion Strategy)

采用 Transformer + GBDT 串行融合 策略。Transformer 负责捕捉长时序趋势,LightGBM 专门识别极端概率,最后通过概率门控 (Probability Gating) 进行保守覆写。

多源输入数据
Transformer 基线模型
LightGBM 分类器
极值覆写 (Fusion)

请点击上方流程节点

查看每个步骤的具体作用与数学原理。

模型构建:性能对比

Transformer 在趋势拟合上优于 LSTM (R²: 0.58 vs 0.44)。融合模型 (Fusion) 进一步将 MAE 降低了 9.3% (83.37 → 75.50),显著提升了极端值预测精度。

XGBoost预测

图 15(a): XGBoost 测试集预测

LightGBM预测

图 15(b): LightGBM 测试集预测

Transformer预测

图 16(a): Transformer 测试集预测

LSTM预测

图 16(b): LSTM 测试集预测

Transformer Only

图 17(a): Transformer 基线 (无覆写)

Fusion Extreme

图 17(b): Fusion 融合模型 (极值覆写)

XGBoost
LSTM
Transformer
Fusion (Ours)

* 数值越小越好 (R²除外)

预测结果:2025年4月15日

全天 96 点预测统计:均值 192.02,范围 47.71 - 429.40。融合模型成功识别并覆写了 24 个地板价时段,精准刻画了“夜间低谷-午间回落-晚间高峰”的日内特征。

最终预测曲线

图 18: 2025年4月15日实时电价预测曲线 (96点)

预测数据表 (部分)

时间预测电价 时间预测电价 时间预测电价 时间预测电价
00:1592.3406:15297.6612:1548.2418:15229.43
00:30228.6806:30342.3812:3048.7418:30255.58
00:45208.7606:45337.5812:4549.1918:45275.52
01:00186.2807:00309.9613:0049.7919:00295.83
01:15158.8707:15282.6013:1550.4619:15304.60
01:30131.9607:30255.6613:3051.1519:30316.37
01:45119.5407:45242.3713:4551.7119:45332.71
02:00115.9408:00272.9614:0052.5720:00351.84
02:15115.1108:15253.3714:1553.2520:15405.75
02:30117.4608:30233.4614:3053.7020:30409.33

总结与展望

主要成果

  • 全流程治理:构建了包含随机森林插补与贝叶斯归因的完整数据体系。
  • 高精度融合:Transformer-GBDT 架构在保持趋势拟合的同时,大幅降低了极值误差 (MAE -9.3%)。
  • 实战化部署:成功输出 4月15日 高分辨率电价曲线,具备实际决策支持价值。

未来工作

引入 12个月以上长周期数据验证季节泛化性;探索在线学习 (Online Learning) 机制以适应实时市场变化。

Thank You