暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Kaggle赛题解析:预测客户太阳能电量

Coggle数据科学 2023-11-06
1313
  • 赛题名称:Enefit - Predict Energy Behavior of Prosumers
  • 赛题类型:时间序列、数据挖掘
  • 赛题任务:预测产消者能源模式并最大限度地减少不平衡成本。
  • 赛题链接👇:

https://www.kaggle.com/competitions/predict-energy-behavior-of-prosumers

比赛介绍

竞赛旨在解决能源不平衡的问题,即预计使用的能源与实际使用或产生的能源不符。自发自用者是既消耗又产生能源的个体,他们在造成能源不平衡方面起到了重要作用。尽管他们只占所有能源消费者的一小部分,但他们不可预测的能源使用行为给能源公司带来了物流和财务问题。

如果不加以解决,可能会导致运营成本增加、电网不稳定以及能源资源的低效利用。如果这个问题得到有效解决,将显著降低不平衡成本,提高电网的可靠性,并使自发自用者更高效和可持续地融入能源系统中。

赛题任务

在这个竞赛中,您的任务是开发一个预测模型,以估计在爱沙尼亚安装了太阳能电池板的能源客户所产生和消耗的电量。为了完成这个任务,您将获得多种数据来源,包括天气数据、能源价格数据以及已安装的光伏容量信息。

评估指标

根据预测回报与观测目标之间的平均绝对误差 (MAE) 评估提交内容。公式由下式给出:

  • 𝑛 is the total number of data points.
  • is the predicted value for data point i.
  • s the observed value for data point i.

必须使用提供的 python 时间序列 API 提交本次竞赛,这可确保模型不会及时向前窥视。

数据集描述

数据文件包括了有关能源消费者、天气、能源价格以及历史天气的信息,供您用于构建预测模型。通过分析这些数据,您可以努力提高对爱沙尼亚能源客户太阳能电力产生和消耗的准确性。

  1. train.csv:

    • county
      - 县的ID代码。
    • is_business
      - 表示能源客户是否是商业客户的布尔值。
    • product_type
      - 契约类型的ID代码,包括 {0: "Combined", 1: "Fixed", 2: "General service", 3: "Spot"}
      的映射。
    • target
      - 相关时段的电力消耗或产生量。时段由 county
      is_business
      product_type
      定义。
    • is_consumption
      - 表示该行数据的目标是电力消耗还是产生的布尔值。
    • datetime
      - 爱沙尼亚时间(EET / EEST)。
    • data_block_id
      - 具有相同data_block_id
      的所有行将在同一时间进行预测。这取决于实际制定预测时可用的信息。
    • row_id
      - 行的唯一标识符。
    • prediction_unit_id
      - county
      is_business
      product_type
      组合的唯一标识符。测试集中可能会出现或消失新的预测单位。
  2. gas_prices.csv:

    • origin_date
      - 前一天的天然气价格数据的日期。
    • forecast_date
      - 预测价格应该生效的日期。
    • [lowest/highest]_price_per_mwh
      - 天然气在前一天的日前市场的最低/最高价格,以欧元每兆瓦时计。
    • data_block_id
  3. client.csv:

    • product_type
      - 契约类型。
    • county
      - 县的ID代码。
    • eic_count
      - 能源消耗点(EICs - European Identifier Code)的汇总数量。
    • installed_capacity
      - 安装的光伏太阳能电池板容量,以千瓦为单位。
    • is_business
      - 表示能源客户是否是商业客户的布尔值。
    • date
    • data_block_id
  4. electricity_prices.csv:

    • origin_date
      - 电力价格数据的日期。
    • forecast_date
      - 预测价格应该生效的日期。
    • euros_per_mwh
      - 前一天日前市场上电力的价格,以欧元每兆瓦时计。
    • data_block_id
  5. forecast_weather.csv:

    • [latitude/longitude]
      - 天气预报的坐标。
    • origin_datetime
      - 天气预报生成的时间戳。
    • hours_ahead
      - 天气预报生成时间与预测天气之间的小时数。每个预测涵盖总共48小时。
    • temperature
      - 地面上2米高处的空气温度(摄氏度)。
    • dewpoint
      - 地面上2米高处的露点温度(摄氏度)。
    • cloudcover_[low/mid/high/total]
      - 不同高度区域(0-2公里、2-6公里、6+公里以及总体)的云层覆盖百分比。
    • 10_metre_[u/v]_wind_component
      - 测量地表上方10米的风速的东向/北向分量,以米每秒计。
    • data_block_id
    • forecast_datetime
      - 预测天气的时间戳,由origin_datetime
      hours_ahead
      生成。
    • direct_solar_radiation
      - 每小时沿着与太阳方向垂直的平面上达到地表的直接太阳辐射,以瓦特时每平方米计。
    • surface_solar_radiation_downwards
      - 达到地球表面的水平面上的太阳辐射,包括直接辐射和散射辐射,以瓦特时每平方米计。
    • snowfall
      - 过去一小时内的降雪量,以水当量米计。
    • total_precipitation
      - 过去一小时内在地球表面降落的液态降水(包括雨和雪)的累积量,以米为单位。
  6. historical_weather.csv:

    • datetime
      - 日期时间。
    • temperature
      - 温度。
    • dewpoint
      - 露点温度。
    • rain
      - 与预测约定不同。前一小时的大尺度天气系统降雨量(毫米)。
    • snowfall
      - 与预测约定不同。前一小时的降雪量(厘米)。
    • surface_pressure
      - 地表处的大气压力(百帕)。
    • cloudcover_[low/mid/high/total]
      - 与预测约定不同。云层覆盖在不同高度区域(0-3公里、3-8公里、8+公里以及总体)的百分比。
    • windspeed_10m
      - 与预测约定不同。地面上方10米处的风速(米每秒)。
    • winddirection_10m
      - 与预测约定不同。地面上方10米处的风向(度)。
    • shortwave_radiation
      - 与预测约定不同。全球水平辐射(瓦特时每

平方米)。

  • direct_solar_radiation
    - 直接太阳辐射。
  • diffuse_radiation
    - 与预测约定不同。漫射太阳辐射(瓦特时每平方米)。
  • [latitude/longitude]
    - 天气站的坐标。
  • data_block_id
  1. public_timeseries_testing_util.py - 用于运行自定义离线API测试的可选文件。查看脚本的文档字符串以获取详细信息。在使用之前,您需要编辑此文件。

  2. example_test_files/ - 用于说明API功能的数据,包括API提供的相同文件和列。前三个data_block_ids
    是训练集中最后三个data_block_ids
    的重复。

  3. example_test_files/sample_submission.csv - 一个有效的样本提交文件,由API提供。可以参考这个笔记本获取如何使用样本提交的简单示例。

  4. example_test_files/revealed_targets.csv - 实际的目标数值,提供了一天的延迟。

  5. enefit/ - 包含API所需文件的文件夹。预期API能够在不到15分钟内提供所有行,并且将保留不到0.5 GB的内存。您需要对这些日期进行预测以推进API,但这些预测不会得分。最初会提供大约三个月的数据,预测期结束时可能提供多达十个月的数据。

赛题赛程

  • 2023 年 11 月 1 日 - 开始日期。
  • 2024 年 1 月 24 日 - 报名截止日期。
  • 2024 年 1 月 24 日 - 合并截止日期。
  • 2024 年 1 月 31 日 - 提交截止日期。

 竞赛交流群 邀请函  #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论