暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

多维数据及其应用研究—以PM2.5预测为例

极思客栈 2021-09-03
1394


引言




     我们所生活的地球,环境正在不断地恶化中,水资源的匮乏、矿产资源的过分开采、工业对环境的污染、海洋垃圾、冰川融化、热带雨林的慢慢消失、数以千计的动物在走向灭绝等等。保护地球资源,维护地球的可持续发展,迫在眉睫,也是全人类共同的主题。

     作为地理信息工作者,借助大气、海洋和地球科学等与自然环境有关的海量数据, 有效分析处理这些数据,从大量数据中深度挖掘有价值的信息,为环境管理和保护提供强有力的支撑,是我们研究的重点。风速、风向、温度、湿度、高程等气象、海洋、大气等与地球科学相关的数据,我们统称为多维数据。



何为多维数据




      多维数据表示在多个时间或多个深度或高度捕获的数据。例如,多维数据可包括 2010 至 2020 年每个月的温度、湿度和风速数据,也可包括高程为 0 米、1 米和 10 米的这些数据。这些数据类型通常用于大气、海洋和地球科学。



多维数据类型



      多维栅格数据的常见类型有 netCDF、GRIB、HDF和CRF等。这些多维格式共享存储多个变量的通用功能,其中每个变量都是多维数组。数据通常以变量的形式进行存储,每一个变量均为一个多维数组,可表示在多个高度、深度或压力下进行多次捕获得到的数据。

(1)GRIB

      GRIB是世界气象组织开发的一种用于交换和存储规则分布数据的二进制文件格式,用于存储历史及预报天气数据。GRIB 栅格类型可用于将 GRIB 1 和 GRIB 2 数据添加至镶嵌数据集中。

(2)HDF

      HDF是由美国国家超级计算应用中心 (NCSA) 设计用于存储科学数据的一种层次数据格式。HDF 栅格类型可用于将 HDF4 和 HDF5 中存储的栅格数据添加到镶嵌数据集中。HDF 文件中存储的非栅格数据将会被 HDF 栅格类型忽略。

(3)netCDF

      netCDF(网络公用数据格式)是一种用来存储温度、湿度、气压、风速和风向等多维科学数据(变量)的文件格式。文件中的数据以数组形式存储。例如:三维 (3D) 数据(如某个区域内随时间变化的温度)或四维 (4D) 数据(如某个区域内随时间和高度变化的温度)以一系列二维数组的形式存储。

三维数据:某个区域内随时间变化的数据


四维数据:某个区域内随时间和高度变化的数据


(4)CRF    

      CRF即云栅格格式,支持多维栅格存储,并且是GeoScene Pro中生成多维栅格的地理处理工具的默认输出栅格格式。CRF 文件针对在分布式处理和存储环境中读写大文件进行了优化。在 CRF 文件中,多维栅格数据将被划分为较小的切片包,允许多个进程同时写入一个输出。



多维分析工具



      GeoScene Pro 2.1 增强多维数据分析能力,支持HDF、NetCDF、GRIB三种格式的多维数据,可以用镶嵌数据集的方式对海量多维数据进行管理和快速发布,并且提供了多维数据分析工具集,可基于多维数据实现复杂的时间序列分析、识别异常、探索趋势以及检测变化。2.1版本进一步增强了分析能力,包括使用连续变化检测和分类(CCDC)、基于Landsat的干扰和恢复趋势检测(LandTrendr)等方法评估像素值随时间的变化。

      GeoScene Pro的“多维分析”工具集中的工具可用于对多个变量和维度的科学数据执行分析(例如:时间序列分析、高度或深度趋势分析以及预测和回归),以探索多维栅格数据中的科学趋势和异常。可应用的场景有:预测降雪量、PM 2.5分析和预测基于NDVI的植物多样性的监测和预测等等。

     下面列出了GeoScene Pro“多维分析”工具集中的所有工具及其说明:

(1)聚合多维栅格

      通过沿维度组合现有多维栅格变量来生成多维栅格数据集。

(2)使用 CCDC 分析变化

      使用连续变化检测和分类 (CCDC) 方法评估像素值随时间的变化,并生成包含模型结果的变化分析栅格。

(3)使用 LandTrendr 分析变化

      使用基于 Landsat 的干扰和恢复趋势检测 (LandTrendr) 方法评估像素值随时间的变化,并生成包含模型结果的变化分析栅格。

(4)使用变化分析栅格检测变化

      可以利用使用 CCDC 分析变化工具或使用 LandTrendr 分析变化工具的输出变化分析栅格来生成包含像素变化信息的栅格。

(5)查找参数统计信息

      为多维或多波段栅格中的每个像素提取达到给定统计量的维度值或波段指数。

(6)生成多维异常

      计算现有多维栅格中每个剖切片的异常,以生成新的多维栅格。

(7)生成趋势栅格

      用于面向多维栅格中一个或多个变量估计每个像素沿维度的趋势。

(8)使用趋势栅格预测

      使用来自生成趋势栅格工具的输出趋势栅格来计算预测多维栅格。

(9)汇总分类栅格

      在输入分类栅格的每个剖切中生成包含每个类的像素计数的表。



应用场景



         以过往PM2.5数据为例,看看GeoScene Pro多维分析工具是如何可以预测未来PM2.5数值的。


(1)数据预处理

     数据预处理主要分为以下三个步骤:数据下载、数据预览、数据转换。具体操作流程如下图所示:


(2)插值和数据导入至镶嵌数据集

      通过IDW(反距离权重)插值方法生成逐月PM2.5栅格数据,再将数据导入到镶嵌数据集里,添加时间字段,构建多维镶嵌数据集。所使用的工具有:“创建镶嵌数据集工具”、“添加栅格至镶嵌数据集工具”、“计算字段工具”、“构建多维信息工具”。

(3)生成时间序列

      通过创建时间序列图,可以查看某一位置PM2.5数值随时间的变化情况。从下图可以明显的看出PM2.5的浓度呈现波动性,表面其数值大小和季节有一定的相关性,一般冬季的PM2.5处于最高值。

(4)生成趋势栅格

      打开“生成趋势栅格”工具,该工具可用于沿线性、谐波或多项式趋势线拟合数据,也可用于使用 Mann-Kendall 或 Seasonal-Kendall 测试执行趋势检测,为多维栅格中的一个或多个变量估计每个像素沿维度的趋势。可将其分为线性以及非线性两种趋势预测方法:


⭕    线性趋势预测

      即线性最小二乘回归方法,该方法可探测出不明显的趋势变化,同时它假设数据呈正态分布,是一种有参数方法,如下图所示:



      拟合线的公式可以表示为:y(t)=b0+b1*t。其中:y(t)为建模后的PM2.5数值,b0为截距,b1为斜率(逐月PM2.5的变化),b1 > 0 表示增加趋势,b1 < 0 表示减少趋势,t为时间。


⭕    非线性趋势预测


1)Mann-Kendall 和 Seasonal-Kendall

      这两种检测方法可用于确定数据中是否存在单调性趋势,同时它们对数据没有先验假设,是无参数方法。Mann-Kendall 测试不会考虑序列相关性或季节性影响。如果数据为季节性数据,则 Seasonal-Kendall 测试更为适合。

      上述两种方法提供了一个非线性趋势指示器,用于测量趋势持续增加或减少的程度。它的范围为-1到+1。值为+1表示趋势持续增加而从不减少。当其值为-1时,情况正好相反。值为0表示没有一致的趋势。该统计量可认为是趋势增加的相对频率减去趋势减少的相对频率。

      同时,这两种方法还会产生一对图像——分别以Z分数和P值表示的显著性图像。这两张影像表达了Mann-Kendall 和 Seasonal-Kendall趋势的显著性。

2)谐波

      谐波趋势线是周期性重复的曲线,最适用于描述遵循周期性模式的数据,例如季节性NDVI变化。可通过谐波趋势线定义周期的数量。



    3)多项式

       多项式趋势线是一条曲线,可用于波动的数据。在这种情况下,多项式的阶数值用于指示发生的最大波动数。


具体操作如下:

       设置输入多维栅格以及输出多维栅格,维度选择StdTime,变量选择PM2.5。由于PM2.5呈现出周期性模式,因此趋势类型选择为谐波。周期长度设置为1,周期单位为年,频率为1,模型统计工具选择RMSE。点击运行即可得到PM2.5的趋势栅格。




(5)使用趋势栅格预测

       打开“使用趋势栅格预测”工具,按照下图设置参数,点击运行即可得到2020年6月1日至2023年6月1日逐月的PM2.5栅格数据。




相关产品配置




      多维数据在GeoScene产品中的应用,大体上可以分为桌面端和服务器端,两者都可以完成对多维数据的可视化展示,分析。但是侧重点会有所不同,用户在选择的时候,除了侧重点外,还需要考虑业务需求,在这里给出配置建议,见下表:

END


文章转载自极思客栈,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论