暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Ganos Aero助力空天大数据管理平台快速搭建

原创 Ganos全空间数据库 2023-09-26
671

随着空间基础设施及对地观测技术的快速发展,基于云计算技术解决复杂空间应用、高效空间服务、海量空间数据的“空天科技”变得愈发蓬勃,空天科技对来自国家战略、社会公众、产业经济和个人消费等领域的需求都可以进行有效的支撑,在国民经济发展中占据着十分重要的角色。面对空天科技的挑战,Ganos团队推出了空天大数据管理技术方案Ganos Aero,帮助用户高效搭建空天大数据管理平台,提升空天数据处理效率,降低管理成本。相关成果已经收录在数据库领域顶级会议论文VLDB2023中,成果已经完成工程化落地,有效支撑了DDE深时数字地球大科学计划中针对全球海量空天数据管理与分析的各类场景中。

空天大数据时代面临的挑战

随着空间基础设施及对地观测技术的快速发展,基于云计算技术解决复杂空间应用、高效空间服务、海量空间数据的“空天科技”变得愈发蓬勃。2022年中国的空天信息产业规模达到了1.5万亿元,同比增长了15.6%,占GDP比重达到1.4%。其中,空间基础设施规模为3000亿元,同比增长了18.7%;空间应用规模为6000亿元,同比增长了16.3%;空间服务规模为4500亿元,同比增长了14.8%;空间数据规模为1500亿元,同比增长了13.6%。空天科技对来自国家战略、社会公众、产业经济和个人消费等领域的需求都可以进行有效的支撑,因此其在国民经济发展中占据着十分重要的角色。 

多源异构海量的卫星影像数据是空天数据的主要形态,传统的遥感影像处理方法一般是将原始影像以文件形式进行数据归档,同时按照规则大小尺寸进行“切瓦片”操作,后续对数据进行分布式处理与瓦片服务发布等操作,这种方式已经在空天大数据的多个场景中遇到了诸多挑战:

  1. 原始数据与瓦片分开存储的方式会造成大量的数据冗余,尤其是随着数据的持续更新,存储成本会急剧上升;

  2. 原始影像数据更新后,必须重新切瓦片以保持更新区域数据的准确性,而切瓦片操作属于计算密集型任务,会显著影响数据服务的实效性;

  3. 通过文件或瓦片等不同数据模型来管理影像数据的方式不利于数据融合以及与其他数据类型的互操作,影响生产效率;

为了更好的支持各类空天数据平台的建设,降低数据存储与治理的成本,提高管理效率,云原生时空数据库Ganos重构了空天大数据处理技术栈,依托云原生的弹性计算与存储降本能力,结合原生的空天数据处理类型与算子,打造了Ganos Aero技术体系,助力空天大数据平台的快速搭建。

Ganos Aero如何应对挑战

Ganos Aero是Ganos团队推出了空天大数据管理技术方案,它以Ganos Raster为核心,结合云原生关系型数据库PolarDB、云原生多模数据库Lindorm(可选),再搭配Jupyter、Spark、Geoserver等开源工具,形成了海量异构空天数据的In-database解决方案。本成果已经被收录在2023年数据库领域顶级会议VLDB中,揭开了数据库基础软件在空天大数据管理方向上的崭新篇章。

云原生底座支持空天数据高效计算与降本存储

Ganos Aero基于阿里云云原生数据库PolarDB for PostgreSQL设计开发,它充分利用阿里云瑶池数据库强大的云原生技术,提供弹性扩展、高可用、低成本的空天大数据管理能力。

   

  • 存储方面:Ganos实现了上层数据库与底层云原生对象存储服务(OSS)之间的打通,用户通过数据库SQL可以直接操作OSS上的数据,且中间过程完全对客户透明。OSS作为一种更为廉价的存储资源,可以和块存储一样为数据库提供基础能力,On OSS的PolarDB数据库依然支持数据的增删改查、索引等操作,用户可以将数据分区、整表、或者空间大对象字段存储在OSS上,价格更为便宜;

  • 计算方面:Ganos基于Spark开发了专门的数据驱动(Format)用来将Ganos中各类空间对象直接转换为RDD或DataFrame模型,从而可以充分利用Spark强大的分布式计算与分析功能进行更加复杂的分析。Ganos Spark数据驱动的一个重要特性是允许用户在配置Spark Job时指定时间/空间查询条件或者一些复杂的空间算子作为参数。这些参数会伴随Spark Job的启动下推到数据执行,从而减少Executor层不必要的数据传输,从而显著提高Spark Job任务的执行效率。

统一的栅格数据模型支持空天数据存算显一体化

基于多元异构影像数据的特点与具体应用场景,Ganos结合PolarDB的共享存储、存计分离云原生架构特性提出了统一的栅格数据存储模型。如下图所示,Ganos在数据库层面提供了原生的栅格对象(Raster)类型来实现对多源异构的空天数据文件 (GeoTiff、NetCDF、GRIB、HDF等)进行统一建模。一个Raster对象可以看作是对一景栅格数据的元数据信息的结构化表达,其中记录了栅格对象的基础属性、波段(Band)名称、存储方式、空间参考等信息。每个Raster的像素值信息会被切分成规则大小的数据块(Chunk)保存在单独的数据表中以方便查询。同时为了提高栅格数据的处理效率,Ganos会对每个Raster对象的所有Chunk创建金字塔模型(Pyramid),每层金字塔代表了不同的空间尺度。

基于上述Ganos栅格数据模型以及对应的丰富的栅格处理函数(裁剪、重投影、镶嵌等),用户只需要保存一份原始数据即可实现数据查询、分布式计算及瓦片服务发布等操作,避免了的传统栅格数据管理方式中文件与瓦片分开存储造成的数据冗余与更新困难的问题。

丰富的生态工具助力Ganos Aero便捷化接入

Ganos 提供了丰富的生态工具,方便用户基于Jupyter、Spark、GeoServer等系统搭建自己的应用平台。比如将Ganos与Jupyter、Spark结合可以同时支持交互式查询与批处理两种处理模式,完全可以满足日益复杂的空天数据存储与分析应用场景。下图就是基于Ganos与PySpark在Jupyter环境下通过交互式查询方式实现的全球Landsat8数据的动态运算(NDVI) 、镶嵌与像素值统计等操作。

总结

Ganos Aero通过融合云原生数据库、云原生时空数据引擎、开源工具体系等构建了一套面向空天数据存储、检索、计算、交互分析与可视化展示的全栈能力,基于Ganos Aero技术栈设计开发的空天大数据管理平台近期也在数据库三大顶级学术会议之一的VLDB2023大会上进行了展示,本次Ganos团队发表的Demo论文《Ganos Aero:A Cloud-Native System for Big Raster Data Management and Processing》为阿里云和达摩院的独立研究,详细介绍了Ganos基于云原生关系型数据库PolarDB for PostgreSQL实现海量异构空天大数据的管理方法,目前Ganos Aero技术体系已经服务于阿里巴巴集团内外的多个项目,特别是在深时数字地球大科学计划(DDE)项目,为全球数百万地学研究人员及行业用户提供了一站式的科研数据存储、计算与共享平台,服务于地貌、地质矿产、古地理、古生物等多个地学领域。

最后修改时间:2023-09-26 20:47:48
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论