GeoBoost: 面向全球建筑物制图的深度增量学习方法
近些年来遥感数据集的规模有了极大的增加。在实际应用中,大规模遥感数据集大多数以多阶段的增量方式进行构建。与之所对应的是,目前所采用的学习这些增量数据集的模型, 并没有相应的很强持续学习 (continuallearning) 的能力。发展能够适应规模日益增长的数据集的模型,是实际应用的需求。增量学习方法 (incremental learning) 着眼于依次学习有序获得的数据,可以解决其中的模型遗忘问题。

图1影像样例。其中,子图(a)、(b)、(c)和(d)分别是来自城市巴黎、维也纳、东京和洛杉矶的影像。所有影像的像素尺寸为800 × 800。
对于大规模遥感影像的应用来说,影像地理分布是其中最值得关注的特性之一。从不同地区采集到的遥感影像有各自的规律,它们在颜色、纹理和形态结构上都各有差异。除此而外,对于大规模遥感影像,可用的训练数据往往不是各处均匀分布的。这些遥感图像的地理信息可以被用来引导模型持续学习的过程,以提高语义分割的预测结果。本研究根据数据所对应的地理分布信息,提出一种新的基于地理信息的增量学习方法——GeoBoost 算法,改善相应遥感影像语义分割任务的增量学习结果。
(一)GeoBoost原理与方法
GeoBoost方法通过将卷积神经网络作为梯度提升算法的基学习器的方式,简化梯度提升算法的优化求解过程,同时将大规模遥感影像的地理分布信息附加在基学习器上,改善相应遥感影像语义分割任务的增量学习结果。
梯度提升算法(gradient boosting),是一种特殊的集成学习 (ensemble learning) 方法,它以一种逐阶段的方式构造加性模型。更具体来说,定义训练数据集为 x = {x1, . . . , xN } 和对应的预测值为 y= {y1, . . . , yN },梯度提升算法优化以下集成模型:

神经网络被用作梯度提升算法的基学习器时,梯度提升算法的优化过程与单个神经网络的训练过程可以结合在一起,以进一步简化算法流程。梯度提升算法里损失函数的梯度可以在神经网络的执行后向传播算法 (backpropagation) 的时候直接被一起优化,所以这种类型的梯度提升方法被称作端对端梯度提升算法 (endtoend gradient boosting)。
对于大规模遥感影像,广泛的地理分布是其中最值得关注的特性之一。一般来说,所采集到的遥感影像是聚集在某些区域的,来自不同地区的影像中的同一种物体,在颜色、尺寸和分布密度方面都是有差异的。当梯度提升算法被应用于大规模遥感影像,数据的地理分布信息可以被容纳进来以改善预测结果。更具体来讲,在梯度提升的第 m 阶段,训练数据集Xm 的覆盖范围可以用其外接矩形 (bounding box) 的地理坐标 Bm = (xmin,ymin, xmax, ymax) 来表达。因基学习器 fm在数据集 xm 上训练,数据集的地理覆盖范围 Bm可以被认为是基学习器的地理覆盖范围 fm(xm; θm, Bm)。对于某一个图像 xj,它只被覆盖了这个图像的地理位置 pj的基学习器所分类。由此,集成模型变为带有地理坐标范围Bm的形式

这里r(pj , Bi) 是一个指示函数(indicator function) :

由于基学习器被限定在某些地区,这个方法被命名为GeoBoost。GeoBoost 的整个流程展示在下列算法 5中。梯度提升算法可以被看做是一种特殊的 GeoBoost 算法,其集成模型的覆盖范围是整个地理坐标系统。

(二)实验数据
为验证方法的有效性,本研究建立了一个新的世界范围建筑物数据集,称为DREAM-B数据集。本研究从世界范围不同的城市中采集数据,以贴近真实的应用场景,共包含626景影像,覆盖了不同大洲的100城市。图2中每一个点代表一景影像,每景影像的尺寸为4096×4096,橙色点为训练集影像,蓝色点为测试集影像。

(三)实验结果
GeoBoost 算法的有效性在大规模遥感影像DREAMB 数据集上得到验证,以 4.85% (IoU) 的精度差距明显超过端对端梯度提升算法的结果。不同基学习器的实验,证实了GeoBoost 算法始终超越梯度提升算法。
表 1‑
1不同方法在DREAM-B数据集上的结果对比

GeoBoost算法的有效性在DREAM-B的大规模数据集上得到了验证。这种方法避免了从头开始对扩大的数据集进行训练的需求,并且将与更多可用数据一起变得更加有效。GeoBoost算法以端到端的方式对新近可用的数据进行了训练,并且不会降低以前训练的模型的性能。

图4 GeoBoost算法在不同训练阶段精度的变化:(a)使用U-NASNetMobile模型作为基学习器,(b)使用U-Net模型作为基学习器。

图5 GeoBoost方法在芝加哥、维也纳和上海三个城市的语义分割结果。最左一列红色标记的部分是建筑物的真值标签,模型预测的结果以绿色标记,黄色圆圈指示了GeoBoost算法中值得关注部分的逐步学习过程。其中每一幅图像的像素尺寸为1024×1024。
Yang, N.; Tang, H. GeoBoost: AnIncremental Deep Learning Approach toward Global Mapping of Buildings from VHRRemote Sensing Images. Remote Sens. 2020, 12, 1794.https://doi.org/10.3390/rs12111794




