Python高性能空间数据计算包：PyGEOS（1）：对比

虾神说D 2021-01-27

419

今天早上在查阅GeoPandas文档的时候，发现从0.8版本开始，多了一个新特性：可以在GeoPandas进行空间运算的时候，选用PyGEOS包来实现了。

算法渣渣虾看见这个选项的时候，当时的表情那是：

好吧，有同学不知道为什么虾神会如此惊讶，因为这个库实在是太流弊了……今天我们就来介绍一下这个神奇的高性能空间数据计算包：

PyGEOS

话说，对速度的追求，是人类的本能：当然，你可以追求更快，自然也可以追求更慢……

但是在对数据进行计算的时候，无疑我们是追求更高更快更强的……而这个包，敢叫做“高性能”，自然有它的两把刷子。

我们先来看看官方文档对它的描述：

虾神大白话解释如下（英文好的同学自行去读官方文档）：

第一点，PyGEOS这个包，底层的计算，用的GEOS的空间关系来进行计算，好吧，我知道有同学继续会问，啥是GEOS呢？这个说来就话长了，看下面这张图：

闭源的先不看，主要看开源的部分，通常说的就是C/C++写的速度快，但是对于码农来说很不友好，反之JAVA写的，对码农友好，但是速度效率又不咋地……

所以，综合了二者的优点以及缺点之和，就出现Geos这个东西……它有着C++底层的运行速度，但是在API保留了JAVA编码友好的特点——but，二者的缺点也一并保留了。目前用GEOS比较出名GIS软件，就是QGIS平台。

GEOS搞出了空间关系计算里面最出名的入门图DE-9IM（Dimensionally Extended nine-Intersection Model (DE-9IM)，用于描述两个几何图形空间关系：

——言归正传，回到PyGeos。

因为PyGEOS底层用的是GEOS，所以它具备了空间计算的各种基本以及标准的功能。

第二点，PyGEOS计算操作，利用的是numpy的ufunc模式进行编码——所谓的ufunc模式，是一种在n维数组上，以逐个元素处理的方式运行的函数，支持数组广播（广播是指 NumPy 在算术运算期间处理不同形状的数组的能力）。它的机制是使用C语言对底层for循环进行了重写，从而减少了Python解释器的开销。

举个例子：传统的迭代计算，比如我这有一个5个元素组成的数组，要把每个元素扩大3倍，正常的代码写法应该是通过for循环，一个个元素来处理：

但是在Numpy里面，直接用ufunc方式来实现，直接在数组上乘以3，得到的结果是每个元素依此乘以3了：

numpy的速度之所以比传统Python数组快那么多，有个核心原理就是他的ufunc，采用的是C重写了底层，不需要在Python那个蜗牛一样的解释器里面去运行，而PyGEOS 也用了这个原理，来实现快速计算。

第三点就是PyGEOS支持多线程。原理就是它在函数执行期间主动干掉了GIL（Global Interpreter Lock ：全局解释器锁定)。

GIL这个东东是C语言里面的一个特性，而我们的CPython天生就带着这个东西出现了（相对的Jython就么有GIL），它主要的作用就是一个全局排他锁，主要是防止多线程并发执行机器码（C语言官方的解释是为了解决线程间数据一致性和状态同步的困难，而解决思路很粗暴：特么我加一把锁锁起来，你们之间就无法同步了，自己跑自己的进程完事——完美解决）。