最小堆与优先队列PriorityQueue

中间件技术讨论圈 2015-10-31

562

PriorityQueue是比较特殊的队列，它继承自Queue的接口，但是它并不是FIFO先入先出，它是经过排序过的队列，

也就是最大（或者最小）值是放在队列的队头处，具体面对的场景是求Top K的问题；

对于PriorityQueue，它依然有add，poll这些接口，和其他的Queue一样，但是和util包的大多数类一样，也是线程不安全的；

下面分析一下PriorityQueue的源码。

1.堆的数据结构实现

PriorityQueue的接口是Queue的，但是其实现的数据结构却是一个堆，可以这么说，“挂着羊头卖狗肉”，

使用堆的目的是为了解决优先队列当中的“优先”问题，因为堆的作用就是求这一串值中的最大值和最小值，

当为最大值的时候，这个堆就是最大堆，当为最小值的时候，这个堆就是最小堆；

我们可以来看一个最小堆的实例：

这就是一个典型的堆，

使用数组来表示就是Object array[] = {14,26,20,35,30,22,21,36,40,50,39};按照顺序来进行表示

之所以称之为堆，是因为其满足下列的公式：

ki≤K2i且ki≤K2i+1（最小堆）或 (2)Ki≥K2i且ki≥K2i+1 (最大堆)

上述的意思也就是只要是父节点，肯定比起两个子节点要小，===》而这也是堆的特性；

一定注意的一点是，最小堆不能保证你的左子树比右子树要小，可以看到上图中的堆，右子树20,22,21比左子树最小的都小，

但这个数据结构仍旧是一个最小堆，

===》这里再一次证明了，最小堆数据结构的本意在于，就是选出一个最小的做为父节点，而不管兄弟节点的大小；

===》因此，最小堆保证了，从上到下都是逐步增大的，这个趋势是肯定保证的，而最小的节点在最顶部；

PriorityQueue通过最小堆这种数据结构，来实现优先队列，也正是利用其 Top K这一个概念；

对于堆的存储结构，使用的就是普通的数组：

为什么不使用链表呢？

==》毕竟链表作为Node节点组装成一个堆，肯定是没有问题的，

但是，堆中大量的调整排序堆化等操作，这些操作都是需要递归遍历的

这种方式的效率很低；

如果换做是用数组的话，可以看一下程序，例如求一个节点的父节点：

直接通过数组的位移直接可以定位到父节点，这仅仅是一个例子，

除此之外很多定位完全可以通过位运算和位移搞定，效率极高，这也就是数组经常被用于优先队列的原因；

我们来看一个从Collection中导入到优先队列的构造方法：

根据传入的参数类型，一共分成三种情况，

a.如果是已经排序过的SortSet，不但能满足堆的需求，而且还能保证左子树比右子树要小，这个是平衡二叉排序树的需求了，

如果是这种情况的话，那么直接将Set，使用Arrays.copy进行拷贝到queue数组中；

b.如果就是PriorityQueue的话，没啥可说的，那么直接就可以进行赋值,

c.如果连排序的Collection都不是的话，那么就需要首先堆化，这个也就是调用的heapify方法了；

所谓的堆化，实质就是堆排序，以最大堆的算法为例：

1)将初始待排序关键字序列(R1,R2....Rn)构建成大顶堆，此堆为初始的无须区；

2)将堆顶元素R[1]与最后一个元素R[n]交换，此时得到新的无序区(R1,R2,......Rn-1)和新的有序区(Rn),且满足R[1,2...n-1]<=R[n];

3)由于交换后新的堆顶R[1]可能违反堆的性质，因此需要对当前无序区(R1,R2,......Rn-1)调整为新堆，然后再次将R[1]与无序区最后一个元素交换，得到新的无序区(R1,R2....Rn-2)和新的有序区(Rn-1,Rn)。不断重复此过程直到有序区的元素个数为n-1，则整个排序过程完成。

上述的思路其实很简单，目的是最大堆，那么每一次划分两个区域，先将栈顶放到最后，然后调整除了栈顶的其余的元素，进行siftUp，挨个比较

直到在这个区域确定一个最大的，再和原来的栈顶进行比较，哪个大将哪个放到最终的栈顶位置，===》这样第一轮就可以确定栈顶，也就是最大的元素；

其次，逐步按照这个思路，每一次确定一个其次最大的，再其次最大的... ...

这样下来，整个堆的雏形也建立起来了，这就是堆化；

具体的实现的思路是：