分布式ID选型与设计

浙金科技无限 2020-08-24

791

分布式ID使用场景及条件

1、分布式ID使用场景

随着业务数据量的扩张以及数据的日渐增长，单应用部署或单表单库数据存储已经形成瓶颈，而我们往往通过分布式部署的方案解决此类问题。但是在分布式环境下，数据库的自增ID显然不能满足需求，特别如订单、优惠券也都需要有唯一ID做标识。因此能够生成全局唯一ID的方案是非常必要的，而这个全局唯一ID便是分布式ID。

2、分布式ID需要满足的条件

➦ 唯一性：基本要求，必须保证全局性唯一

➦ 高性能：高可用低延时，不能成为业务瓶颈

➦ 高可用：无限接近于100%的可用性

➦ 好接入：拿来即用的设计原则，系统设计和实现需尽可能简单

➦ 递增性：趋势递增，需看具体业务场景，一般不严格要求

➦ 可读性：看场景要求，如需要则应满足一定的业务可读性

分布式ID方案

主流的分布式ID方案一般有以下9种：

1、基于UUID

UUID的生成简单到只有一行代码，输出结果c2b8c2b9e46c47e3b30dca3b0d447718，但UUID却并不适用于实际的业务需求。如用作订单号UUID这样的字符串没有丝毫的意义，看不出和订单相关的有用信息；而对于数据库来说用作业务主键ID，它不仅是太长还是字符串，存储性能差查询也很耗时，所以不推荐用作分布式ID。

优点：

➦ 生成足够简单，本地生成无网络消耗，具有唯一性

缺点：

➦ 无序的字符串，不具备趋势自增特性

➦ 没有具体的业务含义

➦ 长度过长16 字节128位，36位长度的字符串，存储以及查询对数据库性能消耗较大，主键要尽量越短越好，且作为数据库主键 UUID 的无序性会导致数据位置频繁变动，严重影响性能。

2、基于数据库自增ID

基于数据库的auto_increment自增ID完全可以充当分布式ID，当我们需要一个ID的时候，向表中插入一条记录返回主键ID，但这种方式有一个比较致命的缺点，访问量激增时MySQL本身就是系统的瓶颈，用它来实现分布式服务风险比较大，不推荐。

优点：

➦ 实现简单，ID单调自增，数值类型查询速度快

缺点：

➦ DB单点存在宕机风险，无法扛住高并发场景

3、基于数据库集群模式

对“基础数据库自增ID”的高可用优化，换成主从模式集群，两个Mysql实例都能单独的生产自增ID，两个实例定义不同的起始值和步长，确保自增长生成的ID不会重复。如果集群后还需要进行MySQL扩容增加节点，则比较麻烦。

增加第三台MySQL实例需要人工修改一、二两台MySQL实例的起始值和步长，把第三台机器的ID起始生成位置设定在比现有最大自增ID的位置远一些，但必须在一、二两台MySQL实例ID还没有增长到第三台MySQL实例的起始ID值的时候，否则自增ID就要出现重复了，必要时可能还需要停机修改。

优点：

➦ 解决DB单点问题

缺点：

➦ 不利于后续扩容，且实际单个数据库自身压力还是大，依旧无法满足高并发场景。

4、基于数据库的号段模式

号段模式是当下分布式ID生成器的主流实现方式之一，号段模式可以理解为从数据库批量的获取自增ID，每次从数据库取出一个号段范围，例如 (1,1000] 代表1000个ID，具体的业务服务将本号段，生成1~1000的自增ID并加载到内存。等这批号段ID用完，再次向数据库申请新号段，对max_id字段做一次update操作，update max_id= max_id + step，update成功则说明新号段获取成功，新的号段范围是(max_id ,max_id +step]。

这种分布式ID生成方式不强依赖于数据库，不会频繁的访问数据库，对数据库的压力小很多。

5、基于Redis模式

Redis也同样可以实现，原理就是利用redis的 incr命令实现ID的原子性自增。

127.0.0.1:6379> set seq_id 1 初始化自增ID为1

127.0.0.1:6379> incr seq_id 增加1，并返回递增后的数值((integer)2)

用redis实现需要注意一点，要考虑到redis持久化的问题。redis有两种持久化方式RDB和AOF。

➦ RDB会定时打一个快照进行持久化，假如连续自增但redis没及时持久化，而恰好Redis挂掉了，重启Redis后会出现ID重复的情况。

➦ AOF会对每条写命令进行持久化，即使Redis挂掉了也不会出现ID重复的情况，但由于incr命令的特殊性，会导致Redis重启恢复的数据时间过长。

6、基于雪花算法（Snowflake）模式

雪花算法（Snowflake）是twitter公司内部分布式项目采用的ID生成算法，开源后广受国内大厂的好评，在该算法影响下各大公司相继开发出各具特色的分布式生成器。

Snowflake生成的是Long类型的ID，一个Long类型占8个字节，每个字节占8比特，也就是说一个Long类型占64个比特。

Snowflake ID组成结构：正数位（占1比特）+ 时间戳（占41比特）+ 机器ID（占5比特）+ 数据中心（占5比特）+ 自增值（占12比特），总共64比特组成的一个Long类型。

➦ 第一个bit位（1bit）：Java中long的最高位是符号位代表正负，正数是0，负数是1，一般生成ID都为正数，所以默认为0。

➦ 时间戳部分（41bit）：毫秒级的时间，不建议存当前时间戳，而是用（当前时间戳 - 固定开始时间戳）的差值，可以使产生的ID从更小的值开始；41位的时间戳可以使用69年，(1L << 41) (1000L * 60 * 60 * 24 * 365) = 69年

➦ 工作机器id（10bit）：也被叫做workId，这个可以灵活配置，机房或者机器号组合都可以。

➦ 序列号部分（12bit），自增值支持同一毫秒内同一个节点可以生成4096个ID。

根据这个算法的逻辑，只需要将这个算法用Java语言实现出来，封装为一个工具方法，那么各个业务应用可以直接使用该工具方法来获取分布式ID，只需保证每个业务应用有自己的工作机器id即可，而不需要单独去搭建一个获取分布式ID的应用。

7、百度（uid-generator）

uid-generator是由百度技术部开发，基于Snowflake算法实现，与原始的snowflake算法不同在于，uid-generator支持自定义时间戳、工作机器ID和序列号等各部分的位数，而且uid-generator中采用用户自定义workId的生成策略。

uid-generator需要与数据库配合使用，需要新增一个WORKER_NODE表。当应用启动时会向数据库表中去插入一条数据，插入成功后返回的自增ID就是该机器的workId数据由host，port组成。

对于uid-generator ID组成结构：

workId，占用了22个bit位，时间占用了28个bit位，序列化占用了13个bit位，需要注意的是，和原始的snowflake不太一样，时间的单位是秒，而不是毫秒，workId也不一样，而且同一应用每次重启就会消费一个workId。

8、美团（Leaf）

Leaf由美团开发，同时支持号段模式和snowflake算法模式，可以切换使用。

号段模式

创建建号段表leaf_alloc，然后在项目中开启号段模式，配置对应的数据库信息，并关闭snowflake模式，启动leaf-server模块的LeafServerApplication。

snowflake模式

Leaf的snowflake模式依赖于ZooKeeper，不同于原始snowflake算法也主要是在workId的生成上，Leaf中workId是基于ZooKeeper的顺序Id来生成的，每个应用在使用Leaf-snowflake时，启动时都会都在Zookeeper中生成一个顺序Id，相当于一台机器对应一个顺序节点，也就是一个workId。

9、滴滴（Tinyid）

Tinyid由滴滴开发，是基于号段模式原理实现的与Leaf如出一辙，每个服务获取一个号段（1000,2000]、（2000,3000]、（3000,4000]。

Tinyid提供http和tinyid-client两种方式接入。

我们在项目中应用

我们在项目中根据实际场景，所采用的方案大致如下：

1、简单的自增长

往往用在生成并发量不会特别高的场景，且需要保持一定的有序性。比如用户账号，从10000001开始使用，为保证连续性，可以直接用数据库的sequence。如果需要额外的业务标识，也可以在账号头部增加特定字符。

2、简单的带日期时间的编号

前14位用yyyyMMddHHmmss，后面几位可用ring buffer循环自增长，只要在一秒钟的并发数不超过ring buffer的size，便是安全的。如果是在分布式场景下部署应用，还需要保留一位作为应用标识。该方案可用于简单的订单编号场景，同样，如果需要业务标识，也可在头部增加。

3、结合百度（uid-generator）和美团（Leaf）

综合两家大厂提供的方案，自定义分布式ID Provide Server，模式可由应用自由选择号段模式还是雪花算法，提供rest api和sdk两种接入模式。

谢谢

阅读~

数据库

文章转载自浙金科技无限，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

分布式ID选型与设计

评论