01
分布式ID使用场景及条件
1、分布式ID使用场景
随着业务数据量的扩张以及数据的日渐增长,单应用部署或单表单库数据存储已经形成瓶颈,而我们往往通过分布式部署的方案解决此类问题。但是在分布式环境下,数据库的自增ID显然不能满足需求,特别如订单、优惠券也都需要有唯一ID做标识。因此能够生成全局唯一ID的方案是非常必要的,而这个全局唯一ID便是分布式ID。
2、分布式ID需要满足的条件
➦ 唯一性:基本要求,必须保证全局性唯一
➦ 高性能:高可用低延时,不能成为业务瓶颈
➦ 高可用:无限接近于100%的可用性
➦ 好接入:拿来即用的设计原则,系统设计和实现需尽可能简单
➦ 递增性:趋势递增,需看具体业务场景,一般不严格要求
➦ 可读性:看场景要求,如需要则应满足一定的业务可读性
02
分布式ID方案
主流的分布式ID方案一般有以下9种:
1、基于UUID
UUID的生成简单到只有一行代码,输出结果c2b8c2b9e46c47e3b30dca3b0d447718,但UUID却并不适用于实际的业务需求。如用作订单号UUID这样的字符串没有丝毫的意义,看不出和订单相关的有用信息;而对于数据库来说用作业务主键ID,它不仅是太长还是字符串,存储性能差查询也很耗时,所以不推荐用作分布式ID。
优点:
➦ 生成足够简单,本地生成无网络消耗,具有唯一性
缺点:
➦ 无序的字符串,不具备趋势自增特性
➦ 没有具体的业务含义
➦ 长度过长16 字节128位,36位长度的字符串,存储以及查询对数据库性能消耗较大,主键要尽量越短越好,且作为数据库主键 UUID 的无序性会导致数据位置频繁变动,严重影响性能。
2、基于数据库自增ID
基于数据库的auto_increment自增ID完全可以充当分布式ID,当我们需要一个ID的时候,向表中插入一条记录返回主键ID,但这种方式有一个比较致命的缺点,访问量激增时MySQL本身就是系统的瓶颈,用它来实现分布式服务风险比较大,不推荐。
优点:
➦ 实现简单,ID单调自增,数值类型查询速度快
缺点:
➦ DB单点存在宕机风险,无法扛住高并发场景
3、基于数据库集群模式
对“基础数据库自增ID”的高可用优化,换成主从模式集群,两个Mysql实例都能单独的生产自增ID,两个实例定义不同的起始值和步长,确保自增长生成的ID不会重复。如果集群后还需要进行MySQL扩容增加节点,则比较麻烦。
增加第三台MySQL实例需要人工修改一、二两台MySQL实例的起始值和步长,把第三台机器的ID起始生成位置设定在比现有最大自增ID的位置远一些,但必须在一、二两台MySQL实例ID还没有增长到第三台MySQL实例的起始ID值的时候,否则自增ID就要出现重复了,必要时可能还需要停机修改。
优点:
➦ 解决DB单点问题
缺点:
➦ 不利于后续扩容,且实际单个数据库自身压力还是大,依旧无法满足高并发场景。
4、基于数据库的号段模式
号段模式是当下分布式ID生成器的主流实现方式之一,号段模式可以理解为从数据库批量的获取自增ID,每次从数据库取出一个号段范围,例如 (1,1000] 代表1000个ID,具体的业务服务将本号段,生成1~1000的自增ID并加载到内存。等这批号段ID用完,再次向数据库申请新号段,对max_id字段做一次update操作,update max_id= max_id + step,update成功则说明新号段获取成功,新的号段范围是(max_id ,max_id +step]。
这种分布式ID生成方式不强依赖于数据库,不会频繁的访问数据库,对数据库的压力小很多。
5、基于Redis模式
Redis也同样可以实现,原理就是利用redis的 incr命令实现ID的原子性自增。
127.0.0.1:6379> set seq_id 1 初始化自增ID为1
127.0.0.1:6379> incr seq_id 增加1,并返回递增后的数值((integer)2)
用redis实现需要注意一点,要考虑到redis持久化的问题。redis有两种持久化方式RDB和AOF。
➦ RDB会定时打一个快照进行持久化,假如连续自增但redis没及时持久化,而恰好Redis挂掉了,重启Redis后会出现ID重复的情况。
➦ AOF会对每条写命令进行持久化,即使Redis挂掉了也不会出现ID重复的情况,但由于incr命令的特殊性,会导致Redis重启恢复的数据时间过长。
6、基于雪花算法(Snowflake)模式
雪花算法(Snowflake)是twitter公司内部分布式项目采用的ID生成算法,开源后广受国内大厂的好评,在该算法影响下各大公司相继开发出各具特色的分布式生成器。
Snowflake生成的是Long类型的ID,一个Long类型占8个字节,每个字节占8比特,也就是说一个Long类型占64个比特。
Snowflake ID组成结构:正数位(占1比特)+ 时间戳(占41比特)+ 机器ID(占5比特)+ 数据中心(占5比特)+ 自增值(占12比特),总共64比特组成的一个Long类型。
➦ 第一个bit位(1bit):Java中long的最高位是符号位代表正负,正数是0,负数是1,一般生成ID都为正数,所以默认为0。
➦ 时间戳部分(41bit):毫秒级的时间,不建议存当前时间戳,而是用(当前时间戳 - 固定开始时间戳)的差值,可以使产生的ID从更小的值开始;41位的时间戳可以使用69年,(1L << 41) (1000L * 60 * 60 * 24 * 365) = 69年
➦ 工作机器id(10bit):也被叫做workId,这个可以灵活配置,机房或者机器号组合都可以。
➦ 序列号部分(12bit),自增值支持同一毫秒内同一个节点可以生成4096个ID。
根据这个算法的逻辑,只需要将这个算法用Java语言实现出来,封装为一个工具方法,那么各个业务应用可以直接使用该工具方法来获取分布式ID,只需保证每个业务应用有自己的工作机器id即可,而不需要单独去搭建一个获取分布式ID的应用。
7、百度(uid-generator)
uid-generator是由百度技术部开发,基于Snowflake算法实现,与原始的snowflake算法不同在于,uid-generator支持自定义时间戳、工作机器ID和 序列号等各部分的位数,而且uid-generator中采用用户自定义workId的生成策略。
uid-generator需要与数据库配合使用,需要新增一个WORKER_NODE表。当应用启动时会向数据库表中去插入一条数据,插入成功后返回的自增ID就是该机器的workId数据由host,port组成。
对于uid-generator ID组成结构:
workId,占用了22个bit位,时间占用了28个bit位,序列化占用了13个bit位,需要注意的是,和原始的snowflake不太一样,时间的单位是秒,而不是毫秒,workId也不一样,而且同一应用每次重启就会消费一个workId。
8、美团(Leaf)
Leaf由美团开发,同时支持号段模式和snowflake算法模式,可以切换使用。
号段模式
创建建号段表leaf_alloc,然后在项目中开启号段模式,配置对应的数据库信息,并关闭snowflake模式,启动leaf-server模块的LeafServerApplication。
snowflake模式
Leaf的snowflake模式依赖于ZooKeeper,不同于原始snowflake算法也主要是在workId的生成上,Leaf中workId是基于ZooKeeper的顺序Id来生成的,每个应用在使用Leaf-snowflake时,启动时都会都在Zookeeper中生成一个顺序Id,相当于一台机器对应一个顺序节点,也就是一个workId。
9、滴滴(Tinyid)
Tinyid由滴滴开发,是基于号段模式原理实现的与Leaf如出一辙,每个服务获取一个号段(1000,2000]、(2000,3000]、(3000,4000]。
Tinyid提供http和tinyid-client两种方式接入。
03
我们在项目中应用
我们在项目中根据实际场景,所采用的方案大致如下:
1、简单的自增长
往往用在生成并发量不会特别高的场景,且需要保持一定的有序性。比如用户账号,从10000001开始使用,为保证连续性,可以直接用数据库的sequence。如果需要额外的业务标识,也可以在账号头部增加特定字符。
2、简单的带日期时间的编号
前14位用yyyyMMddHHmmss,后面几位可用ring buffer循环自增长,只要在一秒钟的并发数不超过ring buffer的size,便是安全的。如果是在分布式场景下部署应用,还需要保留一位作为应用标识。该方案可用于简单的订单编号场景,同样,如果需要业务标识,也可在头部增加。
3、结合百度(uid-generator)和美团(Leaf)
综合两家大厂提供的方案,自定义分布式ID Provide Server,模式可由应用自由选择号段模式还是雪花算法,提供rest api和sdk两种接入模式。
谢谢
阅读~




