暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

分布式ID选型与设计

浙金科技无限 2020-08-24
704

01


分布式ID使用场景及条件


1、分布式ID使用场景

随着业务数据量的扩张以及数据的日渐增长,单应用部署或单表单库数据存储已经形成瓶颈,而我们往往通过分布式部署的方案解决此类问题。但是在分布式环境下,数据库的自增ID显然不能满足需求,特别如订单、优惠券也都需要有唯一ID做标识。因此能够生成全局唯一ID的方案是非常必要的,而这个全局唯一ID便是分布式ID。


2、分布式ID需要满足的条件

➦ 唯一性:基本要求,必须保证全局性唯一

➦ 高性能:高可用低延时,不能成为业务瓶颈

➦ 高可用:无限接近于100%的可用性

➦ 好接入:拿来即用的设计原则,系统设计和实现需尽可能简单

➦ 递增性:趋势递增,需看具体业务场景,一般不严格要求

➦ 可读性:看场景要求,如需要则应满足一定的业务可读性


02


 分布式ID方案


主流的分布式ID方案一般有以下9种:


1、基于UUID

UUID的生成简单到只有一行代码,输出结果c2b8c2b9e46c47e3b30dca3b0d447718,但UUID却并不适用于实际的业务需求。如用作订单号UUID这样的字符串没有丝毫的意义,看不出和订单相关的有用信息;而对于数据库来说用作业务主键ID,它不仅是太长还是字符串,存储性能差查询也很耗时,所以不推荐用作分布式ID。


优点:

➦ 生成足够简单,本地生成无网络消耗,具有唯一性


缺点:

➦ 无序的字符串,不具备趋势自增特性

➦ 没有具体的业务含义

➦ 长度过长16 字节128位,36位长度的字符串,存储以及查询对数据库性能消耗较大,主键要尽量越短越好,且作为数据库主键 UUID 的无序性会导致数据位置频繁变动,严重影响性能。


2、基于数据库自增ID

基于数据库的auto_increment自增ID完全可以充当分布式ID,当我们需要一个ID的时候,向表中插入一条记录返回主键ID,但这种方式有一个比较致命的缺点,访问量激增时MySQL本身就是系统的瓶颈,用它来实现分布式服务风险比较大,不推荐。


优点:

➦ 实现简单,ID单调自增,数值类型查询速度快


缺点:

➦ DB单点存在宕机风险,无法扛住高并发场景


3、基于数据库集群模式

对“基础数据库自增ID”的高可用优化,换成主从模式集群,两个Mysql实例都能单独的生产自增ID,两个实例定义不同的起始值和步长,确保自增长生成的ID不会重复。如果集群后还需要进行MySQL扩容增加节点,则比较麻烦。


增加第三台MySQL实例需要人工修改一、二两台MySQL实例的起始值和步长,把第三台机器的ID起始生成位置设定在比现有最大自增ID的位置远一些,但必须在一、二两台MySQL实例ID还没有增长到第三台MySQL实例的起始ID值的时候,否则自增ID就要出现重复了,必要时可能还需要停机修改。


优点:

➦ 解决DB单点问题


缺点:

➦ 不利于后续扩容,且实际单个数据库自身压力还是大,依旧无法满足高并发场景。


4、基于数据库的号段模式

号段模式是当下分布式ID生成器的主流实现方式之一,号段模式可以理解为从数据库批量的获取自增ID,每次从数据库取出一个号段范围,例如 (1,1000] 代表1000个ID,具体的业务服务将本号段,生成1~1000的自增ID并加载到内存。等这批号段ID用完,再次向数据库申请新号段,对max_id字段做一次update操作,update max_id= max_id + step,update成功则说明新号段获取成功,新的号段范围是(max_id ,max_id +step]。


这种分布式ID生成方式不强依赖于数据库,不会频繁的访问数据库,对数据库的压力小很多。


5、基于Redis模式

Redis也同样可以实现,原理就是利用redis的 incr命令实现ID的原子性自增。


127.0.0.1:6379> set seq_id 1     初始化自增ID为1

127.0.0.1:6379> incr seq_id      增加1,并返回递增后的数值((integer)2)


用redis实现需要注意一点,要考虑到redis持久化的问题。redis有两种持久化方式RDB和AOF。


➦ RDB会定时打一个快照进行持久化,假如连续自增但redis没及时持久化,而恰好Redis挂掉了,重启Redis后会出现ID重复的情况。

➦ AOF会对每条写命令进行持久化,即使Redis挂掉了也不会出现ID重复的情况,但由于incr命令的特殊性,会导致Redis重启恢复的数据时间过长。


6、基于雪花算法(Snowflake)模式

雪花算法(Snowflake)是twitter公司内部分布式项目采用的ID生成算法,开源后广受国内大厂的好评,在该算法影响下各大公司相继开发出各具特色的分布式生成器。


Snowflake生成的是Long类型的ID,一个Long类型占8个字节,每个字节占8比特,也就是说一个Long类型占64个比特。


Snowflake ID组成结构:正数位(占1比特)+ 时间戳(占41比特)+ 机器ID(占5比特)+ 数据中心(占5比特)+ 自增值(占12比特),总共64比特组成的一个Long类型。


➦ 第一个bit位(1bit):Java中long的最高位是符号位代表正负,正数是0,负数是1,一般生成ID都为正数,所以默认为0。

➦ 时间戳部分(41bit):毫秒级的时间,不建议存当前时间戳,而是用(当前时间戳 - 固定开始时间戳)的差值,可以使产生的ID从更小的值开始;41位的时间戳可以使用69年,(1L << 41) (1000L * 60 * 60 * 24 * 365) = 69年

➦ 工作机器id(10bit):也被叫做workId,这个可以灵活配置,机房或者机器号组合都可以。

➦ 序列号部分(12bit),自增值支持同一毫秒内同一个节点可以生成4096个ID。


根据这个算法的逻辑,只需要将这个算法用Java语言实现出来,封装为一个工具方法,那么各个业务应用可以直接使用该工具方法来获取分布式ID,只需保证每个业务应用有自己的工作机器id即可,而不需要单独去搭建一个获取分布式ID的应用。


7、百度(uid-generator)

uid-generator是由百度技术部开发,基于Snowflake算法实现,与原始的snowflake算法不同在于,uid-generator支持自定义时间戳、工作机器ID和 序列号等各部分的位数,而且uid-generator中采用用户自定义workId的生成策略。


uid-generator需要与数据库配合使用,需要新增一个WORKER_NODE表。当应用启动时会向数据库表中去插入一条数据,插入成功后返回的自增ID就是该机器的workId数据由host,port组成。


对于uid-generator ID组成结构:

workId,占用了22个bit位,时间占用了28个bit位,序列化占用了13个bit位,需要注意的是,和原始的snowflake不太一样,时间的单位是秒,而不是毫秒,workId也不一样,而且同一应用每次重启就会消费一个workId。


8、美团(Leaf)

Leaf由美团开发,同时支持号段模式和snowflake算法模式,可以切换使用。


号段模式

创建建号段表leaf_alloc,然后在项目中开启号段模式,配置对应的数据库信息,并关闭snowflake模式,启动leaf-server模块的LeafServerApplication。


snowflake模式

Leaf的snowflake模式依赖于ZooKeeper,不同于原始snowflake算法也主要是在workId的生成上,Leaf中workId是基于ZooKeeper的顺序Id来生成的,每个应用在使用Leaf-snowflake时,启动时都会都在Zookeeper中生成一个顺序Id,相当于一台机器对应一个顺序节点,也就是一个workId。


9、滴滴(Tinyid)

Tinyid由滴滴开发,是基于号段模式原理实现的与Leaf如出一辙,每个服务获取一个号段(1000,2000]、(2000,3000]、(3000,4000]。

Tinyid提供http和tinyid-client两种方式接入。


03


我们在项目中应用


我们在项目中根据实际场景,所采用的方案大致如下:


1、简单的自增长

往往用在生成并发量不会特别高的场景,且需要保持一定的有序性。比如用户账号,从10000001开始使用,为保证连续性,可以直接用数据库的sequence。如果需要额外的业务标识,也可以在账号头部增加特定字符。


2、简单的带日期时间的编号

前14位用yyyyMMddHHmmss,后面几位可用ring buffer循环自增长,只要在一秒钟的并发数不超过ring buffer的size,便是安全的。如果是在分布式场景下部署应用,还需要保留一位作为应用标识。该方案可用于简单的订单编号场景,同样,如果需要业务标识,也可在头部增加。


3、结合百度(uid-generator)和美团(Leaf)

综合两家大厂提供的方案,自定义分布式ID Provide Server,模式可由应用自由选择号段模式还是雪花算法,提供rest api和sdk两种接入模式。

谢谢




阅读~


文章转载自浙金科技无限,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论