什么是时序数据库

领创集团Advance Group 2022-05-26

1394

时序数据的基本概念

在了解时序数据库之前首先要了解什么是时序数据，Time Series Data是指按照时间顺序记录系统、设备状态变化的数据，时序数据有如下几个维度：

●Measurement：度量，相当于关系型数据库中的 table

●Data point：数据点，相当于关系型数据库中的 row。

●Time：时间戳，代表数据点产生的时间。

●Field：度量下的不同字段。比如位置这个度量具有经度和纬度两个 field。一般情况下存放的是随时间戳而变化的数据。

●Tag：标签。一般存放的是不随时间戳变化的信息。timestamp 加上所有的 tags 可以视为 table 的 primary key。

时序数据库与其他数据存储的对比

●关系型数据库：尽管时序数据库中的Measurement，Data Point，Filed，Tag都似乎能在关系型数据库中找到对应，而且时序数据库还有类SQL的交互方式，但是对于关系型数据库中的CRUD，时序数据库更侧重其中的C和R的高效，在海量数据聚合分析更强。

●Elasticseach：Elasticseach虽然主打大数据量的搜索，但是高效的处理大量数据读写操作也可以起到时序数据库的作用。

使用场景

时序数据看起来就是一个时间轴，表明了一些数据维度随着时间的变化，通常这些数据以插入为主，没有什么更新操作。由于这些特点，时序数据库诞生了。时序数据库目标实现高性能的读写，实时分析。被广泛应用在物联网设备信息采集，金融数据分析及可视化等众多场景当中。其中，InfluxDB是一个开源时序数据库诞生于2013年，起初设想应用于高性能的监控和告警，下面将以InfluxDB为例带大家体验时序数据库。

体验InfluxDB

InfluxDB是一个开源的时序数据库，而且1.0使用类SQL的语句查询，借用InfluxDB带大家体验一下时序数据库。

安装与启动

以MacOS为例下载地址：https://dl.influxdata.com/influxdb/releases/influxdb-1.8.10_darwin_amd64.tar.gz

解压后到/influxdb-1.8.10-1/usr/bin目录下，执行可启动sudo ./influxd -config ../../etc/influxdb/influxdb.conf

继续在bin目录下执行./influx就可以进入InfluxDB shell直接食用类sql的语句进行操作。

数据库写入

创建数据库CREATE DATABASE test

列出所有数据库SHOW DATABASE test

使用数据库USE test

插入数据使用insert，后面解释具体的格式，这里我们做一条插入，使用select进行查询：

http方式操作

InfluxDB使用HTTP作为方便和广泛支持的数据传输协议，例如GET query

InfluxDB插入数据格式

将数据写入InfluxDB需要按照一定的文本格式：

Measuremen

Tag set

Field set

Timestamp

●Measurement：就是类似于结构数据的表明，在插入时是必须的。

●Tag set:数据的标签，有点类似于主键，可以没有或者多个，多组Tag之间写法上使用不带空格的逗号分开，写法为Measurement ,<tag_key>=<tag_value>,<tag_key>=<tag_value>。注意：tag是会加索引的。

●Field set：每行数据至少有一个Field set多组使用使用不带空格的分隔，格式为<field_key>=<field_value>。

●Timestamp是可选字段，必须使用空格分开。Timestamp时间戳虽然可选，但是不写将使用服务器时间进行填充。

●其中Measurement与Tag set使用逗号分隔，Measurement或者Tag set与Field Set使用空格分隔，field set与Timestamp使用空格分隔。

不同组件的数据格式

●Measurement，Tag keys，Tag values，Field keys必须为String类型。

Field value可以是整数、浮点数、字符串和布尔值。其中字符串使用双引号表示，布尔值使用t，T，true，True，TRUE表示TRUE，f，F，false，False，FALSE表示FALSE。

●Timestamp时间戳

数据主键

对于InfluxDB，同一个Measurement下，Timestamp加Tags作为唯一标识，相同的标识插入但是FieldSet不同会做合并，冲突部分以新的Field为准。

数据查询

查询语句类似sql查询方式

复杂操作

另外InfluxDB支持类如group by，count等等聚合以及limit，offset的分页操作。

使用InfluxDB需要注意的几个方面

1. 在InfluxDB中可以指定retentionPolicy，不指定也会有默认的策略，特别注意如果中期调整策略，过期的数据会被立刻清除。

2. Tag不是必须的，但是如果在查询中经常使用到或者使用到了GroupBy或者InfluxQL函数推荐使用Tag，尤其注意Tag Value只能是字符串，如果字段value是数字类型则无法使用Tag存放。

3. InfluxDB的数据存放在shard中，以tsm的文件形式存放在磁盘上，shard group受retentionPolicy管理。

在retentionPolicy触发时会对应删除相应shard，提高shard group的持续时间可以改善压缩，提高写入的速度。

总结

对于时序数据库，本文针对其特点和InfluxDB1.0做了简单的介绍，在2.0中influxDB又做了极大的改动，本文只是抛砖引玉，祝大家在数据存储上都能找到合适的工具，数据库永远稳定高效。

大家都遇到过哪些使用时序数据的场景呢？

欢迎评论区分享～

感谢阅读「技术创想」第48期文章

领创集团正在春季招聘中

期待你的加入

点击文末

“阅读原文”

获取更多

招聘信息

关于领创集团

（Advance Intelligence Group）

领创集团成立于 2016年，致力于通过科技创新的本地化应用，改造和重塑金融和零售行业，以多元化的业务布局打造一个服务于消费者、企业和商户的生态圈。集团旗下包含企业业务和消费者业务两大板块，企业业务包含 ADVANCE.AI 和 Ginee，分别为银行、金融、金融科技、零售和电商行业客户提供基于 AI 技术的数字身份验证、风险管理产品和全渠道电商服务解决方案；消费者业务 Atome Financial 包括亚洲领先的先享后付平台 Atome 和数字金融服务。2021年 9月，领创集团宣布完成超4亿美元 D 轮融资，融资完成后领创集团估值已超 20亿美元，成为新加坡最大的独立科技创业公司之一。

influxdb 大数据数据库关系型数据库时间戳

文章转载自领创集团Advance Group，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。