0
HStreamDB
编辑
简介:HStreamDB 是一款专为流式数据设计的, 针对大规模实时数据流的接入、存储、处理、分发等环节进行全生命周期管理的流数据库。

目录

产品简介

HStreamDB 是一款专为流式数据设计的, 针对大规模实时数据流的接入、存储、处理、分发等环节进行全生命周期管理的流数据库。它使用标准 SQL (及其流式拓展)作为主要接口语言,以实时性作为主要特征,旨在简化数据流的运维管理以及实时应用的开发。

2021年3月17日,EMQ 对外宣布其流数据库产品 HStreamDB 正式开源!

image.png

HStreamDB 功能特性

基于 SQL 的数据流处理

HStreamDB 设计了完整的基于事件时间的状态化处理方案,不仅支持基本的过滤、转换操作,还支持按 key 做聚合计算,基于多种时间窗口的计算,以及数据流之间 join 的能力,同时也支持乱序和晚到的消息的特殊处理,保证计算结果的准确性。用户只需要通过 SQL 语句就能完成上述所有的处理功能,无需学习任何三方 API。同时,HStream 的流处理具备丰富的扩展能力,用户可以针对自己的业务自行扩展。

数据流的物化查询

HStreamDB 提供物化视图功能,支持在持续更新的数据流上进行复杂的查询和分析操作。HStreamDB 内部的增量计算引擎会根据数据流的变化实时更新物化视图,用户可通过 SQL 语句查询物化视图获得实时的数据洞察。

数据流管理

HStreamDB 支持创建和管理大量的数据流, 数据流的创建在 HStreamDB 是非常轻量的操作, 同时基于优化的存储设计, 在大量数据流并发读写的情况下仍然能够保持稳定的读写延迟。

数据流的持久化存储

HStreamDB 提供低延时的可靠的数据流存储,保证写入的数据消息不丢失,并且能够重复消费。HStreamDB 会将写入的数据消息复制到多个存储节点,提供高可用和容错能力,同时支持将冷数据转储到成本更低的存储服务上,比如对象存储、分布式文件存储等,存储的容量可无限扩展,能够实现数据的永久存储。

数据流的 Schema 管理

HStreamDB 强调弹性的 Schema 支持,数据流可以是无 Schema 的,也可以通过 Json、 Avro、Protobuf 等多种格式来制定 Schema, 同时也支持 Schema 的演化,自动管理多版本 Schema 之间的兼容性。

数据流的接入和分发

HStreamDB 数据的接入和分发由 Connector 完成,它与包括 MQTT Broker、MySQL、ElasticSearch、Redis 等在内的多种数据系统相连接,方便用户和外部数据系统进行集成。

安全机制

HStreamDB 的安全性将由 TLS 加密传输、基于 OAuth 和 JWT 等的身份认证以及授权机制保证,同时预留安全插件接口,用户可根据需要对默认的安全机制进行扩展。

监控和运维工具

HStreamDB 设置了基于 Web 的控制台,包含大量的系统仪表盘和可视化图表, 能够对集群机器状态,系统关键指标等进行详细的监控,方便运维人员对集群进行管理。

HStreamDB 应用场景

实时数据分析

传统的数据分析通常基于批处理技术, 批处理一般是在预先收集好的有限的数据集上运行,因此分析的结果往往不包含最新的数据,有较高的时延。HStreamDB 能够对实时的数据流进行分析,并随着数据流的变化及时地更新结果,这能够更好的支持诸如网站用户活动实时预测、物联网传感器数据实时分析等应用。相比批处理,不但能提供更实时的数据洞察, 而且避免了周期性调度批处理任务的易出错和复杂性。

事件驱动应用

事件驱动应用通常是根据到来的事件实时触发对应的动作或行为, 它可以是无状态的或者带状态的,比如:金融交易中的实时欺诈检测,业务流程监控预警物联网规则引擎等。基于 HStreamDB,实现这些复杂的事件驱动应用可能仅需要寥寥几条仅仅需要几条 SQL 语句,大大降低了开发和维护这些应用的成本。

实时数据管道

企业内部往往需要在多个数据系统之间进行数据同步和迁移, 比如将在线的事务数据库中的数据拷贝到离线的数据仓库进行分析,这个过程通常是由一整套 ETL 系统完成的, 这类 ETL 系统的开发和维护成本都比较高, 而且它的数据同步往往不是实时的, 扩展性也比较差。HStreamDB 集成了多种外部系统的连接器, 能够非常方便地搭建实时的数据管道, 实现实时构建索引,实时构建缓存等数据同步任务。

在线机器学习

如今机器学习系统在业务系统中起着越来越重要的作用, 包括搜索、推荐、风控等事件背后都广泛依赖机器学习系统。然而随着在线业务及相关应用场景的井喷式发展, 常规的离线系统及离线机器学习平台已无法满足业务发展要求。HStreamDB 的实时计算引擎能够助力机器学习系统的实时化, 实现在线特征提取,实时推荐等应用。

所属公司

EMQ - 杭州映云科技有限公司是面向 5G 和物联网市场的消息与流处理开源软件公司。

  • 2013年,EMQ 作为一个开源项目在 Github上发布,目前已成为全球市场广泛应用的开源 MQTT 消息服务器。

  • 2017年,在客户需求快速增长的驱动下,我们创立公司并推出 EMQ X 企业版,以加快开源项目的产品化部署应用,并为大型企业客户提供专业技术支持与服务。

EMQ 创始团队主要来自华为、IBM、亚马逊和苹果,拥有多年的工作经验和对行业的深刻理解,并对开源软件产业的未来抱有坚定的信念。

相关资料

评论

0
0
词条统计
创建者:小小亮
编辑次数:1
浏览次数:535
API调用次数:0
贡献者