暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
可实时数据挖掘的流计算引擎.pdf
578
4页
0次
2024-05-30
10墨值下载
摘要:Transwarp Stream是星环专为企业级用户打造的流计算引擎,主要应用于实时性较强的应用场
景。比如,金融行业需要对市场波动进行实时预警
Transwarp Stream是星环专为企业级用户打造的流计算引擎,主要应用于实时性较强的应用场景。比
如,金融行业需要对市场波动进行实时预警;交通行业需要将卡口数据实时入库,并在线使用图像识别
鉴别*进行预警等;银行业务需要在线分析业务,及时鉴别欺诈等违规行为;采用复杂物联网的行业,如
机场、风电等,需要将大量传感器数据进行实时分析和数据挖掘。
企业级用户往往对流处理产品在实时性、吞吐量、高可用性、易用性、安全性和稳定性等方面有着极其
苛刻的要求。星环凭借自身强大的技术实力,以及国内最多最复杂的流处理案例经验,开发出满足这些
苛刻要求的Transwarp Stream流计算引擎:
实时性:企业级用户通常对流处理应用有较高的实时要求,而为了发掘性能的最大潜能,好的计算引擎
不仅能保证自身的高效,同时也必须保证部署环境的适配。Transwarp Stream优化了任务调度策略,大
大降低序列化时间,并与Holodesk无缝链接,极大地提升了数据存储效率。此外,由于星环率先在国内
多家企业部署了多套复杂的流处理应用,针对各种复杂的部署环境,总结出一套能适配各种复杂环境的
优化参数和最佳配置,能最大程度地发挥集群性能。
高吞吐量:高吞吐量是实时性和并发度的综合体现。实时性意味着流处理对单个消息的反应时间短;而
高并发度意味着单位时间内能同时处理更多的消息。两者结合就意味着单位时间内能处理更多的消息并
且没有积压,也就是高吞吐量。Transwarp Stream在提高实时性的同时,消除了框架中的单点瓶颈,提
高了并发度。比如,Transwarp Stream可以启动多个Receiver,并且每个都具有Locality以提高并发
度,并减少网络传输。
高可用性:高可用性一般是指系统在异常状态下的异常恢复和持续工作的能力,而有些苛刻的用户会对
异常状态下的数据可靠性有较高要求。因此,Transwarp Stream不仅保证框架本身的各个组件在各种异
常状态下能正常运作,并且还提供At least OnceExactly Once的语义支持。
易用性:入门难度大是好多企业无法尽快转向大数据流处理平台的技术壁垒。星环自主研发的
StreamSQL,使用户有机会用SQL来实现流处理业务逻辑,极大地降低用户的入门门槛。用户在选择使
用编程接口的时候可以使用星环的JobServer提交、监控流处理应用,降低部署的运维成本;而用户一旦
选择使用StreamSQL,则可以通过命令行、JDBC或者ODBC等常用的SQL交互方式,与Inceptor交互,
大大降低学习成本。
安全性Transwarp Stream通过Kerberos打通各个组件的用户验证,同时对数据加密,提供细粒度的
权限控制,保证数据读写的安全性,同时也保证数据读写可追踪。同时,Transwarp Stream还保证多租
户情况下的数据隔离、资源隔离、以及资源合理共享与调度。
稳定性:大多数流处理应用有24*7的运行要求,这意味着流处理在追求性能的同时,也必须保证稳定
性。星环在国内拥有最广的流处理部署环境,为Transwarp Stream的稳定性打下了良好的基础。
Transwarp Stream具有back-pressure功能,在积压的情况下能自动均衡压力,调整数据流入速率;也
可以在积压无法避免的情况下,给用户优先处理最新数据的机会。甚至在性能极差、异构的集群环境下
也能保证正常运作。
Transwarp Stream架构主要包括三层,自下而上分别是存储层、计算层以及接口层。
存储层可适配已有的组件包括HolodeskHyperbase等。
计算层包括几个管理模块: 输入管理Source Manager,应用管理Application Manager,分布式执行引
Distributed Execution Engine,存储管理Storage Manager,输出管理Sink Manager
Source Manager是源数据与执行引擎间的桥梁,主要负责与源数据进行连接,在收到需要的数据时通知
执行引擎。它通过共享输入来大大减少网络传输,提高了处理效率,并且根据执行引擎的back-pressure
进行流控。
Application Manager存储运行时所有的状态信息,用于管理所有的流应用,以及多租户状态下应用之
间的隔离,用户可以通过它进行查询和终止SQL
Distributed Execution EngineTranswarp Stream的核心部件,它负责调度和执行所有流处理相关的
执行计划。它针对流处理的迭代计算进行算法优化,并结合运行时信息,可重新生成更高效的执行计
划。
Storage Manager是执行引擎与存储层之间的桥梁,主要通过缓存的方式增加迭代计算中中间计算数
据、结果数据在内存中的命中率。
Sink Manager是结果输出模块。不同于Storage Manager主要通过缓存来提高读取数据的效率,Sink
Manager通过对输出结果的重组,来提高存储计算结果的速度。
接口层,包括StreamSQL Data MiningStreamSQLSHELL/JDBC/ODBC的方式连接SQL编译器,
得到执行计划后进入计算层计算。而Data Mining通过编程API的方式直接对接计算层。
StreamSQL
Transwarp Stream SQL是星环推荐多数用户采用的开发方式,可用于一般的业务场景,包括用于交
通、电力、银行等行业的实时入库ETL工具,用于金融、银行行业的规则报警工具等。相对于采用编程
的方式去实现流应用,采用SQL具有以下优势:
of 4
10墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜