暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

TDC 云产品使用手册-星环科技知识库

原创 sg1234 2022-09-27
1023

Transwarp Data Cloud 2.0 云产
品使用手册
星环信息科技(上海)有限公司
版本号 T00420x-03-010, 2019-04-29
目录
1. 概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   2
2. 云产品的部署与管理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   3
2.1. 实例部署 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   3
2.2. 实例运维 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   7
2.2.1. 实例列表与实例详情. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   7
2.2.2. 配置实例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   9
2.2.2.1. 配置组件高可用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   10
2.2.2.2. 调整计算执行单元数量 . . . . . . . . . . . . . . . . . . . . . . . . . . . .   11
2.2.3. 编辑、启停及删除实例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   12
2.2.4. 查看资源使用情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   13
2.2.5. 查看及管理组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   14
2.2.5.1. 配置组件共享 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   16
2.2.5.2. 查看组件概况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   17
2.2.5.3. 配置组件资源 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   18
2.2.5.4. 添加运行参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   20
2.2.5.5. 查看组件日志 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   21
3. 实例开发 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   22
3.1. 数据集市 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   24
3.1.1. 应用开发组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   24
3.1.2. 运维管理组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   28
3.2. 数据仓库 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   30
3.2.1. 应用开发组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   30
3.2.2. 运维管理组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   32
3.3. 信息检索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   36
3.3.1. 应用开发组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   36
3.3.2. 运维管理组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   38
3.4. Pilot企业版 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   40
3.5. 实时计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   41
3.5.1. 应用开发组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   42
3.5.2. 运维管理组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   43
3.6. 关系型数据库 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   46
3.6.1. 运维管理组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   47
3.7. 分布式闪存数据库 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   48
3.7.1. 应用开发组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   48
3.7.2. 运维管理组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   50
3.8. 人工智能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   52
3.8.1. 应用开发组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   53
3.8.2. 运维管理组件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   55
客户服务 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   59
免责声明
本说明书依据现有信息制作,其内容如有更改,恕不另行通知。星环信息科技(上海)有限公司在编写该说
明书的时候已尽最大努力保证其内容准确可靠,但星环信息科技(上海)有限公司不对本说明书中的遗漏、
不准确或印刷错误导致的损失和损害承担责任。具体产品使用请以实际使用为准。
注释: Hadoop ® 和 SPARK ® 是 Apache™ 软件基金会在美国和其他国家的商标或注册的商标。Java ® 是
Oracle 公司在美国和其他国家的商标或注册的商标。Intel ® 和 Xeon ® 是英特尔公司在美国、中国和其他国
家的商标或注册的商标。
版权所有 © 2013-2019 星环信息科技(上海)有限公司。保留所有权利。
©星环信息科技(上海)有限公司版权所有,并保留对本说明书及本声明的最终解释权和修改权。本说明书的
版权归星环信息科技(上海)有限公司所有。未得到星环信息科技(上海)有限公司的书面许可,任何人不
得以任何方式或形式对本说明书内的任何部分进行复制、摘录、备份、修改、传播、翻译成其他语言、或将
其全部或部分用于商业用途。
手册版本信息
版本号: T00420x-03-010
发布日期: 2019-04-29
Preface | 1
1. 概述
本文档介绍了TDC云产品的具体使用方法,包括云产品实例的部署与管理,每个云产品的组件和流程等,让您
使用起来更轻松。
2 | 1. 概述
2. 云产品的部署与管理
TDC云产品包含大数据产品和人工智能产品。点击TDC页面左侧的“大数据”或“人工智能”即可进入产品列
表页面,您可以选择云产品,进行安装和管理。
2.1. 实例部署
这里将以数据仓库产品为例介绍如何安装部署一个新的云产品实例,其他云产品安装与此步骤相同。
1. 从左侧导航栏选择 大数据 标签,进入大数据云产品的列表页。点击“数据仓库”产品,可以进入数据
仓库产品介绍页面:
如果您将鼠标悬停在“数据仓库”区域,可以看到 按钮,您也可以点击该按钮,跳过下一步,
直接进行部署。
2. 数据仓库介绍页面上提供了该产品的功能信息、架构、和包含的具体组件信息,基本的介绍。
2. 云产品的部署与管理 | 3
3. 在数据仓库介绍页面点击“部署”,进入数据仓库产品部署向导。
在这一步,您需要选择数据仓库产品的版本,并填写实例名称、描述等信息。完成后,点击“下一
步”:
4 | 2. 云产品的部署与管理
4. 在这一步进行资源配置。TDC提供了三种快速配置方案(入门级、高性价比、高性能)供您选择,您也可
以为您的组件手动配置资源。在页面底部,您可以看到系统的资源使用情况。如果您需要配置组件的高
可用,可以在页面上方开启组件高可用。
配置完成后,点击“部署”:
5. 您会看到系统弹出窗口中显示了您刚刚的配置信息。点击“资源配置”下拉按钮,可以看到详细配置信
息。确认无误后,点击“确定”开始部署:
2. 云产品的部署与管理 | 5
6. TDC开始自动部署,并跳转回实例列表。刷新浏览器,您可以看到实例状态为“创建中”:
创建过程需要几分钟时间,完成后刷新页面可以看到状态为“运行中”。
6 | 2. 云产品的部署与管理
2.2. 实例运维
这里将以数据仓库产品为例演示如何对已安装的云产品进行运维,其他云产品的运维方式与之相同。
2.2.1. 实例列表与实例详情
从左侧导航栏选择 大数据 > 已部署实例:
打开已部署的实例列表:
2. 云产品的部署与管理 | 7
• 点击“开发入口”下的各服务图标,可进入各组件的开发或管理界面。不同的云产品包含的组件不同,
详细的开发流程我们会在“实例开发”中介绍。
• 点击实例名右侧的“服务信息”,可查看各服务的连接信息,以及复制链接地址:
• 点击实例名右侧的“查看详情”,可进入到实例详情页面:
8 | 2. 云产品的部署与管理
在实例详情页面,您可以查看实例及组件的基本配置、资源使用情况,配置、启停实例,以及对组件进
行管理操作。
2.2.2. 配置实例
在实例详情页面,以数据仓库产品为例,点击右上方“配置实例”:
打开配置实例窗口:
2. 云产品的部署与管理 | 9
您可以配置组件的高可用,以及通过调整计算执行单元的数量,来对实例进行在线扩缩容。
2.2.2.1. 配置组件高可用
您可以为组件设置高可用,系统会自动进行部署。在配置实例窗口,“组件高可用”标签页列出了所有支持
高可用的组件:
• 如要开启所有支持高可用组件的高可用功能,可以点击窗口最上方的“组件高可用”,使其变为绿色状
态。
• 您也可以选择个别组件开启高可用,例如下图为只开启Hyperbase的高可用:
选择好后,点击“确定”。完成后,可以在“实例详情”页面的组件信息部分,看到组件的高可用状态,例
如这里的Hyperbase:
10 | 2. 云产品的部署与管理
2.2.2.2. 调整计算执行单元数量
您可以通过设置实例的计算执行单元数量,来控制服务组件部署的数量,从而实现动态扩缩容,优化系统性
能。在配置实例窗口,点击“计算执行单元数量”标签:
• 如果您设置窗口最上方的“计算执行单元数量”的值,可以同时作用于所有相关组件。
• 您也可以只为个别组件增减计算执行单元,如下图:
2. 云产品的部署与管理 | 11
设置完成后,点击“确定”使配置生效。本例中为Inceptor和Hyperbase增加了1个计算执行单元,在“实例
详情”页面的组件信息部分可以看到计算单元数目变更:
系统会按照实例创建时所使用的模板配置,自动增加一个计算执行单元来部署相关组件,例如 Inceptor
Executor。
2.2.3. 编辑、启停及删除实例
在实例详情页面,点击右上方的 按钮,可以看到:
12 | 2. 云产品的部署与管理
您可以对实例进行编辑、重启、停止和删除操作:
• 编辑实例:编辑实例的描述信息以及可见性。
• 重启:重启实例。
• 停止:停止实例。
• 删除:删除实例。
2.2.4. 查看资源使用情况
在实例详情页面右侧,您可以选择时间段,对实例使用的系统资源进行监控:
2. 云产品的部署与管理 | 13
2.2.5. 查看及管理组件
在实例详情页面下方的组件信息部分,您可以查看组件的详细信息,以及停止组件:
14 | 2. 云产品的部署与管理

如要停止个别组件,可以点击组件右侧对应的 。
• 点击组件对应的“更多”按钮并选择“组件服务信息”,可查看组件服务信息,例如:

点击组件对应的 ,可以打开组件详情页面,查看组件的详细信息,例如:
2. 云产品的部署与管理 | 15
以下我们将以Hyperbase组件为例,介绍组件的管理和配置。
2.2.5.1. 配置组件共享
组件共享是指使同一租户可以共享指定组件,默认支持共享的组件有TxSQL, HDFS, Hyperbase。
1. 在组件详情页面上方,点击共享状态中的 :
2. 可以看到以下窗口:
3. 点击“开启共享”,您可以看到使用的实例列表及依赖组件列表:
16 | 2. 云产品的部署与管理
4. 您可以添加描述信息。设置完成后,点击“确定”,可以看到组件的共享状态变更为“共享”:
您也可以采用类似的步骤取消共享。
2.2.5.2. 查看组件概况
在组件详情页面下方,您可以看到几个标签页。在“组件概况”标签页上,您可以按时间段查看组件的资源
使用情况,以及容器的基本运维信息:
2. 云产品的部署与管理 | 17
在“Pod信息”部分的日志标签页,您还可以下载特定容器、特定时间段的日志。
2.2.5.3. 配置组件资源
在组件详情页面下方的“资源配置”标签页上,您可以对组件使用的资源进行单独配置,以及配置高可用:
18 | 2. 云产品的部署与管理
点击“编辑”,并修改您的资源配置:
2. 云产品的部署与管理 | 19
如要开启组件的高可用,点击“组件高可用”按钮,使其变为绿色。
配置完成后,点击“保存”。您需要重启实例才能使配置生效。
2.2.5.4. 添加运行参数
在组件详情的“运行参数”标签页,可以添加或配置各服务组件的环境变量及高级参数,其中环境变量生效
的优先级,高于资源配置和高级参数。更改完成后,您需要重启实例才能使配置生效。
• 在“环境变量”部分,点击“添加环境变量”可打开如下窗口,并定义变量:
20 | 2. 云产品的部署与管理
• 在“高级参数”部分,点击“添加高级参数”打开如下窗口,定义高级参数,高级参数可写入到配置文
件里:
2.2.5.5. 查看组件日志
在组件详情的“组件日志”标签页,您可以查看组件日志,并且可以选择特定日期查看:
2. 云产品的部署与管理 | 21
3. 实例开发
云产品部署好后便可开始进行实例开发。有以下几种方式可以进入开发入口:
• 方法一:快速入口
TDC所有页面上方会有一个实例快速入口,如 ,点击此图标可以打开实例列表,选择
一个实例,右侧即为实例对应的开发入口:
• 方法二:从实例列表页面
从左侧导航栏选择 大数据 > 已部署实例,进入实例列表:
22 | 3. 实例开发
从列表中找到对应的实例,从右侧实例信息下方可以找到“开发入口”,点击组件模块可打开相应的组
件:
• 方法三:从实例详情页面
从实例列表中点击“查看详情”,进入实例详情页面,可以看到“开发入口”部分:
此时便可以在该平台上进行云产品实例开发,各云产品实例提供不同的开发入口,因此开发的过程存在差
3. 实例开发 | 23
异。我们在下文中将逐个介绍每个云产品的实例开发。
3.1. 数据集市
数据集市实例部署成功后便可开始进行实例开发。数据集市实例详情的页面如下,该页面提供了数据集市实
例中所有组件的开发入口,点击任意组件可以进入它的对应开发界面:
成功安装的数据集市产品包括上图所示的组件。按照使用场景的不同,这些组件分为应用开发组件以及运维
管理组件两类。
3.1.1. 应用开发组件
应用开发组件是用于实现业务的主要组件,负责应用的开发和数据处理,数据集市中的应用开发组件包括数
据同步工具Transporter、工作流调度工具Workflow、OLAP分析引擎Rubik、报表工具Pilot。
• ETL工具(Transporter)
用于设计和创建ETL任务,提供数据同步的可视化工具,支持从RDBMS到TDC的近实时数据同
步。Transporter提供完整的数据整合功能,可实现从抽取、转换到加载的全过程,支持多种格式的数据
源和丰富的导出格式,以及多种常用的数据转换操作。
• 工作流(Workflow)
图形化的工作流设计、调试、调度和分析的服务平台。支持Shell、SQL、JDBC、HTTP等任务类型,支持
自定义Java任务。提供丰富的分析展现形式协助诊断工作流的执行状况。
• Cube设计工具(Rubik)
24 | 3. 实例开发
OLAP Cube的可视化设计工具,用于设计OLAP模型并支持实例化,通过预先设计并实例化OLAP
Cube,为业务提前进行聚合运算,使之后执行OLAP业务时能够直接利用预计算的结果,从而提速多维实
时分析。Rubik提供雪花模型和星形模型两种模型,并支持多种格式的数据源。
• 报表工具(Pilot)
基于Web的报表展现工具。轻量且灵活,支持多维度的分析和自助分析,提供二十余种报表样式,对时序
数据有很好的展现。同时,Pilot提供了SQL开发支持,实现灵活的数据分析。另外Pilot实现了基于Web
页面的HDFS文件管理界面,从而用界面可视化的方式替代HDFS本身的运维管理方法,使HDFS的管理更加
简便化和用户友好化。
开发流程示例
例如某企业欲搭建数据集市,其原有数据位于多个异构数据源,包括云存储、关系型数据库以及各种文件。
现在需要将各种数据整合入Inceptor。由于涉及复杂多维度分析业务,因此可以利用OLAP分析引擎Rubik创
建OLAP Cube实现多维实时分析,最后通过Pilot采用报表形式进行图形化展示。开发流程如下图所示。
1. 首先使用ETL工具Transporter,从各个数据源抽取数据,经过加工后导入Inceptor。
您可以按照业务需求在Transporter中指定数据源,选择转换算子并按顺序构建开发流程,以Inceptor为
数据传输的终点。Transporter的具体用法请参考《Transporter使用手册》。
3. 实例开发 | 25
2. 接着经由批处理引擎Inceptor进行数据加工,期间可以使用报表工具Pilot内置的SQL IDE执行SQL语句,
对加工过程进行控制。
3. 另外,为了加速多维分析,可以使用OLAP分析引擎Rubik进行OLAP Cube实例化。
Rubik支持与OLAP Cube相关的多种功能,包括:Cube设计、维度设计、Cube实例化、Cube声明周期管
理、实例化任务监控、以及团队合作及安全管控。
除了提供OLAP多维数据立方体的设计支持和全方位的流程辅助向导,Rubik还提供了层次维度、联合维度
等多种降维优化的高级功能,在保证查询性能的前提下,最大幅度地优化存储空间占用。Rubik的具体用
法请参考《Rubik使用手册》。
26 | 3. 实例开发
4. 当需要进行报表分析时,用户可以利用报表工具Pilot实现。
您可以通过Pilot的报表功能对集市内的数据进行可视化数据分析,或者使用Pilot内置SQL IDE执行SQL
获得数值分析结果。Pilot的具体用法请参考《Pilot使用手册》。
5. 当需要进行自动化的数据生产、加载与分析时,您可以用工作流应用(Workflow)定义并触发工作流实
现。
Workflow将解放投入手动工作流调度的人力,按照约定时间自动触发工作流任务,完成从ETL到数据加工
再到数据分析的完整生产线作业。通过提供生产托管,帮助提高业务人员的开发效率。Workflow的具体
用法请参考《Workflow使用手册》。
3. 实例开发 | 27
3.1.2. 运维管理组件
除了应用开发组件,数据集市还内置了多种组件实现对应用的运维管理。
• 命令行终端(Terminal)
集成的组件命令行交互界面。该界面上,除了支持Linux命令,还可以通过命令行的方式
对Inceptor、Hyperbase、HDFS、Zookeeper等云产品内的组件进行维护管理。
28 | 3. 实例开发
• Inceptor任务监控
Inceptor执行任务的监控页面,通过对信息的抽取与整理,提供可视化以及统计化的信息,帮助用户了
解Inceptor中任务的运行情况,从而对运行资源以及数据分布进行更有效的控制。
• HDFS管理
HDFS管理服务用于查询HDFS的基本信息,提供所有HDFS Datanode信息,以及当前服务的运行统计数据。
此外,对于具有权限的用户,它还支持浏览HDFS的所有文件。该入口可以帮助清楚了解HDFS的状态,有
助于实现有效的HDFS运维。
3. 实例开发 | 29
3.2. 数据仓库
数据仓库实例部署成功后便可开始进行实例开发。数据仓库实例详情页面如下,该页面提供了数据仓库实例
中所有组件的开发入口,点击任意组件可以进入它的对应开发界面。
成功安装的数据仓库产品包括上图所示的组件。按照使用场景的不同,这些组件分为应用开发组件以及运维
管理组件两类。
3.2.1. 应用开发组件
应用开发组件是用于实现业务的主要组件,负责应用的开发和数据处理,数据仓库中的应用开发组件包括数
据同步工具Transporter、工作流调度工具Workflow、报表工具Pilot。
• ETL工具(Transporter)
用于设计和创建ETL任务的可视化工具,支持从RDBMS到TDC的近实时数据同步。Transporter提供完整的
数据整合功能,可实现从抽取、转换到加载的全过程,支持多种格式的数据源和丰富的导出格式,以及
多种常用的数据转换操作。
• 工作流(Workflow)
图形化的工作流设计、调试、调度和分析的服务平台。支持Shell、SQL、JDBC、HTTP等任务类型,支持
自定义Java任务。提供丰富的分析展现形式协助诊断工作流的执行状况。
• 报表工具(Pilot)
基于Web的报表展现工具。轻量且灵活,支持多维度的分析和自助分析,提供二十余种报表样式,对时序
数据有很好的展现。同时,Pilot提供了SQL开发支持,实现灵活的数据分析。Pilot另外还实现了基
于Web页面的HDFS文件管理界面,从而用界面可视化的方式替代HDFS本身的运维管理方法,使HDFS的管理
更加简便化和用户友好化。
30 | 3. 实例开发
开发流程示例
例如某企业欲搭建数据仓库,其原有数据位于多个异构数据源,包括云存储、关系型数据库以及各种文件。
现在需要将各种数据整合入Inceptor,然后采用报表形式进行图形化分析。可以按照以下流程实现该应用的
开发。
1. 首先使用ETL工具,实现从各个数据源抽取数据、经过加工后导入Inceptor的过程。
您可以按照业务需求在Transporter中指定数据源,选择转换算子并按顺序构建流程,最终以Inceptor为
数据传输的终点。根据设置,数据可以存储在多种存储引擎,包
括HDFS、Holodesk、Hyperbase、KunDB。Transporter的具体用法请参考《Transporter使用手册》。
2. 接着经由批处理引擎Inceptor进行数据加工,期间可以使用报表工具Pilot内置的SQL IDE执行SQL语句,
对加工过程进行控制。
您可以通过Pilot对数仓内的数据进行加工,或者实现可视化的数据分析。Pilot的具体用法请参考
《Pilot使用手册》。
3. 实例开发 | 31
3. 当需要进行自动化的数据生产、加载与分析时,您可以用工作流应用(Workflow)定义并触发工作流实
现。
Workflow可以不要求人工手动操作,按照约定时间自动触发从ETL到数据分析整条生产线上的作业。通过
提供生产托管,帮助提高业务人员的开发效率。Workflow的具体用法请参考《Workflow使用手册》。
3.2.2. 运维管理组件
除了应用开发组件,数据仓库还内置了多种组件实现对应用的运维管理。
32 | 3. 实例开发
• Inceptor任务监控
Inceptor执行任务的监控页面,通过对信息的抽取与整理,提供可视化以及统计化的信息,帮助您了
解Inceptor中任务的运行情况,从而对运行资源以及数据分布进行更有效的控制。
• HyperBase管理
Hyperbase管理页面。方便运维人员有效了解当前Hyperbase集群的运行状况,包括基本的配置,HDFS
和Zookeeper相关的信息,集群的负载情况,表和Region的分布情况,以及split key等,从而
对Hyperbase进行合适的运维。
3. 实例开发 | 33
• HDFS管理
HDFS管理服务用于查询HDFS的基本信息,提供所有HDFS datanode的基本信息,以及当前服务的运行统计
数据。此外,对于具有权限的用户,它还支持浏览HDFS的所有文件。该入口可以帮助清楚了解HDFS的状
态,有助于实现有效的HDFS运维。
34 | 3. 实例开发
• YARN
YARN是Hadoop资源管理器,是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和
调度,提升集群的利用率,帮助进行资源的统一管理和数据共享。
• 命令行终端(Terminal)
集成的组件命令行交互界面。该界面上,除了支持Linux命令,还可以通过命令行的方式
对Inceptor、Hyperbase、HDFS、Zookeeper等云产品内的组件进行维护管理。关于命令行终端的使用方
法,请参考《Terminal使用教程》。
3. 实例开发 | 35
3.3. 信息检索
信息检索实例部署成功后便可开始进行实例开发。信息检索实例详情页面提供了信息检索实例中所有组件的
开发入口,点击任意组件可以进入它的对应开发界面。
成功安装的信息检索产品包括上图所示的组件。按照使用场景的不同,这些组件分为应用开发组件以及运维
管理组件两类。
3.3.1. 应用开发组件
应用开发组件是用于实现业务的主要组件,负责应用的开发和数据处理,信息检索中的应用开发组件
有Transporer和Pilot。
• ETL工具(Transporter)
用于设计和创建ETL任务的可视化工具,支持从RDBMS到TDC的近实时数据同步。Transporter提供完整的
数据整合功能,可实现从抽取、转换到加载的全过程,支持多种格式的数据源和丰富的导出格式,以及
多种常用的数据转换操作。在信息检索实例中,用户使用Transport工具将数据源(例如爬虫结果),进
行分词设置,然后导入{search}。
• 报表工具(Pilot)
基于Web的报表展现工具。Pilot提供了SQL开发支持,实现灵活的数据分析。在信息检索产品中主要用于
以SQL语句的形式检索目标内容。
开发流程示例
例如某企业欲搭建信息检索,对来源于网络爬虫结果进行文本检索、数据分析、信息提取,现在需要将各种
数据整合入全文信息检索Search,然后通过SQL在海量数据中进行文本分析。可以按照以下流程实现该应用的
36 | 3. 实例开发
开发。
1. 首先使用ETL工具Transporter,将爬虫数据从源文件批量导入Search。
您可以按照业务需求在Transporter中指定数据源,选择转换算子进行过滤或分词并按顺序构建流程,最
终以Search为数据传输的终点。Transporter的具体使用方法可以参考《Transporter使用手册》。
2. 接着利用Pilot通过SQL IDE对进入Search的数据进行文本检索与分析,从而获得期望的结果。Pilot的具
体使用方法可以参考《Pilot使用手册》。
3. 实例开发 | 37
3. 由于信息检索内置Inceptor,因此还可以通过Pilot的原生报表功能,对爬虫数据进行报表分析。
3.3.2. 运维管理组件
除了应用开发组件,信息检索还内置了多种组件实现对应用的运维管理。
• Inceptor任务监控
Inceptor执行任务的监控页面,通过对信息的抽取与整理,提供可视化以及统计化的信息,帮助您了
解Inceptor中任务的运行情况,从而对运行资源以及数据分布进行更有效的控制。
38 | 3. 实例开发
• ES管理器
ES管理器是Elasticsearch的基于网页的集群管理工具,支持数据的增删改查,并且可以通过RESTful
API进行可视化查询,是对ES开发人员而言非常有用的运维辅助工具。
• 命令行终端(Terminal)
集成的组件命令行交互界面。该界面上,除了支持Linux命令,还可以通过命令行的方式
对Inceptor、Hyperbase、HDFS、Zookeeper等云产品内的组件进行维护管理。
3. 实例开发 | 39
• HDFS管理
HDFS管理服务用于查询HDFS的基本信息,提供所有HDFS datanode的基本信息,以及当前服务的运行统计
数据。此外,对于具有权限的用户,它还支持浏览HDFS的所有文件。该入口可以帮助清楚了解HDFS的状
态,有助于实现有效的HDFS运维。
3.4. Pilot企业版
Transwarp Pilot企业版是一款轻量级的、自助式智能报表分析工具,支持多种数据源,提供强大的数据集管
理功能,使用户通过简单的拖放即可实现对各类查询的操作。
40 | 3. 实例开发
Pilot企业版安装成功后便可开始进行实例开发。点击“开发入口”中的组件可以进入它对应的开发界面。
您可以在Pilot企业版里选择不同的维度,进行自由组合,以图表化的直观形式查看您的企业经营等数据:
3.5. 实时计算
实时计算实例部署成功后便可开始进行实例开发。实时计算实例详情页面如下,该页面提供了实时计算实例
中所有组件的开发入口,点击任意组件可以进入它的对应开发界面:
3. 实例开发 | 41
成功安装的实时计算产品包括上图所示的组件。按照使用场景的不同,这些组件分为应用开发组件以及运维
管理组件两类。
3.5.1. 应用开发组件
应用开发组件是用于实现业务的主要组件,负责应用的开发和数据处理,实时计算中的应用开发组件为报表
工具Pilot。
• 报表工具(Pilot)
基于Web的报表展现工具。轻量且灵活,支持多维度的分析和自助分析,提供二十余种报表样式,对时序
数据有很好的展现。同时,Pilot提供了SQL开发支持,支持接入流数据,能够实现灵活的数据分析。另
外Pilot实现了基于Web页面的HDFS文件管理界面,从而用界面可视化的方式替代HDFS本身的运维管理方
法,使HDFS的管理更加简便化和用户友好化。在实时计算实例中Pilot用于对流数据进行SQL分析,以及
对流式数据生成可视化报表。
开发流程示例
例如用户利用星环大数据云平台搭建实时计算实例后,可以通过报表工具Pilot对接进入实时计算引擎的流数
据,对目标流式数据进行可视化数据分析,或者SQL分析。开发流程如下图所示。
42 | 3. 实例开发
用Pilot对接目标Slipstream源,在SQL Lab中以SQL的形式对流数据展开分析,进行流式应用的开发。Pilot
的具体用法请参考《Pilot使用手册》。
3.5.2. 运维管理组件
除了应用开发组件,实时计算还内置了多种组件实现对应用的运维管理。
• 命令行终端(Terminal)
集成的组件命令行交互界面。该界面上,除了支持Linux命令,还可以通过命令行的方式
对Slipstream、HDFS、Zookeeper等云产品内的组件进行维护管理。
3. 实例开发 | 43
• Slipstream任务监控
Slipstream UI用于任务监控页面,提供各流式应用和作业的运行状态以及资源使用情况,从而对资源进
行合理分配,针对性的采取优化策略提升任务执行时间速度,以提高业务的执行效率。
• HyperBase管理
Hyperbase管理页面。方便运维人员有效了解当前Hyperbase集群的运行状况,包括基本的配置,HDFS
44 | 3. 实例开发
和Zookeeper相关的信息,集群的负载情况,表和Region的分布情况,以及split
key等,从而对Hyperbase进行合适的运维。
• HDFS管理
HDFS管理服务用于查询HDFS的基本信息,提供所有HDFS datanode的基本信息,以及当前服务的运行统计
数据。此外,对于具有权限的用户,它还支持浏览HDFS的所有文件。该入口可以帮助清楚了解HDFS的状
态,有助于实现有效的HDFS运维。
3. 实例开发 | 45
• Kafka管理
Kafka管理服务是用于进行Kafka管理的基于Web的可视化操作平台。通过它用户可以对Kafka集群进行监
控,利用便捷的选项创建Topic并定制分区的分配,以及实现一系列与Kafka相关的常用操作。
3.6. 关系型数据库
关系型数据库实例部署成功后便可开始进行对它的实例开发。关系型数据库实例详情页面如下,提供了关系
型数据库实例中所有组件的开发入口,点击任意组件可以进入它的对应开发界面:
46 | 3. 实例开发
3.6.1. 运维管理组件
关系型数据库内置Terminal组件用命令行实现对应用的运维管理。
• 命令行终端(Terminal)
集成的组件命令行交互界面。该界面上,除了支持Linux命令,还可以通过命令行的方式对云产品内的组
件TxSQL进行维护管理。
3. 实例开发 | 47
3.7. 分布式闪存数据库
TDC与{companysimpleest}分布式闪存数据库ArgoDB进行了整合,分布式闪存数据库产品安装成功后便可开始
进行实例开发。开发入口的界面如下,点击任意组件可以进入它的对应开发界面。
成功安装的分布式闪存数据库产品包括上图所示的组件。根据使用场景的不同,这些组件分为应用开发组件
以及运维管理组件两类。
3.7.1. 应用开发组件
应用开发组件是用于实现业务的主要组件,负责应用的开发和数据处理,包含以下组件:
• ETL工具(Transporter)
用于设计和创建ETL任务,提供数据同步的可视化工具,支持两端数据的近实时数据同步。Transporter
提供完整的数据整合功能,可实现从抽取、转换到加载的全过程,支持多种格式的数据源和丰富的导出
格式,以及多种常用的数据转换操作。
• 报表工具(Pilot)
基于Web的报表展现工具。轻量且灵活,支持多维度的分析和自助分析,提供二十余种报表样式,对时序
数据有很好的展现。同时,Pilot提供了SQL开发支持,实现灵活的数据分析。另外Pilot实现了基于Web
页面的HDFS文件管理界面,从而用界面可视化的方式替代HDFS本身的运维管理方法,使HDFS的管理更加
简便化和用户友好化。
开发流程示例
例如某企业利用ArgoDB将交易型数据转化为分析型数据以供商业分析使用,其原数据位于云存储、关系型数
据库以及各种文件。利用ETL工具将数据同步至KungDB,并通过KunDB形成交易型数据。同时,往KunDB直接写
入交易型数据,再次通过ETL工具同步至ArgoDB,将数据加工为分析型数据,然后采用报表形式进行图形化分
析。可以按照以下流程实现该应用的开发。
48 | 3. 实例开发
1. 首先使用ETL工具,实现从各个数据源抽取数据、经过加工后导入KunDB的过程。
您可以按照业务需求在Transporter中指定数据源,选择转换算子并按顺序构建流程,最终以KunDB为数
据传输的终点。Transporter的具体用法请参考《Transporter使用手册》。
2. 接着使用ETL工具,实现从KunDB抽取数据、经过加工后导入ArgoDB的过程。
您可以按照业务需求在Transporter中指定数据源,选择转换算子并按顺序构建流程,最终以ArgoDB为数
据传输的终点。
3. 实例开发 | 49
3. 最后使用报表工具Pilot内置的SQL IDE执行SQL语句,对加工过程进行控制。
您可以通过Pilot对ArgoDB内的数据进行加工,或者实现可视化的数据分析。Pilot的具体用法请参考
《Pilot使用手册》。
3.7.2. 运维管理组件
除了应用开发组件,人工智能产品还内置了多种组件实现对应用的运维管理。
• Inceptor任务监控
Inceptor执行任务的监控页面,通过对信息的抽取与整理,提供可视化以及统计化的信息,帮助您了
解Inceptor中任务的运行情况,从而对运行资源以及数据分布进行更有效的控制。
50 | 3. 实例开发
• Shiva监控
Shiva监控页面主要是由Home、Table Details、Server Details、Metrics、和Warnings组成。运维人员
可通其处理master宕机、tabletserver宕机以及新加入tabletserver。
• DBA Service、
DBA Service页面,用来收集、分析、展示数据库产品的运行情况,同时支持运维交互操作,是ArgoDB的
主要运维入口,实现了性能分析和智能提示等高级功能,采用革新性的数据库自治技术重新定义了数据
管理,可以在很大程度上节约运维成本。
3. 实例开发 | 51
• InceptorGateway
InceptorGateway界面展示了InceptorGateway的运行细节,包括配置信息,集群状态以
及InceptorGateway当前所有连接的详细信息等。
3.8. 人工智能
TDC与{companysimpleest}企业级人工智能平台Sophon进行整合,实现了在一个统一云平台上使用人工智能产
品。
人工智能产品安装成功后便可开始进行实例开发。开发入口的界面如下,点击任意组件可以进入它的对应开
发界面。
52 | 3. 实例开发
成功安装的人工智能产品包括上图所示的组件。根据使用场景的不同,这些组件分为应用开发组件以及运维
管理组件两类。
3.8.1. 应用开发组件
应用开发组件是用于实现业务的主要组件,负责应用的开发和数据处理,包含以下组件:
• 人工智能Sophon
人工智能平台Sophon支持图形拖拽式界面,拥有上百种丰富的底层算法,其中包括深度学习算法、NLP自
然语言处理算法、机器学习算法以及计算机视觉相关的算法,支持多种数据源接入、多种数据格式、多
种语言接口,为用户提供高性能、高效率的算法,和完整的数据分析、机器学习、深度学习以及智能建
模等功能。
• 报表工具(Pilot)
基于Web的报表展现工具。轻量且灵活,支持多维度的分析和自助分析,提供二十余种报表样式,对时序
数据有很好的展现。同时,Pilot提供了SQL开发支持,实现灵活的数据分析。另外Pilot实现了基于Web
页面的HDFS文件管理界面,从而用界面可视化的方式替代HDFS本身的运维管理方法,使HDFS的管理更加
简便化和用户友好化。在利用数据分析平台进行数据分析时,Pilot可以用于在进行数据挖掘之前了解数
据的特性,从而使分析过程围绕数据的特征展开。
• 工作流(Workflow)
图形化的工作流设计、调试、调度和分析的服务平台。支持Shell、SQL、JDBC、HTTP等任务类型,支持
自定义Java任务。提供丰富的分析展现形式协助诊断工作流的执行状况。
3. 实例开发 | 53
开发流程示例
例如某企业利用人工智能产品搭建深度学习平台,数据进入实例之后,首先通过报表工具对目标数据源中的
数据特征进行初步了解,然后结合数据的特性进行深度学习的开发,实现数据分析的目标。开发流程可以遵
循如图所示的步骤。
1. 首先用Inceptor进行数据加工,该过程中可以在Pilot的SQL IDE中执行SQL,以在数据加工过程中进行控
制。Pilot的具体用法请参考《Pilot使用手册》。
2. 然后用Pilot执行SQL掌握目标数据特征,以帮助之后的数据挖掘工作。
您可以通过Pilot的报表功能对数据源内的数据进行可视化的数据分析,或者执行SQL获得数值分析结
果。
54 | 3. 实例开发
3.8.2. 运维管理组件
除了应用开发组件,人工智能产品还内置了多种组件实现对应用的运维管理。
• HyperBase管理
Hyperbase管理页面。方便运维人员有效了解当前Hyperbase集群的运行状况,包括基本的配置,HDFS
和Zookeeper相关的信息,集群的负载情况,表和Region的分布情况,以及split key等,从而
对Hyperbase进行合适的运维。
3. 实例开发 | 55
• ES管理器
ES管理器是Elasticsearch的基于网页的集群管理工具,支持数据的增删改查,并且可以通过RESTful
API进行可视化查询,是对ES开发人员而言非常有用的运维辅助工具。
• YARN
YARN是Hadoop资源管理器,是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和
调度,提升集群的利用率,帮助进行资源的统一管理和数据共享。
56 | 3. 实例开发
• 命令行终端(Terminal)
集成的组件命令行交互界面。该界面上,除了支持Linux命令,还可以通过命令行的方式
对Inceptor、Hyperbase、HDFS、Zookeeper等云产品内的组件进行维护管理。
• HDFS管理
HDFS管理服务用于查询HDFS的基本信息,提供所有HDFS datanode的基本信息,以及当前服务的运行统计
数据。此外,对于具有权限的用户,它还支持浏览HDFS的所有文件。该入口可以帮助清楚了解HDFS的状
态,有助于实现有效的HDFS运维。
3. 实例开发 | 57
• Inceptor任务监控
Inceptor执行任务的监控页面,通过对信息的抽取与整理,提供可视化以及统计化的信息,帮助您了
解Inceptor中任务的运行情况,从而对运行资源以及数据分布进行更有效的控制。
58 | 3. 实例开发
客户服务
技术支持
感谢你使用星环信息科技(上海)有限公司的产品和服务。如您在产品使用或服务中有任何技术问题,可以
通过以下途径找到我们的技术人员给予解答。
email: support@transwarp.io
技术支持热线电话:4007-676-098
官方网址:www.transwarp.io
论坛支持:support.transwarp.cn
意见反馈
如果你在系统安装,配置和使用中发现任何产品问题,可以通过以下方式反馈:
email: support@transwarp.io
感谢你的支持和反馈,我们一直在努力!
客户服务 | 59

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论