暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Apache Doris 系列: 入门篇-数据导入及查询

613

数据导入及查询

本文档主要介绍 Doris 的数据导入及数据查询。

数据导入方式

Doris 为了满足不同业务场景的数据接入需求,提供不丰富的数据导入方式,去支持不同的数据源:外部存储(HDFS,对象存储)、本地文件、消息队列(Kafka)及其他外部业务系统数据库(MySQL、Oracle、SQLServer、PostgreSQL等),支持同步和异步的方式将数据接入到 Doris 中。


Doris 数据计入方式及生态系统:

编辑切换为居中


添加图片注释,不超过 140 字(可选)


Broker Load

Broker Load 是一种异步的数据导入方式,通过 Broker 进程访问并读取外部数据源(如:HDFS,对象存储(支持S3协议)),然后通过 MySQL 协议,通过 Doris SQL 语句的方式将导入任务提交到 Doris ,然后通过 show load 查看数据导入进度及状态。

这种导入方式可以以支撑数据量达数百 GB 的导入作业。该导入方式支持 Hive 数据源的导入。

支持的数据格式:csv、orc、parquet

因为Doris 表里的数据是有序的,导入方式需要占用 Doris BE 资源进行对数据进行排序,在大数据量的数据导入的时候尽可能避开业务使用高峰,在资源相对空闲的时候进行导入。

Spark Load

Spark load 通过借助于外部的 Spark 计算资源实现对导入数据进行排序,提高 Doris 大数据量的导入性能并且节省 Doris 集群的计算资源。主要用于初次迁移,大数据量导入 Doris 的场景。对于历史海量数据迁移降低 Doris 集群资源使用及负载有很好的效果。

这种方式需要借助于Broker服务,适用于迁移大数据量(TB 级别)的场景。

Spark 支持将 hive 生成的 bitmap 数据直接导入到 Doris。详见 hive-bitmap-udf 文档

支持的数据格式:csv、orc、parquet

Spark load 是一种异步导入方式,用户需要通过 MySQL 协议创建 Spark 类型导入任务,并通过 SHOW LOAD 查看导入结果

Stream Load

Stream Load 是一种同步的数据导入方式。用户通过 HTTP 协议提交请求并携带原始数据(可以是文件,也可以是内存数据)创建导入。主要用于快速将本地文件或数据流中的数据导入到 Doris。导入命令同步返回导入结果。

通过 SHOW STREAM LOAD方式来查看 Stream load 作业情况,默认 BE 是不记录 Stream Load 的记录,如果你要查看需要在 BE 上启用记录,配置参数是:enable_stream_load_record=true ,具体怎么配置请参照 BE 配置项

这种导入方式支持两种格式的数据 CVS 和 JSON 。

Stream load 支持本地文件导入,或者通过程序导入实时数据流中的数据,Spark ConnectorFlink Connector 就是基于这种方式实现的。

Routine Load

Routine load 这种方式是以Kafka为数据源,从Kafka中读取数据并导入到Doris对应的数据表中,用户通过 Mysql 客户端提交 Routine Load数据导入作业,Doris 会在生成一个常驻线程,不间断的从 Kafka 中读取数据并存储在对应Doris表中,并自动维护 Kafka Offset位置。

通过SHOW ROUTINE LOAD来查看Routine load作业情况。

Insert Into

这种导入方式和 MySQL 中的 Insert 语句类似,Apache Doris 提供 INSERT INTO tbl SELECT ...; 的方式从 Doris 的表(或者ODBC方式的外表)中读取数据并导入到另一张表。或者通过 INSERT INTO tbl VALUES(...); 插入单条数据,单条插入方式不建议在生产和测试环境中使用,只是演示使用。

INSERT INTO tbl SELECT …这种方式一般是在Doris内部对数据进行加工处理,生成中间汇总表,或者在Doris内部对数据进行ETL操作使用

这种方式是一种同步的数据导入方式。

数据导入

本例我们以 Stream load 导入当时为例,将文件中的数据导入到我们的之前创建的表(expamle_tbl)中 。

CREATE TABLE IF NOT EXISTS test_doris.example_tbl
(
`timestamp` DATE NOT NULL COMMENT "['0000-01-01', '9999-12-31']",
`type` TINYINT NOT NULL COMMENT "[-128, 127]",
`error_code` INT COMMENT "[-2147483648, 2147483647]",
`error_msg` VARCHAR(300) COMMENT "[1-65533]",
`op_id` BIGINT COMMENT "[-9223372036854775808, 9223372036854775807]",
`op_time` DATETIME COMMENT "['0000-01-01 00:00:00', '9999-12-31 23:59:59']",
`target` float COMMENT "4 字节",
`source` double COMMENT "8 字节",
`lost_cost` decimal(12,2) COMMENT "",
`remark` string COMMENT "1m size",
`op_userid` LARGEINT COMMENT "[-2^127 + 1 ~ 2^127 - 1]",
`plate` SMALLINT COMMENT "[-32768, 32767]",
`iscompleted` boolean COMMENT "true 或者 false")DUPLICATE KEY(`timestamp`, `type`)DISTRIBUTED BY HASH(`type`) BUCKETS 1
PROPERTIES
(
"replication_allocation" = "tag.location.default: 1");
文章转载自锋哥聊DORIS数仓,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论