手把手入门 | 使用SeaTunnel从InfluxDB同步数据到Doris

SeaTunnel 2024-11-06

678

点击蓝字

关注我们

本文介绍了如何使用SeaTunnel将数据从InfluxDB同步到Doris。通过SeaTunnel强大的数据集成功能，用户可以高效地将存储于InfluxDB中的时间序列数据传输至Doris，便于数据的访问与分析。

版本信息：
SeaTunnel 2.3.3
InfluxDB 2.7.6
Doris 2.1.3 rc09

准备事项

SeaTunnel2.3.3的安装过程这里就省略了，可以参考官网文档。

SeaTunnel2.3.3安装好以后需要删掉两个连接用的jar包，不然后面同步数据库会报错：connector-hudi-2.3.3.jar
和connector-datahub-2.3.3.jar
.

需要增加的jar包：seatunnel-api-2.3.3.jar
，seatunnel-transforms-v2-2.3.3.jar
，mysql-connector-java-8.0.28.jar
，jersey-client-1.19.4.jar
，这四个jar包必须添加，不然无法同步数据运行同步脚本直接报错没有某个类。

InfluxDB 2.7.6 需要做的前提事项：下面这个步骤必须要做，不然查不到数据。

InfluxDB Studio-0.2.0（这个客户端工具有个好处，可以查看字段类型，方便同步文件中的字段类型的定义，其他的客户端好像没有，也有可能是我没发现），可下载这个客户端进行连接查询数据。

Linux安装influxDB 2.7.6版本后，正常使用ip:8086 可访问influxdb UI，填写用户名、密码、org、buckets。

同步过程及踩坑点

SeaTunnel 2.3中集成InfluxDB配置用户名、密码后，执行同步任务总是报获取字段异常信息。

于是乎跟踪SeaTunnel代码，发现内部一直401权限认证失败。于是使用InfluxDB Studio数据库管理工具连接，输入ui页面相同的用户名，密码后一直报401权限认证不通过。通过查资料发现ui页面的用户名密码仅供ui页面使用，不能作为数据库本身访问的用户名密码。

使用iInfluxDB client客户端，查询权限influx v1 auth list结果为空。

使用命令分配权限
influx v1 auth create -o orgName --read-bucket bucketId --username=username
，
或者：

influx v1 auth create -o "组织名称" --write-bucket bucketId(桶id，不需要引号) --read-bucket bucketId(桶id，不需要引号) --username=账号 --password=密码

删除命令：influx v1 auth delete --id 'id编码'

删除命令中的id编码为influx v1 auth list
命令查出来的ID，下图所示：

命令执行完成后需输入两次密码。InfluxDB Studio数据库管理工具再次使用此用户名密码登录成功，SeaTunnel同步成功。

同步数据配置文件：v1.batch.config_tmp.template：

env {
  execution.parallelism = 1
  job.mode = "BATCH"
  checkpoint.interval = 10000
}
 
source {
  influxdb {
    url = "http://X.X.X.X:8086"
    token = "写自己的token" #可有可无
    org = "自己的组织名称"
    bucket = "自己的桶" #可有可无
    database = "自己的桶"
    username = "写在第四步自己新建的influxdb账号"
    password = "写在第四步自己新建的influxdb密码"
    epoch = "H" #这个有好几级，可以去官网查看
    query_timeout_sec = 600
    measurement = "prometheus_remote_write" #数据表
    fields = ["node_cpu_seconds_total", "node_memory_MemTotal_bytes"] #可有可无，配置自己的字段
    sql = """SELECT node_cpu_seconds_total as system_cpu_usage,cpu as process_occupy_physical_memory_size,job as create_dept,node_memory_MemTotal_bytes as process_read_written_file_system_total_bytes,node_memory_MemAvailable_bytes as process_open_file_describe_quantity,time as create_time FROM "prometheus_remote_write" where time > now() - 1h"""
    where = " where time > now() - 1h" 
     #经过本人测试。上面的sql查询的字段必须经过重命名，或者doris建表的字段必须和influxdb2的字段完全一致，不然transform 中进行转换的时候就会成为空值，这个我还没研究明白为什么，研究明白了在补上说明，doris的表字段类型也必须和influxdb2中查询的字段类型一致，不然数据存不到doris中。schema 重定义的事influxdb2查到的字段和类型
     schema {
      fields {
        #node_cpu_seconds_total = FLOAT
        system_cpu_usage = FLOAT
        process_occupy_physical_memory_size = INT
        create_dept = STRING
        process_read_written_file_system_total_bytes = FLOAT
        process_open_file_describe_quantity = FLOAT
        create_time = BIGINT
      }
    }
 
  }
}
 
sink {
  Doris {
    fenodes = "X.X.X.X:8030"
    username = "账号"
    password = "密码"
    table.identifier = "sbyw_data_acquisition.sbyw_application_process_type_tmp"
    sink.label-prefix = "test-cdc"
    sink.enable-2pc = "true"
    sink.enable-delete = "true"
    sink.max-retries = 3
    batch_size = 10000
    result_table_name = "sbyw_application_process_type_tmp"
    doris.config {
      format = "json"
      read_json_by_line = "true"
    }
  }
}
 
 
transform {
  FieldMapper {
    source_table_name = "prometheus_remote_write"
    result_table_name = "sbyw_application_process_type_tmp"
    field_mapper = {
        #node_cpu_seconds_total = system_cpu_usage
        system_cpu_usage = system_cpu_usage
        process_occupy_physical_memory_size = process_occupy_physical_memory_size
        process_read_written_file_system_total_bytes = process_read_written_file_system_total_bytes
        process_open_file_describe_quantity = process_open_file_describe_quantity
        create_time = create_time
        create_dept = create_dept
    }
  }
}

写好同步数据脚本文件运行同步命令：./bin/seatunnel.sh -c ./config/v1.batch.config_tmp.template

下面是我Doris的测试表：

下面是InfluxDB Studio-0.2.0客户端查到 InfluxDB 2.7.6的数据：

InfluxDB 2.7.6有个坑点，它支持sql查询，但不完全支持，它只支持常规的简单查询，例如下图中的查询就可以查询，但是如下图所示，可能会有人说我后面没加group by，经过测试是不行的，即使加上group by也是无法执行，那是因为官方压根不支持的这种查询。

但是下图这样是可以的，InfluxDB 2官方就是这样设计的，聚合查询无法和单字段进行同步查询。

最后是运行结果：

同步到Doris的数据：

原文链接：https://blog.csdn.net/2401_84562349/article/details/140919192

活动推荐

📢📢 Apache SeaTunnel&Milvus社区联合线上Meetup即将来袭！

为了进一步提升 SeaTunnel 在 AI 生态系统中的集成能力，SeaTunnel 社区即将携手 Milvus 社区举办一场联合线上 Meetup！11月12日19:00，来自 SeaTunnel 和 Milvus 的技术专家与架构师将带来深度技术分享及应用案例展示，揭示两大项目融合所带来的创新成果。期待这场激动人心的技术碰撞！

点击「预约」，预定直播，参与互动还有机会赢取精美好礼！🎁🎁

Apache SeaTunnel

Apache SeaTunnel 是一个分布式、高性能、易扩展、用于海量数据（离线&实时）同步和转化的数据集成平台

仓库地址：

https://github.com/apache/seatunnel

网址：

https://seatunnel.apache.org/

Apache SeaTunnel 下载地址：

https://seatunnel.apache.org/download

衷心欢迎更多人加入！

我们相信，在「Community Over Code」（社区大于代码）、「Open and Cooperation」（开放协作）、「Meritocracy」（精英管理）、以及「多样性与共识决策」等 The Apache Way 的指引下，我们将迎来更加多元化和包容的社区生态，共建开源精神带来的技术进步！

我们诚邀各位有志于让本土开源立足全球的伙伴加入 SeaTunnel 贡献者大家庭，一起共建开源!

提交问题和建议：

https://github.com/apache/seatunnel/issues

贡献代码：

https://github.com/apache/seatunnel/pulls

订阅社区开发邮件列表 :

dev-subscribe@seatunnel.apache.org

开发邮件列表：

dev@seatunnel.apache.org

加入 Slack:

https://join.slack.com/t/apacheseatunnel/shared_invite/zt-1kcxzyrxz-lKcF3BAyzHEmpcc4OSaCjQ

关注 Twitter:

https://twitter.com/ASFSeaTunnel

融入大数据技术革新的洪流！2024 SeaTunnel Meetup 讲师招募开启

全球视野不断拓展！Apache SeaTunnel社区迎来首位印度籍Committer

点击阅读原文了解更多⭐️！

文章转载自SeaTunnel，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

手把手入门 | 使用SeaTunnel从InfluxDB同步数据到Doris

评论