暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

巨杉数据库 2019-11-26
1146

SequoiaDB 一款自研金融级分布式数据库产品,支持标准SQL和分布式事务功能、支持复杂索引查询,兼容 MySQL、PGSQL、SparkSQL等SQL访问方式。SequoiaDB 在分布式存储功能上,较一般的大数据产品提供更多的数据切分规则,包括:水平切分、范围切分、主子表切分和多维切分方式,用户可以根据不用的场景选择相应的切分方式,以提高系统的存储能力和操作性能。


为了能够提供简单便捷的数据迁移和导入功能,同时更方便地与传统数据库在数据层进行对接,巨杉数据库支持多种方式的数据导入,用户可以根据自身需求选择最适合的方式加载数据。


本文主要介绍巨杉数据库集中常见的高性能数据导入方法,其中包括巨杉工具矩阵中的 Sdbimprt导入工具,以及使用SparkSQL, MySQL和原生API 接口进行数据导入,一共四种方式。


Sdbimprt工具导入

sdbimprt 是 SequoiaDB 的数据导入工具,是巨杉数据库工具矩阵中重要组成之一,它可以将 JSON 格式或 CSV 格式的数据导入到 SequoiaDB 数据库中。

关于工具说明与参数介绍,请参考:
http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1479195620-edition_id-0。

一、示例

下面简单介绍一下如何使用 sdbimprt 工具将 csv 文件导入到 SequoiaDB 集合空间 site 的集合 user_info 中:
1. 数据文件名称为“user.csv”,内容如下:
    “Jack”,18,”China”
    “Mike”,20,”USA”

    2.导入命令

      sdbimprt --hosts=localhost:11810 --type=csv --file=user.csv -c site -l user_info --fields='name string default "Anonymous", age int, country'


      • --hosts:指定主机地址(hostname:svcname)

      • --type:导入数据格式,可以是csv或json

      • --file:要导入的数据文件名称

      • -c(--csname):集合空间的名字

      • -l(--clname):集合的名字

      • --fields:指定导入数据的字段名、类型、默认值


      二、导入性能优化
      下面说明使用 sdbimprt 工具时如何提升导入性能:
      1. 使用 --hosts 指定多个节点
      导入数据时,尽量指定多个 coord 节点的地址,用“,”分隔多个地址,sdbimprt 工具会把数据随机发到不同机器上的 coord,起到负载均衡的作用(如图1)。

      图1


      2. 使用 --insertnum(-n) 参数
      在导入数据时,使用 --insertnum(-n) 参数,可以实现批量导入,减少数据发送时的网络交互的次数,从而加快数据导入速度。取值范围为1~100000,默认值为100。
       
      3. 使用 --jobs(-j) 参数
      指定导入连接数(每个连接一个线程),从而实现多线程导入。
       
      4. 切分文件
      sdbimprt 在导入数据时支持多线程并发导入,但读数据时是单线程读取,随着导入线程数的增加,数据读取就成为了性能瓶颈。这种情况下,可以将一个大的数据文件切分成若干个小文件,然后每个小文件对应启动一个 sdbimprt 进程并发导入,从而提升导入性能。如果集群内有多个协调节点,分布在不同的机器上,那么可以在多台机器上分别启动 sdbimprt 进程,并且每个 sdbimprt 连接机器本地的协调节点,这样数据发送给协调节点时避免了网络传输(如图2)。

      图2


      5. 数据加载完后再建索引
      对于导入数据量大,且索引多的表,建议先把索引删除,待到数据导入完成后再重建索引,这样有利于加快数据导入。在数据导入的过程中,如果目标表存在大量的索引,数据库除了写入数据外,还需要写入索引文件,这会降低导入数据的性能。此方式对提升其它方式的数据导入速度同样适用。

      SparkSQL 导入

      SparkSQL 可以方便的读取多种数据源,通过 SequoiaDB 提供的 Spark 连接器,可以使用 SparkSQL 向 SequoiaDB 中写入数据或从中读取数据。
      关于 SparkSQL 如何与 SequoiaDB 连接,请参考:
      http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1432190712-edition_id-0

      一、示例

      下面举例说明如何将 HDFS 中的 csv 文件通过 SparkSQL 导入 SequoiaDB 集合中,以及如何优化导入性能。
       
      1、将 HDFS 中 csv 文件映射成 spark 的临时表
        CREATE TABLE 
        hdfstable
        USING
        org.apache.spark.sql.execution.datasources.csv.CSVFileFormat
        OPTIONS (
        path "hdfs://usr/local/data/test.csv",
        header "true"
        )

        2. 将 SDB 的集合映射成 spark 的临时表

          create temporary table sdbtable (
          a string,
          b int,
          c date
          )
          using
          com.sequoiadb.spark
          OPTIONS
          (
          host 'sdbserver1:11810,sdbserver2:11810,sdbserver3:11810',
          username 'sdbadmin',
          password 'sdbadmin',
          collectionspace 'sample'
          collection 'employee',
          bulksize '500'
          );
          3. 导入
            sparkSession.sql("insert into sdbtable select * from hdfstable");


            二、导入性能优化
            SparkSQL 数据写入有以下两个参数可以优化:
            • host

            尽量指定多个 coord 节点的地址,用“,”分隔多个地址,数据会随机发到不同 coord 节点上,起到负载均衡的作用。
            • bulksize

            该参数默认值为500,代表连接器向 SequoiaDB 写入数据时,以 500 条记录组成一个网络包,再向 SequoiaDB 发送写入请求,可以根据数据的实际大小调整 bulksize 的值。

            MySQL 导入

            SequoiaDB 以存储引擎的方式与 MySQL 对接,使得用户可以通过 MySQL 的 SQL 接口访问 SequoiaDB 中的数据,并进行增、删、改、查等操作。

            关于如何与MySQL对接,请参考:

            http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1521595283-edition_id-302。


            一、示例

            使用 mysql 向 SequoiaDB 导入数据有以下几种方式:
            1. SQL 文件导入
              mysql> source opt/table1.sql
              2. CSV 文件导入。mysql 中提供了 load data infile 语句来插入数据:
                mysql> load data local infile '/opt/table2.csv' into table table2 fields terminated by ',' enclosed by '"' lines terminated by '\n';


                二、导入性能优化

                提升MySQL的导入性能有如下建议:
                1. sequoiadb_conn_addr 指定多个地址
                引擎配置参数“sequoiadb_conn_addr”尽量指定多个coord节点的地址,用“,”分隔多个地址,数据会随机发到不同coord节点上,起到负载均衡的作用。

                2. 开启 bulkinsert
                引擎配置参数“sequoiadb_use_bulk_insert”指定是否启用批量插入,默认值为“ON”,表示启用。配置参数“sequoiadb_bulk_insert_size”指定批量插入时每批的插入记录数,默认值2000。可以通过调整bulkinsert size提高插入性能。

                3. 切分文件
                可以将一个大的数据文件切分为若干个小文件,然后为每个小文件启动一个导入进程,多个文件并发导入,提高导入速度。

                API 接口导入

                SequoiaDB 提供了插入数据的 API 接口,即“insert”接口。insert 接口会根据传入的参数不同而使用不同的插入方式,如果每次只传入一条记录,则接口也是将记录逐条的发送到数据库引擎,如果每次传入一个包含多条记录的集合或数组,则接口会一次性把这批记录发送到数据库引擎,最后通过引擎一条一条写入数据库中。

                因此,insert 接口的两种插入方式的区别在于发送数据到数据库引擎这一过程,一次传入多条记录这种方式称为“bulkinsert”,相对来说会减少数据发送时的网络交互的次数,插入性能更佳。

                小结
                如何达到最大数据加载速度,是数据库迁移/数据导入中常遇到的问题,本文从以下四个方面分别介绍了 SequoiaDB 数据迁移/导入过程中性能最优化的方法:
                1)基于巨杉工具矩阵 sdbimprt 导入可以采用修改参数 host 指定多个节点、修改连接数、切分文件、修改参数 insertnum、重建索引等等对数据导入速度进行优化。
                2)基于 MySQL 导入可以采用修改参数 host 地址及 bulksize 进行优化。
                3)基于 Spark 导入可以采用指定多个协调节点IP、设置 bulkinsert 参数、切分文件进行优化。      
                4)基于API接口进行优化可以采用 bulkinsert 批量插入数据,减少网络交互。

                大家可以参考本文的数据导入方法进行实践验证,从传统数据库迁移到巨杉数据库SequoiaDB。

                如果遇到问题,欢迎添加巨杉数据库管理员杉杉(sequoiadb111)深入交流哦~

                往期技术干货

                巨杉⼯具系列之一 | ⼤对象存储⼯具sdblobtool

                巨杉Tech | 基于Kafka+Spark+SequoiaDB实时处理架构快速实战

                巨杉Tech | SequoiaDB数据域及存储规划

                巨杉Tech | SparkSQL+SequoiaDB 性能调优策略

                巨杉Tech | 使用 etlAlchemy 工具迁移数据实战

                巨杉Tech | Hbase迁移至SequoiaDB 实战

                巨杉Tech | SequoiaDB 巨杉数据库高可用容灾测试

                巨杉Tech | 使用 SequoiaDB + Docker + Nodejs 搭建 Web 服务器

                巨杉学习笔记 | SequoiaDB MySQL导入导出工具使用实战

                巨杉内核笔记 | 会话(Session)

                180秒揭秘数据库金融级灾备架构



                点击阅读原文,获取更多精彩内容~

                最后修改时间:2019-11-27 10:03:31
                文章转载自巨杉数据库,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

                评论