集群加载特性:
• 加载方式:支持SQL语句加载;
• 加载协议:支持ftp/sftp/http/hdp/kafka/s3和本地gnode节点加载;
• 文件格式:支持无压缩的文本和gzip 、snappy、izo 压缩格式的源数据文件加载;
• 并行加载:支持包括多加载机对单表进行加载;
• 负载均衡:支持自动评估各加载节点的任务负载情况,优选加载节点;
• 字 符 集:支持UTF8和GBK格式;
• 状态查询:支持加载过程中的状态查询;
• 错误数据:支持错误数据溯源功能;
SQL加载语法格式:
LOAD DATA INFILE ‘file_list’ INTO TABLE [database_name.]table_name [options]
举例:
gbase> load data infile 'ftp://192.168.15.1/testdata.txt' into table test.useinfo data_format 3 fields terminated by '|' enclosed by '\'' date format'%Y%c%d' trace 1 trace_path '/opt/gnode/log/gbase/loader_logs'; 数据文件“testdata.txt” :
001|'LILY'|'M'|19810520|'天津南开区' 002|'BOB'|'F'|19801010|'天津高新区' 003|'NANA'|'M'|19820301|'天津高新区'
file_list : 指定待加载文件列表/目录; 以URL的方式指定数据文件加载; 多个数据文件/目录之间使用逗号(‘,’)分隔; 可指定ftp/sftp/http/hdp/s3和本地gnode节点加载; 支持使用通配符; 举例 : gbase> load data infile ‘ftp://gbase:gbase@192.168.0.1/pri/* , sftp://gbase:gbase@ 192.168.0.3/opt/line.tbl, http://gbase:gbase@192.168.0.2/lineitem.tbl,hdp://hadoop@ 192.168.10.1:50070/export/test.tbl, file://172.16.0.1/opt/lineitem*.tbl,
s3n://GPCQN6HKP2BI3N6NKZGY:Nkf5ad6WD2MbWF6F6GDobB8NudwC58ist%2FJNJwY0 @s3-aws-region.amazonaws.com/region/bucket/key ' INTO TABLE test.lineitem FIELDS TERMINATED BY '|' ENCLOSED BY '"' LINES TERMINATED BY '\n';
本地数据源文件加载:
1、支持指定一个或多个数据节点上的本地文件进行加载。 2、支持指定所有数据节点并发加载各自节点上的文件。 举例 1—指定节点并行加载: gbase> load data infile ‘file://192.168.6.72/var/ftp/pub/line5*.tbl, file://192.168.6.73/home/gbase/lineitem.*’ into table test.t fields terminated by ‘|’; 举例 2—所有节点并行加载:(要求各节点必须存在指定的加载源数据文件,否则报错!建议设置 SKIP_BAD_FILE 1 跳过加载错误文件,跳过的文件查看express.log日志。) gbase> load data infile ‘file:///opt/line5.tbl, file:///home/gbase/lineitem.*’ into table test.t fields terminated by ‘|’ SKIP_BAD_FILE 1;




