暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

南大通用Gbase-8a LOAD加载数据参数

wise 2023-12-27
932

LOAD相关数据库参数介绍

参数名 描述
gbase_loader_buffer_count 用于指定加载过程中分配的读缓冲内存块数量,其中单块内存固定大小为8M,每个加载任务单个节点占用的读缓冲内存为8M*gbase_loader_buffer_count。最大值:128
gbase_loader_check_charset 用于设置是否打开字符集检查功能,该参数仅对加载有效,对其他 SQL 无影响。
gbase_loader_last_task_id Session 级只读变量,用于查询当前 Session 的最后加载任务 TASK_ID值。可以使用 select @@gbase_loader_last_task_id 方式查询。
gbase_loader_logs_collect 用于控制日志汇总功能的开启。ON:表示开启加载错误数据日志汇总功能,加载过程中实时的将错误数据与溯源信息汇总至加载发起节点。OFF:表示关闭加载错误数据日志汇总功能,加载遵循现有规则,错误数据日志与溯源信息日志保存在加载节点。
gbase_loader_logs_dir 用户指定错误数据与溯源日志文件汇总目录。
gbase_loader_max_line_length 用于设置源文件中一行数据的最大长度,超过此长度,加载任务将报错停止。单位:字节。
gbase_loader_parallel_degree 该参数用于设置控制加载 SQL 执行的并行度(并行线程数),如果不设定该参数值,则该参数的默认值是 0(0 表示用默认并行度,默认并行度取值是线程池最大可用资源数)。设置 gbase_loader_parallel_degree 参数对加载不再有效。
gbase_loader_read_timeout 用于指定读取 FTP/HTTP/HDFS/SFTP 文件的超时时间,如果填充一个数据块(8M)的时间超过此参数值,加载任务将报错停止。0 表示永不超时。单位:秒。默认
gbase_loader_wildcard_switch 控制是否打开多级目录通配加载功能。1(ON):表示开启多级目录通配功能,加载过程中对 SQL 中含有通配符的文件路径通配展开,获得精确文件路径;0(OFF):表示关闭多级目录通配功能,加载遵循现有规则,按 SQL 指定的路径进行加载。该参数默认值为 1。
gcluster_enable_serial_load 设定超过边界值按当前设定参数的形式统一处理,默认值为 0,代表不受控制。
gcluster_kafka_loader_max_start_count 控制 loader 型 consumer 最多可以启动的数量,如果超过了这个数量,start kafka consumer 命令将报错。
gcluster_loader_max_data_processors 一次加载任务使用的最大加载机个数(参与数据解析处理的最大节点数)
gcluster_loader_min_chunk_size 数据文件最小分块粒度,单位是字节,UINT_MAX 取值为 4294967295。

LOAD语法

LOAD DATA INFILE 'file_list'
INTO TABLE [dbname.]tbl_name
[options]
options:
[CHARACTER SET charset_name]
[DATA_FORMAT number [HAVING LINES SEPARATOR]]
[NULL_VALUE 'string']
[FIELDS
[TERMINATED BY 'string']
[ENCLOSED BY 'string']
[PRESERVE [LEADING | TRAILING] BLANKS]
[AUTOFILL]
[LENGTH 'string']
[TABLE_FIELDS 'string']
]
[LINES
[TERMINATED BY 'string']
]
[MAX_BAD_RECORDS number]
[DATETIME FORMAT format]
[DATE FORMAT format]
[TIMESTAMP FORMAT format]
[TIME FORMAT format]
[TRACE number]
[TRACE_PATH 'string']
[NOSPLIT]
[PARALLEL number]
[MAX_DATA_PROCESSORS number]
[MIN_CHUNK_SIZE number]
[SKIP_BAD_FILE number]
[SET col_name = value[,...]]
[IGNORE NUM LINES]
[FILE_FORMAT format]

CHARACTER SET 用来指定待加载数据文件的编码格式,目前支持GBK和UTF8两种格式。省略时,认为不需要转码。支持的字符集为GB系列(GB2312,GBK,GB18030)和UTF8系列(utf8,utf8mb4)。
DATA_FORMAT 用来指定使用哪种方式解析数据文件并加载。指定为3,表示使用文本方式加载。指定为4,表示使用定长方式加载。如果某列数据可能包含了行分隔符,则需要在SQL中输入’HAVING LINES SEPARATOR’子句。指定为5,表示使用文本文件宽松模式,即数据源文件为包围符中含有换行符和包围符文本文件,或多列少列文本文件。
NULL_VALUE 用于指定空值字符,支持不超过15个任意字符的组合,参数值以引号包围,指定方式与字段包围符一样。
FIELDS
TERMINATED BY 用于指定字段分隔符,支持不超过15个任意字符的组合,支持任意字符,参数值以引号包围,仅当使用文本方式加载时有效。可使用字符本身(仅限可见字符,如:“|”)、C风格转义字符(如:“\a”)、\xhh十六进制(如:“\xFF”)或x’‘十六进(如:"x’09’")四种方式指定。例如:‘|’,表示用|作为分隔字符。
ENCLOSED BY 用于指定字段包围符,支持任意单字符,参数值以单引号包围,仅当使用文本方式加载时有效。可使用字符本身(仅限可见字符,如:“|”)、C风格转义字符(如:“\a”)、\xhh十六进制(如:“\xFF”)或x’‘十六进制(如:"x’09’")四种方式指定。
PRESERVE BLANKS 用于设定是否保留字段内容两端的空格,默认不保留空格。支持format=3、format=4。1、不保留空格,不写PRESERVE BLANKS(缺省);2、保留前空格,PRESERVE LEADING BLANKS;3、保留后空格,PRESERVE TRAILING BLANKS;
AUTOFILL 用于设定是否启用缺失列自动补齐功能,启用该参数后,对缺失分割符的字段数据按照default值或者NULL值进行加载,默认不自动补齐。
DEFINER 在使用定长模式加载时,用于设定字段长度的参数。定长格式数据导入时,设置每个字段的长度,有多个字段时,用逗号分隔。
LENGTH 在使用定长模式加载时,用于设定字段长度的参数。定长格式数据导入时,设置每个字段的长度,有多个字段时,用逗号分隔。
TABLE_FIELDS 用于指定列加载,对于日期时间类型可以设置每一列的格式。对于数据加载过程中,数据文件中不需要加载的字段,可以使用table_fields参数中的filler关键字将其忽略掉。
SET 指定列值加载,加载系统将待加载文件和指定加载列值加载到集群系统的表中。输入的类型应为常量,包括字符串、整数值、浮点值和NULL。
LINES
TERMINATED BY 行分隔符,支持任意单字符,参数值以引号包围。指定方式与包围符一样。默认行分隔符为’\n’。
MAX_BAD_RECORDS 在每次加载的任务中,设定错误数据行数的上限。当本次加载任务产生的错误数据行数大于max_bad_records设定的值时,加载任务回滚,加载工具报错退出。不指定该参数表示不限制错误条数,指定该参数时,此参数取值范围为:[0, 4294967295]。0表示只要有错误数据就报错退出。最大加载错误数的计算方式:所有集群节点独立计算,一旦有一个节点加载时错误数据达到本限制,则终止所有节点的加载任务。集群加载提交之前检查总错误条数是否超出限制,如果超出限制,放弃提交,报错退出。
DATE FORMAT 用来指定date列类型的默认格式,如’%Y-%m-%d’。
DATETIME FORMAT 用来指定datetime列的默认格式,如’%Y-%m-%d %H:%i:%s’。
TIMESTAMP FORMAT 用来指定timestamp列的默认格式,如’%Y-%m-%d %H:%i:%s.%f’。
TIME FORMAT 用来指定time列的默认格式,如’%H:%i:%s’。
TRACE 用来指示本次加载是否保存错误数据溯源。如果指定为0,则不溯源。如果指定为1,则进行溯源.默认值为1。溯源信息包括:错误数据所在的文件,所在行号。
TRACE_PATH 用来指定本次加载过程中产生的错误数据和日志存放路径。支持设置为本地绝对路径,远程FTP或SFTP目录。在禁用日志汇总功能时,该参数才能起作用,默认值为加载节点的“/opt/gnode/log/gbase/loader_logs”中。
NOSPLIT 用来指定本次加载任务中是否禁用分块加载功能,指定该参数将禁用分块加载功能。不指定该参数,在集群加载时,将自动启动分块加载功能,按照数据量和参与运算的加载节点数对数据进行均匀分块,以均衡数据服务器和数据处理节点的负载,优化加载性能。
PARALLEL 用来控制集群加载并行度,取值范围[0,1024]。默认值为0,表示并行度取值是线程池最大可用线程数。
MAX_DATA_PROCESSORS 用来指定本次加载任务中参与数据解析的处理的最大节点数,取值范围[1, 4294967295],默认值16。
MIN_CHUNK_SIZE 用来指定本次加载任务中数据分块的最小粒度,取值范围[1, 4294967295],默认值64M。
SKIP_BAD_FILE 用来指定本次加载任务中是否忽略不存在或没有读取权限的数据文件继续加载。如果指定为0,则加载报错终止。如果指定为1,则忽略异常文件继续加载。默认值为0。
IGNORE NUM LINES :配置该参数加载工具会将本次加载指定的所有数据文件的表头进行过滤,跳过每个文件的前NUM行(表头所占行数),NUM取值范围为[0,MAX_UINT]。
FILE_FORMAT 用来指定被加载文件的格式。枚举型参数,取值为UNDEFINED、UNCOMPRESSED、GZIP、SNAPPY、LZO,默认为UNDEFINED。指定为UNDEFINED,表示不指定格式,按文件后缀自动判断文件格式;指定为UNCOMPRESSED,表示按普通文本方式加载文件;指定为GZIP,表示按GZIP格式加载文件;指定为SNAPPY,表示按SNAPPY格式加载文件;指定为LZO,表示按LZO格式加载文件。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论