暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GBase 8a加载日志步骤梳理

郑小雯 2023-10-16
735

加载日志分类:

• 默认情况下,日志自动汇总功能处于开启状态。

三个日志会统一保存在执行加载任务 节点的集群安装主目录(opt)/gcluster/log/gcluster/loader_logs/ 任务id目录下。

• 关闭日志自动汇总功能:set global gbase_loader_logs_collect=0,加载日志会默认 存储在加载节点的/opt/gnode/log/gbase/loader_logs目录下。

1、加载结果日志:记录加载任务成功与否和执行时间等。 2、错误信息日志:记录未加载成功的源数据。 3、溯源信息日志:记录加载失败原因,定位错误数据位置。

加载结果日志:

[root@rh7node1 gcluster]# cat loader_result.log 131117|test|t|root|192.168.15.21|192.168.15.21|2019-03-20 14:35:44|2019-03-20 14:35:44|0|0|0|1|4|0|SUCCESS|LOAD DATA INFILE 'file://192.168.15.22/opt/2.txt' into table test.t datetime format '%Y:%m:%d' fields terminated by ','| 字段 含义 TASK_ID 加载 ID DB_NAME 加载数据库名 TB_NAME 加载表名 USER 当前加载用户名 ACCESS_IP 加载发起点 IP HOST_IP 客户端 IP START_TIME 加载开始时间 END_TIME 加载结束时间 ELAPSED_TIME 加载耗时 TOTAL_SIZE 加载文件总大小 AVERAGE_SPEED 加载平均速度 LOADED_RECORDS 加载数据条数 SKIPPED_RECORDS 加载数据跳过条数 IGNORED_FILES 加载跳过的文件数 RESULT 加载结果 SQL_CMD 加载 SQL MESSAGE 错误信息

• 加载完成时将加载结果信息写入日志文件 loader_result.log 中, 加载结果信息是以’|’为列分隔符,以’\n’为行分隔符存储的 普通文本文件,存放在发起节点 gcluster日志目录 ($GCLUSTER_HOME/log/ gcluster/ )中 ,不支持指定存放路径。

• 带有任务id的加载结果日志”131117_loader_result.log”存放 在: /gcluster/log/gcluster/loader_logs/ 任务id/目录下。


错误信息日志:

[root@rh7node1 131117]# cat 131117_test_t_n1_192.168.15.22_20190320223545.err 31589,E,2094-12-13 02:02:02,2082-12-24 01:01:01 16993,jcWaz,02:02:02 2060-10-22,2037-11-17 01:01:01 7584,jubNKAmT,02:02:02 2058-12-24,2066-11-26 01:01:01 7584,jubNKAmT,2058-12-24,2066-11-26 01:01:01

溯源信息日志:

[root@rh7node1 131117]# cat 131117_test_t_n1_192.168.15.22_20190320223545.trc file_name | file_offset | record_len | column | reason /opt/2.txt|0|48|3|validate error /opt/2.txt|48|52|3|validate error /opt/2.txt|100|54|3|validate error /opt/2.txt|154|45|4|validate error


支持select语句查看加载结果信息:

可以通过select语句查看information_schema 库内记录的加载结果信息:

• LOAD_RESULT 表:记录当前 coordinator 节点的加载信息

• CLUSTER_LOAD_RESULT 表:记录所有 coordinator 节点的加载信息 


注:加载结果信息查询功能实现了用户权限控制,对于有 PROCESS 权限的用户可以查询当前 集群所有用户已经加载的信息,对于无该权限的用户只能查询自己已经加载的加载结果信息。

支持show语句查看加载错误和溯源信息:

show [ gcluster ] load logs task_id LIMIT {[offset,] row_count}


• gcluster选项:使用gcluster选项是查看整个集群所有节点中对应任务号的日志信息; 不使用gcluster选项是当前管理节点发起指定任务号的日志信息;

• LIMIT选项:默认情况下,不指定limit选项最多显示10行;若显示超过10行,需指定以下子参数: offset:指偏移行数,即从第几行开始显示; row_count:显示几行数据;


梳理加载步骤:

32

1. 检查文件服务器的连接和服务状态(FTP,HTTP,HDP ,Kafka,Amazon s3,本地 )

2. 分析源数据文件,包括:文本/定长,分隔符,字段个数,字段类型,日期格式,空值等

3. 建库、建表(分布表,复制表,压缩,distributed列)

4. 进行加载导入操作(须严格匹配各项参数)

5. 检查加载状态(决定是否终止加载)

6. 分析加载结果(查看条数,日志,分析原因,再次加载)

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论