新炬运维避坑指南连载（十六-Oceanbase专题)

IT那活儿 2024-08-08

341

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享，不管IT什么活儿，干就完了！！！

指南1分钟速览：

1. 租户的占用内存大小超限分析

2. dml执行报错问题分析

3. 导入csv文件报错问题分析

4. 补丁更新失败分析

5. 迁移速度变慢分析

6. 匿名块事务提交不生效

7. OB集群从OCP中无法迁出

8. OMS迁移ROWID类型数据

9. table or view ‘’does not exist报错处理

10. 慢sql导致cpu使用率增长分析

一

租户的占用内存大小超限分析

1.1 现象

告警：OB500租户的占用内存大小超限，占用内存 100.08 GB。

1.2 处置过程

前期观察，后期进行重启observer进程，释放内存。

Ocean Base 3.2.3集群长时间不重启（超过200天），日志中没有“weak read service task statistics”信息，正常是几秒一刷新，这个是因为 tsc 时钟回退引起，属于已知bug（ tsc时钟回退会影响面比较广，可能会引发其他各种问题，包括500租户内存不释放/OMS stroe链路突然不动），建议重启集群或者升级3.2.3 bp9以后版本，目前为3.2.3 bp5版本。

1.3 新炬建议

1）计划定期重启

定期重启可以作为临时措施，以防止系统长时间运行后出现性能降低或资源泄漏。

2）监控和维护日志

“weak read service task statistics”日志缺失表明了后台服务可能存在异常。定期检查此类关键日志信息，确保系统正常运行。

3）增强监控系统

建立和优化资源使用的监控，特别是内存和CPU使用情况。使用如Prometheus等工具，可以帮助您更好地理解资源使用模式和及时发现问题。

4）动态资源管理

实施动态资源管理机制，根据负载和资源使用情况自动调整资源分配，以优化性能和资源利用率。

5）利用诊断工具

使用OceanBase提供的诊断工具来分析和确定性能瓶颈或配置问题，如OBAdmin、OCP等。

6）系统时间同步

确保集群中所有节点的系统时间严格同步，防止由时间偏差引起的问题。

二

dml执行报错问题分析

2.1 现象

业务进行ddl后，马上dml报错。SQL执行错误，当前SQL：

insert into xxx select * from xxx
Java.sql.SQLTransientConnectionException:(conn=2958368) ORA-00600：internal error code，arguments：
-4029(获取 Schema 失败)，Schema error

2.2 处置过程

OB3版本schema刷新方式为异步：

优点是DDL执行快，性能好；
缺点是有可能获取到旧版本schema。

业务进行重跑即可，建议业务DDL和DML同一对象时，中间间隔最少秒级别时间，等待数据库进行DDL状态同步。

数据库版本进行升级至4.x版本。

2.3 新炬建议

1）设定延时

业务在进行DDL操作后，可以设定一个固定的延时（如几秒），以确保Schema的异步刷新能够完成。这个延时的长度可以根据实际的系统性能和观察来调整。

2）升级数据库系统

升级数据库版本至4.x版本，新版本可能改善了Schema刷新机制。升级前，需要详细评估新版本的特性，以及与现有系统的兼容性。

3）自动重试

在应用层增加错误捕捉和自动重试的逻辑，特别是针对诸如Schema获取失败这类可预见的错误。这可以通过编程在捕获到特定错误后，延迟一段时间后重试。

4）增强监控系统

通过增强对数据库操作的监控，尤其是DDL和DML操作的监控，可以更好地理解Schema刷新的实时状态和性能影响。

5）日志详细记录

确保所有相关操作都有详细的日志记录，方便出现问题时快速定位和分析。

6）Schema管理策略

在数据库管理层面，探索是否有可能配置或优化Schema管理和刷新策略，减少由于Schema版本不一致导致的问题。

三

导入csv文件报错问题分析

3.1 现象

导入csv数据报错 Error: ORA-01400: cannot insert Nul into 'ACTION ID

3.2 处置过程

业务中空值字段使有用字符串"null"表示，也有用空值表示，odc导入字符串是当成了空值，字段不允许空值，故报错。

修改导出内容null > \N即可，\N表示为空值，"null"即可正常按照字符串导入。

3.3 新炬建议

1）标准化导出数据格式

在导出CSV文件之前，确保所有字段的数据格式标准化，对于空值的表示使用一致的方式（如使用\N表示空值）。这可以通过编写脚本或使用数据转换工具来实现。

2）自动化数据验证

在导入数据之前，运行自动化脚本检查数据完整性，确保所有必填字段非空，以及数据格式符合数据库要求。

3）详细日志记录

确保在数据导入过程中有详细的日志记录，记录哪些数据行失败以及失败的原因。这有助于后续的错误分析和数据修正。

4）设置容错级别

在导入过程中设置容错级别，允许一定数量的错误发生而不中断整个导入过程，同时记录这些错误以便后续处理。

四

补丁更新失败分析

4.1 现象

补丁更新时提示/tmp空间不足，导致补丁更新失败，不能继续。

4.2 处置过程

清理/tmp空间后，重试操作，补丁更新完成。

4.3 新炬建议

1）监控磁盘空间

实施磁盘空间监控，特别是对 tmp 和其他关键文件系统的监控。可以使用如 df 和 du 命令的脚本自动化监控，或者使用更高级的监控工具，如 Nagios、Zabbix等。

2）自动清理策略

配置自动清理机制，定期清理 tmp 目录中的旧文件和临时文件。可以通过cron作业来实现，例如每天运行一次清理脚本。

3）预更新检查

在执行补丁更新之前，进行预检查，包括检查磁盘空间、系统兼容性和备份完整性。这可以通过更新脚本中的预检步骤来实现。

五

迁移速度变慢分析

5.1 现象

OMS配置了反向增量的用户后，迁移速度变慢，由几百MB每秒降至几十KB每秒。

5.2 处置过程

版本4.1.0的OMS，配置了oms_drc用户后，迁移链路会自动设置sink.enablePartitionBucket参数为true。对于分区数特别多的表，就会迁移特别慢。

修改为false后，迁移速度就正常了。

5.3 新炬建议

1）参数文档化和理解

确保团队成员对OMS及其相关配置参数有充分的理解。这包括了解每个参数的作用、适用场景和潜在的副作用。

2）制定配置变更策略

任何配置变更都应该经过充分测试，并且有明确的文档记录，以便在出现问题时可以追溯和回滚。

3）定期监控迁移性能

设置系统性能监控，特别是在执行数据迁移和同步任务时。
监控关键指标，如数据传输速率、CPU和内存使用情况。

4）评估迁移策略

定期评估数据迁移策略的有效性，尤其是在数据库架构或数据量发生变化时。

5）适配分区表

对于具有大量分区的表，考虑使用专门的迁移策略。例如，可以分批迁移分区，或调整并行处理分区的策略。

六

匿名块事务提交不生效

6.1 现象

匿名块事务提交不生效。

6.2 处置过程

1）问题复现

使用业务提供的匿名块进行问题复现，确定问题可以复现：

begin
insert into tab1 select * from tab2;
commit;
end;
/

摘取未生效的事务，替换insert表tab1问题未复现，替换select表tab2问题复现。

取消匿名块手动执行提交，问题复现。事务未提交时可以查到此行数据，提交后立即查询数据不存在。

设置set ob_enable_trace_log=1收集sql详细trace信息，提交后未发现异常。

怀疑有程序后台删数据？通过gv$sql_audit定位目标表相关事务sql，事务提交后发现存在一条delete删除操作：

delete from tab1 where rowid ='xxxxxxx';

通过多次复现，可以确定删除数据为新插入数据。

2）问题处理

更新表为月表，过了此月后再次复测回复正常。

6.3 新炬建议

1）加强SQL审计

启用SQL审计功能，对所有对敏感表（如tab1）的操作进行记录，包括INSERT、UPDATE和DELETE等操作，以追踪数据变动的来源。

2）使用数据库触发器

考虑在关键表上设置触发器，记录所有修改操作的详细信息，包括操作类型、操作时间、操作者和数据变更前后的状态。

3）优化事务控制

在执行关键事务操作时，增加逻辑判断和错误处理，确保每个事务都能正确提交或在遇到错误时提供明确的回滚。

4）清晰的业务逻辑界定

确保所有后台任务和业务逻辑都有清晰的文档说明和逻辑定义，避免非预期的数据操作影响主要业务流程。

5）定期数据一致性检查

对数据库中的关键数据进行定期的一致性和完整性检查，及时发现和解决数据问题。

七

OB集群从OCP中无法迁出

7.1 现象

一备集群被其他OCP接管并解耦为主集群，原OCP无法管控进行迁出失败。

7.2 处置过程

通过连接ocp meta元数据库，删除集群信息：

delete from ob_server where cluster id = ?
delete from ob_zone where cluster_id = ?
delete from ob_tenant where cluster_id = ?
delete from ob_cluster where id = ?

删除后原OCP无该集群信息，迁出完成。

7.3 新炬建议

1）增强集群监控

确保所有集群的状态和归属都被实时监控并记录，这有助于在类似情况下快速了解集群的当前管理状态。

2）集群管理策略

制定明确的集群管理策略，包括集群如何被接管、迁移和解耦的标准操作流程。

3）创建标准操作流程（SOP）

为集群的迁入、迁出和接管等操作制定标准化流程，并确保所有操作均按此流程执行。

4）自动化脚本工具

开发自动化工具来处理集群的迁移和解耦操作，减少直接操作数据库的需要，降低人为错误。

八

OMS迁移ROWID类型数据

8.1 现象

OMS标准情况无法迁移ROWID类型数据。

8.2 处置过程

修改参数precheck.skippable_flags = {"DB_DATA_TYPE":true}忽略类型检测。

通过dbcat导出表元数据，替换rowid类型为varchar2(18)，将DDL语句在目标租户执行创建表结构。

OMS迁移需添加四个伪劣及UK唯一索引（此部分需手动添加）。通过OMS配置全量及增量同步即可。

8.3 新炬建议

1）数据类型映射验证

在迁移前彻底测试和验证数据类型映射的准确性，确保 ROWID 转换为 VARCHAR2(18) 后，所有数据都能正确表示且不会引起数据丢失或错误。

2）数据验证和审计

迁移完成后进行数据验证和审计，比较源数据库和目标数据库中的数据，确保迁移过程中数据的完整性和一致性没有受到影响。

3）自动化脚本处理

对于涉及修改数据类型和添加索引的操作，考虑开发自动化脚本来处理，以减少人工操作的需要，降低错误发生的风险。

4）详细的迁移文档

编写详细的迁移操作文档，包括每一步的操作指南、预期效果以及可能遇到的问题和解决策略。

5）迁移过程监控

在迁移过程中实施实时监控，及时捕捉可能出现的问题和异常。

九

table or view ‘’does not exist报错

9.1 现象

提示table or view ‘’does not exist。

9.2 处置过程

在ob库及oracle库查询是否有该表信息。

排查业务日志中排查关于该表的操作记录，该表属于建表后再删除的逻辑。发现该表在当日业务进行查询前有一条相对异常的删除记录，协调业务侧排查自身程序。

9.3 新炬建议

1）增强数据库审计

确保数据库有完整的审计功能，记录所有DDL操作（如CREATE, DROP, ALTER等）。这不仅可以帮助追踪问题发生的原因，还可以预防未授权或错误的操作。

2）访问权限审查

定期审查谁有权限对重要表执行DDL操作，并确保这些权限严格按照最小权限原则分配。

3）改善错误消息

在应用层面，改进错误处理逻辑，当尝试访问不存在的表或视图时，提供更详细的用户通知和建议的操作步骤。

4）用户教育

对用户进行教育，让他们了解尝试访问不存在对象的潜在后果，并教授如何验证对象状态或谁可以联系以解决此类问题。

5）设置异常监控

在数据库管理系统中设置监控和警报，以便在发生重要的DDL操作（如表的删除）时能够及时通知数据库管理员或业务团队。

十

慢sql导致cpu使用率增长分析

10.1 现象

数据导入过程中，CPU激增。

10.2 处置过程

查看数据库活跃会话，发现活跃连接达到1000+。

查询sql连接，发现其中一条查询sql占用900+个活跃连接。

排查该sql查询慢的原因，发现查询的表没有索引，所以触发了900+次全表扫描，从而导致业务查询过程中cpu攀升。

10.3 新炬建议

1）索引添加

对于被频繁查询的列添加适当的索引，尤其是查询条件中涉及的列。确保索引策略与查询模式相匹配，以最大限度减少全表扫描。

2）SQL重写

分析并重写效率低下的SQL查询，使用更高效的查询逻辑和结构。例如，避免不必要的子查询，使用更有效的连接（JOIN）类型等。

3）实施性能监控

使用数据库性能监控工具，实时监控数据库活动和资源使用情况。

4）配置资源限制

通过配置数据库的资源管理器，为不同的用户和会话设置CPU和内存使用限制，防止单一进程占用过多资源影响整个系统。

新炬运维避坑指南连载合集链接：

https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzUxNTYzMjA5Mg==&action=getalbum&album_id=2846038717288693763#wechat_redirect

END

本文作者：秘而不宣(上海新炬中北团队）

本文来源：“IT那活儿”公众号

数据迁移 ddl 数据库事务数据库集群 oceanbase

文章转载自IT那活儿，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

新炬运维避坑指南连载（十六-Oceanbase专题)

新炬运维避坑指南连载合集链接：

本文作者：秘而不宣(上海新炬中北团队）

本文来源：“IT那活儿”公众号

评论