Halo数据库的性能诊断与调优

原创贾桂军 2023-12-04

15029

1 HWR扩展的概念

HWR可以帮助我们找出Halo数据库中大多数资源消耗活动。

扩展是基于Halo的标准统计视图。它在指定时间生成快照，并且提供html格式来解释快照之间的统计数据。假设几个小时前报告数据库性能下降，定期采样快照可以帮助查找过去时间大多数资源密集型活动。我们可以在两个示例之间生成一个报告，查看数据库的负载配置文件以限制性能问题周期。

它是用纯pl/ pgsql编写的，不需要任何外部库或软件。通过调用take_sample（）函数获取示例。我们需要使用 cron来安排作业。

每次获取样本时，都会调用pg_stat_statements_reset（），来保证不会因为达到pg_stat_statements.max而丢失语句。

安装在一个集群中的 HWR 能够从其他集群（称为服务器）收集统计信息。我们只需要定义一些服务器，提供名称和连接字符串，并确保可以与所有服务器的所有数据库建立连接。比方说，我们可以从主服务器或任何其他服务器跟踪备用数据库的统计信息。安装扩展后，将根据HWR所在的主机名自动创建服务器。

2 前置条件

HWR数据库前置条件：

HWR扩展依赖于扩展plpgsql和dblink。

服务器前置条件：

服务器群集的唯一强制性要求是能够使用提供的服务器连接字符串从HWR 数据库进行连接。所有其他要求都是可选的，但它们可以提高收集的统计信息的完整性。

设置以下统计信息收集器参数：

l track_activities = on

l track_counts = on

l track_io_timing = on

l track_wal_io_timing = on # Since Hao 14

l track_functions = all/pl

如果需要报表中的语句统计信息，则服务器连接字符串中提到的数据库必须配置pg_stat_statements扩展名。设置pg_stat_statements参数以满足需求：

pg_stat_statements.max - 此参数的低设置可能会导致在获取样本之前清除某些语句统计信息。如果pg_stat_statements.max值似乎过小，报告会发出警告。

pg_stat_statements.track = 'top' - 在 Halo 14之前，所有值都会影响报告中与报表相关的部分的 %Total 字段的准确性。

3 HWR的安装

步骤1 创建扩展

psql

# create schema hwr;

# create extension hwr schema hwr cascade;

# \dx

所有对象都将在HWR中创建。

在postgresql.conf中配置参数：

shared_preload_libraries = 'pg_stat_statements' # (change requires restart)

步骤2 准备脚本hwr_take_sample.sh

$ cd $HALO_HOME/admin/hwr

$ cp hwr_take_sample.sh.sample hwr_take_sample.sh

修改hwr_take_sample.sh中的HALO_HOME、PGHOST环境变量。（根据实际路径配置环境变量)

$ chmod 750 hwr_take_sample.sh

步骤3 为用户Halo启用crontab

如果未为用户Halo启用 cron，以 root 用户身份运行以下命令

$ echo halo >> /etc/cron.allow

步骤4 将hwr_take_sample.sh添加到crontab

编辑用户的crontab:

$ crontab -e

列出用户的crontab

$ crontab -l

例如每小时：

00 * * * * <HALO_HOME>/admin/hwr/hwr_take_sample.sh > <HALO_HOME>/admin/hwr/hwr_take_sample.sh.log 2>&1

Change <HALO_HOME> to the real path.

根据需求修改工作频率。

4 如何使用HWR

设置扩展参数

我们可以在 postgresql.conf 中定义扩展参数。默认值：

hwr.topn = 20

要在每个排序的报告表中报告的顶级对象（语句、关系等）的数量。此外，此参数会影响样本的大小。我们希望在报表中显示的对象越多，则需要在样本中保留的对象就越多。

hwr.max_sample_age = 7

样本的保留时间（以天为单位）。样本、老化 hwr.max_sample_age 天数等将在下次take_sample（）调用时自动删除。

hwr.track_sample_timings = off

当此参数打开时，HWR 将跟踪详细的采样计时。

hwr.max_query_length = 20000

报表的查询长度限制。报表中的所有查询都将截断到此长度。此设置不影响查询文本的收集。在示例期间收集完整的查询文本，因此可以获得。

样品

每个采样都包含自上一个采样以来有关数据库工作负荷的统计信息。

示例函数：

take_sample() 函数将收集所有已启用服务器的示例。服务器样本将逐个顺序采集。函数返回一个表：

server name,

result text,

elapsed interval

server 是服务器名称。

result 是取样的结果。如果连续采集样本，则可为"OK"，并且在异常情况下将包含错误文本。

elapsed是为服务器获取样本所经过的时间，此类返回使得使用 SQL 查询控制样本创建变得容易。

函数show_samples([server name,] [days integer]) 返回一个表，其中包含服务器（如果省略服务器，则假定为本地服务器）的最后几天的现有样本（如果省略则为所有现有样本）：

sample integer,

sample_time timestamp (0) with time zone,

sizes_collected boolean,

dbstats_reset timestamp (0) with time zone,

clustats_reset timestamp (0) with time zone,

archstats_reset timestamp (0) with time zone

sample 是示例标识符。

ample_time是采集此样本的时间。

如果在此示例中收集了所有关系大小，则设置sizes_collected。

dbstats_reset，clustats_reset和archstats_reset通常为空，但会包含pg_stat_database，pg_stat_bgwriter和pg_stat_archiver统计信息重置时间戳，因为以前的示例样本收集函数也支持服务器存储库，它将删除有关保留策略的过时样本和基线。

采集样品

我们必须至少创建2个样本，才能在第1个样本和第2个样本之间生成第一个报表。所有已启用服务器的示例都是通过调用 take_sample（）函数来获取的。不需要频繁创建样本。通常基本频率是每小时一个或两个样本。您可以使用类似 cron 的工具来计划示例创建。例如，30分钟周期：

*/30 * * * psql -c 'SELECT hwr.take_sample（）' > /dev/null 2>&1

但是，此类调用不会对take_sample（）函数结果进行错误检查。考虑更智能地使用take_sample（）函数，为您的监控系统提供结果。

对于成功采集样本的所有服务器，函数将返回"OK"，并为出现故障的服务器显示错误文本：

halo0root=# select * from hwr.take_sample();

server | result | elapsed

-----------------------+--------+-------------

localhost.localdomain | OK | 00:00:00.14

(1 行记录)

halo0root=# select * from hwr.samples;

server_id | sample_id | sample_time

-----------+-----------+------------------------

1 | 1 | 2022-08-19 15:35:53+08

1 | 2 | 2022-08-19 15:35:55+08

(2 行记录)

实例数据保留

我们无法永久存储示例数据，因此我们有一个保留策略，可以在三个级别上定义保留期：

在 postgresql.conf 文件中设置参数 hwr.max_sample_age。这是一个常见的保留，如果没有定义其他保留，则它是有效的。

一般的，使用 show_samples（）函数获取存储库中现有样本的列表。此功能将显示检测到的统计信息重置时间。

select hwr.show_samples('node1',1);

5 报告

报告函数以 HTML 标记形式生成。

定期报告功能：

get_report([server name,] start_id integer, end_id integer [, description text [, with_growth boolean]]) 通过示例标识符生成报告。

get_report([server name,] time_range tstzrange [, description text [, with_growth boolean]]) 生成最短采样间隔的报告，涵盖提供time_range。

get_report([server name], baseline varchar(25) [, description text [, with_growth boolean]]) 使用基线作为采样间隔生成报告。

get_report_latest([server name]) 为两个最新示例生成报告。

函数参数：

l server - 服务器名称。如果省略，则假定为本地服务器。

l start_id - 间隔开始示例标识符。

l end_id - 间隔结束样本标识符。

l time_range - 时间范围（tstzrange 型）。

l baseline - 基线名称。

l with_growth - 一个标志，请求间隔扩展到最近的边界，并提供相关增长数据。默认值为假。

l description - 文本备忘录，它将作为报告描述包含在报告中。

通常，您可以使用以下命令生成HWR报告。

psql -f $HALO_HOME/admin/hwr/hwrrpt.sql

举个列子：

[halo@node1 ~]$ psql -f $HALO_HOME/admin/hwr/hwrrpt.sql

Server list in this HWR schema

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

server_id | server_name | server_created | enabled | co

nnstr

-----------+-------------+-------------------------------+---------+------------

----------------

1 | node1 | 2022-02-11 14:20:28.640646+08 | t | dbname=halo

0root port=1921

(1 row)

Please enter the server id: 1

Specify the number of days of snapshots to choose from

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Entering the number of days (n) will result in the most recent

(n) days of snapshots being listed. Pressing <return> without

specifying a number lists all completed snapshots.

Enter value for num_days: 1

server_id |sample_id | sample_time

-----------+-----------+------------------------

1 | 1 |2022-02-11 10:00:01+08

1 | 2 |2022-02-11 11:00:02+08

1 | 3 |2022-02-11 11:13:12+08

……

（384rows）

指定开始和结束快照 ID

Specify the Begin and End Snapshot Ids

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Begin Snapshot Id specified: 381

End Snapshot Id specified: 382

hwr_report_381_382.html generated

$ ls -l hwr_report_381_382.html

-rw-r--r-- 1 halo halo 122829 Feb 15 10:00

hwr_report_381_382.html

我们还可以根据自己的要求直接生成具有报告功能的报告。报告生成示例：

$ psql -Aqtc "SELECT hwr.get_report（480，482）" -o report_480_482.html

使用时间范围生成报告：

psql -Aqtc "select hwr.get_report（tstzrange（'2022-02-15 09：51：35+03'，'2020-02-15 10：00：18+03'））" -o report_range.html

此外，时间范围对于生成定期报告非常有用。让我们构建最后 24 小时报告：

psql -Aqtc "select hwr.get_report（tstzrange（now（） - interval '1 day'，now（）））" -o last24h_report.html

现在，我们可以使用任何 Web 浏览器查看报告文件。

halo 数据库国产数据库分布式数据库集中式数据库

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

Halo数据库的性能诊断与调优

评论