openGauss每日一练第19天|《学习openGauss统计信息、执行计划、垃圾回收和checkpoint》学习心得体会和课后练习

原创闫伟 2021-12-19

345

学习openGauss收集统计信息、打印执行计划、垃圾收集和checkpoint

课程学习

连接数据库

#第一次进入等待15秒
#数据库启动中...
su - omm
gsql -r

1.准备数据

Create schema tpcds;
CREATE TABLE tpcds.customer_address
(
ca_address_sk integer NOT NULL ,
ca_address_id character(16),
ca_street_number character(10) ,
ca_street_name character varying(60) ,
ca_street_type character(15) ,
ca_suite_number character(10) ,
ca_city character varying(60) ,
ca_county character varying(30) ,
ca_state character(2) ,
ca_zip character(10) ,
ca_country character varying(20) ,
ca_gmt_offset numeric(5,2) ,
ca_location_type character(20)
);
insert into tpcds.customer_address values
(1, 'AAAAAAAABAAAAAAA', '18', 'Jackson', 'Parkway', 'Suite 280', 'Fairfield', 'Maricopa County', 'AZ', '86192' ,'United States', -7.00, 'condo'),
(2, 'AAAAAAAACAAAAAAA', '362', 'Washington 6th', 'RD', 'Suite 80', 'Fairview', 'Taos County', 'NM', '85709', 'United States', -7.00, 'condo'),
(3, 'AAAAAAAADAAAAAAA', '585', 'Dogwood Washington', 'Circle', 'Suite Q', 'Pleasant Valley', 'York County', 'PA', '12477', 'United States', -5.00, 'single family');

omm=# select * from tpcds.customer_address;
 ca_address_sk |  ca_address_id   | ca_street_number |   ca_street_name   | ca_street_type  | 
ca_suite_number |     ca_city     |    ca_county    | ca_state |   ca_zip   |  ca_country   | 
ca_gmt_offset |   ca_location_type   
---------------+------------------+------------------+--------------------+-----------------+-
        -7.00 | condo               
             3 | AAAAAAAADAAAAAAA | 585              | Dogwood Washington | Circle          | 
----------------+-----------------+-----------------+----------+------------+---------------+-
--------------+----------------------
             1 | AAAAAAAABAAAAAAA | 18               | Jackson            | Parkway         | 
Suite 280       | Fairfield       | Maricopa County | AZ       | 86192      | United States | 
        -7.00 | condo               
             2 | AAAAAAAACAAAAAAA | 362              | Washington 6th     | RD              | 
Suite 80        | Fairview        | Taos County     | NM       | 85709      | United States | 

Suite Q         | Pleasant Valley | York County     | PA       | 12477      | United States | 
        -5.00 | single family       
(3 rows)

–使用序列的generate_series(1,N)函数对表插入数据

insert into tpcds.customer_address values(generate_series(10, 10000));
omm=# select  ca_address_sk,ca_address_id from tpcds.customer_address limit 20;
 ca_address_sk |  ca_address_id   
---------------+------------------
             1 | AAAAAAAABAAAAAAA
             2 | AAAAAAAACAAAAAAA
             3 | AAAAAAAADAAAAAAA
            10 | 
            11 | 
            12 | 
            13 | 
            14 | 
            15 | 
            16 | 
            17 | 
            18 | 
            19 | 
            20 | 
            21 | 
            22 | 
            23 | 
            24 | 
            25 | 
            26 |

2.收集统计信息

–查看系统表中表的统计信息

select relname, relpages, reltuples from pg_class where relname = 'customer_address';
omm=# select relname, relpages, reltuples from pg_class where relname = 'customer_address';
     relname      | relpages | reltuples 
------------------+----------+-----------
 customer_address |        0 |         0
(1 row)

—使用ANALYZE VERBOSE语句更新统计信息，并输出表的相关信息

analyze VERBOSE tpcds.customer_address;

–查看系统表中表的统计信息

select relname, relpages, reltuples from pg_class where relname = 'customer_address';

omm=# select relname, relpages, reltuples from pg_class where relname = 'customer_address';
     relname      | relpages | reltuples 
------------------+----------+-----------
 customer_address |       55 |      9994
(1 row)

3.打印执行计划

–使用默认的打印格式

SET explain_perf_mode=normal;

–显示表简单查询的执行计划

EXPLAIN SELECT * FROM tpcds.customer_address;

–以JSON格式输出的执行计划（explain_perf_mode为normal时）

EXPLAIN(FORMAT JSON) SELECT * FROM tpcds.customer_address;

–禁止开销估计的执行计划

EXPLAIN(COSTS FALSE)SELECT * FROM tpcds.customer_address;

–带有聚集函数查询的执行计划

EXPLAIN SELECT SUM(ca_address_sk) FROM tpcds.customer_address WHERE ca_address_sk<100;

–有索引条件的执行计划

create index customer_address_idx on tpcds.customer_address(ca_address_sk);
EXPLAIN SELECT * FROM tpcds.customer_address WHERE ca_address_sk<100;

omm=# SET explain_perf_mode=normal;
SET
omm=# EXPLAIN SELECT * FROM tpcds.customer_address;
                              QUERY PLAN                               
-----------------------------------------------------------------------
 Seq Scan on customer_address  (cost=0.00..154.94 rows=9994 width=151)
(1 row)

omm=# EXPLAIN(FORMAT JSON) SELECT * FROM tpcds.customer_address;
                 QUERY PLAN                 
--------------------------------------------
 [                                         +
   {                                       +
     "Plan": {                             +
       "Node Type": "Seq Scan",            +
       "Relation Name": "customer_address",+
       "Alias": "customer_address",        +
       "Startup Cost": 0.00,               +
       "Total Cost": 154.94,               +
       "Plan Rows": 9994,                  +
       "Plan Width": 151                   +
     }                                     +
omm=#    }                                       +
 ]
(1 row)

EXPLAIN(COSTS FALSE)SELECT * FROM tpcds.customer_address;
          QUERY PLAN          
------------------------------
 Seq Scan on customer_address
(1 row)

omm=# EXPLAIN SELECT SUM(ca_address_sk) FROM tpcds.customer_address WHERE ca_address_sk<100;
                               QUERY PLAN                                
-------------------------------------------------------------------------
 Aggregate  (cost=180.16..180.17 rows=1 width=12)
   ->  Seq Scan on customer_address  (cost=0.00..179.93 rows=94 width=4)
         Filter: (ca_address_sk < 100)
(3 rows)

omm=# create index customer_address_idx on tpcds.customer_address(ca_address_sk);
EXPLAIN SELECT * FROM tpcds.customer_address WHERE ca_address_sk<100;CREATE INDEX
omm=# 
 Index Scan using customer_address_idx on customer_address  (cost=0.00..9.90 rows=94 width=151
)
   Index Cond: (ca_address_sk < 100)
(3 rows)

                                           QUERY PLAN                                         
  
----------------------------------------------------------------------------------------------
--
 [Bypass]

4.垃圾收集

–VACUUM回收表或B-Tree索引中已经删除的行所占据的存储空间

update tpcds.customer_address set ca_address_sk = ca_address_sk + 1 where ca_address_sk <100;
VACUUM (VERBOSE, ANALYZE) tpcds.customer_address;

omm=# update tpcds.customer_address set ca_address_sk = ca_address_sk + 1 where ca_address_sk <100;
UPDATE 93
omm=# 
omm=# 
omm=# VACUUM (VERBOSE, ANALYZE) tpcds.customer_address;
INFO:  vacuuming "tpcds.customer_address"(gaussdb pid=1)
INFO:  index "customer_address_idx" now contains 10087 row versions in 31 pages(gaussdb pid=1)
DETAIL:  0 index row versions were removed.
0 index pages have been deleted, 0 are currently reusable.
CPU 0.00s/0.00u sec elapsed 0.00 sec.
INFO:  "customer_address": found 0 removable, 10087 nonremovable row versions in 55 out of 55 pages(gaussdb pid=1)
DETAIL:  93 dead row versions cannot be removed yet.
There were 0 unused item pointers.
0 pages are entirely empty.
CPU 0.00s/0.00u sec elapsed 0.00 sec.
INFO:  analyzing "tpcds.customer_address"(gaussdb pid=1)
INFO:  ANALYZE INFO : "customer_address": scanned 55 of 55 pages, containing 9994 live rows and 93 dead rows; 9994 rows in sample, 9994 estimated total rows(gaussdb pid=1)
VACUUM

5.事务日志检查点

–检查点（CHECKPOINT）是一个事务日志中的点，所有数据文件都在该点被更新以反映日志中的信息，所有数据文件都将被刷新到磁盘CHECKPOINT;

checkpoint;

6.清理数据

drop schema tpcds cascade;

课后作业

1.创建分区表，并用generate_series(1,N)函数对表插入数据

create table test_table
(
        c1 int,
        c2 text
)
partition by range (c1)
(
        partition test_table_p0 values less than (100),
        partition test_table_p1 values less than (1000),
        partition test_table_p2 values less than (15000)
);

INSERT INTO test_table SELECT id,md5(id::varchar) FROM generate_series(1,10000) AS id;

2.收集表统计信息

analyze VERBOSE test_table;
select relname, relpages, reltuples from pg_class where relname = 'test_table';

omm=# 
analyze VERBOSE test_table;
INFO:  analyzing "public.test_table"(gaussdb pid=1)
INFO:  ANALYZE INFO : "test_table": scanned 1 of 1 pages, containing 99 live rows and 0 dead rows; 99 rows in sample, 99 estimated total rows(gaussdb pid=1)
INFO:  ANALYZE INFO : "test_table": scanned 8 of 8 pages, containing 900 live rows and 0 dead rows; 900 rows in sample, 900 estimated total rows(gaussdb pid=1)
INFO:  ANALYZE INFO : "test_table": scanned 76 of 76 pages, containing 9001 live rows and 0 dead rows; 9001 rows in sample, 9001 estimated total rows(gaussdb pid=1)
ANALYZE
omm=# select relname, relpages, reltuples from pg_class where relname = 'test_table';
  relname   | relpages | reltuples 
------------+----------+-----------
 test_table |       85 |     10000
(1 row)

3.显示简单查询的执行计划；建立索引并显示有索引条件的执行计划

EXPLAIN SELECT * FROM test_table;

create index test_idx on test_table(c1);
EXPLAIN SELECT * FROM test_table  WHERE c1<100;
omm=# EXPLAIN SELECT * FROM test_table  WHERE c1<100;
                                  QUERY PLAN                                   
-------------------------------------------------------------------------------
 Index Scan using test_idx on test_table  (cost=0.00..10.00 rows=100 width=37)
   Index Cond: (c1 < 100)
(2 rows)

4.更新表数据，并做垃圾收集

update test_table set c1 = c1 + 1 where c1 <1000;

VACUUM (VERBOSE, ANALYZE) test_table;

5.清理数据

drop table test_table;

opengauss opengauss每日一练

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

文章被以下合辑收录

Murkey的PostgreSQL学习之旅（共40篇）

个人PG的学习总结

openGauss每日一练第19天|《学习openGauss统计信息、执行计划、垃圾回收和checkpoint》学习心得体会和课后练习

课程学习

1.准备数据

2.收集统计信息

3.打印执行计划

4.垃圾收集

5.事务日志检查点

6.清理数据

课后作业

文章被以下合辑收录

评论