问题描述
目前SQL如下:
select b.object_name from test_tab1 a ,test_tab2 b where a.object_name = 'TAB' and a.data_object_id = b.data_object_id
在该语句中,首先对各个表的数据量进行分析。
通过以上数据可以得出,由于data_object_id连接列是未建有索引,所以在扫描TEST_TAB2这张表时,一定是全表扫描,且这两张表的数据量也较多,所以在这使用NL,由于TEST_TAB2表的数据量更少,所以会作为被驱动表,所以会进行12次对TEST_TAB2的全表扫描,显然不是最好的,所以在这使用HASH_JOIN是更好的选择。
查看该语句的执行计划
在这个执行计划当中,表连接部分的执行逻辑:
step1: select * from TEST_TAB1 where object_name=’TAB’ and data_object_id is not null;
step2: select object_name from TEST_TAB2 and data_object_id is not null;
step3: 得到上述两条语句的结果集,将最小的结果集作为驱动表
step4: 通过等值条件计算驱动表结果集的hash值,放在hash_bucket中,存储了连接列的值。
step5: 通过等值条件计算被驱动表结果集的hash值,去对应的hash_bucket中找到应的值,最后
得到object_name这列的值。
该SQL应该如何优化?
专家解答
优化思路:
1. TEST_TAB2为执行全表扫描,消耗较大,应该针对连接列建立索引,由于该SQL语句中只需查询到TEST_TAB2中object_name值,所以添加object_name这列的索引来需要取消回表的操作。
2. TEST_TAB1中虽然有索引,但是由于需要查询到data_object_id的连接列,所以有回表的操作,需立data_object_id建立索引,而且由于有where object_name=’TAB’的条件,索引需要建立索引。
优化方法:
1. TEST_TAB1: create index inx_test_tab1_1 on test_tab1 (object_name,data_object_id);
2. TEST_TAB2: create index inx_test_tab2_1 on test_tab2 (data_object_id,object_name);
在这个执行计划当中,表连接部分的执行逻辑:
step1:select data_object_id from TEST_TAB1 where object_name=’TAB’ and data_object_id is not null;
setp2:得到的值进行循环带入到step3中进行查询
step3:select object_name from TEST_TAB2 data_object_id=:TEST_TAB1. data_object_id where data_object_id is not null;