openGauss每日一练第20天 | 全文检索

原创许玉冲 2021-12-22

349

本次练习学习了openGauss提供了两种数据类型用于支持全文检索。tsvector类型表示为文本搜索优化的文件格式，tsquery类型表示文本查询。

openGauss提供了两种数据类型用于支持全文检索。tsvector类型表示为文本搜索优化的文件格式，tsquery类型表示文本查询。
tsvector
tsvector类型表示一个检索单元，通常是一个数据库表中一行的文本字段或者这些字段的组合，tsvector类型的值是一个标准词位的有序列表，标准词位就是把同一个词的变型体都标准化相同的，在输入的同时会自动排序和消除重复。to_tsvector函数通常用于解析和标准化文档字符串。
tsquery
tsquery类型表示一个检索条件，存储用于检索的词汇，并且使用布尔操作符&（AND），|（OR）和!（NOT）来组合他们，括号用来强调操作符的分组。to_tsquery函数及plainto_tsquery函数会将单词转换为tsquery类型前进行规范化处理。

tsvector测试：

把一个字符串按照空格进行分词，分词的顺序是按照长短和字母排序的, 自动去掉分词中重复的词条
SELECT 'The Fat Rats'::tsvector;

–词条位置常量也可以放到词汇中
SELECT 'a:1 fat:2 cat:3 sat:4 on:5 a:6 mat:7 and:8 ate:9 a:10 fat:11 rat:12'::tsvector;

–拥有位置的词汇甚至可以用一个权来标记，反映文档结构，这个权可以是A，B，C或D。默认的是D，因此输出中不会出现
SELECT 'a:1A fat:2B,4C cat:5D'::tsvector;

–to_tsvector函数对这些单词进行规范化处理, 罗列出词条并连同它们文档中的位置
SELECT to_tsvector('english', 'The Fat Rats');

tsquery：

SELECT 'fat & rat'::tsquery;

–规范化转为tsquery类型
SELECT to_tsquery('Fat:ab & Cats');

基本文本匹配：

–全文检索基于匹配算子@@，当一个tsvector匹配到一个tsquery时，则返回true, tsvector和tsquery两种数据类型可以任意排序。
SELECT 'a fat cat sat on a mat and ate a fat rat'::tsvector @@ 'cat & rat'::tsquery AS RESULT;
SELECT 'fat & cow'::tsquery @@ 'a fat cat sat on a mat and ate a fat rat'::tsvector AS RESULT;

– to_tsvector和to_tsquery标准化处理
SELECT to_tsvector('fat cats ate fat rats') @@ to_tsquery('fat & rat') AS RESULT;
SELECT to_tsvector('fat cats ate fat rats') @@ to_tsquery('fat & cow') AS RESULT;

参考地址：

https://opengauss.org/zh/docs/2.0.0/docs/Developerguide/%E6%96%87%E6%9C%AC%E6%90%9C%E7%B4%A2%E7%B1%BB%E5%9E%8B.html

opengauss 墨力计划

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

openGauss每日一练第20天 | 全文检索

tsvector

tsquery

tsvector测试：

tsquery：

基本文本匹配：

评论