暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Elasticsearch学习-父子文档

dalaoyang 2020-05-17
654

本文以Elasticsearch 6.8.4版本为例,介绍Elasticsearch父子文档的使用。

上一篇文章介绍了Elasticsearch的嵌套文档,这一篇来介绍另外一种关系文档,父子文档。

1、父子文档

父子文档在理解上来说,可以理解为一个关联查询,有些类似MySQL中的JOIN查询,通过某个字段关系来关联。

父子文档与嵌套文档主要的区别在于,父子文档的父对象和子对象都是独立的文档,而嵌套文档中都在同一个文档中存储,如下图所示:

这里引用官网的话,对比嵌套文档来说,父-子关系的主要优势有:

  • 更新父文档时,不会重新索引子文档。

  • 创建,修改或删除子文档时,不会影响父文档或其他子文档。这一点在这种场景下尤其有用:子文档数量较多,并且子文档创建和修改的频率高时。

  • 子文档可以作为搜索结果独立返回。

1.1 创建索引

这里还是以嵌套文档的数据为例,假设数据如下:

  1. [

  2. {

  3. "title":"这是一篇文章",

  4. "body":"这是一篇文章,从哪里说起呢?... ..."

  5. },

  6. {

  7. "name":"张三",

  8. "comment":"写的不错",

  9. "age":28,

  10. "date":"2020-05-04"

  11. },

  12. {

  13. "name":"李四",

  14. "comment":"写的很好",

  15. "age":20,

  16. "date":"2020-05-04"

  17. },

  18. {

  19. "name":"王五",

  20. "comment":"这是一篇非常棒的文章",

  21. "age":31,

  22. "date":"2020-05-01"

  23. }

  24. ]

创建索引名和type均为blog的索引,从上面数据可以看出,其实父文档(博客内容)与子文档分别用不同的字段来存储对应的数据,不过在创建索引文档的时候需要指定父子文档的关系,即文章为parent,留言为child,创建索引语句如下:

PUT http://localhost:9200/blog/

  1. {

  2. "mappings": {

  3. "blog": {

  4. "properties": {

  5. "date": {

  6. "type": "date"

  7. },

  8. "name": {

  9. "type": "text",

  10. "fields": {

  11. "keyword": {

  12. "type": "keyword"

  13. }

  14. }

  15. },

  16. "comment": {

  17. "type": "text",

  18. "fields": {

  19. "keyword": {

  20. "type": "keyword"

  21. }

  22. }

  23. },

  24. "age": {

  25. "type": "long"

  26. },

  27. "body": {

  28. "type": "text",

  29. "fields": {

  30. "keyword": {

  31. "type": "keyword"

  32. }

  33. }

  34. },

  35. "title": {

  36. "type": "text",

  37. "fields": {

  38. "keyword": {

  39. "type": "keyword"

  40. }

  41. }

  42. },

  43. "relation": {

  44. "type": "join",

  45. "relations": {

  46. "parent": "child"

  47. }

  48. }

  49. }

  50. }

  51. }

  52. }

如下图所示

1.2 插入数据

插入父文档数据,需要指定上文索引结构中的relation为parent,如下:

POST http://localhost:9200/blog/blog/1/

  1. {

  2. "title":"这是一篇文章",

  3. "body":"这是一篇文章,从哪里说起呢?... ...",

  4. "relation":"parent"

  5. }

插入子文档,需要在请求地址上使用routing参数指定是谁的子文档,并且指定索引结构中的relation关系,如下:

POST http://localhost:9200/blog/blog/2?routing=1

  1. {

  2. "name":"张三",

  3. "comment":"写的不错",

  4. "age":28,

  5. "date":"2020-05-04",

  6. "relation":{

  7. "name":"child",

  8. "parent":1

  9. }

  10. }

POST http://localhost:9200/blog/blog/3?routing=1

  1. {

  2. "name":"李四",

  3. "comment":"写的很好",

  4. "age":20,

  5. "date":"2020-05-04",

  6. "relation":{

  7. "name":"child",

  8. "parent":1

  9. }

  10. }

POST http://localhost:9200/blog/blog/4?routing=1

  1. {

  2. "name":"王五",

  3. "comment":"这是一篇非常棒的文章",

  4. "age":31,

  5. "date":"2020-05-01",

  6. "relation":{

  7. "name":"child",

  8. "parent":1

  9. }

  10. }

插入完成后,如下图所示。

从这里其实可以很明显的看出与嵌套文档的区别了,嵌套文档只有一个文档,而这里是有四个文档。

1.3 查询

普通查询这里不进行赘述,关系查询的话其实很好理解,大致分为两种特殊情况:

  1. 根据父文档查询子文档 has_child

  2. 根据子文档查询父文档 has_parent

接下来我们来看如何进行关系查询,首先看一下通过子文档查询父文档,比如这样的场景,查询名称是张三的人留言的文章,查询语句如下:

  1. {

  2. "query": {

  3. "has_child": {

  4. "type":"child",

  5. "query": {

  6. "match": {

  7. "name": "张三"

  8. }

  9. }

  10. }

  11. }

  12. }

查询结果如下:

使用has_child来根据子文档内容查询父文档,其实type就是创建文档时,子文档的标识。

在使用子查父的时候,可以添加一些筛选条件来增强匹配的结果,比如最大匹配maxchildren和最小匹配minchildren,这里有点类似should查询的minimumshouldmatch,感兴趣的可以去官网了解更多的细节。

到这里,其实对Elasticsearch特性了解的读者就会知道如何根据父文档查询子文档了,只需要注意一点,父查子type需要修改成parent_type,其余都与自查父类似,比如查询标题为“这是一篇文章”的数据的留言内容,查询语句如下:

  1. {

  2. "query": {

  3. "has_parent": {

  4. "parent_type":"parent",

  5. "query": {

  6. "match": {

  7. "title": "这是一篇文章"

  8. }

  9. }

  10. }

  11. }

  12. }

查询结果如下:

由于只有一组父子文档,效果不是很明显,感兴趣可以多造一些数据去体验

聚合查询与嵌套文档类似,比较简单,这里在说明另外一种场景:祖辈和孙辈可以创建吗?比如本文中的留言如果它也有子文档,那么可以根据文章查询孙辈吗?答案是可以的,只需要在haschild里面在嵌套一层haschild查询即可。

1.4 使用建议

  1. 父子文档都可以独立返回,对于某些场景很适用,比如主表信息是一些基本不变的数据,而子表信息经常增删改,并且子表信息经常有查询场景,这样就很适合使用父子文档。

  2. 父子文档需要在同一分片上,当然,我们无需做特殊处理,默认就会为我放入同一个分片,其实原理是这样的,Elasticsearch会根据routing中的参数去看父文档所在分片在哪,然后将对应文档存储进去。

  3. 父子文档查询效率相对嵌套文档较低,官网说是5-10倍左右。

其余官网也给定了一些建议,具体可以查看官方文档,地址:https://www.elastic.co/guide/cn/elasticsearch/guide/current/parent-child-performance.html


文章转载自dalaoyang,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论