Elasticsearch运维实践

IT那活儿 2021-01-24

653

点击上方蓝字关注我们

主要内容：

Elasticseach介绍

Elasticseach使用场景

Elasticseach数据清理

一、Elasticsearch介绍

1.1 导语

Elasticsearch（文中简称ES）是分布式全文搜索引擎，产品提供高可用、易扩展以及近实时的搜索能力，广泛应用于数据存储、搜索和实时分析。很多服务的可用性对ES重度依赖。以下为es的核心概念。

1.2 Elasticsearch数据写入

Elasticsearch数据写入过程包含同步与异步两个过程，如下图所示：

同步过程：是指在请求返回前做的事情，即包含在一个HTTP请求的过程中，客户端需要等其做完才能拿到结果。简单来看，这个过程需要完成三件事：第一，将操作记录写入到translog中，我们后面再来谈它的作用；第二，根据数据生成相应的数据结构，并写入到in-memorybuffer，注意是写入到一个内存buffer中，不是磁盘；第三，将数据同步到所有replicashard中。完成这些之后，就会生成相应的结果返回给coordinate节点了。

异步过程：一般来说，写磁盘很慢，且非常耗费CPU与IO，在同步过程中，为了让请求尽快返回，并没有将数据直接落盘。Elasticsearch的最小数据单元是segment，而此时数据还在in-memorybuffer中，因此这部分数据是不能被查询请求访问到的。只有当发生refresh动作，才会产生一个新的segment，将内存buffer中的数据写入到里面，同时清空buffer。默认refresh的时间间隔是1秒，可以配置，需要在实时性与性能之间进行权衡。此时虽然已经生成了新的segment文件，但是只是停留在filesystemcache中，并没有真正的落到磁盘中。这些动作的目的都是为了将"写磁盘"这件事尽可能的延后并变得低频，但是数据一直留在内存中始终是不安全的，很容易因为断电等原因导致数据丢失，因此每隔一段时间，Elasticsearch会真正做一次磁盘flush，完成数据的持久化。