如何优化 Elasticsearch 索引阶段的性能？

回答重点

在优化 Elasticsearch 索引阶段性能时，有几个关键的措施可以采取：
1）适当地设置刷新间隔（refresh interval）。
2）调整索引的分片数量和副本数量。
3）批量导入数据代替单条数据的插入。
4）使用合适配置的硬件资源（如CPU，内存和磁盘）。
5）关闭不必要的索引功能，比如 _all 字段。

扩展知识

Elasticsearch 处理大规模数据的搜索和分析非常高效，但优化索引性能可以更加提升系统的整体效率。下面是一些扩展点：

1）刷新间隔（Refresh Interval）：

默认刷新间隔为1秒，这使得数据几乎实时可搜索。但频繁的刷新会导致系统资源的浪费。在批量导入期间，将 refresh_interval 调整为较长的间隔时间或关闭 (-1) 可以显著提升性能。

比如，通过以下命令将 refresh_interval 设为30秒：

PUT /myindex/_settings
{
  "index": {
    "refresh_interval": "30s"
  }
}

2）优化分片和副本设置：

分片（shards）数量少会导致集群压力大，多则可能浪费资源。选择适合的数据拆分个数，目标是使每个节点的分片数据尽量平衡。
副本数量在批量写入时可以临时设为0，以减轻负载，等数据导入完成后再恢复原有设置。

修改副本数的设置如下：

PUT /myindex/_settings
{
  "index": {
    "number_of_replicas": 0
  }
}

3）批量操作（Bulk API）：

与单条数据的插入相比，使用 Bulk API 可以显著减少请求次数，减少网络开销和数据解析的时间，是优化写入性能的首选方法。

批量请求示例：

POST /_bulk
{ "index": { "_index": "myindex", "_id": "1" } }
{ "field1": "value1", "field2": "value2" }
{ "index": { "_index": "myindex", "_id": "2" } }
{ "field1": "value1", "field2": "value2" }

4）硬件资源配置：

适合的硬件资源配置可以显著提高性能。包括充足的内存、快速的CPU、以及适合的磁盘类型（如 SSD）。在数据量较大的场景下，多节点分布式集群更有优势。

5）关闭不必要的索引功能：

关闭 _all 字段：对大部分场景来说，这是一个功能强大但无用的特性，可以关闭，以减少存储空间和索引时间。

禁用 _all 字段的配置如下：

PUT /myindex
{
  "mappings": {
    "_all": {
      "enabled": false
    }
  }
}