Elasticsearch PB级冷热分离低成本存储方案

1. 术语与概念

在Elasticsearch集群中,为了实现PB级数据的高效管理和存储,我们可以利用冷热分离架构来优化存储成本和查询性能。以下是相关的术语和概念:

  • Index Template(索引模板):定义索引的默认结构,包括映射、设置和别名。
  • Alias(索引别名):为索引提供一个逻辑上的名称,便于查询和管理。
  • ILM(Index Lifecycle Management,索引生命周期管理):用于控制索引在其生命周期中的状态。
  • 索引生命周期管理阶段(ILM Phases)
    • Hot Phase(热数据阶段):存储近期高频访问的数据,建议使用高CPU配置 + SSD RAID存储
    • Warm Phase(温数据阶段):存储较少访问的历史数据,建议使用中等CPU配置 + SSD存储
    • Cold Phase(冷数据阶段):存储长期归档数据,建议使用低CPU配置 + 机械硬盘存储
    • Delete Phase(删除阶段):删除过期数据,释放存储空间。

2. 前置条件

2.1 设置索引生命周期刷新频率

Elasticsearch默认每10分钟刷新一次索引生命周期管理(ILM)。为了更快应用索引生命周期策略,可以调整为5秒。

PUT _cluster/settings
{
    "persistent": {
        "indices.lifecycle.poll_interval": "5s"
    }
}

2.2 设置Elasticsearch节点角色(可选)

为了实现冷热分离,我们可以为不同的Elasticsearch节点分配相应的角色。

node.attr.hotwarm_type: warm

3. 操作步骤

以 order 订单关系表为例:

CREATE TABLE `order` (
    user_name VARCHAR(100),
    order_id VARCHAR(100)
);

3.1 创建索引生命周期策略(order_policy)

在Elasticsearch中,我们可以定义索引的生命周期策略来自动化管理数据的存储位置和存储方式。

3.2 创建索引模板(order_template)

索引模板用于自动化索引的创建,确保新创建的索引符合生命周期策略和结构定义。

PUT index_template/order_template 
{
    "priority": 200,
    "index_patterns": [
        "order_*"
    ],
    "template": {
        "settings": {
            "index": {
                "lifecycle": {
                    "name": "order_policy",
                    "rollover_alias": "order_alias"
                },
                "number_of_shards": "3",
                "number_of_replicas": "1"
            }
        },
        "aliases": {
            "order_alias": {}
        },
        "mappings": {
            "properties": {
                "user_name": {
                    "type": "keyword"
                },
                "order_id": {
                    "type": "keyword"
                }
            }
        }
    }
}

3.3 创建索引(基于索引模板)

在实际应用中,我们通常按照时间周期(如每月)创建索引,并归档数据。

PUT /order_202001

3.4 查看索引结构

可以使用以下命令查看 order_202001 索引的详细信息。

GET /order_202001

3.5 根据索引别名查询数据

GET /order_alias/_search
{
    "query": {
        "match_all": {}
    }
}

4. 总结

通过冷热分离策略,我们可以:

  • 热数据阶段使用高性能存储和计算资源,确保查询效率。
  • 温数据阶段优化存储成本,同时保留查询能力。
  • 冷数据阶段将数据存放在低成本的存储介质上,仅用于归档。
  • 通过索引生命周期管理(ILM),自动完成数据的存储阶段转换,提高管理效率。

这套方案可以有效降低存储成本,同时确保数据的可用性。如果你的业务涉及大规模数据存储和查询,可以考虑使用此策略来优化资源管理。