业务问题

业务需求是不断变化迭代的,也许我们之前写的某个业务逻辑在下个版本就变化了,我们可能需要修改原来的设计,例如数据库可能需要添加一个字段或删减一个字段,而在搜索中也会发生这件事,即使你认为现在的索引设计已经很完美了,在生产环境中,还是有可能需要做一些修改的,需要添加映射字段或者需要修改字段类型等等。

数据库中我们可以直接修改原来的表设计语句,前提是需要做好数据迁移。但是在 Elasticsearch 中就没那么简单了。尽管可以增加新的类型到索引中,或者增加新的字段到类型中,但是不能添加新的分析器或者对现有的字段做改动。如果你那么做的话,结果就是那些已经被索引的数据就不正确,搜索也不能正常工作。针对这个问题必须重新建立索引。

别名定义

重新建立索引的问题是必须更新应用中的索引名称,索引别名就是用来解决这个问题的!

假设我们有个学生的原始索引 student_index_v1,我们给它起个别名 student_index,程序中也是用别名 student_index 进行搜索,当我们的业务需求发生改变需要修改索引的时候,我们重新创建个索引 student_index_v2,同时将别名 student_index 指向新的索引 student_index_v2,同时将 student_index_v1 的数据迁移到新的 student_index_v2,这样我们就可以做到在零停机下从旧索引切换到新索引。

索引别名就像一个快捷方式或软连接,可以指向一个或多个索引,也可以给任何一个需要索引名的API来使用,而且别名不能与索引同名。

别名带给我们极大的灵活性,允许我们做下面这些:

  • 在运行的集群中可以无缝的从一个索引切换到另一个索引。
  • 给多个索引分组。
  • 给索引的一个子集创建视图。

别名管理

别名还可以映射到某个索引也可以映射到多个索引。别名还可以与筛选器关联,筛选器将在搜索和路由值时自动应用,别名不能与索引同名。

Elasticsearch 中有两种方式管理别名: _alias 用于单个操作, _aliases 用于执行多个原子级操作。

单个索引别名

POST /_aliases
{"actions" : [{ "add" : { "index" : "test1", "alias" : "alias1" } }]
}

删除别名

POST /_aliases
{"actions" : [{ "remove" : { "index" : "test1", "alias" : "alias1" } }]
}

重命名别名

POST /_aliases
{"actions" : [{ "remove" : { "index" : "test1", "alias" : "alias1" } },{ "add" : { "index" : "test2", "alias" : "alias1" } }]
}

重命名别名是一个简单的删除然后指向新的索引。这个操作是原子性的,因此不需要担心短时间内的别名不指向一个索引。

将别名与多个索引关联

POST /_aliases
{"actions" : [{ "add" : { "index" : "test1", "alias" : "alias1" } },{ "add" : { "index" : "test2", "alias" : "alias1" } }]
}

亦可以通过索引数组的方式来实现

POST /_aliases
{"actions" : [{ "add" : { "indices" : ["test1", "test2"], "alias" : "alias1" } }]
}

对于上面的示例,还可以使 glob pattern 将别名关联到拥有公共名称的多个索引:

POST /_aliases
{"actions" : [{ "add" : { "index" : "test*", "alias" : "all_test_indices" } }]
}

Filtered Aliases

过滤器别名提供了一个简单的方法对同一个索引来创建不同的“视图”。过滤器能够使用Query DSL来定义并且被应用到所有的搜索,统计,通过查询删除和其它类似的行为。

为了创建一个带过滤器的别名,首先需要确保映射的字段已经存在于mapping中。

PUT /test1
{"mappings": {"_doc": {"properties": {"user" : {"type": "keyword"}}}}
}

然后我们可以创建一个在user字段上带过滤器的别名。

POST /_aliases
{"actions" : [{"add" : {"index" : "test1","alias" : "alias2","filter" : { "term" : { "user" : "kimchy" } }}}]
}

成功则返回

{"acknowledged":true}

这样设置之后,我们通过 test1 这个 index 直接进行搜索可以看到索引的全部文档,但是通过 alias2 这个别名就只能看到符合过滤器过滤后的结果了,即只有一个 user 为 “kimchy” 的结果。

Routing

可以将路由值与别名关联。这个特性可以与过滤别名一起使用,以避免不必要的碎片操作。

何为路由?
所有的文档 API( get 、 index 、 delete 、 bulk 、 update 以及 mget )都接受一个叫做 routing 的路由参数 ,通过这个参数我们可以自定义文档到分片的映射。一个自定义的路由参数可以用来确保所有相关的文档—例如所有属于同一个用户的文档都被存储到同一个分片中。

以下命令创建一个指向索引 test 的新别名 alias1。创建 alias1 后,所有具有此别名的操作将自动修改为使用值 1 进行路由:

POST /_aliases
{"actions" : [{"add" : {"index" : "test","alias" : "alias1","routing" : "1"}}]
}

还可以为搜索和索引操作指定不同的路由值

POST /_aliases
{"actions" : [{"add" : {"index" : "test","alias" : "alias2","search_routing" : "1,2","index_routing" : "2"}}]
}

如上例所示,搜索路由(search_routing)可能包含几个用逗号分隔的多个值,但是 索引路由(index_routing)就只能包含一个值。

如果使用路由别名的搜索操作也有路由参数,则使用搜索别名路由和参数中指定的路由的交集。例如,下面的命令将使用“2”作为路由值。因为搜索操作中有路由参数2,3,而搜索路由设置的是1,2,所以取交集即为2。

GET /alias2/_search?q=user:kimchy&routing=2,3

别名示例

仍然以上面学生的例子, student_index 是一个指向当前真实索引的别名。真实索引包含一个版本号: student_index_v1 , student_index_v2 等等。

首先,创建索引 student_index_v1 ,然后将别名 student_index 指向它:

PUT /student_index_v1  // 创建索引 student_index_v1 。
PUT /student_index_v1/_alias/student_index  //设置别名 student_index 指向 student_index_v1 。

你可以检测这个别名指向哪一个索引:

GET /*/_alias/student_index

或哪些别名指向这个索引:

GET /student_index_v1/_alias/*

两者都会返回下面的结果:

{"student_index_v1" : {"aliases" : {"student_index" : { }}}
}

然后,我们决定修改索引中一个字段的映射。当然,我们不能修改现存的映射,所以我们必须重新索引数据。 首先, 我们用新映射创建索引 student_index_v2 :

PUT /student_index_v2
{"mappings": {"my_type": {"properties": {"tags": {"type":   "string","index":  "not_analyzed"}}}}
}

然后我们将数据从 student_index_v1 索引到 student_index_v2 ,下面的过程在重新索引你的数据 中已经描述过。一旦我们确定文档已经被正确地重索引了,我们就将别名指向新的索引。

一个别名可以指向多个索引,所以我们在添加别名到新索引的同时必须从旧的索引中删除它。这个操作需要原子化,这意味着我们需要使用 _aliases 操作:

POST /_aliases
{"actions": [{ "remove": { "index": "student_index_v1", "alias": "student_index" }},{ "add":    { "index": "student_index_v2", "alias": "student_index" }}]
}

经过以上几步操作,你的应用就成功在零停机的情况下从旧索引迁移到新索引了。其实别名还有更多管理的语法。

文档迁移

对于新旧索引的文档数据迁移,字段 _source 的一个优点是在Elasticsearch中已经有整个文档。你不必从源数据中重建索引,而且那样通常比较慢。

为了有效的重新索引所有在旧的索引中的文档,用 scroll 从旧的索引检索批量文档 , 然后用 bulk API 把文档推送到新的索引中。

对现有数据的这类改变最简单的办法就是重新索引:用新的setting创建新的索引并把文档从旧的索引复制到新的索引。

总结

在你的应用中最好的方式是使用别名而不是索引名。这样你就可以在任何时候重建索引。别名的开销很小,应该广泛使用。本文主要整理自官方文档。

参考

干货 | Elasticsearch Reindex性能提升10倍+实战

Elasticsearch: 索引别名Aliases相关推荐

  1. Elasticsearch 索引别名应用

    Elasticsearch 索引别名应用 Elasticsearch支持给索引增加别名,即可以给一个或多个索引增加一个别名.后续查询自动转换别名为实际索引名称.别名也可以和过滤器一起使用实现类似与视图 ...

  2. Elasticsearch索引别名alias操作

    注:以下操作是在Kibana的"开发工具"中完成,既然了解elasticsearch就默认大家会"elasticsearch的界面"Kibana了 操作环境:E ...

  3. ElasticSearch索引别名和零停机

    起因 显而易见,如果我们需要修改索引,而重建需要删除旧的索引,会导致线上服务不可用,因此,我们想要在不影响线上检索服务的同时,修改索引,就需要用到elasticsearch的一个特性,别名机制 什么是 ...

  4. ElasticSearch最全详细使用教程:入门、索引管理、映射详解、索引别名、分词器、文档管理、路由、搜索详解...

    墨墨导读:之前我们分享了ElasticSearch最全详细使用教程:入门.索引管理.映射详解,本文详细介绍ElasticSearch的索引别名.分词器.文档管理.路由.搜索详解. 一.索引别名 1. ...

  5. elasticsearch最全详细使用教程:入门、索引管理、映射详解、索引别名、分词器、文档管理、路由、搜索详解

    一.快速入门 1. 查看集群的健康状况 http://localhost:9200/_cat http://localhost:9200/_cat/health?v 说明:v是用来要求在结果中返回表头 ...

  6. Elastricsearch 索引操作详解(快速入门、索引管理、映射详解、索引别名)

    一.快速入门 1. 查看集群的健康状况 http://localhost:9200/_cat http://localhost:9200/_cat/health?v 说明:v是用来要求在结果中返回表头 ...

  7. Elasticsearch - 索引管理

    创建一个索引 我们已经通过索引一篇文档创建了一个新的索引 . 这个索引采用的是默认的配置,新的字段通过动态映射的方式被添加到类型映射. 索引模板 Elasticsearch 不要求你在使用一个索引前创 ...

  8. ElasticSearch索引

    Elasticsearch索引: 简介 索引是具有相同结构的文档集合.在Elasticsearch中索引是个非常重要的内容,对Elasticsearch的大部分操作都是基于索引来完成的.同时索引可以类 ...

  9. 干货 | Elasticsearch 索引生命周期管理 ILM 实战指南

    1.什么是索引生命周期? 关于人生,有人这么说:"人,生来一个人,死去一个人,所以,人生就是一个人生老病死的简称." 在基于日志.指标.实时时间序列的大型系统中,集群的索引也具备类 ...

最新文章

  1. 【云栖大会精华汇】历届云栖大会精彩资料大放送,一篇看尽云栖大会前世今生...
  2. Ajax跨域:Jsonp原理解析
  3. 在2020年到来之前,你应该知道的10大科技趋势预测
  4. @include与jsp:include的区别
  5. 全球及中国沼气发电行业现状及项目发展动态调研报告2021年版
  6. python必刷面试_Python面试必刷题系列(5)
  7. linux终端每次都要输入密码,ubuntu chrome 下每次打开都需要输入密码
  8. 更新npm至最新版本
  9. 在ExtJS的ComboBox组件中实现下拉树效果
  10. Maven 手动安装Jar包的例子
  11. PHP未来码支付V1.3网站源码开源版
  12. GetWindowThreadProcessId
  13. jmeter 获取全部响应,jmeter中的正则表达式提取器-从响应中提取多个值.
  14. JSON对象中的JSONObject和JSONArray以及与Map、String、数组的转化
  15. linux系统下制作启动u盘,在Linux系统下如何制作创建win10启动盘U盘启动?
  16. ARM处理器开发详解
  17. 如何应对阿里、美团、Oracle等大厂的面试刁难?
  18. (statistic)你所不知道的P值--对统计学的批判
  19. JNI数据与方法操作实例
  20. 大数据管理与分析技术(1)

热门文章

  1. 未来到底是什么样子?
  2. 推荐:一本“高颜值”的R语言数据可视化图书(包邮送3本)
  3. Nature Methods:快速准确的微生物来源追溯工具FEAST
  4. python使用matplotlib可视化、使用rcParams参数调整可视化图像中线条宽度、线条类型、文本字体、字体大小、字体颜色、字体类型、文本颜色等
  5. pandas使用fillna函数将dataframe中的缺失值按照列均值进行填充(fill missing values with the mean of the column)
  6. R语言使用caretEnsemble包的caretList函数一次性构建多个机器学习模型、使用lattice包的bwplot函数使用箱图对比多个模型在多个指标上的性能差异
  7. pandas使用groupby函数和cumsum函数计算每个分组内的数值累加值、并生成新的dataframe数据列( cumulative sum of each group in dataframe
  8. R语言ggplot2可视化在箱图中为箱图添加均值的标签及对应数值实战
  9. R语言负二项分布函数Negative Binomial Distribution(dnbinom, pnbinom, qnbinom rnbinom )实战
  10. R绘制面积图(area plot)