Elasticsearch 聚合系列：adjacency matrix aggregation（邻接矩阵聚合）

adjacency matrix aggregation

邻接矩阵聚合

定义

对某个字段的值做矩阵，返回单独满足一个/同时满足两个的结果

	A	B	C
A	A	A&B	A&C
B		B	B&C
C			C

测试：

环境准备

初始化一个带 Kibana 的 ES 集群
1. 参考环境搭建攻略
2. 本文使用的是 ES 7.16，与上文中的集群版本不一致
在首页中添加示例数据 add sample data

测试执行

分别执行以下命令，可以得到以下结果

POST kibana_sample_data_ecommerce/_search
{"size": 0,"aggs": {"adjacency": {"adjacency_matrix": {"filters": {"O": {"terms": {"manufacturer.keyword": ["Oceanavigations"]}},"E": {"terms": {"manufacturer.keyword": ["Elitelligence"]}},"L": {"terms": {"manufacturer.keyword": ["Low Tide Media"]}}}}}}
}

{"took" : 37,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 10000,"relation" : "gte"},"max_score" : null,"hits" : [ ]},"aggregations" : {"adjacency" : {"buckets" : [{"key" : "E","doc_count" : 142214},{"key" : "E&L","doc_count" : 61374},{"key" : "E&O","doc_count" : 31007},{"key" : "L","doc_count" : 161024},{"key" : "L&O","doc_count" : 34019},{"key" : "O","doc_count" : 126266}]}}
}

POST kibana_sample_data_ecommerce/_search
{"size": 0,"aggs": {"adjacency": {"adjacency_matrix": {"filters": {"O": {"match":{"customer_gender":"FEMALE"}},"E": {"match":{"customer_gender":"MALE"}}}}}}
}

{"took" : 85,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 10000,"relation" : "gte"},"max_score" : null,"hits" : [ ]},"aggregations" : {"adjacency" : {"buckets" : [{"key" : "E","doc_count" : 232447},{"key" : "O","doc_count" : 252530}]}}
}

总结与注意点

邻接矩阵的聚合是作用在同一字段中不同值的交叉对比和聚合（对ES来说，所有的字段都可以存为数组），所以可以看到结果集会像文章最开头的矩阵一样存在单一标签、组合标签的聚合结果的展示。

filters 的部分是必填的，但是里面填的内容和普通 dsl 一样，主要是为了给当前这部分数据进行分组
分组之后的结果默认用 & 相连，需要自己进行和结果矩阵构建
如果标签之间不存在 overlap 的结果，返回的结果就和普通的 terms 一样了

使用场景

官方建议是配合date_histogram做dynamic network analysis

这里我们可以考虑做的是：

用户/特征分组，如：年纪在 20～25 岁的用户，在 北京 或 上海 的用户有多少
问题归因，如：同属于 groupA、groupB…的服务器有多少

个人理解这个聚合和普通的 terms 的差异在于，某些标签可能为了方便存储和召回会直接以数组方式存储，如果单纯的以 terms 做聚合就会丧失同一条数据多种不同标签的关联关系

FAQ

Q：官方示例里为啥用 terms 处理两个标签？
1. A：这个聚合的根本思想是看几个包含 1..N 个标签的组中，每个标签去和其他组做 join，看他们俩俩之间的交集有多少

Elasticsearch 聚合系列：adjacency matrix aggregation（邻接矩阵聚合）相关推荐

十六.Elasticsearch Adjacency Matrix Aggregation
#下面的执行语句基于6.6版本,新版本把"_doc"去掉即可 PUT /emails/_doc/_bulk?refresh { "index" : { &quo ...
ElasticSearch实战系列五: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合
Title:ElasticSearch实战系列四: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合前言在上上一篇中介绍了ElasticSearch实战系列三: Elas ...
ElasticSearch 2 (36) - 信息聚合系列之显著项
ElasticSearch 2 (36) - 信息聚合系列之显著项摘要 significant_terms(SigTerms)聚合与其他聚合都不相同.目前为止我们看到的所有聚合在本质上都是简单的数学 ...
ElasticSearch 2 (38) - 信息聚合系列之结束与思考
ElasticSearch 2 (38) - 信息聚合系列之结束与思考摘要版本 elasticsearch版本: elasticsearch-2.x 内容本小节涵盖了许多基本理论以及很多深入的技 ...
ElasticSearch 2 (37) - 信息聚合系列之内存与延时
ElasticSearch 2 (37) - 信息聚合系列之内存与延时摘要控制内存使用与延时版本 elasticsearch版本: elasticsearch-2.x 内容 Fielddata ...
ElasticSearch 2 (27) - 信息聚合系列之故事开始
ElasticSearch 2 (27) - 信息聚合系列之故事开始摘要到目前为止,本书都在着重介绍搜索.对于搜索,我们有查询条件以及与查找到与条件匹配的集合.这个过程就和如大海捞针一样. 对于聚 ...
ElasticSearch 2 (34) - 信息聚合系列之多值排序
ElasticSearch 2 (34) - 信息聚合系列之多值排序摘要多值桶(terms.histogram 和 date_histogram)动态生成很多桶,Elasticsearch 是如何 ...
ElasticSearch搜索语法进阶学习（搜索+聚合，过滤+聚合）
ElasticSearch聚合+搜索语法学习目录搜索+聚合:统计指定品牌下每个颜色的销量 global bucket:单个品牌与所有品牌销量对比过滤+聚合:统计价格大于1200的电视平均价格 b ...
Elasticsearch聚合学习之二：区间聚合
本文是<Elasticsearch聚合学习>系列的第二篇,上一篇是我们熟悉了聚合的基本操作,本篇的内容是按照区间聚合的实战操作: 系列文章列表 <Elasticsearch聚合学习之 ...
ElasticSearch学习笔记之二十一指标聚合
ElasticSearch学习笔记之二十一指标聚合指标聚合 Avg Aggregation Script Value Script Missing value Weighted Avg Aggre ...