目前ES主要有以下4种常用的方法来处理数据实体间的关联关系:

(1)Application-side joins(服务端Join或客户端Join)

这种方式,索引之间完全独立(利于对数据进行标准化处理,如便于上述两种增量同步的实现),由应用端的多次查询来实现近似关联关系查询。这种方法适用于第一个实体只有少量的文档记录的情况(使用ES的terms查询具有上限,默认1024,具体可在elasticsearch.yml中修改),并且最好它们很少改变。这将允许应用程序对结果进行缓存,并避免经常运行第一次查询。

(2)Data denormalization(数据的非规范化)

这种方式,通俗点就是通过字段冗余,以一张大宽表来实现粗粒度的index,这样可以充分发挥扁平化的优势。但是这是以牺牲索引性能及灵活度为代价的。使用的前提:冗余的字段应该是很少改变的;比较适合与一对少量关系的处理。当业务数据库并非采用非规范化设计时,这时要将数据同步到作为二级索引库的ES中,就很难使用上述增量同步方案,必须进行定制化开发,基于特定业务进行应用开发来处理join关联和实体拼接。

ps:宽表处理在处理一对多、多对多关系时,会有字段冗余问题,适合“一对少量”且这个“一”更新不频繁的应用场景。宽表化处理,在查询阶段如果只需要“一”这部分时,需要进行结果去重处理(可以使用ES5.x的字段折叠特性,但无法准确获取分页总数,产品设计上需采用上拉加载分页方式)

(3)Nested objects(嵌套文档)

索引性能和查询性能二者不可兼得,必须进行取舍。嵌套文档将实体关系嵌套组合在单文档内部(类似与json的一对多层级结构),这种方式牺牲索引性能(文档内任一属性变化都需要重新索引该文档)来换取查询性能,可以同时返回关系实体,比较适合于一对少量的关系处理。

ps: 当使用嵌套文档时,使用通用的查询方式是无法访问到的,必须使用合适的查询方式(nested query、nested filter、nested facet等),很多场景下,使用嵌套文档的复杂度在于索引阶段对关联关系的组织拼装。

(4)Parent/child relationships(父子文档)

父子文档牺牲了一定的查询性能来换取索引性能,适用于一对多的关系处理。其通过两种type的文档来表示父子实体,父子文档的索引是独立的。父-子文档ID映射存储在 Doc Values 中。当映射完全在内存中时, Doc Values 提供对映射的快速处理能力,另一方面当映射非常大时,可以通过溢出到磁盘提供足够的扩展能力。 在查询parent-child替代方案时,发现了一种filter-terms的语法,要求某一字段里有关联实体的ID列表。基本的原理是在terms的时候,对于多项取值,如果在另外的index或者type里已知主键id的情况下,某一字段有这些值,可以直接嵌套查询。具体可参考官方文档的示例:通过用户里的粉丝关系,微博和用户的关系,来查询某个用户的粉丝发表的微博列表。

ps:父子文档相比嵌套文档较灵活,但只适用于“一对大量”且这个“一”不是海量的应用场景,该方式比较耗内存和CPU,这种方式查询比嵌套方式慢5~10倍,且需要使用特定的has_parent和has_child过滤器查询语法,查询结果不能同时返回父子文档(一次join查询只能返回一种类型的文档)。而受限于父子文档必须在同一分片上,ES父子文档在滚动索引、多索引场景下对父子关系存储和联合查询支持得不好,而且子文档type删除比较麻烦(子文档删除必须提供父文档ID)。

如果业务端对查询性能要求很高的话,还是建议使用宽表化处理的方式,这样也可以比较好地应对聚合的需求。在索引阶段需要做join处理,查询阶段可能需要做去重处理,分页方式可能也得权衡考虑下。

数据库一对多做链接去重_数据库中一对多关系的数据,放到es中如何设计相关推荐

  1. 数据库一对多做链接去重_数据库的查询命令

    条件 from / where / group by / having distinct / order by / limit 使用这些条件可以按照需求任意选择,但是顺序必须按照上面的顺序来 特殊点: ...

  2. 数据库一对多做链接去重_数据库单表查询-多表查询

    """ 1.字段修改 alter modify alter change alter add ''|first|after alter drop 2.表关系: 一对一:外 ...

  3. mysql双主架构沈剑_58 沈剑 - 数据库架构师做什么-58同城数据库架构设计思路

    1.数据库架构师做什么? 58同城数据库架构设计思路 技术中心-沈剑 shenjian@58.com 2.关亍我-@58沈剑 • 前百度高级工程师 • 58同城技术委员会主席,高级架构师 • 58同城 ...

  4. MySQL数据库数据导入ES中

    需要安装 mysql数据导入ES中,用到的有logstash,ES,mysql的连接包.链接:https://pan.baidu.com/s/1xopMMUtPir12zrQfYcwBZg  提取码: ...

  5. Java读取mapinfo格式_求助:如何把mapinfo格式的地图数据放到网页中显示

    声明,我可不是做广告哦 mapXtreme Java,是目前用于Internet或企业Intranet唯一的100%纯Java地图服务器.mapInfo mapXtreme Java与J2EE兼容,为 ...

  6. mysql数据库链接百分号_数据库百分号怎么用

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  7. sql 数据库前两列值乘_数据库的基本概念:

    数据库的相关概念: 数据-data: 1.描述事物的符号 2.多种表现形式:文本,图形,音频,视频. 数据库-Database,DB 1.粮库,车库 2.存放数据的仓库在计算机中,按照一定的格式存放, ...

  8. pycharm连接mysql1193错误_pycharm连接mysql数据库提示错误的解决方法_数据库

    忘记phpmyadmin密码怎么重置_数据库 重置phpmyadmin密码的方法是:1.停止mysql服务:2.跳过验证启动mysql:3.重新设置密码:4.更新权限:5.重新启动mysql,如[ki ...

  9. 数据库查找姓李的人_数据库基本查询方法等

    数据库:数据库(Database)是按照数据结构来组织.存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用 ...

  10. 数据库sql创建标量值函数_使用JSON_VALUE()从JSON数据中提取标量值

    数据库sql创建标量值函数 In this article, we will explore JSON_VALUE() function in SQL Server to extract scalar ...

最新文章

  1. 【Kotlin】Kotlin 类的继承 三 ( super 关键字使用 | super@ 外部调用父类方法 | 子类选择性调用 父类 / 接口 方法 super )
  2. 已解决:CentOS 7安装Docker Compose
  3. 二维树状数组 BZOJ 1452 [JSOI2009]Count
  4. 从用户的视角看待网页设计(一)
  5. SSM中通过okhttp3向接口发送xml格式的请求参数
  6. js笔记(10)之无缝滚动
  7. 文本强制不换行并隐藏
  8. 08年最佳短篇小说《误解》
  9. 机器学习深度学习知识点总结
  10. Java操作文件夹的工具类
  11. shell基础之变量及表达式
  12. mysql数据脱敏_数据脱敏|静态脱敏|动态脱敏—数据库脱敏_产品
  13. Nginx 去除多斜杠 (//)
  14. 在VC++中的MFC利用一个dialoge对话框中按钮调用另一个dialoge对话框
  15. 划分,全概率公式,贝叶斯公式证明
  16. 刘霞:“手艺人鞋吧”圆了创业梦_创业时代_科技时代_新浪网
  17. 洛谷 P2597 灾难(支配树)
  18. php小程序中的页面如何换行,解决微信小程序scroll-view换行问题
  19. 1算法分析——数据结构与算法Python版学习笔记
  20. APK的安装过程分析

热门文章

  1. 42.数据库表转model类
  2. bootstrap table分页limit计算pageIndex和pageSize
  3. [JZOJ100047] 【NOIP2017提高A组模拟7.14】基因变异
  4. 【BZOJ4503】两个串(FFT)
  5. HtmlUnitDriver 网页内容动态抓取
  6. centos启动提示unexpected inconsistency RUN fsck MANUALLY
  7. 关于树节点巨多时获取用户选中(可多选)节点的优化
  8. (论坛答疑点滴)怎么给Table动态添加控件并且得到控件的值?
  9. NIPS中稿,聊聊科研!
  10. 【推荐系统】智能推荐算法在直播场景中的应用