新一代HTAP数据库选型
HTAP概念的产生



传统数据库OLAP的技术:并行计算,partition,物化视图,列存,bitmap
HTAP核心诉求数据服务的统一
TiDB应对HTAP
1.海量存储允许多数据汇聚,数据实时同步
2.支持多标准SQL,多表关联快速出结果
3.透明多业务模块,支持分表聚合后可以任务维度查询
4.TiDB最大下推机制、以及并行hash join 等算子,决定的TiDB在表关联上的优势
适用于:后台运营系统、财务报表、大屏展现、用户画像

引入Spark来缓解数据中台算力问题

Spark只能提供低并发的重量级查询,在从应用场景,很多中小规模的轻量AP查询,也需要高并发、相对低延迟技术能力,在这种场景下,Spark的技术模型重,资源消耗高的缺点就会暴露
列示存储天然对OLAP友好,将数据放在列示引擎上。劣势(实时更新)

为解决实时更新的劣势引入Raft-Base最佳方案

引入MPP算力

HTAP下一步探索
1.分布式数据库是在大数据规范下提供的HTAP的基础
2.TiDB-Server 最大程度下推算法与Hash Join关键算子提供了基础AP能力
3.借助生态,让Spark跑在TiKV上
4.行列混合引擎,列式引擎提供实时写入能力
5.行列引擎采取Raft-Base replication解决了数据同步效率
6.TiDB-Server统一技术服务
7.MPP解决了技术节点的扩展性与并行计算

数据服务统一:产品内嵌功能的迭代,由一些具体的产品来完成HTAP。整合多个技术栈与产品,并进行数据的连同,形成服务的HTAP

批处理(ETL)离线数仓
批、流结合 Lambda架构
流计算为主的kappa架构

分区、列式存储、并行计算

TiDB关键技术的创新
1.三个分布式系统:分布式KV存储系统、分布式SQL计算系统、分布式的HTAP架构系统
2.自动分片技术是更细维度弹性的基础
全局有序的KV map
按照等长大小策略自动分片(96M)
每个分片是连续的KV,通过Start/End key 来寻址
每个分片seek成本固定
我们称该分片为region,它是复制调度的最小单位

3.Multi-Raft将复制组更离散

Region base Multi-raft的机制,实现了一个表可以同时有多个写入点TiKV的调度机制,可以识别单个节点的物理信息,比如IDC、REC、Host等(机房、机柜、宿主机等),并进行约束与绑定

4.去中心化的分布式事务(两阶段提交)


5.Local read and Geo-partition
6.更大数据容量下的AP与TP的融合
TiDB引入了实时更新的列式引擎,即解决了资源隔离,又提升了AP效率
在列式上引入了MPP模型,实现了SQL join的下推与并行处理
通过Raft-Base replication实现了更时效性
融合了大数据生态,TiSpark
7.数据服务的统一
TiDB的CBO可以采集行列Cost模型进行配置,并同步收集不同引擎的统计信息,统一进行最佳路径选择

TiDB典型应用场景
OLTP Scale 高扩展联机 挑战(高并发,计算能力;大数据量,存储能力;高可用性,持续服务能力)
强一致分布式事务
悲观锁+乐观锁
透明分布式
多中心容灾多活
SQL完整支持
弹性扩展调度

Mysql分表:单表性能问题,数据量超过一定大小,Btree高度增加一层IO增加响应时间增加
MySQL分库:写入是昂贵资源,主从库的写入完全依赖于主库的硬件,如果写入超过了上限就要分库
为什么需要中间件


Reai-Time HTAP

TIDB——HTAP相关推荐

  1. TiDB HTAP 深度解读

    HTAP (Hybrid Transactional / Analytical Processing)是近些年需求不断受到关注的技术名词,它描述了一个数据库能够同时满足交易以及分析两种作业.TiDB ...

  2. TiDB HTAP特性的应用场景简析

    作者:何朝洋 原文来源: https://tidb.net/blog/da6fe78a TiDB是一种典型的HTAP数据库,即交易分析混合负载型DB,目前已经成为一种流行的新型数据库代表,具有隔离性. ...

  3. TiDB 5.0 HTAP 架构设计与场景解析

    转载 数据实时化成为业务必须 数字化转型浪潮是现在进行时,在企业数字化转型的过程中,我们看到一个普遍的趋势,企业对"海量.实时.在线"的数据需求变得更加迫切.数字化转型并不是互联网 ...

  4. 成为一栈式数据服务生态: TiDB 5.0 HTAP 架构设计与成为场景解

    作者介绍:马晓宇,PingCAP HTAP 产品部负责人. 数据实时化成为业务必须 数字化转型浪潮是现在进行时,在企业数字化转型的过程中,我们看到一个普遍的趋势,企业对"海量.实时.在线&q ...

  5. 最火的HTAP数据库 京东云新一代分布式数据库TiDB架构揭秘

    作者丨京东智联云数据库团队 2020年伊始,一场突如其来的新冠疫情, 席卷了华夏大地.为了抵抗疫情,全国人民众志成城,共同抗疫.疫情期间,各行各业受到了巨大影响,多数线下服务和活动基本陷入了停滞状态. ...

  6. 当 TiDB 与 Flink 相结合:高效、易用的实时数仓

    简介:利用实时数仓,企业可以实现实时 OLAP 分析.实时数据看板.实时业务监控.实时数据接口服务等用途.但想到实时数仓,很多人的第一印象就是架构复杂,难以操作与维护.而得益于新版 Flink 对 S ...

  7. TiDB 在金融关键业务场景的实践

    TiDB 作为一款高效稳定的开源分布式数据库,在国内外的银行.证券.保险.在线支付和金融科技行业得到了普遍应用,并在约 20 多种不同的金融业务场景中支撑着用户的关键计算.本篇文章将为大家介绍分布式关 ...

  8. 新一代数据库TiDB在美团的实践

    1. 背景和现状 近几年,基于MySQL构建的传统关系型数据库服务,已经很难支撑美团业务的爆发式增长,这就促使我们去探索更合理的数据存储方案和实践新的运维方式.而随着分布式数据库大放异彩,美团DBA团 ...

  9. 数据查询和业务流分开_TiDB HTAP 助力小红书业务升级

    作者介绍:张亿皓,小红书基础技术部资深开发工程师,负责数据库相关的研发和落地工作. TiDB 在小红书业务场景的应用简介 2017 年,小红书已经开始在生产业务中使用 TiDB ,真正成体系的去做 T ...

最新文章

  1. 视频+课件| PointDSC:基于特征匹配的点云配准方法(CVPR2021)
  2. mysql 上一页下一页_实现“上一页”和“下一页按钮
  3. ADO.NET Entity Data Model入门实例
  4. 网管日志-06.07.12
  5. C++main函数的参数介绍以及如何在main函数前执行一段代码
  6. maven web项目不能创建src/main/java等文件夹的问题
  7. SQL Server备份账号和密码
  8. androidStudio导入库文件
  9. 8月30日学习内容整理:命名空间,作用域,函数名本质,闭包
  10. A40i使用笔记:使用QT调用aplay播放wav音频/混音
  11. 如何利用Matlab对指定条件下的excel单元格填充颜色
  12. 前端性能优化(四)——网页加载更快的N种方式
  13. M1 Macbook崩溃了怎么办?
  14. 程序员路在何方的辛苦工作
  15. MOS管符号箭头指向问题
  16. linux服务器重启原因排查_Linux自动重启排查
  17. ATeam社区(牛客网项目第三章)
  18. 0基础如何学习自动化测试?按照这7步一步一步来学习就成功了
  19. 无法将网络更改为桥接状态:没有未桥接的主机网络适配器
  20. 全国计算机一级难吗和省一级,计算机一级考试内容 一级考试难不难

热门文章

  1. 详解nginx服务器绑定域名和设置根目录的方法
  2. 区块链学习笔记4——BTC实现
  3. 比游戏还有意思的事情是什么(有自己坚持和梦想的不要看,这篇就是水文)
  4. ROS专题----tf和tf2坐标变换
  5. 动态规划----最长公共子序列问题
  6. 资源下载--使用Proxy SwitchyOmega+postman下载资源
  7. 使用LumaQQ来开发QQ机器人
  8. 计算机是如何工作的? ----李泽源
  9. ValueError: With n_samples=0, test_size=0.2 and train_size=None, the resulting train set will be emp
  10. R语言结果输出到word-stargazer