今天,对大数据的分析挖掘已经成为企业提升竞争力的全新支点。各行各业在大数据领域的商业进程明显加速,但如何让大数据发挥价值还面临很多困境。

除了数据的使用权、数据安全、数据存储等问题,现阶段,更多的人对大数据技术本身能够开发出什么样的产品,提供什么样的服务更感兴趣。

因此,UCloud 特地在杭州举办了UCan下午茶活动,聚焦数据价值,探讨如何在技术层面进行数据安全实践,为数据商业化变现探寻新出路。

活动现场

现场座无虚席,UCloud 存储研发工程师丁顺首先带来了主题为「数据库高可用容灾方案设计和实现」的分享。

UCloud 存储研发工程师丁顺

高可用数据库,即一系列数据库构成的集群。它通常的架构是有一个主节点来处理主要请求,另一个备用节点作为容灾切换使用,当主节点不能提供服务的时候,备节点可以成为主节点继续提供服务,从而保证整个系统的可用和稳定。

因此,使用高可用数据库的好处也非常明显。丁顺表示,「一是系统可用性提高;二是可以方便地读写分离。即操作中可以在主数据库节点上进行,吞吐量明显多于单个数据库;三是变更不停服,它是指做变更时可以先升级备节点,再做主层切换,升级后的备节点变成主节点,再把之前主节点再做升级,对用户影响非常小;四是备份不影响服务性能,因为有很多备节点可以做数据备份,所以主节点的性能不会受影响。」

因为高可用数据库的优势,业界有很多成熟的架构设计。而数据库主从复制是较经典的数据同步模式,它可以延伸出很多架构改进。现在 UCloud 的云数据库产品 UDB 就采取这种方案,那为什么要基于数据库的主从复制来做产品?

这是一个综合考虑的结果。丁顺表示,一方面是因为 UDB 的初衷即是在高可用架构中尽量基于原生 MySQL,以涵盖不同的 MySQL 数据版本;二是在不同场景及存储引擎背景下,主从复制方案优势明显。

但高可用数据库也有非常大的痛点,那就是自动化运维。

而目前采用集中式管理方法的 UDB 采用自研的容灾模块,可以处理大规模、高并发的 DB 自动化容灾。除了自动化容灾之外,后台 DB 的运维体系还可以做到自动化问题探测以及问题修复,降低运维的难度和压力。

丁顺总结,这是因为 UDB 在运维当中的三个特性:一是日常做例行巡检,能够保证高可用数据库的健康;二是定期的容灾演练;三是高可用切换需要记录日志,在切换失败的时候需要做告警。这些能力能够让 UDB 能够达到良好的自动化运维效果。

分享过后,与会者还针对 MySQL 数据主从同步异常的问题进行了分析和探讨。

第二位进行主题演讲的嘉宾是 UCloud 资深数据库研发工程师刘坚君。他的分享题目是「新一代公有云分布式数据库——UCloud Exodus」。他认为,在公有云数据库 1.0 的基础上,云数据库 2.0 重新思考了用户需求痛点,基于公有云的进化能力创造出了全新价值,而 UCloud Exodus 将会是云数据库 2.0 时代的重要产品,现场他对其能力进行了详细的介绍。

UCloud 资深数据库研发工程师刘坚君

刘坚君首先从 1.0 时代存在的问题入手,他认为 1.0 时代云数据库带来了三方面价值:弹性、故障救援、知识复用。但它同样有三个难以解决的问题:容量和性能、租用成本、运营成本。

到 2.0 时代,解决上述三个问题的思路是计算和读写分离。通过计算和读写分离,将传统数据库的计算层和存储层拆开,各自独立扩展和演进。带来的好处是:一是提供更大的容量和读写性能;二是按需扩容和付费;三是优化运营成本并降低运营风险。从而让 1.0 云数据库的三大问题可迎刃而解。

放眼来看,业界已推出的 2.0 云数据库(如 Aurora、PolarDB 等)均采用计算和存储分离的架构。而 UCloud Exodus 的产品和技术理念则更进一步:计算和存储分离后,存储层将完全复用云平台的高性能分布式存储(如 UCloud UDisk、阿里云盘古等),而 Exodus 则专注于构建一款数据库内核,去适配主流公有云和私有云厂商发布的高性能分布式存储产品。Exodus 的这种产品架构,称之为 Shared-ALL-DISK 架构。

Shared-ALL-DISK 架构的优点明显。在提供云数据库 2.0 创新功能的同时,赋予了用户业务自由迁徙的能力,不被某个云平台绑架;同时能够连接上下游的软硬件厂商,共享云数据库 2.0 技术红利,共建 Exodus 数据库生态。中立、自由连接和利益共享,是 UCloud 成立以来一直强调的价值观。

更为重要的是 Exodus 最终开源,它会将核心系统的每一行源码开放,赋予用户深入了解和优化 Exodus 的能力;赋予同行改进,优化的自由。并建设开源社区,吸收全行业的优化成果,共同改进和完善 Exodus。最终,UCloud Exodus 将成为时间的朋友、用户的朋友、行业的朋友。

演讲中,刘坚君进一步阐述了三个朋友的概念。他指出,最近几年,某些公有云厂商和产品有成为下一代 IOE 的趋势,通过降价打压竞争对手和吸引用户,在产品上对用户业务的捆绑越发深入,导致敌人越多,朋友越少,长远来看不利于行业健康发展。而 UCloud Exodus 的目标,是希望成为云数据库平台中的 MySQL。数据库系统,历来是 IT 行业的协作枢纽,UCloud 希望打造一款开源的云数据库 2.0 产品,来重构云数据库格局乃至公有云格局,通过开放共享,用自由连接的方法让敌人越来越少,朋友越来越多,形成通过技术和服务,而不是品牌宣传和降价来相互竞争的格局,推动云计算健康发展。

当然,采用 Shared-ALL-DISK 这种开放式架构,有更多技术问题需要解决。其中的核心问题是 IO 路径问题,这也是计算和存分离架构中的根本问题。刘坚君认为,分析近几年的技术趋势,未来主流云平台上的分布式存储产品,必将朝高性能方向演进,最终在 IO 能力上足够承载数据库等高性能应用。

因此,应该有前瞻性地把 IO 路径问题的主战场,交给队友,交给云平台的分布式存储产品和团队。比如 UCloud UDisk,以 UCloud UDisk 正在开发的新版本产品为例,现在已经测得了 100us 的 IO 延迟,100w+的 IOPS。相信随着时间的推移,技术优化将不断深入,底层软硬件将不断升级,最终云平台的跨节点 IO 能力将达到非常高的水平。

但这并不意味着 UCloud Exodus 在 IO 路径上毫不作为。相反,Exodus 将以 MySQL 为原型,对 IO 路径问题做大量优化。包括去除 Binlog、去除内部二次提交、消除 DoubleWrite 等。这些技术手段的采用,将保证 Exodus 在高性能分布式存储之上,IO 跑的又轻又快。

除了 IO 路径问题,另一个重要的技术问题是主从同步问题。在借鉴业内主流的 Redolog 同步思路的基础上,Exodus 基于 MySQL 内部机制又做了创新。该创新方法提供了一种实现简单又运行高效的主从 Redolog 同步机制。

一套完整 UCloud Exodus 数据库系统,由 Master、SLAVES、Binloger、分布式存储与对象存储构成。Master 实例负责数据读写并同步 redolog 到 Slaves;Slaves 由一个或多个只读节点构成,缓存和主节点保持一致并向上提供只读能力;分布式存储负责数据的持久化存储,同时将数据页和 redolog 实时备份和归档到对象存储;而 Binloger 模块将根据对象存储中的归档 redolog 重演 binlog,以向下游系统(如 kafka 等)提供 binlog 数据。

该系统预计 2019 年第三季度推出公测版,2020 年一季度正式发布。

第三位的演讲嘉宾是来自网易的资深数据库内核及大数据技术专家蒋鸿翔,他带来了「基于 Impala 平台打造交互查询系统」为主题的分享。

网易资深数据库内核及大数据技术专家蒋鸿翔

交互查询是偏分析的方向。它的特点是数据量基数庞大,关系模型相对较复杂,响应时间要求较高。

因此,选择匹配的平台上,一般基于三个方面来考虑:一是本身项目熟悉度;二是中大厂背书;三是性能和优缺点指标。

蒋鸿翔表示,现在业内有 Impala 交互查询平台,Facebook 做的查询平台 Presto,以及 Green Plum。那如何去选?因为交互查询的数据是从大数据平台上来的,所以一般会考虑与 Hadoop/Hive 的兼容,社区环境及架构设计等因素。

之所以选择 Impala 平台,在于它的综合优势,主要体现在六个维度:第一,MPP 架构;第二,执行节点无状态、去中心化;第三,兼容 Hive 存储;第四,Apache 顶级项目、成熟社区;第五,多种数据格式兼容;第六,高效查询性能。

当然,Impala 还有缺陷。包括服务单点、Web 信息不持久化、资源隔离不精准、底层存储不能区分用户、负载均衡需要外部支持这几个方面。

针对这些缺点已经出台了不少改进方案。目前主要有基于 ZK 的 Loadbalance,管理服务器,细粒度权限和代理,Json 格式,兼容 Ranger 权限管理,批量元数据刷新,元数据同步和过滤等维度。

其实,Impala 平台的应用场景也非常多。基于用户数据沉淀,做不同形式的预测和推荐,从而最大化利用数据。

随后,UCloud 技术专家王仆带来了主题演讲「UCloud 分布式 KV 存储系统」。

UCloud 技术专家王仆

在线服务 Redis 是当前比较流行的协议,它支持比较多的数据结构。可以被用于内存缓存、持久化存储等不同场景,大量服务于各类互联网应用。

同时也提供了丰富的功能配置,客户可以根据各自业务需求,在读写性能、缓存容量、数据可靠性等方面作出灵活的选择。

Redis 是主要有三个优势,一是拥有超高性能,读写性能可达 10 万以上;二是支持 string、list、hash、set、sorted set 等丰富的数据结构;三是支持排序、集合类运算、位运算、过期淘汰等复杂运算。

目前已经有很多企业都在使用 Redis 产品。比如说大型社交 APP 的客户。通常,社交的 APP 在 Server 端比较简单,会存储一些用户信息,包括发布信息的状态、关注、消息发布等。这些庞大的信息运转就需要快速的处理,而使用 Redis 的数据结构来缓存数据,能够实现较快的响应。

活动接近尾声,杭州钱塘江已经被一片金色笼罩,但与会者依然热情,非常积极踊跃地参与交流互动。

最后一位演讲来自于华为的技术专家时金魁,他带来了「实时流计算技术及其应用」的主题分享。

华为技术专家时金魁

实时流在这两年比较流行,而它的基础就是大数据。目前,实时云计算适用场景比较多,包括广告、监控大盘、打车软件、金融风控、异常检测、交通、物流、外卖等等。

比如,在打车场景中,一般会在 APP 中会显示预计费用,显示费用通过实时预测出来,而不是真正发生的计价,这就是实时流日常运用的场景之一。

今天较出众的实时流计算框架是 Flink。

Flink 除了有 TABLE,还能够做一些 SQL。目前在 Flink 上面可以做时空数据,主要用在物联网方向,比如说车联网、物联网,还有一些基于曲线,比较典型的是电子围栏、车辆超速等等。除此之外,还有地理位置、智能学习模型、实时推理。因为数据是实时流进来的,可以做实时推理并且应用到业务系统。

时金魁还提到,现在的潮流是流计算双引擎:Flink+Spark,这个非常有用。它可以实现很多,比如 Stream SQL 表达,在线机器学习,实时故障检测等等。如果一些数据指标出现异常会训练,它是否异常可以通过实时流发现,一旦发现做一些归类,如果是异常情况实时做告警,还有驾驶员分析等等。

活动最后,意犹未尽的开发者们还与演讲嘉宾们就一些话题进行了交流。而大数据技术的探讨之后,UCan下午茶还将走进深圳等地,继续对技术趋势进行火热探讨和交流,敬请关注后续系列活动。

UCan下午茶杭州站:突破困惑,为大数据商业化变现探寻出路相关推荐

  1. UCan下午茶武汉站,为你全面挖宝分布式存储

    11月10日,UCan下午茶武汉站的活动在武汉青年光谷咖啡馆召开,在此次沙龙上,UCloud文件存储研发工程师邓瑾.块存储研发工程师叶恒.奥思数据创始人兼CTO李明宇.深信服科技存储研发专家卢波四位存 ...

  2. 分布式存储绝不简单 —— UCan下午茶-武汉站纪实

    说起分布式存储,大家可能都会觉得这是一个老生常谈的问题,虽然分布式存储并不是一个年轻的技术,许多开发者也对分布式存储耳熟能详,但分布式存储却并不是像想象中的那种简单的技术,它是一个涉及到文件系统.存储 ...

  3. 技术无价,“悟”有所值——UCan下午茶这一年

    UCan下午茶是UCloud于最近几年启动的系列技术沙龙.该沙龙不仅会分享UCloud最新的技术重点,同时也会诚邀业界相关方向的技术大咖一同交流.分享.诚意满满的干货.鲜活生动的案例内容,使每位参与者 ...

  4. 剖析 AI 和大数据的分布式实践 —— 2018 UCan下午茶·北京站

    12月16日北京,2018年UCan下午茶的收官之作 -- 主题为"回归云核心,服务大数据和AI的分布式实践"沙龙在望京浦项中心W1 Platform举行,此次活动围绕云的&quo ...

  5. 突破传统—复旦大学大数据学院张力课题组提出语义分割全新方案

    突破传统--复旦大学大数据学院张力课题组提出语义分割全新解决方案,论文已被CVPR2021收录. 论文名称:Rethinking Semantic Segmentation from a Sequen ...

  6. B站发布《毕业季大数据报告》,最让年轻人头秃的原来是?

    文章来源 | TechWeb 年轻人遭受刻板印象已经太老生常谈了.第一代独生子女身份的 80 后被认为自私,90 后又吃不了苦,而今年夏天迎接毕业季的 95 后 Z 世代们时常被打上散漫.任性,爱享乐 ...

  7. 用全文检索构建站内搜索和大数据搜索引擎

    全文检索首先对要搜索的文档进行分词,然后形成索引,通过查询索引来查询文档.全文检索是目前搜索引擎,大数据搜索的关键技术.全文检索系统可实现亚秒级的检索速度以及每秒上百次的并发检索支持. 需求: 实现淘 ...

  8. 山水印|竹林野茶:颠覆认知的喝茶大数据:茶,就是万病之药!

    山水印:挖掘丽水老底子食材,传承丽水技艺,将竹林野茶发扬光大.打造中国生态产业链第一茶品牌 --山水印 什么是山水印竹林野茶? 环境 中国生态环境第一县 庆元县 森林覆盖率高达86% 口感 与竹相伴 ...

  9. 我在B站读大学,大数据专业

    欢迎关注博客主页:微信搜:import_bigdata,大数据领域硬核原创作者_王知无(import_bigdata)_CSDN博客https://blog.csdn.net/u013411339欢迎 ...

最新文章

  1. Py之pyecharts:基于大数据对人工智能进行各种可视化图表分析
  2. 计算机用于尖端科技,【判断题】用演绎法教问句的方法适用于中高级型学生
  3. Java-IntelliJ IDEA【@Override is not allowed when implementing interface method 解决方法】
  4. oracle数据库生产,从安装系统到oracle数据库生产环境(centos6.8)搭建
  5. Python列出文件夹下某类文件名的方法
  6. CentOS7.2中使用Kubernetes(k8s)1.4.6源码搭建k8s容器集群环境
  7. 如何写出有效的引流文案?
  8. 初次遇见Visual Studio 2008 Beta 2 中的bug
  9. 【有意思的BUG】未名
  10. JavaScript TypeScript 学习总结
  11. 概率Probability的本质是什么?[附概率基础知识,文末可下载28页PDF]
  12. 计算机无法安装u盘驱动,Win7提示“无法成功安装设备驱动程序”,解决无法安装USB驱动程序的问题!...
  13. Git提交数据失败 error: failed to push some refs to 'https://github.com/XXXXXXX/gif.git'
  14. 分布式一致性协议三部曲-深入理解一致性协议Paxos
  15. js内置对象中的String
  16. matlab在线_正版MATLAB向中国人民大学全校师生免费开放!
  17. 多规格选择样式/问卷调查选择(小程序)
  18. ByteV打造智慧充电桩运行可视化平台
  19. 【CS-Notes】工欲善其事必先利其器(Code、Git、Docker、Linux)
  20. 多张图片合并成PDF文件,还在下载合并软件,PS就能帮你搞定

热门文章

  1. mysqld已删除但仍占用空间的_U盘删除的文件在哪?
  2. h5打开app_移动端产品比较分析:APP、小程序、H5
  3. python操控chrome抓网页
  4. 中国内置自动咖啡机行业市场供需与战略研究报告
  5. 推荐Python互动艺术在线编辑器(腾讯扣叮)
  6. android thermal 机制,一种系统过热保护机制的实现方法及系统与流程
  7. 我的世界java版如何装mod_我的世界考古“初代贝爷生存”?开局3滴血,还没进游戏就要自闭了...
  8. 深度解密 Go 语言之基于信号的抢占式调度
  9. GitHub 撤销解雇犹太员工决定并公开致歉,涉事 HR 辞职
  10. 求求你给你的微信头像戴个圣诞帽吧!