​近日,快手大数据团队联合“快手中学”,举办“快手数据管治技术交流会”,各行业数据相关开发者报名参与。在海量的 UGC 数据、业务数据、用户数据背后,支撑快手数据业务的快手大数据平台,秉承“以领先的大数据技术,激活数据价值,赋能业务,打造快手核心竞争力”的使命。

日处理数据集群规模超过 3W,数据量超过 3EB,日入数据量超 5PB(5120TB),例行任务数超 30W。今年9月,快手曾围绕“数据架构”这一主题举办了“快手大数据平台架构技术交流会”。本次交流则聚焦“数据管治”主题,明年将继续开展更多数据领域相关主题活动。

▲快手数据工厂团队负责人 董西成

首先由快手数据工厂团队负责人董西成带来开场致辞。他介绍,快手在数据管治领域涉及的方面非常广泛,包括数据规范、资源控制、集成交换、数据建模等,为了推进数据管治,需要在技术产品、规范流程、组织等方面进行考虑。

▲快手数据管治体系

本次交流从数据管治的标准规范、资源管控、数据质量和数据服务四个方面展开分享,由来自快手的数据研发专家孙伟、程伟、杨钊、薛言、刘一凡分别带来五个主题演讲。

孙伟介绍了快手在数据中台化过程中由于模型不规范带来的数据孤岛、指标不一致、模型质量差等一系列问题,并针对这些问题结合元数据驱动的思路制定了治理方案,从元数据驱动问题的发现再到治理优化,最终实现数据模型的规范化。

从快手 EB 级数据量下对于存储成本管理所遇到的涉及面广、成本意识弱、缺乏有效方法等问题出发,程伟站在成本分析的角度,制定相应的存储成本控制策略,并以专项数据治理和自驱式数据管理相结合的方式去推进落地,从而达到存储成本管理的目的。

杨钊分享了快手的数据保障理念,并通过体系化的方式,保障数据完整、准确、一致、及时。基于上述保障体系,详细介绍了快手在直播场景通过需求流程管理、测试、质检、应急方案等保障策略,以及这些保障策略在直播事前、事中、事后具体的执行手段,如双链路设计、压力测试、应急方案制定等,保障了在数据量巨大,指标计算复杂等困难情况下,依然能够保障整个数据产品的产出及时,数据准确。

当谈到元数据平台和相关应用在快手的发展过程、现状及当前快手元数据平台的架构时,薛言分析了面对数十种的资产、过亿的实体规模的异构元数据,是如何进行抽象及管理的。并通过找数、全链路血缘、数据治理平台等几个主要的应用场景,展示了元数据在快手大数据平台中发挥的作用和价值。

刘一凡介绍了快手在数据中台化建设过程中,在指标领域建设所面临的缺乏流程、规范引起的口径不一致、反复梳理重构、缺乏统一服务引起的数据出口不一致等问题。并针对上述问题分享了流程、规范、组织以及系统方面的整体解决思路,重点阐述了 OneMetric 以及 OneService 两个核心系统模块的系统设计及其关键技术。

快手以技术为核心竞争力,十分重视技术创新和应用,同时也希望通过更多更广泛的技术交流,和业内开发者分享经验,碰撞出更多智慧火花,推动技术不断前进。

(大会PPT下载地址:https://github.com/CN-CJ/KwaiTechnologyCommunication)

快手日入数据量超 5120TB,数据管治如何做?相关推荐

  1. 腾讯云公布大数据平台最新数据,日实时计算量超40万亿

    9月11日,在2020腾讯全球数字生态大会上,腾讯云副总裁刘煜宏透露,腾讯云大数据平台的算力弹性资源池达500万核,每日分析任务数达1500万,每日实时计算次数超过40万亿,能支持超过一万亿维度的数据 ...

  2. flink读取不到文件_日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践...

    简介: 友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据.人工智能等技术构建统一的数据资产,如 ID-Mapping.用户标签等.友信金服用户画像项目正是以此为背景成立 ...

  3. 2019快手内容报告重磅发布:日活突破3亿 点赞量超3500亿

    2月21日,快手大数据研究院重磅发布<2019快手内容报告>,报告显示,快手日活在2020年初已突破3亿,快手App内有近200亿条海量视频:2019年,有2.5亿人在快手平台发布作品,平 ...

  4. 弘辽科技:月订单量超5亿单的背后,标志着快手已成电商第四极

    原标题<弘辽科技:月订单量超5亿单的背后,标志着快手已成电商第四极> 弘辽科技获悉:9月16日,快手电商官宣称8月份其电商订单量超5亿单.而在过去的12个月里,快手累计的电商数据,单从订单 ...

  5. 腾讯云拟年内在全球增设超30%数据中心;Zepp Health首季成人智能手表出货量居全球前四 | 全球TMT...

    今日焦点 腾讯云拟年内在全球增设超30%数据中心 Zepp Health首季成人智能手表出货量居全球前四 三星半导体获Carbon Trust权威认证 Songtradr收购创意音乐代理机构 大公司动 ...

  6. 腾讯大数据回答2019:鹅厂开源先锋,日均计算量超30万亿,全力打破数据墙

    乾明 发自 腾讯汇  量子位 报道 | 公众号 QbitAI 开源,开源,开源. 这就是腾讯2019年技术领域最直观的变化. 最新代表事件,来自于腾讯首个开源的AI项目Angel,完成3.0版本进化后 ...

  7. 鹅厂开源先锋,日均计算量超30万亿,全力打破数据墙

    开源,开源,开源. 这就是腾讯2019年技术领域最直观的变化. 最新代表事件,来自于腾讯首个开源的AI项目Angel,完成3.0版本进化后,得到全球技术专家认可,从开源基金会LF AI毕业,成为业内顶 ...

  8. MySQL单表数据量超1亿,根据 索引列 批量删除数据

    我的场景:MySQL8有个表数据量超1亿,然后我要根据某个例(一对多)删除数据, 我直接用:delete from 表 where 字段 in (select 其他表)     条件用in的方式执行报 ...

  9. 互联网日报 | 快手电商8月订单量超5亿单;阿里犀牛智造正式亮相;中通快递启动香港首次公开募股...

    今日看点 ✦ 快手电商8月订单量超5亿单,过去一年订单总量位列电商行业第四 ✦ 中通快递启动香港首次公开募股,将发行4500万股股票募121亿港元 ✦ 荣耀首款游戏本猎人本V700发布,正式进军游戏本 ...

最新文章

  1. [Android] osx下如何使用SublimeText阅读Android系统源码
  2. idea Cannot Resolve Symbol 不能找到别的包中的类 能找到自己包中的类
  3. or1200处理器的异常处理类指令介绍
  4. 【三维装箱】基于matlab粒子群算法求解三维装箱优化问题【含Matlab源码 950期】
  5. tqdm的版本问题导致tensorflow_datasets无法加载
  6. stata15中文乱码_如何解决Stata14的中文乱码问题
  7. 物联网设备通过MQTT接入华为iot平台
  8. html css javascript jdk 等离线开发手册
  9. 多个excel工作簿合并_EXCEL2016中如何快速合并多个工作簿中内容到一个工作表
  10. win10计算机 回收站等怎么放桌面,WIN10如何在桌面删除回收站_win10电脑怎么删除回收站图标-win7之家...
  11. UML类图中实线虚线的指向关系
  12. JS细胞分裂递归案例
  13. C++练习实例———控制台实现坦克大战小游戏
  14. 前端视觉测试工具:Applitools Eyes
  15. Swing之绘图消除锯齿
  16. 宿舍管理程序c语言,学生宿舍管理软件C语言源代码完整版
  17. Android Studio 随手记
  18. cdq分治 学习笔记
  19. 新研究挑战DNA随机突变进化理论
  20. QQ、QQ空间、微信好友、微信朋友圈、新浪微博的分享。

热门文章

  1. 【译】如何精确判断最终用户响应时间过长的原因?
  2. Android Gradle Plugin 源码解析(上)
  3. mysql 新增 删除用户和权限分配
  4. ASP网络编程从入门到精通 下载
  5. 正则表达式grep、egrep--already
  6. iOS跳转到各种系统设置界面
  7. 分享一款jQuery全屏滚动页面特性案例
  8. win 64位系统安装带有c编写的python模块出现ValueError: [u'path']解决
  9. 【转】ubuntu下实用的三款录屏软件
  10. Swift学习:自动引用计数