个推透明存储实践

列式存储(Column-oriented Storage)是大数据场景中面向分析型数据的主流存储方式。与行式存储相比,列式存储只提取部分数据列、同列同质数据,具有更优的编码及压缩方式。目前,个推的核心数据正逐步切换为Parquet等新型数据格式存储以获得更高的I/O性能和更低的存储成本。

个推数据部降本提效团队 资深数据研发工程师筱得围绕透明存储概念、文件读取流程、透明存储实现方式等,为大家详细解读了个推透明存储优化的全过程。

分享过程中的相关问答:

Q1:如何量化和评估透明存储的收益?

A:量化维度分两方面,首先是从提效方面来衡量,即使用效率是否提升,比如用户(数据分析师)处理业务需求时的数据使用效率提升情况。目前我们结合多个类型的任务综合来看,透明存储能够使跑数时间缩短30%;其次是降本方面,即资源消耗是否有减少,可以通过CPU核的使用时长以及内存使用时长进行量化评估。

​Q2:透明存储如何实现历史工程对数据格式的兼容和切换?

A:在兼容方面,我们是通过扩展Hadoop的读写API,来增加存储格式自动识别和切换能力;在切换方面,我们先对Hadoop、Spark的提交命令进行了扩展,增加hook,并引入了切换数据格式的黑白名单,从而让任务启动时能够获取要变更的信息;通过以上方式,最终实现了对历史工程的数据格式无感知切换。

标签存算在每日治数平台的实践之路

个推依托海量数据资源和强大的建模能力,形成3,000余种数据标签,构建了丰富、立体、多维的画像标签体系,从而为行业客户提供数据洞察相关服务,比如APP精细化运营、广告投放人群定向等。

由于业务方的标签组合复杂多样,所以在对大规模数据进行计算和标签构建的过程中,如何加速标签计算,实现秒级人群圈选和洞察便成为我们需要攻克的难题。

个推每日治数平台团队 高级数据研发工程师之昂基于每日治数平台DIOS的开发实践,深度剖析了有效提升标签存算以及人群圈选效率的核心技术手段。

分享过程中的相关问答:

​Q1:Spark的shuffle和Hadoop的shuffle(MapReduce)有什么区别?

A:MapReduce的shuffle和Spark的shuffle在功能上是几乎没有区别的,都是对Map端的数据进行分区(有聚合排序和不聚合排序两种方式),然后在Reduce端或者下一个调度阶段拉取数据,从而完成Map端到Reduce端的数据传输功能。

Q2:直播中讲到ClickHouse不支持高并发,原因是什么?对于集群的ClickHouse写入,有哪些需要注意的地方?

A:ClickHouse之所以快是因为底层采用了并行处理机制,默认单次查询使用的CPU核数是服务器核数的一半,所以对高并发的使用场景支持得不是很好。如果一定要支持高并发,建议在查询层增加限流。

提升IT资源效率,显著降低IT总投入

降低企业IT成本的一个有效手段是大幅提升IT资源的利用效率。麦肯锡的一份研究报告显示,全球服务器的平均每日利用率通常低于10%,Flexera的一份报告也显示,企业上云后平均浪费了30%的云支出,云成本优化是企业在2021年最想做的事情。那么如何提升IT资源效率,降低IT总投入?

来自贝联珠贯的杨少华博士为大家分享了大数据任务优化、在/离线混部等能够有效提升IT资源效率的核心技术手段。

分享过程中的相关问答:

​Q1:一般如何实现在/离线混部?

A:不同公司的实现方式可能不一样。我们是这样做的:Step1. 将离线任务通过k8s调度到在线机器上;Step2. 使用Agent动态调节在/离线资源的配额;Step3. 利用内核的一些隔离技术进行隔离,在必要时进行干预,例如在紧急情况下限制离线任务的资源,这种方式会对机器内核版本有一些要求。

Q2:对于Spark/Flink on k8s,是引入YuniKorn/Volcano等第三方调度插件,还是自研类似组件来解决计算资源分配和管理的问题呢?

A:我们的方案主要还是Yarn on k8s,然后Spark/Flink on Yarn。这里主要考虑的是客户对接的侵入性问题,大部分情况下上层数据开发平台都还是接Yarn。

个推大数据降本提效实战分享-技术问答精选相关推荐

  1. 降本提效,贝壳搜索推荐架构统一之路

    导语 | 搜索和推荐是用户获取信息的两种主要方式,在贝壳也是帮助客户找到房子的主要手段,那么二者都有哪些相似和不同之处?是否可以使用同一套架构来实现?统一架构之后又能带来哪些收益呢?本文是对贝壳搜索推 ...

  2. 年终盘点一 | 云原生的 2022 年:降本提效、全面 Serverless 化

    作者:阿里云云原生团队 受访嘉宾: 阿里云智能 云原生 应用平台负责人:丁宇 阿里云智能容器服务负责人:易立 阿里云智能云原生应用平台产品负责人:李国强 阿里云智能中间件技术负责人:胡伟琪 阿里云智能 ...

  3. 大型酒店数字化运营平台:人员、业务、资源统一管,降本提效、满意服务

    酒店数字化运营平台: 数字化运营平台作为大型酒店数字化转型过程中的核心平台之一,与酒店各项业务平台.数据平台共同构成大型酒店数字化转型的三驾马车,通过集成应用,共同为酒店数字化转型提供管理支持. (酒 ...

  4. 某财税集团:使用进步的技术,对业务降本提效

    文 / OceanBase解决方案架构师 韩冰 该企业成立于 1999 年,是国内领先的财税信息化综合服务提供商,主要为税务机关提供税务系统开发与运维,为纳税企业和财税中介提供互联网财税综合服务. 经 ...

  5. 揭秘菜鸟仓储体系“大脑”:智能波次如何实现仓库降本提效?

    阿里妹导读:2018天猫双11物流订单量创新高,突破10亿件,这是一次史无前例的物流洪峰.天猫双11十年来,见证了物流业从手写地址.人工分拣,到电子面单.机器人分拣.无论是物流园区.干线运输,还是秒级 ...

  6. 买量成本激增,游戏App如何依托数据分析降本提效

    据工信部公布的数据显示,截至2022年6月末,国内市场上监测到的App数量达232万款.其中,游戏类App数量领先,3月末时占全部App比重为29.9%,排名第一. 游戏类App占比较高,一是由于产品 ...

  7. starops 云效运维 文档_阿里云 SAE 携手云效助力「石家庄掌讯」持续交付、降本提效...

    背景 石家庄掌讯信息技术有限公司创立于2009年,是一家提供企业信息化咨询.创新型软件产品.电商代运营服务,标准化管理.快速发展的高新技术企业.当前公司正处于企业互联网市场突破转型重要阶段,希望将更多 ...

  8. 阿里云 SAE 携手云效助力「石家庄掌讯」持续交付、降本提效

    背景 石家庄掌讯信息技术有限公司创立于2009年,是一家提供企业信息化咨询.创新型软件产品.电商代运营服务,标准化管理.快速发展的高新技术企业.当前公司正处于企业互联网市场突破转型重要阶段,希望将更多 ...

  9. 如何利用工业大数据降本增效

    工业大数据是互联网,大数据和工业产业结合的产物,同时又反作用于产业升级发展.对于制造业而言,了解行业大数据产生的背景,归纳行业大数据的分类和特点,从数据流推动本身价值创造的视角看待.重造工业价值流程, ...

最新文章

  1. jsonp跨域实现单点登录,跨域传递用户信息以及保存cookie注意事项
  2. 云网融合 — 算力中心
  3. 二级路由dhcp关闭连不上wifi_手把手教你天翼校园网开wifi
  4. git commit时出现unable to auto-detect email address错误
  5. idea调试debug技巧_被我用烂的DEBUG调试技巧,专治各种搜索不到的问题
  6. 如何安装python3.7.2_CentOS7下安装Python3及Pip3并保留Python2
  7. C++获取当前时间及计算当前时间距某个时间点的时间段
  8. js ajax 传输list,jQuery ajax请求返回list数据动态生成input标签,并把list数据赋值到input标签...
  9. css 的块级元素和行内元素
  10. “没有灵魂”的AI作诗,有啥用?
  11. html5读取加速度传感器,一文读懂加速度传感器
  12. OSChina 周四乱弹 ——程序员为啥要买苹果手机啊?
  13. 【Books系列】2022年:《拼职场》读书笔记
  14. 平均 15144 元、软件工程师占比最高,2021 年 2 月程序员工资最新出炉!
  15. A - Chess Placing
  16. 鼓励与信任让人变得更强大
  17. linux 把进程调到前台,【如何将后台运行的程序转到前台来?】
  18. 《逆向工程核心原理》相关说明
  19. ELLE风尚大典暨全球75周年庆典在成都环球中心举办
  20. Python实战一:抓取onenet数据

热门文章

  1. C语言中double\float类型默认输出几位小数
  2. 这篇文章,我们来谈一谈Spring中的属性注入
  3. 电子标签拣选专家+自动分拣系统 +WMS系统+电子标签亮灯拣选系统,仓库整体解决方案
  4. 建设符合CNAS认可规范的实验室LIMS系统
  5. SystemUI setSystemUiVisibility参数属性
  6. 弹性地基梁板法计算原理_弹性地基梁计算模型的选择
  7. CDR怎么保存JPG格式
  8. 数到三就删除游戏(python)
  9. python实现通过URL下载图片到本地服务器
  10. 【Vue】watch 和 watchEffect 的使用和差异性(1)