这里记录过去一周,大数据相关值得分享的东西,每周日发布。

今天尝试写第一期,记录过去一周一点所见所闻。

文章目录

  • 最佳
  • 技术一瞥
  • 图片
  • 文章
  • 资源
  • 订阅

最佳

1、TDengine
TDengine是一个开源的专为物联网、车联网、工业互联网、IT运维等设计和优化的大数据平台。除核心的快10倍以上的时序数据库功能外,还提供缓存、数据订阅、流式计算等功能,最大程度减少研发和运维的工作量。

技术一瞥

1、冷数据处理

数据每日增量很大的情况下,比如每天增加 1 PB ,对于集群的资源是个很大的挑战,资源不够的事情下,就要增加机器(显然这种情况成本很大) 一种方案: 压缩冷数据,首先需要找出冷数据。namenode 在内存中的元数据会定期 dump 到磁盘,可以直接拉取 FsImage 文件,存在 hive 表中,通过分析元数据,可以筛选出那些是冷数据,并对这些数据进行压缩。

2、Yarn VS K8S

Yarn是资源管理工具,也就是说管理CPU+MEM的资源隔离。 k8s是容器编排工具,显然,资源管理是其功能之一。如果按照“编排”的概念方向去理解yarn,那么yarn就是一个JVM负载的编排工具,而k8s是容器负载的编排工具。这么一比较,k8s显然胜出一筹,因为容器在应用的支持方面更广泛,更不要说k8s能够实现比yarn好得多的多的隔离了。也就是说,用了k8s之后,不仅仅可以在这个集群运行spark负载,显然也可以运行其他所有的基于容器的负载,那么只需要把应用都进行容器化即可。各种BI工具,报表工具,查询工具,都可以在一个k8s集群上运行,而spark只是作为其中的应用之一。

3、hive

hive 读 textfile 数据的时候,针对某一分区会过滤掉. 开头以及下划线开头的文件。 但是如果同一时刻分区中存在正在 copy 的数据,是以 _COPYING 结尾的文件。(hdfs -put 的过程) 读数据的时候会报错。

解决方案:

  1. 重写 inputFormat ,对使用方不友好。
  2. hdfs -put 的时候先推到临时目录,写完 move 过去,mv 的过程只是修改元数据,这个过程用户无感。

4、 Hive 巧用正则的贪婪模式

从字符串"979|7.10.80|8684"中提取最后一个竖线|后面的内容,但是在这个字符串中,竖线的个数不是固定的
下面是贪婪模式:由于正则表达式的贪婪匹配,一直会匹配到最后一个竖线。

select regexp_extract('979|7.10.80|8684','.*\\|(.*)',1);
OK
8864

如果要取第一个竖线前面的内容,实现如下:

select regexp_extract('979|7.10.80|8684','(.*?)\\|.*',1);
OK
979

5、mapreduce 任务 map 阶段缓慢的排查思路

大数据引擎怕的不是数据量大,而是数据倾斜,以及不合理的job。

图片

1、央妈工具箱

2、提问的艺术

3、时代的溺水者

4、HDFS 在实际产生中的挑战

文章

1、来自官方最贴心的喂饭
大部分的大数据组件都是 Apache 的顶级项目,啃英文文档才是学习一手知识的正确姿势。

2、Leaf:美团分布式ID生成服务开源
Leaf是美团基础研发平台推出的一个分布式ID生成服务,名字取自德国哲学家、数学家莱布尼茨的一句话:“There are no two identical leaves in the world.”Leaf具备高可靠、低延迟、全局唯一等特点。目前已经广泛应用于美团金融、美团外卖、美团酒旅等多个部门。

3、美团酒旅起源数据治理平台的建设与实践

经过多年的发展,美团酒旅内部形成了一套完整的解决方案,核心由数据仓库+各种数据平台的方式实现。其中数据仓库整合各业务线的数据,消灭数据孤岛;各种数据平台拥有不同的特色和定位,例如:自助报表平台、专业数据分析平台、CRM数据平台、各业务方向绩效考核平台等,满足各类数据分析挖掘需求。

4、将军令:数据安全平台建设实践

近期,业内数据安全事件频发,给相关企业造成了无可挽回的损失,更为数据安全防护意识薄弱的企业敲响了警钟。如何对公司内部数据最为集中的数据分析、数据服务、数据治理等各种数据类产品进行权限管控,已经成为数据安全建设中最为重要的任务。

资源

1、大数据入门指南

一个帮助你理清大数据学习思路的入门指南。

2、DAMS 数据智能峰会(ppt文档)

开阔思路,学习大厂的优秀经验。不只有大数据专场分享,还有金融、物联网、运维等实践分享交流。

3、Flink Forward China 2018 第一届记录,视频记录 | 文档记录 | 不仅仅是流计算

内有视频资源,现场 ppt 资源。

4、Flink 中文视频课程(持续更新…)

课程简介:本系列课程由 Apache Flink Community China 官方出品。旨在为具备一定大数据基础、对Apache Flink感兴趣的同学提供系统性的入门教程,课程路径为“基础篇>>进阶篇>>运维篇>>实战篇>>源码篇”。

5、美团点评技术年货:一本覆盖各技术领域、1200+页的电子书

这本电子书主要包括前端、后台、系统、算法、测试、运维、工程师成长等7个板块

订阅

本专栏也会定期同步到公众号和知识星球,欢迎订阅。直接扫码或者微信搜索大数据学习指南

(完)

大数据技术周报第 001 期相关推荐

  1. 大数据技术周报第 009 期

    这里记录过去一周,大数据相关值得分享的东西,每周日发布. 这是第 9 期分享,记录过去一周关于大数据的见闻,保证信息的质量和溯源. 文章目录 技术一瞥 文章 资源 订阅 技术一瞥 1.Kafka 最近 ...

  2. 大数据技术周报第 007 期

    这里记录过去一周,大数据相关值得分享的东西,每周发布. 今天尝试写第 7 期,记录过去一周一点所见所闻. 文章目录 技术一瞥 图片 文章 资源 订阅 本期主题:实时数仓 技术一瞥 做实时数仓经历了什么 ...

  3. 大数据技术周报第 006 期

    这里记录过去一周,大数据相关值得分享的东西,每周发布. 今天尝试写第 6 期,记录过去一周一点所见所闻.假期玩(。・∀・)ノ゙嗨了. 文章目录 技术一瞥 图片 文章 资源 订阅 技术一瞥 1.hdfs ...

  4. 大数据技术周报第 005 期

    这里记录过去一周,大数据相关值得分享的东西,每周发布. 今天尝试写第四期,记录过去一周一点所见所闻. 文章目录 技术一瞥 文章 资源 订阅 技术一瞥 1.什么是ETL? 引用:https://en.w ...

  5. 大数据技术周报第 004 期

    这里记录过去一周,大数据相关值得分享的东西,每周日发布. 今天尝试写第 4 期,记录过去一周一点所见所闻. 文章目录 图片 文章 资源 订阅 图片 文章 1.Flink 1.9 发布,有你期待的功能吗 ...

  6. 大数据技术周报第 003 期

    这里记录过去一周,大数据相关值得分享的东西,每周日发布. 今天尝试写第三期,记录过去一周一点所见所闻.上周好像忘记发了?是的- 文章目录 技术一瞥 图片 文章 资源 视频 订阅 技术一瞥 1.Kafk ...

  7. 大数据技术周报第 002 期

    这里记录过去一周,大数据相关值得分享的东西,每周日发布. 今天尝试写第二期,记录过去一周一点所见所闻.本周划水太严重了,主要还是陪女朋友比较重要=-= 文章目录 图片 文章 资源 摘录 订阅 图片来自 ...

  8. 【2017年第4期】工业大数据技术与架构

    郑树泉,1,3, 覃海焕,2,3, 王倩,1,3 1. 上海计算机软件技术开发中心,上海 201112 2. 上海电机学院电子信息学院,上海 201306 3. 上海产业技术研究院工程大数据服务创新中 ...

  9. 《大数据》2015年第2期“前沿”——大数据技术发展的十个前沿方向(上)

    大数据技术发展的十个前沿方向(上) 吴甘沙 英特尔中国研究院 doi:10.11959/j.issn.2096-0271.2015023 Ten Fronties for Big Data Techn ...

最新文章

  1. usaco Telecowmunication(网络流)
  2. for android 软件,安卓特工 for Android
  3. iOS响应链和传递机制
  4. 下载kolla_Kolla部署实验手册
  5. 为iOS7重新设计你的App
  6. android 多进程 坑,Android 开发中踩过的坑之八:多进程问题
  7. Apizza在chrome上安装apizzaSQ扩展
  8. 自己设计过App的数据库框架?还是只是停留在使用ormlite greenDao这类框架,一篇文章帮你解答
  9. 基于MATLAB的答题卡识别系统
  10. 对话「平衡车之父」:把Solowheel带回中国
  11. 深度分析DD哪些数据会引起国安注意?
  12. JDK版本对应其major.minor version,看这一篇就够啦(附java历史版本下载地址)
  13. Blender基础:融球(Metaball)
  14. CCF 俄罗斯方块(满分代码 + 解题思路 + 技巧总结)201604 - 2
  15. 使用mybatis-plus时,报错500
  16. 2020华为软件精英挑战赛历程总结——决赛篇
  17. 修改TTF字体美化显示效果【原文转自:http://www.linuxfans.org/】
  18. round robin arbiter 轮询仲裁器设计
  19. 智能门锁:电源管理概述2
  20. php 麻辣心情笑话网,想吃麻辣小龙虾说说 想吃龙虾幽默的心情感慨

热门文章

  1. c语言打出五子棋棋盘的形状,跪求C语言五子棋悔棋部分实现
  2. 沃可趣 | 企业内部互动社区,职场也能成为秀场
  3. java微信公众号JSAPI支付以及所遇到的坑
  4. 稳重商务风格教师求职简历免费word模板
  5. WebSerice学习笔记1——WebSerice基础
  6. WebSocket使用@OnMessage注解无法收到消息的坑与解决方法
  7. 04.rockey8的docker下载镜像和镜像加速
  8. python青年大学习一键提醒功能(团支书、辅导员必备)(一)
  9. 报:严重 [RMI TCP Connection(3)-127.0.0.1]
  10. java实现微信公众号授权登录获取用户信息(一)