导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

本期会给大家奉献上精彩的:HBase、Spark、MongoDB、ES、数据库、数仓构建、Kafka、AI、图嵌入、Netty。全是干货,希望大家喜欢!!!

1Hbase

在HBase客户端到服务端的通信过程中,可能会碰到各种各样的异常。本文介绍了几种常见导致重试的异常。

https://mp.weixin.qq.com/s/ZnTM0qdWwDbHF6anGnUAPA

2Spark

本次峰会的开源大数据专场上,阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。

https://mp.weixin.qq.com/s/LuPoiQpaH6T_9up8mb2FeA

3数仓构建

随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征,该如何构建数据仓库呢?

https://mp.weixin.qq.com/s/UGNRzOT2QDNxzjIXU32kxQ

4Kafka

Apache Kafka 中一个更细微的功能是它的复制协议(replication protocol)。对于单个集群上不同大小的工作负载,调整 Kafka replication 以让它适用不同情况在今天来看是有点棘手的。使这点特别困难的挑战之一是如何防止副本从同步副本列表(也称为ISR)加入和退出。从用户的角度来看,这意味着如果生产者(producer )发送一批“足够大”的消息,那么这可能会导致 Kafka brokers 发出多个警报。这些警报表明某些主题“未被复制”(under replicated),这意味着数据未被复制到足够多的 brokers 上,从而增加数据丢失的可能性。因此,Kafka cluster 密切监控“未复制的”分区总数非常重要。在这篇文章中,我将讨论导致这种行为的根本原因以及我们如何解决这个问题。

https://www.iteblog.com/archives/2556.html

5MongoDB

本文讲述了MongoDB sharding删除集合/数据库涉及到多个节点进行操作时,复用该集合可能导致写数据一致性问题的解决方案;

http://www.mongoing.com/archives/27348

6图嵌入

这篇文章描述了什么是图嵌入,图嵌入的用处,并对比了常用的几种图嵌入方法。

https://mp.weixin.qq.com/s/3S8un-XopB0ztRarKuK4Qw

7AI

很多机器学习算法一般来说是基于统计学的。这些算法大体上分为频率派和贝叶斯派。频率派是假设估计的变量是一定的,频率派说白了就是去估算似然概率,而贝叶斯派任务估计的变量也是概率分布的,从而有了后验概率由似然概率和先验概率推出。这个从某种意义上来说是个哲学问题。

概率图模型属于贝叶斯派的机器学习算法。这篇文章可以对例如贝叶斯网络,马尔可夫网有一定的了解。

https://mp.weixin.qq.com/s/JHUgVkFCuQCtoMCPCaNfpg

8Netty

Netty作为一个高性能的基础框架,为了保证GC对性能的影响降到最低,做了大量的offheap化。而offheap的内存是程序员自己申请和释放,忘记释放或者提前释放都会造成内存泄露问题,所以一个好的内存管理器很重要。

https://mp.weixin.qq.com/s/Gr_NqmNg29drQbb86ayGmQ

9ES

京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非常大,造成了订单数据读多写少的情况。

把订单数据存储在MySQL中,但显然只通过DB来支撑大量的查询是不可取的。同时对于一些复杂的查询,MySQL支持得不够友好,所以订单中心系统使用了ElasticSearch来承载订单查询的主要压力。

https://mp.weixin.qq.com/s/9QgQRYMdBeBiBtIYiGD7yA

本文的内容告诉我们哪些配置应该/不应该 修改,让es飞起来

http://wangnan.tech/post/elasticsearch-how-to/

10数据库

8月数据库热度

https://mp.weixin.qq.com/s/EssirOGbwDTdegmujR6Q4Q

11开心一刻

一座年久失修的桥,桥头立着一块牌子,上面写着warning,所有人看到这块牌子都会老老实实绕路,直到有一天一个程序员来到了这里……

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞

猜你喜欢

#大数据和云计算机技术社区#博客精选(2017)

NoSQL 还是 SQL ?这一篇讲清楚

阿里的OceanBase解密

#大数据和云计算技术#: "四有"社区介绍

大数据和云计算技术周报(第56期)

新数仓系列:Hbase周边生态梳理(1)

《大数据架构详解》第2次修订说明

简单梳理跨数据中心数据库

云观察系列:漫谈运营商公有云发展史

云观察系列:百度云的一波三折

云观察系列:阿里云战略观察

超融合方案分析系列(7)思科超融合方案分析

加入技术讨论群

《大数据和云计算技术》社区群人数已经6000+,欢迎大家加下面助手微信,拉大家进群,自由交流。

喜欢QQ群的,可以扫描下面二维码:

欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):

大数据和云计算技术周报(第115期)相关推荐

  1. 大数据和云计算技术周报(第101期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:Spring熔断降级方 ...

  2. 大数据与云计算技术周报(第150期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:hiva.Flink. ...

  3. 大数据与云计算技术周报(第148期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:实时数据.ELK.re ...

  4. 大数据和云计算技术周报(第102期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:阿里数据库.AI.Hb ...

  5. 大数据和云计算技术周报(第7期)

    写在第7期周报 坚持是一种品格! "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. #大数据和云计算技术 ...

  6. 大数据和云计算技术周报(第81期)

    大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:分布式事务.缓存 .排序.druid.s ...

  7. ​大数据和云计算技术周报(第37期)

    写在第37期周报 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:Spark ...

  8. 大数据和云计算技术周报(第182期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:spark.Kafka ...

  9. 大数据与云计算技术周报(第142期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:死锁.知识图谱.Spa ...

最新文章

  1. 写出下列数学式对应的python表达式_Python程序设计课后习题答案-第一单元
  2. 为JavaOne 2014做好准备!
  3. 再见,Spark!Flink已成气候!
  4. boost库下的deadline_timer和steady_timer 区别
  5. python输出箭头代码_python matplotlib 注释文本箭头简单代码示例
  6. vs2005部署报表服务器项目老提示输入用户名密码解决办法
  7. 【笔记目录】南邮(通达)计算机专业基础
  8. 头文件和实现文件的关系
  9. java创建对象实例的四种方式
  10. 克服大数据集群的挑战
  11. 新手先学java还是python_2018年,初学者学Java还是Python?统计数据给你答案
  12. Citrix XenDesktop VS Vmware View (上)-你必须懂得
  13. 消息中间件activemq-5.13.0安全验证配置
  14. bom 根据一阶 BOM 表整理多阶层 BOM 表
  15. 分销系统的用户关系数据库设计~
  16. vscode文件名颜色含义与右侧字母含义
  17. 三、Sails 中使用Jwt进行身份认证
  18. swoole:mac下的测试工具
  19. php strstr批量替换,也就这样,
  20. QLineEdit的焦点事件

热门文章

  1. linux bsd命令,linux ps命令详解(BSD风格)
  2. Kaldi学习之数据准备详细解释说明
  3. 研发效能怎么分析?方法论、模型、误区都在这里了
  4. win10消息推送服务器,推送--Win10系统 - Win10系统官方网站
  5. 趣图 | 一图详解520最强脱单攻略!
  6. Oralce 11g 恢复 .dmp 文件方法及过程
  7. 蓝桥杯第五届C/C++A组第四题 史丰收速算
  8. 2021疫情下Android技术人的宅家学习进阶指南!花了大价钱大厂内部买来的学习资料,爱看不看!(全网神级笔记整理)
  9. 这波啊,是王心凌技术男孩
  10. python向es写入大量数据_使用Python-elasticsearch-bulk批量快速向elasticsearch插入数据_李谦的博客-CSDN博客...