大数据和云计算技术周报(第115期)
导语
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:HBase、Spark、MongoDB、ES、数据库、数仓构建、Kafka、AI、图嵌入、Netty。全是干货,希望大家喜欢!!!
1Hbase
在HBase客户端到服务端的通信过程中,可能会碰到各种各样的异常。本文介绍了几种常见导致重试的异常。
https://mp.weixin.qq.com/s/ZnTM0qdWwDbHF6anGnUAPA
2Spark
本次峰会的开源大数据专场上,阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。
https://mp.weixin.qq.com/s/LuPoiQpaH6T_9up8mb2FeA
3数仓构建
随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征,该如何构建数据仓库呢?
https://mp.weixin.qq.com/s/UGNRzOT2QDNxzjIXU32kxQ
4Kafka
Apache Kafka 中一个更细微的功能是它的复制协议(replication protocol)。对于单个集群上不同大小的工作负载,调整 Kafka replication 以让它适用不同情况在今天来看是有点棘手的。使这点特别困难的挑战之一是如何防止副本从同步副本列表(也称为ISR)加入和退出。从用户的角度来看,这意味着如果生产者(producer )发送一批“足够大”的消息,那么这可能会导致 Kafka brokers 发出多个警报。这些警报表明某些主题“未被复制”(under replicated),这意味着数据未被复制到足够多的 brokers 上,从而增加数据丢失的可能性。因此,Kafka cluster 密切监控“未复制的”分区总数非常重要。在这篇文章中,我将讨论导致这种行为的根本原因以及我们如何解决这个问题。
https://www.iteblog.com/archives/2556.html
5MongoDB
本文讲述了MongoDB sharding删除集合/数据库涉及到多个节点进行操作时,复用该集合可能导致写数据一致性问题的解决方案;
http://www.mongoing.com/archives/27348
6图嵌入
这篇文章描述了什么是图嵌入,图嵌入的用处,并对比了常用的几种图嵌入方法。
https://mp.weixin.qq.com/s/3S8un-XopB0ztRarKuK4Qw
7AI
很多机器学习算法一般来说是基于统计学的。这些算法大体上分为频率派和贝叶斯派。频率派是假设估计的变量是一定的,频率派说白了就是去估算似然概率,而贝叶斯派任务估计的变量也是概率分布的,从而有了后验概率由似然概率和先验概率推出。这个从某种意义上来说是个哲学问题。
概率图模型属于贝叶斯派的机器学习算法。这篇文章可以对例如贝叶斯网络,马尔可夫网有一定的了解。
https://mp.weixin.qq.com/s/JHUgVkFCuQCtoMCPCaNfpg
8Netty
Netty作为一个高性能的基础框架,为了保证GC对性能的影响降到最低,做了大量的offheap化。而offheap的内存是程序员自己申请和释放,忘记释放或者提前释放都会造成内存泄露问题,所以一个好的内存管理器很重要。
https://mp.weixin.qq.com/s/Gr_NqmNg29drQbb86ayGmQ
9ES
京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非常大,造成了订单数据读多写少的情况。
把订单数据存储在MySQL中,但显然只通过DB来支撑大量的查询是不可取的。同时对于一些复杂的查询,MySQL支持得不够友好,所以订单中心系统使用了ElasticSearch来承载订单查询的主要压力。
https://mp.weixin.qq.com/s/9QgQRYMdBeBiBtIYiGD7yA
本文的内容告诉我们哪些配置应该/不应该 修改,让es飞起来
http://wangnan.tech/post/elasticsearch-how-to/
10数据库
8月数据库热度
https://mp.weixin.qq.com/s/EssirOGbwDTdegmujR6Q4Q
11开心一刻
一座年久失修的桥,桥头立着一块牌子,上面写着warning,所有人看到这块牌子都会老老实实绕路,直到有一天一个程序员来到了这里……
致谢:
周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞
猜你喜欢
#大数据和云计算机技术社区#博客精选(2017)
NoSQL 还是 SQL ?这一篇讲清楚
阿里的OceanBase解密
#大数据和云计算技术#: "四有"社区介绍
大数据和云计算技术周报(第56期)
新数仓系列:Hbase周边生态梳理(1)
《大数据架构详解》第2次修订说明
简单梳理跨数据中心数据库
云观察系列:漫谈运营商公有云发展史
云观察系列:百度云的一波三折
云观察系列:阿里云战略观察
超融合方案分析系列(7)思科超融合方案分析
加入技术讨论群
《大数据和云计算技术》社区群人数已经6000+,欢迎大家加下面助手微信,拉大家进群,自由交流。
喜欢QQ群的,可以扫描下面二维码:
欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):
大数据和云计算技术周报(第115期)相关推荐
- 大数据和云计算技术周报(第101期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:Spring熔断降级方 ...
- 大数据与云计算技术周报(第150期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:hiva.Flink. ...
- 大数据与云计算技术周报(第148期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:实时数据.ELK.re ...
- 大数据和云计算技术周报(第102期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:阿里数据库.AI.Hb ...
- 大数据和云计算技术周报(第7期)
写在第7期周报 坚持是一种品格! "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. #大数据和云计算技术 ...
- 大数据和云计算技术周报(第81期)
大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:分布式事务.缓存 .排序.druid.s ...
- 大数据和云计算技术周报(第37期)
写在第37期周报 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:Spark ...
- 大数据和云计算技术周报(第182期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:spark.Kafka ...
- 大数据与云计算技术周报(第142期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:死锁.知识图谱.Spa ...
最新文章
- 写出下列数学式对应的python表达式_Python程序设计课后习题答案-第一单元
- 为JavaOne 2014做好准备!
- 再见,Spark!Flink已成气候!
- boost库下的deadline_timer和steady_timer 区别
- python输出箭头代码_python matplotlib 注释文本箭头简单代码示例
- vs2005部署报表服务器项目老提示输入用户名密码解决办法
- 【笔记目录】南邮(通达)计算机专业基础
- 头文件和实现文件的关系
- java创建对象实例的四种方式
- 克服大数据集群的挑战
- 新手先学java还是python_2018年,初学者学Java还是Python?统计数据给你答案
- Citrix XenDesktop VS Vmware View (上)-你必须懂得
- 消息中间件activemq-5.13.0安全验证配置
- bom 根据一阶 BOM 表整理多阶层 BOM 表
- 分销系统的用户关系数据库设计~
- vscode文件名颜色含义与右侧字母含义
- 三、Sails 中使用Jwt进行身份认证
- swoole:mac下的测试工具
- php strstr批量替换,也就这样,
- QLineEdit的焦点事件
热门文章
- linux bsd命令,linux ps命令详解(BSD风格)
- Kaldi学习之数据准备详细解释说明
- 研发效能怎么分析?方法论、模型、误区都在这里了
- win10消息推送服务器,推送--Win10系统 - Win10系统官方网站
- 趣图 | 一图详解520最强脱单攻略!
- Oralce 11g 恢复 .dmp 文件方法及过程
- 蓝桥杯第五届C/C++A组第四题 史丰收速算
- 2021疫情下Android技术人的宅家学习进阶指南!花了大价钱大厂内部买来的学习资料,爱看不看!(全网神级笔记整理)
- 这波啊,是王心凌技术男孩
- python向es写入大量数据_使用Python-elasticsearch-bulk批量快速向elasticsearch插入数据_李谦的博客-CSDN博客...