hbase数据读取优化_从hbase读取数据优化策略和实验对照结果
起因:工作须要。我须要每5分钟从hbase中。导出一部分数据,然后导入到ES中。可是在開始阶段编写的python脚本,我发现从hbase读取数据的速度较慢,耗费大量的时间。影响整个导数过程,恐怕无法在5分钟内完毕导数工作
在咨询了老人后,採取部门优化策略,并记录了实验结果。
hbase结果大致例如以下
粉丝表
rowKey 是粉丝ID
列名
含义
id
粉丝ID
ut
更新时间
...
...
此hadoop集群有13台机器
任务的目标把hbase中前5分钟录入的数据录入到ES中。
1. 为了开速开发,我刚開始python通过thrift接口读取数据,显然耗时比較多
在这此实验中,提取数据以来的是ut 这列(更新时间字段)
2. 採用java client + SimpleColumnValueFilter 提取数据
使用thrift 接口很的慢,照理说thrift server 相当于hbase client 仅仅只是多进行一次数据转发,不应该这么慢,但现实就是这么残忍。
3. 因为hbase在插入数据时同一时候会记录timestamp,所以能够直接使用timestamp来提取数据(至少缩小了scan的查找范围)
4.,5 减小导数的时间范围,能够观察到,时间的下降不是线性的。我判断scan 操作有部分时间开销是基础时间开销,假设导入多少数据,时间也不会下降非常多
6. 採用MapReduce后,速度有了成倍的提高。询问得知。正常情况下通过hbase client 从hbase中提取数据是线性,向一个region server发出请求后,再向还有一个region sever发出请求。显然map reduce 并行比串行的速度提高了非常多。
到阶段6时间已经满足业务须要了。据说还能够通过拆分region 来提快速度。有空试试。
hbase数据读取优化_从hbase读取数据优化策略和实验对照结果相关推荐
- pe系统如何读取手机_常用的手机数据提取方法
闲暇时间,随手记录,愿与诸位朋友分享.学识有限,不当之处,恳请各位大神不吝赐教,也是对我自己的学习提高过程! 言归正文 手机取证,从字面理解,可以分为取和证两个过程.取,把数据原原本本的从手机中提取出 ...
- hbase scan超时设置_深入浅出HBase系列(二)
今天来讲讲HBase读的过程: 1.HBase读过程详解 2.1影响HBase读取命令的参数 HBase读包含两种命令:get ,基于确切的RowKey去获取一行数据,通常被称之为随机点查:scan, ...
- 同源策略禁止读取位于_用浏览器缓存绕过同源策略(SOP)限制
本文分享的Writeup是作者在做Keybase.io的漏洞众测中发现的SOP(同源策略)绕过漏洞,由于Keybase.io在用的多个API端点都启用了CORS(跨域资源共享)机制,这种缓解同源策略的 ...
- java从控制台读取字符串_从控制台读取Java字符串
java从控制台读取字符串 Today we will look into different ways to read string from console in java. 今天,我们将研究从J ...
- mysql 数据库命令大全_常用的MySQL数据库命令大全
飞信2017V5.6.8860.0 官方正式版 类型:聊天其它大小:69.1M语言:中文 评分:9.6 标签: 立即下载 常用的MySQL命令大全 一.连接MySQL 格式: mysql -h主机地址 ...
- 怎么计算一组数据的波动_数据分析(一):数据描述统计
一. 数据描述统计 看了一个纪录片 - The Joy Of Stats <统计的乐趣>,这虽然是一个关于数据统计分析的纪录短片,但短片中对于数据统计在实际应用场景中应用的效果还是很值得思 ...
- 谈谈mysql优化_浅谈MySQL SQL优化
本文首发于个人微信公众号<andyqian>,期待你的关注 前言 有好几天没有写文章了,实在不好意思.之前就有朋友希望我写写MySQL优化的文章.我迟迟没有动笔,主要是因为,SQL优化这个 ...
- 数据中心细节_当细节很重要时数据不平衡
数据中心细节 定义不平衡数据 (Definition Imbalanced Data) When we speak of imbalanced data, what we mean is that a ...
- 手机信令数据怎么获得_基于手机信令数据的武汉市人口迁入成因研究
作 者 信 息 詹庆明1,杨苏舒1,肖 琨2,高思航1,严淑琴1 (1. 武汉大学 城市设计学院,湖北 武汉 430072:2. 武汉市测绘研究院,湖北 武汉 430022) " [摘要]随 ...
最新文章
- 库克喜提 8 亿年终奖,2020 年整体薪酬增长 28%
- IC/FPGA大疆笔试题分析(预分析)
- CMD指令收集(持续)
- 技巧:设置程序默认安装到D盘
- 云信技术系列课 | RTC 系统音频弱网对抗技术发展与实践
- Python——rrdtool模块的安装
- 编译DCNv2网络:error: command ‘C:\\Program Files\\NVIDIAGPUComputingToolkit\\CUDA\\v10.0\\bin\\nvcc.exe‘
- NYOJ31 5个数求最值
- Adreno Profiler分析任意安卓游戏特效+抓取资源
- 局域网即时通讯Active Messenger 完美破解版本 最新版本破解
- html网站统计来访人数,实现网站访问人数统计
- Combo( 自定义下拉框) 组件
- ZSL (zero shutter lag)
- 机顶盒的种类有哪些?
- 实现NRF24L01自动对频功能
- 错过等明年,2020年最后一波实习招募等你上车!
- 如何确定Z检验的值(查正态分布表时要注意中间的数字都是面积,最左边一列和最上面一行都是Z值)
- 大数据下的日志--ElasticSearch部分(一)--初识
- concurrentarraylist_解决ArrayList的ConcurrentModificationException
- 苹果CMSv10忘记管理员密码怎么找回的详细教程
热门文章
- C++类构造函数初始化列表
- pytorch VIF(VIT 改)快了两倍
- 多模型不仅是不同的初始化值会得到不同状态(多态微调结构网络)
- 如何固化预训练模型的参数
- python运算符重载例子
- vlayout 1.2.20 发布,阿里 LayoutManager 定制化布局
- 华为云发布全新DevOps实践,大幅提升交付效率
- oracle中max,listagg使用,需求:求门诊开甲功三项的病人的基本信息与化验结果的数据,...
- 7216:Minecraft
- 《HTML5移动应用开发入门经典》—— 2.4 HTML5中的HTML语法变化