起因:工作须要。我须要每5分钟从hbase中。导出一部分数据,然后导入到ES中。可是在開始阶段编写的python脚本,我发现从hbase读取数据的速度较慢,耗费大量的时间。影响整个导数过程,恐怕无法在5分钟内完毕导数工作

在咨询了老人后,採取部门优化策略,并记录了实验结果。

hbase结果大致例如以下

粉丝表

rowKey  是粉丝ID

列名

含义

id

粉丝ID

ut

更新时间

...

...

此hadoop集群有13台机器

任务的目标把hbase中前5分钟录入的数据录入到ES中。

1. 为了开速开发,我刚開始python通过thrift接口读取数据,显然耗时比較多

在这此实验中,提取数据以来的是ut 这列(更新时间字段)

2. 採用java client + SimpleColumnValueFilter 提取数据

使用thrift 接口很的慢,照理说thrift server 相当于hbase client 仅仅只是多进行一次数据转发,不应该这么慢,但现实就是这么残忍。

3. 因为hbase在插入数据时同一时候会记录timestamp,所以能够直接使用timestamp来提取数据(至少缩小了scan的查找范围)

4.,5 减小导数的时间范围,能够观察到,时间的下降不是线性的。我判断scan 操作有部分时间开销是基础时间开销,假设导入多少数据,时间也不会下降非常多

6. 採用MapReduce后,速度有了成倍的提高。询问得知。正常情况下通过hbase client 从hbase中提取数据是线性,向一个region server发出请求后,再向还有一个region sever发出请求。显然map reduce 并行比串行的速度提高了非常多。

到阶段6时间已经满足业务须要了。据说还能够通过拆分region 来提快速度。有空试试。

hbase数据读取优化_从hbase读取数据优化策略和实验对照结果相关推荐

  1. pe系统如何读取手机_常用的手机数据提取方法

    闲暇时间,随手记录,愿与诸位朋友分享.学识有限,不当之处,恳请各位大神不吝赐教,也是对我自己的学习提高过程! 言归正文 手机取证,从字面理解,可以分为取和证两个过程.取,把数据原原本本的从手机中提取出 ...

  2. hbase scan超时设置_深入浅出HBase系列(二)

    今天来讲讲HBase读的过程: 1.HBase读过程详解 2.1影响HBase读取命令的参数 HBase读包含两种命令:get ,基于确切的RowKey去获取一行数据,通常被称之为随机点查:scan, ...

  3. 同源策略禁止读取位于_用浏览器缓存绕过同源策略(SOP)限制

    本文分享的Writeup是作者在做Keybase.io的漏洞众测中发现的SOP(同源策略)绕过漏洞,由于Keybase.io在用的多个API端点都启用了CORS(跨域资源共享)机制,这种缓解同源策略的 ...

  4. java从控制台读取字符串_从控制台读取Java字符串

    java从控制台读取字符串 Today we will look into different ways to read string from console in java. 今天,我们将研究从J ...

  5. mysql 数据库命令大全_常用的MySQL数据库命令大全

    飞信2017V5.6.8860.0 官方正式版 类型:聊天其它大小:69.1M语言:中文 评分:9.6 标签: 立即下载 常用的MySQL命令大全 一.连接MySQL 格式: mysql -h主机地址 ...

  6. 怎么计算一组数据的波动_数据分析(一):数据描述统计

    一. 数据描述统计 看了一个纪录片 - The Joy Of Stats <统计的乐趣>,这虽然是一个关于数据统计分析的纪录短片,但短片中对于数据统计在实际应用场景中应用的效果还是很值得思 ...

  7. 谈谈mysql优化_浅谈MySQL SQL优化

    本文首发于个人微信公众号<andyqian>,期待你的关注 前言 有好几天没有写文章了,实在不好意思.之前就有朋友希望我写写MySQL优化的文章.我迟迟没有动笔,主要是因为,SQL优化这个 ...

  8. 数据中心细节_当细节很重要时数据不平衡

    数据中心细节 定义不平衡数据 (Definition Imbalanced Data) When we speak of imbalanced data, what we mean is that a ...

  9. 手机信令数据怎么获得_基于手机信令数据的武汉市人口迁入成因研究

    作 者 信 息 詹庆明1,杨苏舒1,肖 琨2,高思航1,严淑琴1 (1. 武汉大学 城市设计学院,湖北 武汉 430072:2. 武汉市测绘研究院,湖北 武汉 430022) " [摘要]随 ...

最新文章

  1. 库克喜提 8 亿年终奖,2020 年整体薪酬增长 28%
  2. IC/FPGA大疆笔试题分析(预分析)
  3. CMD指令收集(持续)
  4. 技巧:设置程序默认安装到D盘
  5. 云信技术系列课 | RTC 系统音频弱网对抗技术发展与实践
  6. Python——rrdtool模块的安装
  7. 编译DCNv2网络:error: command ‘C:\\Program Files\\NVIDIAGPUComputingToolkit\\CUDA\\v10.0\\bin\\nvcc.exe‘
  8. NYOJ31 5个数求最值
  9. Adreno Profiler分析任意安卓游戏特效+抓取资源
  10. 局域网即时通讯Active Messenger 完美破解版本 最新版本破解
  11. html网站统计来访人数,实现网站访问人数统计
  12. Combo( 自定义下拉框) 组件
  13. ZSL (zero shutter lag)
  14. 机顶盒的种类有哪些?
  15. 实现NRF24L01自动对频功能
  16. 错过等明年,2020年最后一波实习招募等你上车!
  17. 如何确定Z检验的值(查正态分布表时要注意中间的数字都是面积,最左边一列和最上面一行都是Z值)
  18. 大数据下的日志--ElasticSearch部分(一)--初识
  19. concurrentarraylist_解决ArrayList的ConcurrentModificationException
  20. 苹果CMSv10忘记管理员密码怎么找回的详细教程

热门文章

  1. C++类构造函数初始化列表
  2. pytorch VIF(VIT 改)快了两倍
  3. 多模型不仅是不同的初始化值会得到不同状态(多态微调结构网络)
  4. 如何固化预训练模型的参数
  5. python运算符重载例子
  6. vlayout 1.2.20 发布,阿里 LayoutManager 定制化布局
  7. 华为云发布全新DevOps实践,大幅提升交付效率
  8. oracle中max,listagg使用,需求:求门诊开甲功三项的病人的基本信息与化验结果的数据,...
  9. 7216:Minecraft
  10. 《HTML5移动应用开发入门经典》—— 2.4 HTML5中的HTML语法变化