2. 写表操作

2.1 多HTable并发写

创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子:

static final Configuration conf = HBaseConfiguration.create();
static final String table_log_name = “user_log”;
wTableLog = new HTable[tableN];
for (int i = 0; i < tableN; i++) {
    wTableLog[i] = new HTable(conf, table_log_name);
    wTableLog[i].setWriteBufferSize(5 * 1024 * 1024); //5MB
    wTableLog[i].setAutoFlush(false);
}

2.2 HTable参数设置

2.2.1 Auto Flush

通过调用HTable.setAutoFlush(false)方法可以将HTable写客户端的自动flush关闭,这样可以批量写入数据到HBase,而不是有一条put就执行一次更新,只有当put填满客户端写缓存时,才实际向HBase服务端发起写请求。默认情况下auto flush是开启的。

2.2.2 Write Buffer

通过调用HTable.setWriteBufferSize(writeBufferSize)方法可以设置HTable客户端的写buffer大小,如果新设置的buffer小于当前写buffer中的数据时,buffer将会被flush到服务端。其中,writeBufferSize的单位是byte字节数,可以根据实际写入数据量的多少来设置该值。

2.2.3 WAL Flag

在HBae中,客户端向集群中的RegionServer提交数据时(Put/Delete操作),首先会先写WAL(Write Ahead Log)日志(即HLog,一个RegionServer上的所有Region共享一个HLog),只有当WAL日志写成功后,再接着写MemStore,然后客户端被通知提交数据成功;如果写WAL日志失败,客户端则被通知提交失败。这样做的好处是可以做到RegionServer宕机后的数据恢复。

因此,对于相对不太重要的数据,可以在Put/Delete操作时,通过调用Put.setWriteToWAL(false)或Delete.setWriteToWAL(false)函数,放弃写WAL日志,从而提高数据写入的性能。

值得注意的是:谨慎选择关闭WAL日志,因为这样的话,一旦RegionServer宕机,Put/Delete的数据将会无法根据WAL日志进行恢复。

2.3 批量写

通过调用HTable.put(Put)方法可以将一个指定的row key记录写入HBase,同样HBase提供了另一个方法:通过调用HTable.put(List<Put>)方法可以将指定的row key列表,批量写入多行记录,这样做的好处是批量执行,只需要一次网络I/O开销,这对于对数据实时性要求高,网络传输RTT高的情景下可能带来明显的性能提升。

2.4 多线程并发写

在客户端开启多个HTable写线程,每个写线程负责一个HTable对象的flush操作,这样结合定时flush和写buffer(writeBufferSize),可以既保证在数据量小的时候,数据可以在较短时间内被flush(如1秒内),同时又保证在数据量大的时候,写buffer一满就及时进行flush。下面给个具体的例子:

for (int i = 0; i < threadN; i++) {
    Thread th = new Thread() {
        public void run() {
            while (true) {
                try {
                    sleep(1000); //1 second
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
synchronized (wTableLog[i]) {
                    try {
                        wTableLog[i].flushCommits();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }
}
    };
    th.setDaemon(true);
    th.start();
}

HBase性能优化方法总结(二):写表操作相关推荐

  1. HBase性能优化方法总结(3):写表操作

    本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. 下面是本文总结的第二部分内容:写表操作相关的优化方法 ...

  2. HBase性能优化方法总结(4):读表操作

    来自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section3.html 本文主要是 ...

  3. HBase性能优化方法总结(2):表的设计

    本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. 下面是本文总结的第一部分内容:表的设计相关的优化方法 ...

  4. HBase性能优化方法总结(四):数据计算

    本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. 下面是本文总结的第四部分内容:数据计算相关的优化方法 ...

  5. HBase性能优化方法总结(三):读表操作

    3. 读表操作 3.1 多HTable并发读 创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子: static final Configuration conf = HBaseCon ...

  6. HBase性能优化方法总结(一):表的设计

    1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数 ...

  7. HBase性能优化方法总结(1):配置优化

    配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时时间.当超时时间到后,ReigonSer ...

  8. HBase性能优化方法总结

    目录 1. 表的设计 1.1 Pre-Creating Regions 1.2 Row Key 1.3 Column Family 1.4 In Memory 1.5 Max Version 1.6 ...

  9. HBase性能优化总结

    HBase性能优化方法总结(一):表的设计 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有 ...

最新文章

  1. invalidate()源码分析
  2. 独家 | 成功开发者必备的5项软技能
  3. 数字化转型 用数据重塑未来业务
  4. LA3029最大子矩阵
  5. 忙~~~~~~~~~~~~~~~~~
  6. 【Linux环境部署】最新版 elasticsearch + kibana(7.15.0)安装、配置、启动(多个问题处理 + kibana仪表盘使用)
  7. PANIC: Unreachable code reached.
  8. [漏洞检测]Proxpy Web Scan设计与实现(未完待续)
  9. python读大文件方法_使用Python读取大文件的方法
  10. cocos2dx 3.x(移动修改精灵坐标MoveTo与MoveBy)
  11. 工具WinRunner 及Bochs
  12. android歌词控件
  13. 锂电池充电管理芯片ic XSC01支持筋膜枪8.4V12.6V16.8充电
  14. 【ERROR】ValueError: Of the four parameters: start, end, periods, and freq, exactly three must be spec
  15. word突然不能保存的解决方法
  16. 【STM32F429】第18章 ThreadX GUIX汉字显示(小字库)
  17. 【雷达与对抗】【2017.06】空中目标的无源雷达探测
  18. 5款免费分区工具,快给你的磁盘洗洗澡吧
  19. 前端技术火爆的原因,为什么更多的人转行进入前端
  20. NR中的盲检--pdcch candidate的起始CCE位置计算

热门文章

  1. 2021HDU多校8 - 7059 Counting Stars(线段树)
  2. CodeForces - 1457E New Game Plus!(贪心)
  3. CodeForces - 1341F Nastya and Time Machine(dfs+构造)
  4. CodeForces - 456C Boredom(线性dp)
  5. php self 内存,php导致内存溢出
  6. 在HTML中,如何设置新窗口打开和在原窗口打开
  7. interface接口实例
  8. VC程序初始化隐藏窗体
  9. Python 找出一个整数数组中,第二大的数。
  10. 好文|张一鸣:10年面试2000人,我发现混的好的人,全都有同一个特质