Bitset 源码解析

Bitset介绍

结构组成

构造函数

无参构造函数

有参构造函数

初始化函数

常用方法

【set】设置索引位有效

【get】获取索引位是否存在

【flip】索引翻转

【or】或运算

【xor】异或运算

【and】与运算

【andNot】非运算

【cardinality】计算有效索引位的数量

【clear】清空桶

Bitset介绍

Bitset位图，其中最核心的部分是words数组，也就是桶位，每个桶的存放类型为long类型

Bitset主要用作数字位的存储，计算方式是每个桶位的拼接态，示例

第一个桶位（长度为64的long类型二进制）

0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 1000

第二个桶位（长度为64的long类型二进制）

0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 1100

那么这个Bitset存储的值有3个数，并且每个数按位的角标确定数值大小，第一个桶仅存储了一个值为下标为3的位置，则存储的数为3，第二个桶存储了两个数，分别是下标为3和4的位置，但是由于拼接态，第二桶的下标要加上前面所有桶的长度之和，则第二个桶存储的数为（64+2）66和（64+3）67。*(两个桶转成十进制的数值分别是8和12，但是Bitset不是这种计算模式)

已知long类型占用内存空间是64个比特位，也就是8字节（1字节 = 8比特，因此一个long类型的数占用64字节），存储量如下：

1G的内存空间，则有 8bit * 1024 * 1024 * 1024 = 8.58* $10^{9}$ bit

由于Bitset是按long长度计数，长度多长就有多少个数，因此1G的内存可以存储85亿左右的数字，是大数据处理统计的神器。

结构组成

ADDRESS_BITS_PER_WORD: 固定值为6，主要用作位运算的常量

x >> 6 相当于除以64，由于long类型是64，这个运算是为了定位数组位置

x << 6 相当于乘以64，由于long类型是64，这个运算是为了定位数组位置

BITS_PER_WORD：值为64，作为长度计算值
BIT_INDEX_MASK：索引掩码
words：核心变量，数组桶位
wordsInUse：记录数组桶位的有效长度
sizeIsSticky：保护初始化构造方法时自定义的数组长度

    private final static int ADDRESS_BITS_PER_WORD = 6;private final static int BITS_PER_WORD = 1 << ADDRESS_BITS_PER_WORD;private final static int BIT_INDEX_MASK = BITS_PER_WORD - 1;private static final long WORD_MASK = 0xffffffffffffffffL;private long[] words;private transient int wordsInUse = 0;private transient boolean sizeIsSticky = false;

构造函数

无参构造函数

initWords方法初始化了数组，由于使用了默认是数组长度，则长度保护关闭。

    public BitSet() {// 初始化数组initWords(BITS_PER_WORD);// 长度保护关闭sizeIsSticky = false;}

有参构造函数

自定义nbits，是按比特位的多少进行初始化，调用initWords中的wordIndex方法中，将nbits作了位运算 nbits >> 64，目的是为了知道多少个long加起来的比特位可以容纳下nbits，使初始化数组的长度不会冗余。
直接传入的words数组，则按自定义的数组长度为准

    public BitSet(int nbits) {// 自定义长度小于0则抛出异常if (nbits < 0)throw new NegativeArraySizeException("nbits < 0: " + nbits);// 根据自定义长度初始化数组initWords(nbits);// 自定义长度保护开启sizeIsSticky = true;}private BitSet(long[] words) {// 直接使用传入的桶位数组this.words = words;// 再用数组长度赋值this.wordsInUse = words.length;checkInvariants();}

初始化函数

initWords：初始化数组

wordIndex：根据比特位索引，除以64（bitIndex >> 6），得到第n个桶位。

    private void initWords(int nbits) {words = new long[wordIndex(nbits-1) + 1];}private static int wordIndex(int bitIndex) {// 计算数组的索引位置return bitIndex >> ADDRESS_BITS_PER_WORD;}

常用方法

【set】设置索引位有效

执行逻辑：

检验索引有效范围
计算比特位索引对应的桶位角标
expand重置桶位使用长度
将set的索引位通过 ‘或运算’ 置为1，1即为有效

    public void set(int bitIndex) {// 1.索引检验if (bitIndex < 0)throw new IndexOutOfBoundsException("bitIndex < 0: " + bitIndex);// 2.计算比特位索引对应的桶位int wordIndex = wordIndex(bitIndex);// 3.重置桶位使用长度expandTo(wordIndex);// 4.将set的索引位通过‘或运算’置为1words[wordIndex] |= (1L << bitIndex);checkInvariants();}private void expandTo(int wordIndex) {// 由于初始化函数时，也是根据wordIndex计算结果+1，故此处也要+1int wordsRequired = wordIndex+1;if (wordsInUse < wordsRequired) {ensureCapacity(wordsRequired);wordsInUse = wordsRequired;}}

【get】获取索引位是否存在

执行逻辑：

检验索引范围
使用的桶位长度检验
计算get的索引位置在哪个桶上
桶位未发生异常的情况下（防止并发），返回对应索引是否为1，为1返回true

    public boolean get(int bitIndex) {// 1.检验索引范围if (bitIndex < 0)throw new IndexOutOfBoundsException("bitIndex < 0: " + bitIndex);// 2.使用的桶位长度检验checkInvariants();// 3.计算get的索引位置在哪个桶上int wordIndex = wordIndex(bitIndex);// 4.桶位未发生异常的情况下（防止并发），返回对应索引是否为1，为1返回truereturn (wordIndex < wordsInUse)&& ((words[wordIndex] & (1L << bitIndex)) != 0);}

【flip】索引翻转

异或的作用：相同为0，不同为1，因此flip方法实质上是对撞抵消

场景：计算商品是否发货，含重复id的商品，通过flip令id抵消，表示商品已发出

执行逻辑：

检验索引范围
计算flip的索引位置在哪个桶上
重置桶位使用长度
将flip的索引位通过 ‘异或’ 进行翻转
重新计算桶位有效长度

    public void flip(int bitIndex) {// 1.检验索引范围if (bitIndex < 0)throw new IndexOutOfBoundsException("bitIndex < 0: " + bitIndex);// 2.计算flip的索引位置在哪个桶上int wordIndex = wordIndex(bitIndex);// 3.重置桶位使用长度expandTo(wordIndex);// 4.将flip的索引位通过 ‘异或’ 进行翻转words[wordIndex] ^= (1L << bitIndex);// 5.重新计算桶位有效长度recalculateWordsInUse();checkInvariants();}

【or】或运算

执行逻辑：

自身相计算，则结果不有变更，终止执行
使用两个Bitset公共桶位
当前Bitset桶位长度若小于传入的Bitset的桶位长度，则将当前Bitset桶位长度上升
对每个桶都进行 ‘或运算’
若公共桶位长度小于传入的Bitset的有效桶位长度，则将传入的Bitset的增量桶赋值给当前Bitset对应桶位

    public void or(BitSet set) {// 1.自身相计算，则结果不有变更，终止执行if (this == set)return;// 2.使用两个Bitset公共桶位长度int wordsInCommon = Math.min(wordsInUse, set.wordsInUse);// 3.当前Bitset桶位长度若小于传入的Bitset的桶位长度，则将当前Bitset桶位长度上升if (wordsInUse < set.wordsInUse) {ensureCapacity(set.wordsInUse);wordsInUse = set.wordsInUse;}// 4.对每个桶都进行 ‘或运算’for (int i = 0; i < wordsInCommon; i++)words[i] |= set.words[i];// 5.若公共桶位长度小于传入的Bitset的有效桶位长度，则将传入的Bitset的增量桶赋值给当前Bitset对应桶位if (wordsInCommon < set.wordsInUse)System.arraycopy(set.words, wordsInCommon,words, wordsInCommon,wordsInUse - wordsInCommon);// recalculateWordsInUse() is unnecessarycheckInvariants();}

【xor】异或运算

执行逻辑：

使用两个Bitset公共桶位
当前Bitset桶位长度若小于传入的Bitset的桶位长度，则将当前Bitset桶位长度上升
对每个桶都进行 ‘异或运算’
若公共桶位长度小于传入的Bitset的有效桶位长度，则将传入的Bitset的增量桶赋值给当前Bitset对应桶位
重新计算桶位有效长度

    public void xor(BitSet set) {// 1.使用两个Bitset公共桶位int wordsInCommon = Math.min(wordsInUse, set.wordsInUse);// 2.当前Bitset桶位长度若小于传入的Bitset的桶位长度，则将当前Bitset桶位长度上升if (wordsInUse < set.wordsInUse) {ensureCapacity(set.wordsInUse);wordsInUse = set.wordsInUse;}// 3.对每个桶都进行 ‘异或运算’for (int i = 0; i < wordsInCommon; i++)words[i] ^= set.words[i];// 4.若公共桶位长度小于传入的Bitset的有效桶位长度，则将传入的Bitset的增量桶赋值给当前Bitset对应桶位if (wordsInCommon < set.wordsInUse)System.arraycopy(set.words, wordsInCommon,words, wordsInCommon,set.wordsInUse - wordsInCommon);// 5.重新计算桶位有效长度recalculateWordsInUse();checkInvariants();}

【and】与运算

执行逻辑：

自身相计算，则结果不有变更，终止执行
若当前Bitset的有效桶位多于传入的Bitset的有效桶位数量，则将当前Bitset的多余桶位全部归0，因为1与0作 ‘与运算’ 结果为0，因此多余桶部分计算的结果也为0，免去位运算过程，直接归0，提效
对有效桶进行 ‘与运算’
重新计算桶位有效长度

    public void and(BitSet set) {// 1.自身相计算，则结果不有变更，终止执行if (this == set)return;// 2.若当前Bitset的有效桶位多于传入的Bitset的有效桶位数量，则将当前Bitset的多余桶位全部归0while (wordsInUse > set.wordsInUse)words[--wordsInUse] = 0;// 3.对有效桶进行 ‘与运算’for (int i = 0; i < wordsInUse; i++)words[i] &= set.words[i];// 4.重新计算桶位有效长度recalculateWordsInUse();checkInvariants();}

【andNot】非运算

执行逻辑：

循环的最大次数取两个Bitset的公共有效桶位
对有效桶进行当前桶 ‘与运算’ 传入的桶（传入的桶先进行 ‘非运算’ 取反）

    public void andNot(BitSet set) {// Perform logical (a & !b) on words in common// 1.循环的最大次数取两个Bitset的公共有效桶位// 2.对有效桶进行 当前桶 ‘与运算’ 传入的桶（传入的桶先进行 ‘非运算’ 取反）for (int i = Math.min(wordsInUse, set.wordsInUse) - 1; i >= 0; i--)words[i] &= ~set.words[i];recalculateWordsInUse();checkInvariants();}

【cardinality】计算有效索引位的数量

执行逻辑：

循环计算每个桶内的long类型的数的比特位为1的数量，计算所有桶的所有有效位数量

    public int cardinality() {int sum = 0;// 1.循环计算每个桶内的long类型的数的比特位为1的数量，计算所有桶的所有有效位数量for (int i = 0; i < wordsInUse; i++)sum += Long.bitCount(words[i]);return sum;}

【clear】清空桶

执行逻辑：

循环便利有效桶位，并将每个桶置为0，同时有效桶位的计量单位wordsInUse也置为0

    public void clear() {// 1.循环便利有效桶位，并将每个桶置为0，同时有效桶位的计量单位wordsInUse也置为0while (wordsInUse > 0)words[--wordsInUse] = 0;}