HashMap源码阅读

HashMap

java.util包下面的工具类,键值对存储数据.通过对键值计算hash值,来存储到对应的位置.
jdk1.8中底层使用数组加链表实现.键值对通过一个内部类的Node节点来表示.采用链地址法解决hash冲突,如果一条链上的节点超过给定阈值会变为红黑树.默认为8.
在hashmap中是可以存储空key和value的.如果为空,则位置为0.

声明

hashmap继承了AbstractMap类,实现Map接口和克隆接口.

1
2
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable

主要内部类

Node 继承Map.Entry

  • final int hash; 此节点保存的键值的hash值
  • final K key; 此节点的键
  • V value; 值
  • Node<K,V> next; 下一个节点,主要在有hash冲突的地方指向下一个几点

    Node(int hash, K key, V value, Node<K,V> next) 初始化方法

    1
    2
    3
    public final int hashCode() {
    return Objects.hashCode(key) ^ Objects.hashCode(value);
    }

这里计算hashCode是用key和value的hash值异或得到.
剩下的是获取键,获取值,设置值,equals等方法,比较简单

KeySet

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
final class KeySet extends AbstractSet<K> {
//容量
public final int size() { return size; }
//调用父类的clear函数
public final void clear() { HashMap.this.clear(); }
//返回key的iterator
public final Iterator<K> iterator() { return new KeyIterator(); }
public final boolean contains(Object o) { return containsKey(o); }
public final boolean remove(Object key) {
return removeNode(hash(key), key, null, false, true) != null;
}
public final Spliterator<K> spliterator() {
return new KeySpliterator<>(HashMap.this, 0, -1, 0, 0);
}
public final void forEach(Consumer<? super K> action) {
Node<K,V>[] tab;
if (action == null)
throw new NullPointerException();
if (size > 0 && (tab = table) != null) {
int mc = modCount;
for (int i = 0; i < tab.length; ++i) {
for (Node<K,V> e = tab[i]; e != null; e = e.next)
action.accept(e.key);
}
if (modCount != mc)
throw new ConcurrentModificationException();
}
}
}

HashIterator

遍历map的迭代器,定义了遍历的基本操作.KeyIterator,ValueIterator和EntryIterator都继承自此类,在实现了一个返回Node的不同值.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
abstract class HashIterator {
Node<K,V> next; // next entry to return
Node<K,V> current; // current entry
//期望的modcount,在遍历期间不希望有别的线程更改过此map,如果改过,则抛出异常
int expectedModCount; // for fast-fail
int index; // current slot

//初始化,找到第一个不为空的节点
HashIterator() {
expectedModCount = modCount;
Node<K,V>[] t = table;
current = next = null;
index = 0;
if (t != null && size > 0) { // advance to first entry
do {} while (index < t.length && (next = t[index++]) == null);
}
}


public final boolean hasNext() {
return next != null;
}
//返回下一个节点,
final Node<K,V> nextNode() {
Node<K,V>[] t;
//首先返回值应该是下一个要返回的节点
Node<K,V> e = next;
if (modCount != expectedModCount)
throw new ConcurrentModificationException();
if (e == null)
throw new NoSuchElementException();
//这里在继续寻找下一个节点
if ((next = (current = e).next) == null && (t = table) != null) {
do {} while (index < t.length && (next = t[index++]) == null);
}
return e;
}
//移除节点使用外部类的方法移除
public final void remove() {
Node<K,V> p = current;
if (p == null)
throw new IllegalStateException();
if (modCount != expectedModCount)
throw new ConcurrentModificationException();
current = null;
K key = p.key;
removeNode(hash(key), key, null, false, false);
expectedModCount = modCount;
}
}

字段

常量

  • DEFAULT_INITIAL_CAPACITY, 默认为16,初始化默认容量大小
  • MAXIMUM_CAPACITY, 最大容量大小 ,为 1<<30
  • DEFAULT_LOAD_FACTOR, 加载因子. 默认0.75
  • TREEIFY_THRESHOLD, 链表树化的阈值,超过这个值,链表转为红黑树.默认为8
  • UNTREEIFY_THRESHOLD, 红黑树转为链表的阈值,当红黑树的节点个数小于此值会变为链表.默认为6
  • MIN_TREEIFY_CAPACITY, 这个值就是最小的树化table数组的长度,如果数组长度小于这个值,则先不进行树化,先扩容来减少冲突.

    具体属性

  • Node<K,V>[] table. 用来存放键值对的数组.
  • int size; 返回table存放了多少键值对,并不是table的长度
  • int modCount. 这个是在迭代的时候才会用到,因为hashMap的迭代器是fast-fail的.用这个值表示在此过程中是否有过改变,有过改变就抛出异常.
  • int threshold; 下一个数组长度
  • final float loadFactor; 加载因子

主要方法

这里一些简单的get(),set()就不说了,因为很简单.

HashMap(int initialCapacity, float loadFactor)

初始化方法,这里只看这一个.其他的都是通过调用这个方法的.所以能看出来在初始化的时候真正的存数据的表并没有初始化.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
public HashMap(int initialCapacity, float loadFactor) {
//初始化容量小于0,直接抛出异常
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
//如果大于默认的最大容量,则为最大容量
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
//这里就是计算出下一次的table的长度.
this.threshold = tableSizeFor(initialCapacity);
}

tableSizeFor(int cap) 方法

这个方法设计的很巧妙,通过5次移位运算可以返回一个大于等于cap的最小的2的n次方的数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
static final int tableSizeFor(int cap) {
// 减一是为了防止cap本身就为2的n次方
// 这里一个数字首先无符号右移1位,然后在或运算,会将他最高位为1的右边一位也变为1.
// 比如随便来一个数字 为010010111000000...
int n = cap - 1;
n |= n >>> 1;
//经过第一次运算后,很明显为1的最高位和下一位都为1.数字为 01101....
n |= n >>> 2;
//第二次运算之后,这两位1在向右移动两位,现在最高位最少有4个1.为011110....
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
//以此类推,在最后右移16位的时候,最后会导致cap的最高位为1的位置之后的全部为1.很容易就找见了大于等于cap的最小的2的n次方的数
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

hash(Object key)

计算key的hash值,通过高16位与上低16为保证每一位都能够参与运算.

1
2
3
4
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict)方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {

Node<K,V>[] tab; Node<K,V> p; int n, i;
//首先判断table是否为空,如果为空,则先resize扩容.
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//判断key要存储的位置是否有Node.如果没有则直接插入.有的话向下走
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);

else {
//这里表示每个table对应的位置有节点,发生冲突,向链表或者红黑树插入节点.
Node<K,V> e; K k;
//如果链首节点的hash值和key值都与要插入的值相等,则把将e指向该节点..
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//如果这条链已经转化成了红黑树,则通过红黑树的插入方式插入
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
//这里找到链表的最后一个节点,如果在找的过程中,遇到了和自己key一样的节点将e指向此节点.在插入后如果长度大于等于8则把链表转化为树
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
//这里e指的是key与要插入的key相等的节点.所以这个时候会判断上面是否要求存在并替换,如果为false,则不替换
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
//这个方法是给linkedHashMap用的,这里用不到
afterNodeAccess(e);
return oldValue;
}
}
//modCount加1,表示这个时候被改过了.
++modCount;
if (++size > threshold)
resize();
//这个方法也是个linkedHashMap用的,这里用不到,没有实现.
afterNodeInsertion(evict);
return null;
}

resize()

接着看resize()方法,在这里,resize总是将容量大小扩容到2的n次方大小,因为这个样子有利于rehash.还有利于找key在数组中的位置.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
final Node<K,V>[] resize() {
//保存下来旧的table.
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
//如果旧的容量大于0,并且大于默认最大值也就是1<<30,threshold也就是下一次的要扩容到threshold大小.直接返回
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
//新的容量变为原来的2被,新的threshold也变为原来的2倍,因为有一个tablesizefor()方法,导致hashMap的容量只能是2的n次方
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
//这里是table还没有初始化的时候,等于之前的要扩容大小
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else {
//如果oldThr也没有制定,则就是默认大小.
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
if (oldTab != null) {
//对于表中的没一个位置,复制到新表中
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
//如果这个表中的节点是树的话,就用树的方式来写.
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else {
//如果是链表的话,这里有一个小知识点,因为table的大小只能是2的n次方,所以在rehash的时候在一条链上的节点在rehash后,只能有两个位置,一个是本身i,另一个是i+oldTab.length;
//这里使用两个链表直接遍历所有的在链表上的节点,然后分为两个链表,最后给i和i+oldTab.length位置赋值
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
//如果hash与上旧的长度为0的话,说明这个节点的位置还在原处
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}

扩容这里,旧的链表上的节点的位置只可能是i或者i+oldTab.length.为什么呢.举个例子.假如之前的链表长度为16,二进制为10000,现在变为32,就是100000;这个时候如果一个hash值为10的节点分别与16-1(1111)和32-1(11111)进行与运算,那么他们两个就只有可能有一位不一样,就是第5位.所以如果第5为是0,说明和以前的坐标一样,还在原位置,如果为1,则说明坐标位置应该在i+oldTabl.length的位置.

removeNode(int hash, Object key, Object value, boolean matchValue, boolean movable)

移除一个节点.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
final Node<K,V> removeNode(int hash, Object key, Object value,
boolean matchValue, boolean movable) {
Node<K,V>[] tab; Node<K,V> p; int n, index;
if ((tab = table) != null && (n = tab.length) > 0 &&
(p = tab[index = (n - 1) & hash]) != null) {
//先找到key所在数组中的位置为(n-1)&hash
//保存一个node节点,节点表示的是要删除的节点,p表示要删除的前一个节点.
Node<K,V> node = null, e; K k; V v;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
node = p;
else if ((e = p.next) != null) {
if (p instanceof TreeNode)
node = ((TreeNode<K,V>)p).getTreeNode(hash, key);
else {
do {
if (e.hash == hash &&
((k = e.key) == key ||
(key != null && key.equals(k)))) {
node = e;
break;
}
p = e;
} while ((e = e.next) != null);
}
}
if (node != null && (!matchValue || (v = node.value) == value ||
(value != null && value.equals(v)))) {
//具体删除操作,都能看懂
if (node instanceof TreeNode)
((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);
else if (node == p)
tab[index] = node.next;
else
p.next = node.next;
++modCount;
--size;
afterNodeRemoval(node);
return node;
}
}
return null;
}

public boolean containsValue(Object value)

containsValue主要就是遍历表中的节点,如果找到就返回true.

1
2
3
4
5
6
7
8
9
10
11
12
13
{
Node<K,V>[] tab; V v;
if ((tab = table) != null && size > 0) {
for (int i = 0; i < tab.length; ++i) {
for (Node<K,V> e = tab[i]; e != null; e = e.next) {
if ((v = e.value) == value ||
(value != null && value.equals(v)))
return true;
}
}
}
return false;
}

clear()方法

简单,就是将table中的元素附空值.

1
2
3
4
5
6
7
8
9
public void clear() {
Node<K,V>[] tab;
modCount++;
if ((tab = table) != null && size > 0) {
size = 0;
for (int i = 0; i < tab.length; ++i)
tab[i] = null;
}
}