HashMap源码阅读

HashMap

java.util包下面的工具类,键值对存储数据.通过对键值计算hash值,来存储到对应的位置.
jdk1.8中底层使用数组加链表实现.键值对通过一个内部类的Node节点来表示.采用链地址法解决hash冲突,如果一条链上的节点超过给定阈值会变为红黑树.默认为8.
在hashmap中是可以存储空key和value的.如果为空,则位置为0.

声明

hashmap继承了AbstractMap类,实现Map接口和克隆接口.

1 2	public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable

主要内部类

Node 继承Map.Entry

final int hash; 此节点保存的键值的hash值
final K key; 此节点的键
V value; 值
Node<K,V> next; 下一个节点,主要在有hash冲突的地方指向下一个几点
Node(int hash, K key, V value, Node<K,V> next) 初始化方法
1
2
3
public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
}

这里计算hashCode是用key和value的hash值异或得到.
剩下的是获取键,获取值,设置值,equals等方法,比较简单

KeySet

final class KeySet extends AbstractSet<K> {
        //容量
        public final int size()                 { return size; }
        //调用父类的clear函数
        public final void clear()               { HashMap.this.clear(); }
        //返回key的iterator
        public final Iterator<K> iterator()     { return new KeyIterator(); }
        public final boolean contains(Object o) { return containsKey(o); }
        public final boolean remove(Object key) {
            return removeNode(hash(key), key, null, false, true) != null;
        }
        public final Spliterator<K> spliterator() {
            return new KeySpliterator<>(HashMap.this, 0, -1, 0, 0);
        }
        public final void forEach(Consumer<? super K> action) {
            Node<K,V>[] tab;
            if (action == null)
                throw new NullPointerException();
            if (size > 0 && (tab = table) != null) {
                int mc = modCount;
                for (int i = 0; i < tab.length; ++i) {
                    for (Node<K,V> e = tab[i]; e != null; e = e.next)
                        action.accept(e.key);
                }
                if (modCount != mc)
                    throw new ConcurrentModificationException();
            }
        }
    }

HashIterator

遍历map的迭代器,定义了遍历的基本操作.KeyIterator,ValueIterator和EntryIterator都继承自此类,在实现了一个返回Node的不同值.

abstract class HashIterator {
    Node<K,V> next;        // next entry to return
    Node<K,V> current;     // current entry
    //期望的modcount,在遍历期间不希望有别的线程更改过此map,如果改过,则抛出异常
    int expectedModCount;  // for fast-fail
    int index;             // current slot

    //初始化,找到第一个不为空的节点
    HashIterator() {
        expectedModCount = modCount;
        Node<K,V>[] t = table;
        current = next = null;
        index = 0;
        if (t != null && size > 0) { // advance to first entry
            do {} while (index < t.length && (next = t[index++]) == null);
        }
    }

    
    public final boolean hasNext() {
        return next != null;
    }
    //返回下一个节点,
    final Node<K,V> nextNode() {
        Node<K,V>[] t;
        //首先返回值应该是下一个要返回的节点
        Node<K,V> e = next;
        if (modCount != expectedModCount)
            throw new ConcurrentModificationException();
        if (e == null)
            throw new NoSuchElementException();
        //这里在继续寻找下一个节点
        if ((next = (current = e).next) == null && (t = table) != null) {
            do {} while (index < t.length && (next = t[index++]) == null);
        }
        return e;
    }
    //移除节点使用外部类的方法移除
    public final void remove() {
        Node<K,V> p = current;
        if (p == null)
            throw new IllegalStateException();
        if (modCount != expectedModCount)
            throw new ConcurrentModificationException();
        current = null;
        K key = p.key;
        removeNode(hash(key), key, null, false, false);
        expectedModCount = modCount;
    }
}

字段

常量

DEFAULT_INITIAL_CAPACITY, 默认为16,初始化默认容量大小
MAXIMUM_CAPACITY, 最大容量大小 ,为 1<<30
DEFAULT_LOAD_FACTOR, 加载因子. 默认0.75
TREEIFY_THRESHOLD, 链表树化的阈值,超过这个值,链表转为红黑树.默认为8
UNTREEIFY_THRESHOLD, 红黑树转为链表的阈值,当红黑树的节点个数小于此值会变为链表.默认为6
MIN_TREEIFY_CAPACITY, 这个值就是最小的树化table数组的长度,如果数组长度小于这个值,则先不进行树化,先扩容来减少冲突.
具体属性
Node<K,V>[] table. 用来存放键值对的数组.
int size; 返回table存放了多少键值对,并不是table的长度
int modCount. 这个是在迭代的时候才会用到,因为hashMap的迭代器是fast-fail的.用这个值表示在此过程中是否有过改变,有过改变就抛出异常.
int threshold; 下一个数组长度
final float loadFactor; 加载因子

主要方法

这里一些简单的get(),set()就不说了,因为很简单.

HashMap(int initialCapacity, float loadFactor)

初始化方法,这里只看这一个.其他的都是通过调用这个方法的.所以能看出来在初始化的时候真正的存数据的表并没有初始化.

public HashMap(int initialCapacity, float loadFactor) {
    //初始化容量小于0,直接抛出异常
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " +
                                           initialCapacity);
    //如果大于默认的最大容量,则为最大容量
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " +
                                           loadFactor);
    this.loadFactor = loadFactor;
    //这里就是计算出下一次的table的长度.
    this.threshold = tableSizeFor(initialCapacity);
}

tableSizeFor(int cap) 方法

这个方法设计的很巧妙,通过5次移位运算可以返回一个大于等于cap的最小的2的n次方的数

static final int tableSizeFor(int cap) {
    //  减一是为了防止cap本身就为2的n次方
    // 这里一个数字首先无符号右移1位,然后在或运算,会将他最高位为1的右边一位也变为1.
    // 比如随便来一个数字  为010010111000000...
        int n = cap - 1;
        n |= n >>> 1;
        //经过第一次运算后,很明显为1的最高位和下一位都为1.数字为 01101....
        n |= n >>> 2;
        //第二次运算之后,这两位1在向右移动两位,现在最高位最少有4个1.为011110....
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        //以此类推,在最后右移16位的时候,最后会导致cap的最高位为1的位置之后的全部为1.很容易就找见了大于等于cap的最小的2的n次方的数
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

hash(Object key)

计算key的hash值,通过高16位与上低16为保证每一位都能够参与运算.

static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict)方法

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //首先判断table是否为空,如果为空,则先resize扩容.
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
            //判断key要存储的位置是否有Node.如果没有则直接插入.有的话向下走
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
            
        else {
            //这里表示每个table对应的位置有节点,发生冲突,向链表或者红黑树插入节点.
            Node<K,V> e; K k;
            //如果链首节点的hash值和key值都与要插入的值相等,则把将e指向该节点..
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
                //如果这条链已经转化成了红黑树,则通过红黑树的插入方式插入
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                //这里找到链表的最后一个节点,如果在找的过程中,遇到了和自己key一样的节点将e指向此节点.在插入后如果长度大于等于8则把链表转化为树
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            //这里e指的是key与要插入的key相等的节点.所以这个时候会判断上面是否要求存在并替换,如果为false,则不替换
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                //这个方法是给linkedHashMap用的,这里用不到
                afterNodeAccess(e);
                return oldValue;
            }
        }
        //modCount加1,表示这个时候被改过了.
        ++modCount;
        if (++size > threshold)
            resize();
        //这个方法也是个linkedHashMap用的,这里用不到,没有实现.
        afterNodeInsertion(evict);
        return null;
    }

resize()

接着看resize()方法,在这里,resize总是将容量大小扩容到2的n次方大小,因为这个样子有利于rehash.还有利于找key在数组中的位置.

final Node<K,V>[] resize() {
        //保存下来旧的table.
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        if (oldCap > 0) {
            //如果旧的容量大于0,并且大于默认最大值也就是1<<30,threshold也就是下一次的要扩容到threshold大小.直接返回
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            //新的容量变为原来的2被,新的threshold也变为原来的2倍,因为有一个tablesizefor()方法,导致hashMap的容量只能是2的n次方
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        //这里是table还没有初始化的时候,等于之前的要扩容大小
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        else {           
            //如果oldThr也没有制定,则就是默认大小.
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        if (oldTab != null) {
            //对于表中的没一个位置,复制到新表中
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;
                        //如果这个表中的节点是树的话,就用树的方式来写.
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { 
                        //如果是链表的话,这里有一个小知识点,因为table的大小只能是2的n次方,所以在rehash的时候在一条链上的节点在rehash后,只能有两个位置,一个是本身i,另一个是i+oldTab.length;
                        //这里使用两个链表直接遍历所有的在链表上的节点,然后分为两个链表,最后给i和i+oldTab.length位置赋值
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            //如果hash与上旧的长度为0的话,说明这个节点的位置还在原处
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

扩容这里,旧的链表上的节点的位置只可能是i或者i+oldTab.length.为什么呢.举个例子.假如之前的链表长度为16,二进制为10000,现在变为32,就是100000;这个时候如果一个hash值为10的节点分别与16-1(1111)和32-1(11111)进行与运算,那么他们两个就只有可能有一位不一样,就是第5位.所以如果第5为是0,说明和以前的坐标一样,还在原位置,如果为1,则说明坐标位置应该在i+oldTabl.length的位置.

removeNode(int hash, Object key, Object value, boolean matchValue, boolean movable)

移除一个节点.

final Node<K,V> removeNode(int hash, Object key, Object value,
                               boolean matchValue, boolean movable) {
        Node<K,V>[] tab; Node<K,V> p; int n, index;
        if ((tab = table) != null && (n = tab.length) > 0 &&
            (p = tab[index = (n - 1) & hash]) != null) {
                //先找到key所在数组中的位置为(n-1)&hash
                //保存一个node节点,节点表示的是要删除的节点,p表示要删除的前一个节点.
            Node<K,V> node = null, e; K k; V v;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                node = p;
            else if ((e = p.next) != null) {
                if (p instanceof TreeNode)
                    node = ((TreeNode<K,V>)p).getTreeNode(hash, key);
                else {
                    do {
                        if (e.hash == hash &&
                            ((k = e.key) == key ||
                             (key != null && key.equals(k)))) {
                            node = e;
                            break;
                        }
                        p = e;
                    } while ((e = e.next) != null);
                }
            }
            if (node != null && (!matchValue || (v = node.value) == value ||
                                 (value != null && value.equals(v)))) {
                //具体删除操作,都能看懂
                if (node instanceof TreeNode)
                    ((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);
                else if (node == p)
                    tab[index] = node.next;
                else
                    p.next = node.next;
                ++modCount;
                --size;
                afterNodeRemoval(node);
                return node;
            }
        }
        return null;
    }

public boolean containsValue(Object value)

containsValue主要就是遍历表中的节点,如果找到就返回true.

{
    Node<K,V>[] tab; V v;
    if ((tab = table) != null && size > 0) {
        for (int i = 0; i < tab.length; ++i) {
            for (Node<K,V> e = tab[i]; e != null; e = e.next) {
                if ((v = e.value) == value ||
                    (value != null && value.equals(v)))
                    return true;
            }
        }
    }
    return false;
}

clear()方法

简单,就是将table中的元素附空值.

public void clear() {
        Node<K,V>[] tab;
        modCount++;
        if ((tab = table) != null && size > 0) {
            size = 0;
            for (int i = 0; i < tab.length; ++i)
                tab[i] = null;
        }
    }