面试官:"准备用HashMap存1w条数据,构造时传10000还会触发扩容吗?"

  • 时间:
  • 浏览:0
  • 来源:大发时时彩_时时彩单双计划_大发时时彩单双计划

// 预计存入 1w 条数据,初始化赋值 111500,正确处理 resize。
HashMap<String,String> map = new HashMap<>(111500)
// for (int i = 0; i < 111500; i++)

Java 集合的扩容

HashMap 是否 亲戚亲戚大伙儿最常用的集合之一,其实对于 Android 开发者,Google 官方推荐了更省内存的 SparseArray 和 ArrayMap,怎样让 HashMap 依然是最常用的。

亲戚亲戚大伙儿通过 HashMap 来存储 Key-Value 四种 键值对形式的数据,其内部管理通过哈希表,让存取下行速率 最好时并能达到 O(1),而又原困分析原困分析处于的 Hash 冲突,引入了链表和红黑树的特性,让下行速率 最差也差不过 O(logn)。

整体来说,HashMap 作为一款工业级的哈希表特性,下行速率 还是有保障的。

编程语言提供的集合类,其实底层还是基于数组、链表四种 最基本的数据特性,怎样让和亲戚亲戚大伙儿直接使用数组不同,集合在容量严重不足时,会触发动态扩容来保证有足够的空间存储数据

动态扩容,涉及到数据的拷贝,是四种 「较重」的操作。那原困分析并能提前挑选集合将要存储的数据量范围,就并能通过构造辦法 ,指定集合的初始容量,来保证接下来的操作中,不至于触发动态扩容。

这就引入了本文开篇的大问提,原困分析使用 HashMap,当初始化是构造函数指定 1w 时,后续亲戚亲戚大伙儿立即存入 1w 条数据,是否 符合与其太大再触发扩容呢?

在分析四种 大问提前,另一2个们先来看看,HashMap 初始化时,指定初始容量值都做了哪些地方?

PS:本文所涉及代码,均以 JDK 1.8 中 HashMap 的源码举例。

HashMap 的初始化

在 HashMap 中,提供了一2个指定初始容量的构造辦法 HashMap(int initialCapacity),四种 辦法 最终会调用到 HashMap 另一2个构造辦法 ,其中的参数 loadFactor 太大我默认值 0.75f。

public HashMap(int initialCapacity, float loadFactor) {
  if (initialCapacity < 0)
    throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity);
  if (initialCapacity > MAXIMUM_CAPACITY)
    initialCapacity = MAXIMUM_CAPACITY;
  if (loadFactor <= 0 || Float.isNaN(loadFactor))
    throw new IllegalArgumentException("Illegal load factor: " + loadFactor);

  this.loadFactor = loadFactor;
  this.threshold = tableSizeFor(initialCapacity);
}

其中的成员变量 threshold 太大我用来存储,触发 HashMap 扩容的阈值,也太大我说,当 HashMap 存储的数据量达到 threshold 时,就会触发扩容。

从构造辦法 的逻辑并能看出,HashMap 并总要直接使用内部管理传递进来的 initialCapacity,太大我经过了 tableSizeFor() 辦法 的正确处理,再赋值到 threshole 上。

static final int tableSizeFor(int cap) {
  int n = cap - 1;
  n |= n >>> 1;
  n |= n >>> 2;
  n |= n >>> 4;
  n |= n >>> 8;
  n |= n >>> 16;
  return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

tableSizeFor() 辦法 中,通过逐步位运算,就并能让返回值,保持在 2 的 N 次幂。以方便在扩容的过后 ,快速计算数据在扩容后的新表中的位置。

没办法 当亲戚亲戚大伙儿从内部管理传递进来 1w 时,实际上经过 tableSizeFor() 辦法 正确处理过后 ,就会变成 2 的 14 次幂 16384,再算上负载因子 0.75f,实际在不触发扩容的前提下,可存储的数据容量是 12288(16384 * 0.75f)。

四种 场景下,用来存放 1w 条数据,绰绰有余了,并太大再触发亲戚亲戚大伙儿猜想的扩容。

HashMap 的 table 初始化

当亲戚亲戚大伙儿把初始容量,调整到 11150 时,状态又不一样了,具体状态具体分析。

再回到 HashMap 的构造辦法 ,threshold 为扩容的阈值,在构造辦法 中由 tableSizeFor() 辦法 调整后直接赋值,太大在构造 HashMap 时,原困分析传递 11150,threshold 调整后的值其实是 1024,但 HashMap 并不直接使用它。

仔细想想就会知道,初始化时决定了 threshold 值,但其装载因子(loadFactor)并没办法 参与运算,那在后面 具体逻辑的过后 ,HashMap 是怎样正确处理的呢?

在 HashMap 中,所有的数据,总要通过成员变量 table 数组来存储的,在 JDK 1.7 和 1.8 中其实 table 的类型有所不同,怎样让数组四种 基本特性并没办法 变化。没办法 table、threshold、loadFactor 三者之间的关系,太大我:

table.size == threshold * loadFactor

那四种 table 是在哪些地方过后 初始化的呢?这就要说会到亲戚亲戚大伙儿老要在回避的大问提,HashMap 的扩容。

在 HashMap 中,动态扩容的逻辑在 resize() 辦法 中。四种 辦法 不仅仅承担了 table 的扩容,它还承担了 table 的初始化。

当亲戚亲戚大伙儿首次调用 HashMap 的 put() 辦法 存数据时,原困分析发现 table 为 null,则会调用 resize() 去初始化 table,具体逻辑在 putVal() 辦法 中。

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    if ((tab = table) == null || (n = tab.length) == 0)
    n = (tab = resize()).length; // 调用 resize()
    // ...
}

resize() 辦法 中,调整了最终 threshold 值,以及完成了 table 的初始化。

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; 
    }
    else if (oldThr > 0) 
        newCap = oldThr; // ①
    else {               
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {
        // ②
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr; // ③
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab; // ④
    // ....
}

注意看代码中的注释标记。

原困分析 resize() 还糅合了动态扩容的逻辑,太大我将初始化 table 的逻辑用注释标记出来了。其中 xxxCap 和 xxxThr 分别对应了 table 的容量和动态扩容的阈值,太大处于旧和新两组数据。

当亲戚亲戚大伙儿指定了初始容量,且 table 未被初始化时,oldThr 就不为 0,则会走到代码 的逻辑。在其中将 newCap 赋值为 oldThr,也太大我新创建的 table 会是亲戚亲戚大伙儿构造的 HashMap 时指定的容量值。

过后 会进入代码 的逻辑,其中就通过装载因子(loadFactor)调整了新的阈值(newThr),当然这里也做了太大限制时需让 newThr 在一2个合法的范围内。

在代码 中,将使用 loadFactor 调整后的阈值,重新保存到 threshold 中。并通过 newCap 创建新的数组,将其指定到 table 上,完成 table 的初始化(代码 )。

到这里也就清楚了,其实亲戚亲戚大伙儿在初始化时,传递进来的 initialCapacity 其实被赋值给 threshold,怎样让它实际是 table 的尺寸,怎样让最终会通过 loadFactor 重新调整 threshold

没办法 回到过后 的大问提总要答案了,其实 HashMap 初始容量指定为 11150,怎样让它太大我表示 table 数组为 11150,扩容的重要辦法 扩容阈值会在 resize() 中调整为 768(1024 * 0.75)。

它是严重不足以承载 11150 条数据的,最终在存够 1k 条数据过后 ,总要触发一次动态扩容。

通常在初始化 HashMap 时,初始容量总要根据业务来的,而太大再是一2个固定值,为此亲戚亲戚大伙儿时需有一2个特殊正确处理的辦法 ,太大我将预期的初始容量,再除以 HashMap 的装载因子,默认时太大我除以 0.75。

相似我应该 用 HashMap 存放 1k 条数据,应该设置 11150 / 0.75,实际传递进去的值是 1333,然总要被 tableSizeFor() 辦法 调整到 2048,足够存储数据而太大再触发扩容。

当想用 HashMap 存放 1w 条数据时,依然设置 111500 / 0.75,实际传递进去的值是 13333,会被调整到 16384,和亲戚亲戚大伙儿直接传递 111500 效果是一样的。

小结时刻

到这里,就了解清楚了 HashMap 的初始容量,应该怎样科学的计算,本质上你传递进去的值原困分析并无法直接存储没办法 多数据,会有一2个动态调整的过程。其中就时需将亲戚亲戚大伙儿预期的值进行放大,比较科学的太大我辦法 装载因子进行放大。

最后亲戚亲戚大伙儿再总结一下:

  1. HashMap 构造辦法 传递的 initialCapacity,其实在正确处理后被存入了 loadFactor 中,但它实际表示 table 的容量。
  2. 构造辦法 传递的 initialCapacity,最终会被 tableSizeFor() 辦法 动态调整为 2 的 N 次幂,以方便在扩容的过后 ,计算数据在 newTable 中的位置。
  3. 原困分析设置了 table 的初始容量,会在初始化 table 时,将扩容阈值 threshold 重新调整为 table.size * loadFactor。
  4. HashMap 是否 扩容,由 threshold 决定,而 threshold 又由初始容量和 loadFactor 决定。
  5. 原困分析亲戚亲戚大伙儿预先知道 HashMap 数据量范围,并能预设 HashMap 的容量值来提升下行速率 ,怎样让时需注意要考虑装载因子的影响,并能保证太大再触发预期之外的动态扩容。

HashMap 作为 Java 最常用的集合之一,市面上优秀的文章太大,怎样让很少其他同学从初始容量的深度图来分析其中的逻辑,而初始容量又是集合中比较实际的优化点。其实不少人也搞不清楚,在设置 HashMap 初始容量时,是否 应该考虑装载因子,才有了此文。

原困分析本文对你有所帮助,留言、转发、点好看是最大的支持,谢谢!


公众号后台回复成长『成长』,原困分析得到我准备的学习资料,并能回复『加群』,同时学习进步。