面試官你能不能別問我 HashMap 了？

作者：鴨血粉絲 2020-12-03 07:39:50

開發后端

如果你是個 Java 程序員，那一定對 HashMap 不陌生，巧的是只要你去面試，大概率都會被問到 HashMap 的相關內容,那這篇文章你就一定要讀一讀了。

[[355436]]

本文轉載自微信公眾號「Java極客技術」，作者鴨血粉絲。轉載本文請聯系Java極客技術公眾號。

如果你是個 Java 程序員，那一定對 HashMap 不陌生，巧的是只要你去面試，大概率都會被問到 HashMap 的相關內容

那這篇文章你就一定要讀一讀了

HashMap 的底層數據結構

先來聊聊 HashMap 的底層數據結構 HashMap 的底層數據結構， 1.7 版本和 1.8 版本是有些不同的，但大體上都是數組 + 鏈表的形式來實現的， 1.7 版本是這個樣子：

1.8 版本是這樣：

很明顯就能看出來， 1.8 版本怎么多了一個樹?還是紅黑的?

這就要來分析 1.7 版本 HashMap 的實現有什么不足了

1.7 版本主要就是數組 + 鏈表，那么如果有一個 hash 值總是會發生碰撞，那么由此對應的鏈表結構也會越來越長，這個時候如果再想要進行查詢操作，就會非常耗時，所以該如何優化這一點就是 1.8 版本想要實現的

1.8 版本采用了數組 + 鏈表 + 紅黑樹的方式去實現，當鏈表的長度大于 8 時，就會將鏈表轉為紅黑樹。

這個時候問題就來了，為什么會將鏈表轉紅黑樹的值設定為 8 ?

因為鏈表的時間復雜度是 n/2 ，紅黑樹時間復雜度是 logn ，當 n 等于 8 的時候， log8 要比 8/2 小，這個時候紅黑樹的查找速度會更快一些

為什么是小于 6 的時候轉為鏈表，而不是 7 的時候就轉為鏈表呢?頻繁的從鏈表轉到紅黑樹，再從紅黑樹轉到鏈表，開銷會很大，特別是頻繁的從鏈表轉到紅黑樹時，需要旋轉

為什么將鏈表轉為紅黑樹，而不是平衡二叉樹( AVL 樹)呢?

因為 AVL 樹比紅黑樹保持著更加嚴格的平衡， AVL 樹中從根到最深葉的路徑最多為 1.44lg(n + 2) ，紅黑樹中則最多為 2lg( n + 1) ，所以 AVL 樹查找效果會比較快，如果是查找密集型任務使用 AVL 樹比較好，相反插入密集型任務，使用紅黑樹效果就比較 nice
AVL 樹在每個節點上都會存儲平衡因子
AVL 樹的旋轉比紅黑樹的旋轉更加難以平衡和調試，如果兩個都給 O(lgn) 查找， AVL 樹可能需要 O(log n) 旋轉，而紅黑樹最多需要兩次旋轉使其達到平衡

HashMap 為什么是線程不安全的?

HashMap 的線程不安全主要體現在兩個方面：擴容時導致的死循環 & 數據覆蓋

擴容時導致的死循環，這個問題只會在 1.7 版本及以前出現，因為在 1.7 版本及以前，擴容時的實現，采用的是頭插法，這樣就會導致循環鏈表的問題

什么時候會觸發擴容呢?如果存儲的數據，大于當前的 HashMap 長度( Capacity ) * 負載因子( LoadFactor ，默認為 0.75) 時，就會發生擴容。比如當前容量是 16 ， 16 * 0.75 = 12 ，當存儲第 13 個元素時，經過判斷發現需要進行擴容，那么這個時候 HashMap 就會先進行擴容的操作

擴容也不是簡簡單單的將原來的容量擴大就完事兒了，擴容時，首先創建一個新的 Entry 空數組，長度是原數組的 2 倍，擴容完畢之后還會再進行 ReHash ，也就是將原 Entry 數組里面的數據，重新 hash 到新數組里面去

假設現在有一個 Entry 數組，大小是 2 ，那么當我們插入第 2 個元素時，大于 2 * 0.75 那么此時就會發生擴容，具體如下圖：

擴容完畢之后，因為采用的是頭插法，所以后面的元素會放在頭部位置，那么就可能會這樣：

剛開始記錄的是 A.next = B ，經過擴容之后是 B.next = A ，那么最后可能就是這樣了：

明顯看到造成了死循環，比較好的是， 1.8 版本之后采用了尾插法，解決了這個問題

還有個問題， 1.8 版本是沒有解決的，那就是數據覆蓋問題

假設現在線程 A 和線程 B 同時進行 put 操作，特別巧的是這兩條不同的數據 hash 值一樣，并且這個位置數據為 null ，那么是不是應該讓線程 A 和 B 都執行 put 操作。假設線程 A 在要進行插入數據時被掛起，然后線程 B 正常執行將數據插入了，然后線程 A 獲得了 CPU 時間片，也開始進行數據插入操作，那么就將線程 B 的數據給覆蓋掉了

因為 HashMap 對 put 操作沒有進行加鎖的操作，那么就不能保證下一個線程 get 到的值，就一定是沒有被修改過的值，所以 HashMap 是不安全的

那既然 HashMap 線程不安全，你給推薦一個安全的?

如果推薦的話，那肯定推薦 ConcurrentHashMap ，說到 ConcurrentHashMap 也有一個比較有趣的事情，那就是 ConcurrentHashMap 的 1.7 版本和 1.8 版本實現也是不一樣

在 1.7 版本， ConcurrentHashMap 采用的是分段鎖( ReentrantLock + Segment + HashEntry )實現，也就是將一個 HashMap 分成多個段，然后每一段都分配一把鎖，這樣去支持多線程環境下的訪問。但是這樣鎖的粒度太大了，因為你鎖的直接就是一段嘛

所以 1.8 版本又做了優化，使用 CAS + synchronized + Node + 紅黑樹來實現，這樣就將鎖的粒度降低了，同時使用 synchronized 來加鎖，相比于 ReentrantLock 來說，會節省比較多的內存空間

HashMap 這塊，其實還可以擴展，比如 HashMap 和 HashTable 的區別， ConcurrentHashMap 1.7 版本和 1.8 版本具體的實現，等等等等

但是這篇文章已經比較長了，就寫到這里吧~

責任編輯：武曉燕來源： Java極客技術

HashMap 底層數據