Redis熱點(diǎn)之底層實(shí)現(xiàn)篇

作者：Java大數(shù)據(jù)高級(jí)架構(gòu)師 2020-05-27 20:45:31

Redis提供了Java、C/C++、C#、 PHP 、JavaScript、 Perl 、Object-C、Python、Ruby、Erlang、Golang等多種主流語言的客戶端，因此無論使用者是什么語言棧總會(huì)找到屬于自己的那款客戶端，受眾非常廣。

[[327904]]

通過本文你將了解到以下內(nèi)容：

Redis的作者、發(fā)展演進(jìn)和江湖地位
Redis面試問題的概況

Redis底層實(shí)現(xiàn)相關(guān)的問題包括：

常用數(shù)據(jù)類型底層實(shí)現(xiàn)、SDS的原理和優(yōu)勢、字典的實(shí)現(xiàn)原理、跳表和有序集合的原理、Redis的線程模式和服務(wù)模型

溫馨提示：內(nèi)容并不難，就怕你不看。

看不懂可以先收藏先Mark，等到深入研究的時(shí)間再翻出來看看，你就發(fā)現(xiàn)真是24K干貨呀!停止吹噓，寫點(diǎn)不一樣的文字吧!

1.Redis往事

Redis是一個(gè)使用ANSI C編寫的開源、支持網(wǎng)絡(luò)、基于內(nèi)存、可選持久化的高性能鍵值對數(shù)據(jù)庫。Redis的之父是來自意大利的西西里島的Salvatore Sanfilippo，Github網(wǎng)名antirez，筆者找了作者的一些簡要信息并翻譯了一下，如圖：

從2009年第一個(gè)版本起Redis已經(jīng)走過了10個(gè)年頭，目前Redis仍然是最流行的key-value型內(nèi)存數(shù)據(jù)庫的之一。

優(yōu)秀的開源項(xiàng)目離不開大公司的支持，在2013年5月之前，其開發(fā)由VMware贊助，而2013年5月至2015年6月期間，其開發(fā)由畢威拓贊助，從2015年6月開始，Redis的開發(fā)由Redis Labs贊助。

筆者也使用過一些其他的NoSQL，有的支持的value類型非常單一，因此很多操作都必須在客戶端實(shí)現(xiàn)，比如value是一個(gè)結(jié)構(gòu)化的數(shù)據(jù)，需要修改其中某個(gè)字段就需要整體讀出來修改再整體寫入，顯得很笨重，但是Redis的value支持多種類型，實(shí)現(xiàn)了很多操作在服務(wù)端就可以完成了，這個(gè)對客戶端而言非常方便。

當(dāng)然Redis由于是內(nèi)存型的數(shù)據(jù)庫，數(shù)據(jù)量存儲(chǔ)量有限而且分布式集群成本也會(huì)非常高，因此有很多公司開發(fā)了基于SSD的類Redis系統(tǒng)，比如360開發(fā)的SSDB、Pika等數(shù)據(jù)庫，但是筆者認(rèn)為從0到1的難度是大于從1到2的難度的，毋庸置疑Redis是NoSQL中濃墨重彩的一筆，值得我們?nèi)ド钊胙芯亢褪褂谩?/p>

2.Redis的江湖地位

筆者查了http://datanyze.com網(wǎng)站看了下Redis和MySQL的最新市場份額和排名對比以及全球Top站點(diǎn)的部署量對比(網(wǎng)站數(shù)據(jù)更新到寫作當(dāng)日2019.12.11)：

可以看到Redis總體份額排名第9并且在全球Top100站點(diǎn)中部署數(shù)量與MySQL基本持平，所以Redis還是有一定的江湖地位的。

3.聊聊實(shí)戰(zhàn)

目前Redis發(fā)布的穩(wěn)定版本已經(jīng)到了5.x，功能也越來越強(qiáng)大，從國內(nèi)外互聯(lián)網(wǎng)公司來看Redis幾乎是標(biāo)配了。作為開發(fā)人員在日常筆試面試和工作中遇到Redis相關(guān)問題的概率非常大，掌握Redis的相關(guān)知識(shí)點(diǎn)都十分有必要。

學(xué)習(xí)和梳理一個(gè)復(fù)雜的東西肯定不能胡子眉毛一把抓，每個(gè)人都有自己的認(rèn)知思路，筆者認(rèn)為要從充分掌握Redis需要從底向上、從外到內(nèi)去理解Redis。

Redis的實(shí)戰(zhàn)知識(shí)點(diǎn)可以簡單分為三個(gè)層次：

底層實(shí)現(xiàn)：主要是從Redis的源碼中提煉的問題，包括但不限于底層數(shù)據(jù)結(jié)構(gòu)、服務(wù)模型、算法設(shè)計(jì)等。
基礎(chǔ)架構(gòu)：可用概況為Redis整體對外的功能點(diǎn)和表現(xiàn)，包括但不限于單機(jī)版主從架構(gòu)實(shí)現(xiàn)、主從數(shù)據(jù)同步、哨兵機(jī)制、集群實(shí)現(xiàn)、分布式一致性、故障遷移等。
實(shí)際應(yīng)用：實(shí)戰(zhàn)中Redis可用幫你做什么，包括但不限于單機(jī)緩存、分布式緩存、分布式鎖、一些應(yīng)用。

深入理解和熟練使用Redis需要時(shí)間錘煉，要做到信手拈來著實(shí)不易，想在短時(shí)間內(nèi)突破只能從熱點(diǎn)題目入手，雖然這樣感覺有些功利，不過也算無可厚非吧，為了吃飯我們還是傾向于原諒懶惰的自己，要不然吃土喝風(fēng)?

4.底層實(shí)現(xiàn)熱點(diǎn)題目

底層實(shí)現(xiàn)篇的題目主要是與Redis的源碼和設(shè)計(jì)相關(guān)，可以說是Redis功能的基石，了解底層實(shí)現(xiàn)可以讓我們更好地掌握功能，由于底層代碼很多，在后續(xù)的基礎(chǔ)架構(gòu)篇中仍然會(huì)穿插源碼來分析，因此本篇只列舉一些熱點(diǎn)的問題。

Q1: Redis常用五種數(shù)據(jù)類型是如何實(shí)現(xiàn)的?

Redis支持的常用5種數(shù)據(jù)類型指的是value類型，分別為：字符串String、列表List、哈希Hash、集合Set、有序集合Zset，但是Redis后續(xù)又豐富了幾種數(shù)據(jù)類型分別是Bitmaps、HyperLogLogs、GEO。

由于Redis是基于標(biāo)準(zhǔn)C寫的，只有最基礎(chǔ)的數(shù)據(jù)類型，因此Redis為了滿足對外使用的5種數(shù)據(jù)類型，開發(fā)了屬于自己獨(dú)有的一套基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)，使用這些數(shù)據(jù)結(jié)構(gòu)來實(shí)現(xiàn)5種數(shù)據(jù)類型。

Redis底層的數(shù)據(jù)結(jié)構(gòu)包括：簡單動(dòng)態(tài)數(shù)組SDS、鏈表、哈希表、跳躍鏈表、整數(shù)集合、壓縮列表、對象。

Redis為了平衡空間和時(shí)間效率，針對value的具體類型在底層會(huì)采用不同的數(shù)據(jù)結(jié)構(gòu)來實(shí)現(xiàn)，其中哈希表和壓縮列表是復(fù)用比較多的數(shù)據(jù)結(jié)構(gòu)，如下圖展示了對外數(shù)據(jù)類型和底層數(shù)據(jù)結(jié)構(gòu)之間的映射關(guān)系：

從圖中可以看到ziplist壓縮列表可以作為Zset、Set、List三種數(shù)據(jù)類型的底層實(shí)現(xiàn)，看來很強(qiáng)大，壓縮列表是一種為了節(jié)約內(nèi)存而開發(fā)的且經(jīng)過特殊編碼之后的連續(xù)內(nèi)存塊順序型數(shù)據(jù)結(jié)構(gòu)，底層結(jié)構(gòu)還是比較復(fù)雜的。

Q2: Redis的SDS和C中字符串相比有什么優(yōu)勢?

在C語言中使用N+1長度的字符數(shù)組來表示字符串，尾部使用'\0'作為結(jié)尾標(biāo)志，對于此種實(shí)現(xiàn)無法滿足Redis對于安全性、效率、豐富的功能的要求，因此Redis單獨(dú)封裝了SDS簡單動(dòng)態(tài)字符串結(jié)構(gòu)。

在理解SDS的優(yōu)勢之前需要先看下SDS的實(shí)現(xiàn)細(xì)節(jié)，找了github最新的src/sds.h的定義看下：

看了前面的定義，筆者畫了個(gè)圖：

從圖中可以知道sds本質(zhì)分為三部分：header、buf、null結(jié)尾符，其中header可以認(rèn)為是整個(gè)sds的指引部分，給定了使用的空間大小、最大分配大小等信息，再用一張網(wǎng)上的圖來清晰看下sdshdr8的實(shí)例：

在sds.h/sds.c源碼中可清楚地看到sds完整的實(shí)現(xiàn)細(xì)節(jié)，本文就不展開了要不然篇幅就過長了，快速進(jìn)入主題說下sds的優(yōu)勢：

O(1)獲取長度: C字符串需要遍歷而sds中有l(wèi)en可以直接獲得;
防止緩沖區(qū)溢出bufferoverflow: 當(dāng)sds需要對字符串進(jìn)行修改時(shí)，首先借助于len和alloc檢查空間是否滿足修改所需的要求，如果空間不夠的話，SDS會(huì)自動(dòng)擴(kuò)展空間，避免了像C字符串操作中的覆蓋情況;
有效降低內(nèi)存分配次數(shù)：C字符串在涉及增加或者清除操作時(shí)會(huì)改變底層數(shù)組的大小造成重新分配、sds使用了空間預(yù)分配和惰性空間釋放機(jī)制，說白了就是每次在擴(kuò)展時(shí)是成倍的多分配的，在縮容是也是先留著并不正式歸還給OS，這兩個(gè)機(jī)制也是比較好理解的;

二進(jìn)制安全：C語言字符串只能保存ascii碼，對于圖片、音頻等信息無法保存，sds是二進(jìn)制安全的，寫入什么讀取就是什么，不做任何過濾和限制;

老規(guī)矩上一張黃健宏大神總結(jié)好的圖：

Q3:Redis的字典是如何實(shí)現(xiàn)的?簡述漸進(jìn)式rehash的過程。

字典算是Redis5中常用數(shù)據(jù)類型中的明星成員了，前面說過字典可以基于ziplist和hashtable來實(shí)現(xiàn)，我們只討論基于hashtable實(shí)現(xiàn)的原理。

字典是個(gè)層次非常明顯的數(shù)據(jù)類型，如圖：

有了個(gè)大概的概念，我們看下最新的src/dict.h源碼定義：

//哈希節(jié)點(diǎn)結(jié)構(gòu) 
typedef struct dictEntry { 
 void *key; 
 union { 
 void *val; 
 uint64_t u64; 
 int64_t s64; 
 double d; 
 } v; 
 struct dictEntry *next; 
} dictEntry; 
 
//封裝的是字典的操作函數(shù)指針 
typedef struct dictType { 
 uint64_t (*hashFunction)(const void *key); 
 void *(*keyDup)(void *privdata, const void *key); 
 void *(*valDup)(void *privdata, const void *obj); 
 int (*keyCompare)(void *privdata, const void *key1, const void *key2); 
 void (*keyDestructor)(void *privdata, void *key); 
 void (*valDestructor)(void *privdata, void *obj); 
} dictType; 
 
/* This is our hash table structure. Every dictionary has two of this as we 
 * implement incremental rehashing, for the old to the new table. */ 
//哈希表結(jié)構(gòu) 該部分是理解字典的關(guān)鍵 
typedef struct dictht { 
 dictEntry **table; 
 unsigned long size; 
 unsigned long sizemask; 
 unsigned long used; 
} dictht; 
 
//字典結(jié)構(gòu) 
typedef struct dict { 
 dictType *type; 
 void *privdata; 
 dictht ht[2]; 
 long rehashidx; /* rehashing not in progress if rehashidx == -1 */ 
 unsigned long iterators; /* number of iterators currently running */ 
} dict;

C語言的好處在于定義必須是由最底層向外的，因此我們可以看到一個(gè)明顯的層次變化，于是筆者又畫一圖來展現(xiàn)具體的層次概念：

關(guān)于dictEntry

dictEntry是哈希表節(jié)點(diǎn)，也就是我們存儲(chǔ)數(shù)據(jù)地方，其保護(hù)的成員有：key,v,next指針。key保存著鍵值對中的鍵，v保存著鍵值對中的值，值可以是一個(gè)指針或者是uint64_t或者是int64_t。next是指向另一個(gè)哈希表節(jié)點(diǎn)的指針，這個(gè)指針可以將多個(gè)哈希值相同的鍵值對連接在一次，以此來解決哈希沖突的問題。

如圖為兩個(gè)沖突的哈希節(jié)點(diǎn)的連接關(guān)系：

關(guān)于dictht

從源碼看哈希表包括的成員有table、size、used、sizemask。table是一個(gè)數(shù)組，數(shù)組中的每個(gè)元素都是一個(gè)指向dictEntry結(jié)構(gòu)的指針，每個(gè)dictEntry結(jié)構(gòu)保存著一個(gè)鍵值對;size 屬性記錄了哈希表table的大小，而used屬性則記錄了哈希表目前已有節(jié)點(diǎn)的數(shù)量。sizemask等于size-1和哈希值計(jì)算一個(gè)鍵在table數(shù)組的索引，也就是計(jì)算index時(shí)用到的。

如上圖展示了一個(gè)大小為4的table中的哈希節(jié)點(diǎn)情況，其中k1和k0在index=2發(fā)生了哈希沖突，進(jìn)行開鏈表存在，本質(zhì)上是先存儲(chǔ)的k0，k1放置是發(fā)生沖突為了保證效率直接放在沖突鏈表的最前面，因?yàn)樵撴湵頉]有尾指針。

關(guān)于dict

從源碼中看到dict結(jié)構(gòu)體就是字典的定義，包含的成員有type，privdata、ht、rehashidx。其中dictType指針類型的type指向了操作字典的api，理解為函數(shù)指針即可，ht是包含2個(gè)dictht的數(shù)組，也就是字典包含了2個(gè)哈希表，rehashidx進(jìn)行rehash時(shí)使用的變量，privdata配合dictType指向的函數(shù)作為參數(shù)使用，這樣就對字典的幾個(gè)成員有了初步的認(rèn)識(shí)。

字典的哈希算法

redis使用MurmurHash算法計(jì)算哈希值，該算法最初由Austin Appleby在2008年發(fā)明，MurmurHash算法的無論數(shù)據(jù)輸入情況如何都可以給出隨機(jī)分布性較好的哈希值并且計(jì)算速度非常快，目前有MurmurHash2和MurmurHash3等版本。

普通Rehash重新散列

哈希表保存的鍵值對數(shù)量是動(dòng)態(tài)變化的，為了讓哈希表的負(fù)載因子維持在一個(gè)合理的范圍之內(nèi)，就需要對哈希表進(jìn)行擴(kuò)縮容。

擴(kuò)縮容是通過執(zhí)行rehash重新散列來完成，對字典的哈希表執(zhí)行普通rehash的基本步驟為分配空間->逐個(gè)遷移->交換哈希表，詳細(xì)過程如下：

1.為字典的ht[1]哈希表分配空間，分配的空間大小取決于要執(zhí)行的操作以及ht[0]當(dāng)前包含的鍵值對數(shù)量：

擴(kuò)展操作時(shí)ht[1]的大小為第一個(gè)大于等于ht[0].used*2的2^n;

收縮操作時(shí)ht[1]的大小為第一個(gè)大于等于ht[0].used的2^n ;

擴(kuò)展時(shí)比如h[0].used=200，那么需要選擇大于400的第一個(gè)2的冪，也就是2^9=512。

2.將保存在ht[0]中的所有鍵值對重新計(jì)算鍵的哈希值和索引值rehash到ht[1]上;

3.重復(fù)rehash直到ht[0]包含的所有鍵值對全部遷移到了ht[1]之后釋放 ht[0]，將ht[1]設(shè)置為 ht[0]，并在ht[1]新創(chuàng)建一個(gè)空白哈希表，為下一次rehash做準(zhǔn)備。

漸進(jìn)Rehash過程

Redis的rehash動(dòng)作并不是一次性完成的，而是分多次、漸進(jìn)式地完成的，原因在于當(dāng)哈希表里保存的鍵值對數(shù)量很大時(shí)，一次性將這些鍵值對全部rehash到ht[1]可能會(huì)導(dǎo)致服務(wù)器在一段時(shí)間內(nèi)停止服務(wù)，這個(gè)是無法接受的。

針對這種情況Redis采用了漸進(jìn)式rehash，過程的詳細(xì)步驟：

為ht[1]分配空間，這個(gè)過程和普通Rehash沒有區(qū)別;
將rehashidx設(shè)置為0，表示rehash工作正式開始，同時(shí)這個(gè)rehashidx是遞增的，從0開始表示從數(shù)組第一個(gè)元素開始rehash。
在rehash進(jìn)行期間，每次對字典執(zhí)行增刪改查操作時(shí)，順帶將ht[0]哈希表在rehashidx索引上的鍵值對rehash到 ht[1]，完成后將rehashidx加1，指向下一個(gè)需要rehash的鍵值對。
隨著字典操作的不斷執(zhí)行，最終ht[0]的所有鍵值對都會(huì)被rehash至ht[1]，再將rehashidx屬性的值設(shè)為-1來表示 rehash操作已完成。

漸進(jìn)式 rehash的思想在于將rehash鍵值對所需的計(jì)算工作分散到對字典的每個(gè)添加、刪除、查找和更新操作上，從而避免了集中式rehash而帶來的阻塞問題。

看到這里不禁去想這種捎帶腳式的rehash會(huì)不會(huì)導(dǎo)致整個(gè)過程非常漫長?如果某個(gè)value一直沒有操作那么需要擴(kuò)容時(shí)由于一直不用所以影響不大，需要縮容時(shí)如果一直不處理可能造成內(nèi)存浪費(fèi)，具體的還沒來得及研究，先埋個(gè)問題吧!

責(zé)任編輯：武曉燕來源：今日頭條

Redis 底層數(shù)據(jù)