C++11 修復(fù)了雙重檢查鎖定問(wèn)題
雙重檢查鎖定模式(DCLP)在無(wú)鎖編程(lock-free programming)中經(jīng)常被討論,直到2004年,JAVA才提供了可靠的雙重檢查鎖定實(shí)現(xiàn)。而在C++11之前,C++沒(méi)有提供一種該模式的可移植的可靠實(shí)現(xiàn)。
隨著雙重檢查鎖定模式在各語(yǔ)言實(shí)現(xiàn)上存在的缺點(diǎn)暴露,人們開始研究如何安全可靠地實(shí)現(xiàn)它。2000年,一個(gè)JAVA高性能研究小組發(fā)布了一篇聲明《雙重檢查鎖定可能導(dǎo)致鎖定無(wú)效》。2004年,Scott Meyers 和Andrei Alexandrescu聯(lián)合發(fā)表了一篇名為《C++實(shí)現(xiàn)雙重檢查鎖定存在嚴(yán)重缺陷》。這兩篇論文都是重點(diǎn)闡述了雙重檢查鎖定(DCLP)是什么,以及雙重檢查鎖定的意義,和當(dāng)前的各語(yǔ)言實(shí)現(xiàn)存在諸多不足。
現(xiàn)如今,JAVA為了安全地實(shí)現(xiàn)雙重檢查鎖定修改了其內(nèi)存模型,并引入了關(guān)鍵詞volatile。與此同時(shí),C++構(gòu)建了一個(gè)全新的內(nèi)存模型和原子 操作庫(kù)(atomic),使得不同編譯器實(shí)現(xiàn)雙重檢查鎖定(DCLP)更為容易。為了在更早期的C\C++編譯器中實(shí)現(xiàn)DCLP,在C++11引入了一個(gè) 名為Mintomic的庫(kù),在今年早些時(shí)候由我發(fā)布了。
過(guò)去的一段時(shí)間,我都著力于C++中實(shí)現(xiàn)DCLP的研究。
什么是雙重檢查鎖定?
如果你想在多線程編程中安全使用單件模式(Singleton),最簡(jiǎn)單的做法是在訪問(wèn)時(shí)對(duì)其加鎖,使用這種方式,假定兩個(gè)線程同時(shí)調(diào)用Singleton::getInstance方法,其中之一負(fù)責(zé)創(chuàng)建單件:
- Singleton* Singleton::getInstance() {
- Lock lock; // scope-based lock, released automatically when the function returns
- if (m_instance == NULL) {
- m_instance = new Singleton;
- }
- return m_instance;
- }
使用這種方式是可行的,但是當(dāng)單件被創(chuàng)建之后,實(shí)際上你已經(jīng)不需要再對(duì)其進(jìn)行加鎖,加鎖雖然不一定導(dǎo)致性能低下,但是在重負(fù)載情況下,這也可能導(dǎo)致響應(yīng)緩慢。
使用雙重檢查鎖定模式避免了在單件對(duì)象已經(jīng)創(chuàng)建好之后進(jìn)行不必要的鎖定,然而實(shí)現(xiàn)卻有點(diǎn)復(fù)雜,在Meyers-Alexandrescu的論文中也 有過(guò)闡述,文中提出了幾種存在缺陷的實(shí)現(xiàn)方式,并逐一解釋了為什么這樣實(shí)現(xiàn)存在問(wèn)題。在論文的結(jié)尾的第12頁(yè),給出了一種可靠的實(shí)現(xiàn)方式,實(shí)現(xiàn)依賴一種標(biāo) 準(zhǔn)中未規(guī)范的內(nèi)存柵欄技術(shù)。
- Singleton* Singleton::getInstance() {
- Singleton* tmp = m_instance;
- ... // insert memory barrier
- if (tmp == NULL) {
- Lock lock;
- tmp = m_instance;
- if (tmp == NULL) {
- tmp = new Singleton;
- ... // insert memory barrier
- m_instance = tmp;
- }
- }
- return tmp;
- }
這里,我們可以看到:如模式名稱一樣,代碼中實(shí)現(xiàn)了雙重校驗(yàn),在m_instance指針為NULL時(shí),我們做了一次鎖定,這一過(guò)程在***創(chuàng)建該對(duì)象的線程可見。在創(chuàng)建線程內(nèi)部構(gòu)造塊中,m_instance被再一次檢查,以確保該線程僅創(chuàng)建了一份對(duì)象副本。
這是雙重檢查鎖定的實(shí)現(xiàn),只不過(guò)在被高亮的代碼行中還缺乏了內(nèi)存柵欄技術(shù)做保證,在此文寫就之際,C/C++各編譯器未對(duì)該實(shí)現(xiàn)進(jìn)行統(tǒng)一,而在C++11標(biāo)準(zhǔn)中,對(duì)這種情況下的實(shí)現(xiàn)進(jìn)行了完善和統(tǒng)一。
在C++11中獲取和釋放內(nèi)存柵欄
在C++11中,你可以獲取和釋放內(nèi)存柵欄來(lái)實(shí)現(xiàn)上述功能(如何獲取和釋放內(nèi)存柵欄在我上一篇博文中有講述)。為了使你的代碼在C++各種實(shí)現(xiàn)中具 備更好的可移植性,你應(yīng)該使用C++11中新增的atomic類型來(lái)包裝你的m_instance指針,這使得對(duì)m_instance的操作是一個(gè)原子操作。下面的代碼演示了如何使用內(nèi)存柵欄,請(qǐng)注意代碼高亮部分:
- std::atomic<Singleton*> Singleton::m_instance;
- std::mutex Singleton::m_mutex;
- Singleton* Singleton::getInstance() {
- Singleton* tmp = m_instance.load(std::memory_order_relaxed);
- std::atomic_thread_fence(std::memory_order_acquire); // 編注:原作者提示注意的
- if (tmp == nullptr) {
- std::lock_guard<std::mutex> lock(m_mutex);
- tmp = m_instance.load(std::memory_order_relaxed);
- if (tmp == nullptr) {
- tmp = new Singleton;
- std::atomic_thread_fence(std::memory_order_release); // 編注:作者提示注意的
- m_instance.store(tmp, std::memory_order_relaxed);
- }
- }
- return tmp;
- }
上述代碼在多核系統(tǒng)中仍然工作正常,這是因?yàn)閮?nèi)存柵欄技術(shù)在創(chuàng)建對(duì)象線程和使用對(duì)象線程之間建立了一種“同步-與”的關(guān)系(synchronizes-with)。Singleton::m_instance扮演了守衛(wèi)變量的角色,而單件本身則作為負(fù)載內(nèi)容。
而其他存在缺陷的雙重檢查鎖定實(shí)現(xiàn)都缺乏該機(jī)制的保障:在沒(méi)有“同步-與”關(guān)系保證的情況下,***個(gè)創(chuàng)建線程的寫操作,確切地說(shuō)是在其構(gòu)造函數(shù)中, 可以被其他線程感知,即m_instance指針能被其他線程訪問(wèn)!創(chuàng)建單件線程中的鎖也不起作用,由于該鎖對(duì)其他線程不可見,從而導(dǎo)致在某些情況下,創(chuàng) 建對(duì)象被執(zhí)行多次。
如果你想了解關(guān)于內(nèi)存柵欄技術(shù)是如何可靠實(shí)現(xiàn)雙重檢查鎖定的內(nèi)部原理,在我的前一篇文章中有一些背景信息(previous post),之前的博客也有一些相關(guān)內(nèi)容。
#p#
使用Mintomic 內(nèi)存柵欄
Mintomic是一個(gè)很小的c庫(kù),提供了C++11 atomic庫(kù)中的一些功能函數(shù)子集,包含獲取和釋放內(nèi)存柵欄,同時(shí)它能工作在早期的編譯器之上。Mintomic依賴于與C++11相似的內(nèi)存模型—— 確切地說(shuō)是不使用Out-of-thin-air存儲(chǔ)——這一技術(shù)在早期編譯器中未進(jìn)行實(shí)現(xiàn),而這是在沒(méi)有C++11標(biāo)準(zhǔn)情況下我們能做的***實(shí)現(xiàn)。以我 多年C++多線程開發(fā)的經(jīng)驗(yàn)看來(lái),Out-of-thin-air存儲(chǔ)并不流行,而且大多數(shù)編譯器會(huì)避免實(shí)現(xiàn)它。
下面的代碼演示了如何使用Mintomic的獲取和釋放內(nèi)存柵欄機(jī)制實(shí)現(xiàn)雙重檢查鎖定,基本上與上面的例子類似:
- mint_atomicPtr_t Singleton::m_instance = { 0 };
- mint_mutex_t Singleton::m_mutex;
- Singleton* Singleton::getInstance() {
- Singleton* tmp = (Singleton*) mint_load_ptr_relaxed(&m_instance);
- mint_thread_fence_acquire();
- if (tmp == NULL) {
- mint_mutex_lock(&m_mutex);
- tmp = (Singleton*) mint_load_ptr_relaxed(&m_instance);
- if (tmp == NULL) {
- tmp = new Singleton;
- mint_thread_fence_release();
- mint_store_ptr_relaxed(&m_instance, tmp);
- }
- mint_mutex_unlock(&m_mutex);
- }
- return tmp;
- }
為了實(shí)現(xiàn)獲取和釋放內(nèi)存柵欄,Mintomic會(huì)試圖在其支持的編譯器平臺(tái)產(chǎn)生***效的機(jī)器碼。例如,下面的匯編代碼來(lái)自Xbox 360,使用的是PowerPC處理器。在該平臺(tái)上,內(nèi)聯(lián)的lwsync關(guān)鍵字是針對(duì)獲取和釋放內(nèi)存柵欄的優(yōu)化指令。
上述采用C++11標(biāo)準(zhǔn)庫(kù)編譯的例子在PowerPC處理器編譯應(yīng)該會(huì)產(chǎn)生一樣的匯編代碼(理想情況下)。不過(guò),我沒(méi)有能夠在PowerPC下編譯C++11來(lái)驗(yàn)證這一點(diǎn)。
使用C++11低階指令順序約束
在C++11中使用內(nèi)存柵欄鎖定技術(shù)可以很方便地實(shí)現(xiàn)雙重檢查鎖定。同時(shí)也保證在現(xiàn)今流行的多核系統(tǒng)中產(chǎn)生優(yōu)化的機(jī)器碼(Mintomic也能做到 這一點(diǎn))。不過(guò)使用這種方式并不是常用,在C++11中更好的實(shí)現(xiàn)方式是使用保證低階指令執(zhí)行順序約束的原子操作。之前的圖片中可以看到,一個(gè)寫-釋放操 作可以與一個(gè)獲取-讀操作同步:
- std::atomic<Singleton*> Singleton::m_instance;
- std::mutex Singleton::m_mutex;
- Singleton* Singleton::getInstance() {
- Singleton* tmp = m_instance.load(std::memory_order_acquire);
- if (tmp == nullptr) {
- std::lock_guard<std::mutex> lock(m_mutex);
- tmp = m_instance.load(std::memory_order_relaxed);
- if (tmp == nullptr) {
- tmp = new Singleton;
- m_instance.store(tmp, std::memory_order_release);
- }
- }
- return tmp;
- }
從技術(shù)上講,使用這種形式的無(wú)鎖同步比獨(dú)立內(nèi)存柵欄技術(shù)限制更低。上述操作只是為了防止自身操作的內(nèi)存排序,而內(nèi)存柵欄技術(shù)則阻止了臨近操作的內(nèi)存 排序。盡管如此,現(xiàn)今的x86/64,ARMv6 / v7,和PowerPC處理器架構(gòu),針對(duì)這兩種形式產(chǎn)生的機(jī)器碼應(yīng)該是一致的。在我之前的博文中,我展示了C++11低階指令順序約束在ARM7中使用了 dmb指令,這和使用內(nèi)存柵欄技術(shù)產(chǎn)生的匯編代碼相一致。
上述兩種方式在Itanium平臺(tái)可能產(chǎn)生不一樣的機(jī)器碼,在Itanium平臺(tái)上,C++11標(biāo)準(zhǔn)中的 load(memory_order_acquire)可以用單CPU指令:ld.acq,而store(tmp, memory_order_release)使用st.rel就可以實(shí)現(xiàn)。
在ARMv8處理器架構(gòu)中,也提供了和Itanium指令等價(jià)的ldar 和 stlr 指令,而不同的地方是:這些指令還會(huì)導(dǎo)致stlr和后續(xù)ldar之間進(jìn)一級(jí)的存儲(chǔ)裝載指令進(jìn)行排序。實(shí)際上,ARMv8的新指令試圖實(shí)現(xiàn)C++11標(biāo)準(zhǔn)中 的順序約束原子操作,這會(huì)在后面進(jìn)一步講述。
使用C++順序一致的原子操作
C++11標(biāo)準(zhǔn)提供了一個(gè)不同的方式來(lái)編寫無(wú)鎖程序(可以把雙重檢查鎖定歸類為無(wú)鎖編程的一種,因?yàn)椴皇撬芯€程都會(huì)獲取鎖)。在所有原子操作庫(kù)方 法中使用可選參數(shù)std::memory_order可以使得所有原子變量變?yōu)轫樞虻脑硬僮鳎╯equentially consistent),方法的默認(rèn)參數(shù)為std::memory_order_seq_cst。使用順序約束(SC)原子操作庫(kù),整個(gè)函數(shù)執(zhí)行都將保證 順序執(zhí)行,并且不會(huì)出現(xiàn)數(shù)據(jù)競(jìng)態(tài)(data races)。順序約束(SC)原子操作和JAVA5版本之后出現(xiàn)的volatile變量很相似。
使用SC原子操作實(shí)現(xiàn)雙重檢查鎖定的代碼如下:和前面的例子一樣,高亮的第二行會(huì)與***次創(chuàng)建單件的線程進(jìn)行同步與操作。
- std::atomic<Singleton*> Singleton::m_instance;
- std::mutex Singleton::m_mutex;
- Singleton* Singleton::getInstance() {
- Singleton* tmp = m_instance.load();
- if (tmp == nullptr) {
- std::lock_guard<std::mutex> lock(m_mutex);
- tmp = m_instance.load();
- if (tmp == nullptr) {
- tmp = new Singleton;
- m_instance.store(tmp);
- }
- }
- return tmp;
- }
順序約束(SC)原子操作使得開發(fā)者更容易預(yù)測(cè)代碼執(zhí)行結(jié)果,不足之處在于使用順序約束(SC)原子操作類庫(kù)的代碼效率要比之前的例子低一些。例如,在x64位機(jī)器上,上述代碼使用Clang3.3優(yōu)化后產(chǎn)生如下匯編代碼:
由于使用了順序約束(SC)原子操作類庫(kù),變量m_instance的存儲(chǔ)操作使用了xchg指令,在x64處理器上相當(dāng)于一個(gè)內(nèi)存柵欄操作。該指 令在x64位處理器是一個(gè)長(zhǎng)周期指令,使用輕量級(jí)的mov指令也可以完成操作。不過(guò),這影響不大,因?yàn)閤chg指令只被單件創(chuàng)建過(guò)程調(diào)用一次。
不過(guò),在PowerPC or ARMv6/v7處理器上編譯上述代碼,產(chǎn)生的匯編操作要糟糕得多,具體情形可以參見Herb Sutter的演講(atomic Weapons talk, part 2.00:44:25 – 00:49:16)。
#p#
使用C++11數(shù)據(jù)順序依賴原理
上面的例子都是使用了創(chuàng)建單件線程和使用單件其他線程之間的同步與關(guān)系。守衛(wèi)的是數(shù)據(jù)指針單個(gè)元素,開銷也是創(chuàng)建單件內(nèi)容本身。這里,我將演示一種使用數(shù)據(jù)依賴來(lái)保護(hù)防衛(wèi)的指針。
在使用數(shù)據(jù)依賴時(shí)候,上述例子中都使用了一個(gè)讀-獲取操作,這也會(huì)產(chǎn)生性能消耗,我們可以使用消費(fèi)指令來(lái)進(jìn)一步優(yōu)化。消費(fèi)指令(consume instruction)非常酷,在PowerPc處理器上它使用了lwsync指令,在ARMv7處理器上則編譯為dmd指令。今后我會(huì)寫一些文章來(lái)講 述消費(fèi)指令和數(shù)據(jù)依賴機(jī)制。
使用C++11靜態(tài)初始化
一些讀者可能已經(jīng)知道C++11中,你可以跳過(guò)之前的檢查過(guò)程而直接得到線程安全的單件。你只需要使用一個(gè)靜態(tài)初始化:
C++11標(biāo)準(zhǔn)在6.7.4節(jié)中規(guī)定:
如果指令邏輯進(jìn)入一個(gè)未被初始化的聲明變量,所有并發(fā)執(zhí)行應(yīng)當(dāng)?shù)却瓿稍撟兞客瓿沙跏蓟?/p>
上述操作在編譯時(shí)由編譯器保證。雙重檢查鎖定則可以利用這一點(diǎn)。編譯器并不保證會(huì)使用雙重檢查鎖定,但是大部分編譯器會(huì)這樣做。gcc4.6使用-std=c++0x編譯選項(xiàng)在ARM處理器產(chǎn)生的匯編代碼如下:
由于單件使用的是一個(gè)固定地址,編譯器會(huì)使用一個(gè)特殊的防衛(wèi)變量來(lái)完成同步。請(qǐng)注意這里,在初始化變量讀操作時(shí)沒(méi)有使用dmb指令來(lái)獲取一個(gè)內(nèi)存柵 欄。守衛(wèi)變量指向了單件,因此編譯器可以使用數(shù)據(jù)依賴原則來(lái)避免使用dmb指令的開銷。__cxa_guard_release指令扮演了一個(gè)寫-釋放來(lái) 解除變量守衛(wèi)。一旦守衛(wèi)柵欄被設(shè)置,這里存在一個(gè)指令順序強(qiáng)制在讀-消費(fèi)操作之前。這里和前面的例子一樣,對(duì)內(nèi)存排序的進(jìn)行適應(yīng)性的變更。
前面的長(zhǎng)篇累牘主要講述了C++11標(biāo)準(zhǔn)修復(fù)了雙層檢查鎖定實(shí)現(xiàn),并且講述了其他一些相關(guān)知識(shí)。
就我個(gè)人而言,我認(rèn)為應(yīng)當(dāng)在程序初始化時(shí)就初始化一個(gè)singleton。使用雙重檢查鎖定可以幫你將任意數(shù)據(jù)類型存儲(chǔ)在一個(gè)無(wú)鎖的哈希表中。這會(huì)在后續(xù)的文章進(jìn)一步闡述。
原文鏈接:http://preshing.com/20130930/double-checked-locking-is-fixed-in-cpp11/






























