第1期：多維分析的后臺性能優化手段

作者：數據蔣堂 2017-05-19 22:46:36

OLAP需要即時響應，對性能要求很高，而這個運算形式雖然很簡單，但數據量大時的計算量也不小，如果不設法優化，效率就可能很差。下面我們介紹多維分析后臺建設時幾種經常被采用的性能優化手段。

[[191395]]

多維分析就是針對一個事先準備好的數據立方體實施旋轉、切片(切塊)、鉆取等交互操作的過程，經常也被直接稱為OLAP。它的后臺運算在結構上很簡單，如果用SQL語法描述，大體形式為：

SELECT D,…, SUM(M), … FROM C WHERE D’=d’ AND … GROUP BY D,…

即對立方體按某些維度分組匯總某些測度。其中C是數據立方體，D,…是選出維度，M,…是聚合測度，聚合函數也可以不是SUM。D’是切片維度，切塊時條件為D IN (d,…)，WHERE中還可以增加針對某些測度的條件，一般也就是選出某個區間內的值。

SELECT D,…, SUM(M), … FROM C WHERE D’=d’ AND … GROUP BY D,…

預先匯總

預先匯總是早期OLAP產品常用的手段，簡單地就是拿空間換時間。把部分或者全部維度組合(GROUP BY子句)的匯總值(SELECT中的聚合測度)先計算出來保存，以后的計算可以直接取出或從這些中間結果再計算，性能會好很多。

預先匯總占用的空間有點大。如果保存全部維度組合，一般應用場景下(十幾到幾十個維度，維度取值范圍在幾到幾十之間)，簡單計算可知，空間占用會比原始立方體大數倍到數十倍((k1+1)*(k2+1)*…與k1*k2*…之間的比，還要考慮多種聚合函數)。雖然要保證即時響應時立方體都不會太大，但再大幾十倍經常也還是難以接受的。

折衷辦法是只保存部分維度組合。OLAP過程中在界面上呈現出來的分組維度(GROUP BY子句)不會太多，可以只匯總所有m個維度的組合，在m不太大時(一般不超過5)，空間增長還可以容忍，而用戶的大多數操作都可以得到較迅速響應。

麻煩在于，部分匯總解決不了針對其它維度的切片條件，鉆取動作就是以切片為基礎的。而且，即使全量匯總也無法處理測度上的條件(比如銷售額超過1000元的統計)，而多維分析時常常允許這些動作，甚至聚合函數也可能帶有條件(只合計100元以下的費用)，這些都無法使用預先匯總的結果。

預先匯總只能解決小部分最常見的計算，更多的情況還是要靠硬遍歷。

分段并行

多維分析本質上是過濾和分組匯總，這種運算很容易并行。只要簡單地數據拆成多段后分別處理，收集到結果再匯總。各個子任務之間沒有依賴關系，無論是單機多線程還是集群多機或者綜合有之，都不難實現。

多維分析的結果是要呈現給人看的，而人可以觀察的數據量遠遠小于現代計算機的內存。可以放入內存的小結果集不需要和外存交換，程序設計復雜度較低，運算性能也好。如果運算時發現結果集太大是可以直接報告給界面相應信息并中止。

實踐測試表明：多線程計算時，不要采用各子任務向同一個結果集匯總的方案，這樣看起來會減少內存占用(各子任務共用一個最終結果集)，但多線程搶占同一資源需要的同步動作會嚴重影響性能。

線程數也不是越多越好，顯然超過CPU核數就沒有意義了。如果數據在外存，還要考慮硬盤的并發能力，一般會比CPU核數小很多，具體合適的數值需要實際測試才知道。

在數據不再變化時分段也容易，按記錄數切分后設置分段點即可。數據可追加時要做到較平均的分段會有些麻煩，以后再另外撰文陳述。

對于單個計算任務，并行后常常有數倍的性能提升。但是，OLAP操作本身就是個并發性事務，即使用戶數不大，也足以抵消并行計算帶來的性能提升。

還要再想辦法。

排序索引

沒有切片的匯總運算總是要涉及全量數據，如果不是預先匯總，也沒什么辦法再減少計算量了。但有切片運算時(鉆取動作)，如果數據能合理組織，就未必要遍歷所有數據了。

如果我們為維度D建立索引(即把各記錄的D值及記錄位置按D值排序)，那么涉及D的切片條件就可以迅速定位到相應的記錄上(簡單二分法)，不需要遍歷全量數據，計算量常常會有數量級的減少(取決于D的取值范圍)。理論上我們可以為每個維度都建立索引，這個成本并不算高，這樣只要涉及有切片時，性能就會大幅提升。

需要指明的是，為多個維度D1,D2建立的多字段索引用處并不大，它不能用于迅速定位只有D2的切片，只能用于對D1,D2都有切片條件的情況。在選擇取值范圍***的那個切片維度用于定位后，計算量減少已經很多了，其它維度的切片可以仍用遍歷手段。

不幸的是，這種原始方案只適用于可以頻繁小量訪問的內存數據。如果數據量大到必須放在外存中(而這是經常發生的)，按索引大量取出實際上并未連續存儲的數據時，性能并不會有明顯提高。外存數據必須被真實排序、保證相應切片的數據是連續存儲的，性能提升才會有效。

如果對每個維度都做排序，那相當于數據要被復制若干倍，這個成本就有點高了。

一個折衷的辦法是把做兩個，按維度D1,…,Dn排序一次，再按Dn,…,D1排序一次，數據量只是翻倍，還能容忍。總能找到一個切片維度在兩個維度排序列的前半部分，這樣該維度切片的數據還是基本連續的，性能提升仍會較為明顯。

列存壓縮

對付多維分析還有個大殺器：列式存儲。

多維分析的立方體中字段(維度和測度)常常都很多，幾十個上百個都很正常，但同時需要取用的字段并不多，如果不算切片維度，通常也就5個左右或更少。而切片可以用上面的索引方案解決，實際要遍歷的字段也仍然不多。

這時候列存就會有巨大優勢了。外存計算的IO時間占比相當大，減少數據讀取量比減少運算量常常能更有效地提高性能。一個100個字段的立方體，如果只取5個字段時，IO開銷只有1/20，這會帶來數量級的性能提升。

列存還有個優勢是可以壓縮數據量。如果按前述所說將數據按維度D1,…,Dn排序存儲，我們會發現D1在連續許多記錄中取值都相同，D2也是類似，但程度會弱一些，越往后的維度連續相同的程度越弱，Dn就會幾乎沒有相同連續值。連續相同的值沒必要重復存儲，可以只存一次并記錄個數，這樣將可以進一步減少存儲量，也就是減少外存IO訪問量，從而提高性能。

當然，列存也并不全是好處。

因為不減少計算量，列存對于內存數據用處不大。不過壓縮存儲方式仍然有意義，可以減少內存占用。

使用列存會使分段并行及建立索引的處理變得更復雜，各個列需要同步分段才能并行處理，索引也需要同步指向所有列，而使用壓縮機制后同步更為麻煩。不過，總得來講，在數據已經確定不再變化時，雖然麻煩，但難度并不算大，只是別忘處理了就行。

列存還會加大硬盤的并發壓力，在總字段數不多或取用字段較多時并沒有優勢。對于機械硬盤，如果再使用并行手段進一步加劇并發壓力，很可能導致性能不升反降的結果，對于易于并發的固態硬盤使用列存較為合適。

責任編輯：杜寧來源： 51CTO專欄

多維后臺性能優化手段