用藝術的眼光探索數據之美
獨特的數據可視化技術,用于深入了解數據。當我們觀想它時,它的美就顯現出來了。可視化是一種更方便的方式,可以一目了然地了解大量數據。在深入分析的情況下,我們應該用數據圖形表示技術的思想。我們經常使用bar charts, histograms, pie charts, boxplots, heatmaps, scatter plots, line plots等等這些典型的圖,這些圖對于數據可視化是必不可少的。除了這些被廣泛使用的情況外,還有許多精湛的情節卻很少被使用。當我們考慮分析數據并以藝術方式表示時,這些圖有助于發現洞察。
1 平行坐標圖
實際上,我們最多可以可視化 3 維數據。但有時,我們需要可視化超過 3 維的數據才能獲得洞察力。我們經常使用 PCA 或 t-SNE 來降維并繪制它。在降維的情況下,可能會丟失大量信息。在某些情況下,我們需要考慮所有需要,平行坐標圖有助于做到這一點。

看上面的圖片。水平線(平行軸)代表鳶尾花的特征(Petal length, Sepal length, Sepal width, Petal width) 。類別是Setosa, Versicolor and Virginica。上圖將物種編碼為Setosa →1、Versicolor →2 和 Virginica →3。每個平行軸包含最小值到最大值(例如,花瓣長度從 1 到 6.9,萼片長度從 4.3 到 7.9,等等)。例如花瓣長度軸,表明該品種的花瓣長度Setosa 與其他兩個品種相比較小,且Virginica 最高。所以,通過這張圖,我們可以很容易地得到數據集的整體信息。

2 六角裝箱圖
六角裝箱是用六邊形二維數值的密度直觀地表示數據點的過程。

利用上面的數據集來繪制的六邊形分箱圖。如果仔細觀察,我們會發現總面積被分成了無數個六邊形。每個六邊形覆蓋特定區域。我們注意到六邊形有顏色變化。六邊形有的沒有顏色,有的是淡綠色,有的顏色很深。根據圖右側顯示的色標,顏色密度隨密度變化。比例表示具有顏色變化的數據點的數量。六邊形沒有填充顏色,這意味著該區域沒有數據點。
3 等值線圖
二維等高線密度圖是另一種可視化特定區域中數據點密度的方法。這樣做是為了找到兩個數值變量的密度。例如,下圖顯示了每個陰影區域中有多少數據點落入。

4 QQ-plot圖
QQ 代表 Quantile — Quantile plot (Quantile/percentile 是一個范圍,在這個范圍內,指定百分比的數據已經下降。例如,第 10 個 quantile/percentile 表示在該范圍下,找到了 10% 的數據,找到了 90%超出范圍)。這是一種直觀地檢查數值變量是否服從正態分布的方法。

(a) 樣本分布 (b) 標準正態分布
圖(a)是樣本分布;另一方面,(b)是標準正態分布。對于樣本分布,數據范圍為10 到 100 (100% 數據在 10 到 100 之間)。但對于標準正態分布,100% 的數據在范圍內-3 到 3 (z-score)。在 QQ 圖中,兩個 x 軸值均分為 100 個相等的部分(稱為分位數)。如果我們針對 x 和 y 軸繪制這兩個值,我們將得到一個散點圖。

散點圖位于對角線上。這意味著樣本分布是正態分布的。但是,如果散點圖位于左側或右側而不是對角線,則表明樣本不是正態分布的。
5 小提琴圖
小提琴圖與箱線圖相關。我們從小提琴圖中獲得的另一個信息是密度分布。簡單來說就是一個結合了密度分布的箱線圖。因此,讓我們將其與箱線圖進行比較。
在小提琴圖中,小提琴中間的白點表示中點。實心框表示四分位數間距 (IQR)。上下相鄰值是異常值的圍欄。超出范圍,一切都是異常值。下圖顯示了比較。

我們還可以通過傳遞列名來繪制不同物種的小提琴圖。

6 旭日圖
它是圓環圖或餅圖的定制化版本,將一些額外的層次信息集成到圖中。

整個圖表被分成一些環(從內側到外側)。它包含層次信息,其中內環位于層次結構的頂部,外環位于較低的順序。

如果我們仔細觀察數據集,第一列包含一年的季度;每個季度下面有幾個月,每個月有幾個星期。上面的旭日圖描述了這種情況。
小結
數據可視化是數據科學不可或缺的一部分。在數據科學中,我們探索數據。少量數據手動分析還好,但是當我們處理成千上萬的數據時,它就變得非常繁重,有時甚至是不可能的。如果我們無法找出數據集的趨勢和見解,我們可能無法使用該數據。希望上面的圖可以幫助您從美學上可視化數據并深入了解數據。






























