大數據之傷——小數據思維
1980年之前,臨床醫師們主要依賴“經驗”、“直覺”以及“觸摸不到的線索”來判斷一個發燒了的小孩子到底是由較輕的疾病(如感冒)還是由比較嚴重的疾病(如急性肺炎或腦膜炎)引起的。換句話說,他們靠直覺來看病。在1980年,一個由研究者組成的小組研究了那些有經驗的兒科醫生是如何為他們的病人診斷的。他們發現了那些杰出的醫師在直覺中參考了“輸入信息”,而那些缺乏經驗的醫師在試圖可靠地試用這些“輸入信息”時就顯得過于主觀了。
在隨后的研究中,研究人員從精確度和客觀性兩個方面上加強了他們的系統。在這個系統中,那些正在接受培訓的兒科醫師能夠像有經驗的醫師那樣接觸到很多因嚴重疾病而導致發燒的兒童。事情發生了根本上的變化:直覺的建立被質化和量化地形成了一種形式,并且這種形式可以被那些經驗并不豐富的醫生所利用。如今,幾乎所有正在為發燒兒童看病的醫生都在證實這精妙的發現。
如果我們把目標確定為為每位兒童的每次就診都提供最好的治療,那么我們需要的就不僅僅是直覺和專業的技能了,因為人無完人。基于證據的醫療方法(EBM)通過把臨床研究整合進治療準則來幫助醫師提高治療水平。然而就普遍意義來說,EBM一般是基于“小數據”的研究——與動輒數十萬或數百萬的大數據不同,一個大型的EBM則是包含了數千例病例的系統。在這樣的小樣本規模系統中輸入信息必須被良好地定義和形式化,隨之而來的結果便是包含了所有這些信息的治療準則在解釋病人與病人之間的差異時就顯得力不從心。因而EBM有時被人們嘲笑為“菜譜式治療”,醫生們只是機械地遵循著這些治療的“配方”來治病。雞肉與菠菜對于一些人來說也許是頓美味,但是當我們要為一位素食主義者上菜時又該怎么辦呢?
大數據的容量足夠用來創造更加個性化的“治療菜譜”。利用一個容量為5億人的數據集,你可以為一個體重超重且高膽固醇每天必須服用阿司匹林和立普妥的35歲男人,或者為一個與上述情況完全相同但是體重偏輕的人定制治療方案。
大數據也可以允許我們通過在粗略的未經處理的數據集中逐條比對來發現微小但是強有力的線索,從而進行分析研究。小數據集中通常不能處理粗糙的原始數據,因為它不能分辨“心梗”與“心肌梗死”的區別,即便他們指的是同樣的事情。并且由于在小數據集中只能使用單一的術語,使得我們無法做出確鑿的歸納。同時小數據集也無法支持需要識別“心梗”與“心肌梗死”是同一種術語的研究。小數據集同樣無法支持我們使用很細節的線索作為輸入,因為它們在數據集的發生具有太大的隨機性--確鑿的歸納是無法從這樣的小樣本數據集中得到的。
目前有越來越多的爭議在討論大數據是否正在取代直覺在醫療中的地位。無論怎樣,大數據仍是我們最大的希望--計算機可以在模仿人類專家直覺方面跟進一步,那時我們就再也不用依賴EBM這樣的小數據集了。真正的問題并不是大數據正在威脅醫療中的直覺,而恰恰相反,是在于我能未能做到這一點。我們如今在醫療領域并未過于依賴大數據,因為這的確需要大數據量,而醫學研究者們手中并沒有真正的大型臨床數據集。
建立,維護,標識以及保密臨床臨床數據集的代價太高昂了。泄露數據集信息的懲罰很重,而建立這樣數據集的利益卻幾乎不存在。即便是政府支持的健康信息流通項目通常也不進行數據統計。取而代之的是,這些系統被用作讓登陸者進入一個外部系統,一次只能取回一位患者的數據,并且得到的數據通常是摘要形式的。大數據分析是無法在這樣的體系中實現的。
然而,大數據量醫療數據集受到的最大壁壘是醫療信息中盛行的所謂“最佳實踐準則”,這一準則已經落后于其他行業一二十年了。醫療信息體系仍在持續強化使用陳舊的數據屏障,而這屏障正是維持“小數據集”研究的基礎。在這個體系中,只有通過審核的,標準的,被編輯過的數據才能被接收——這里沒有任何粗糙的原始數據!隨之產生的數據集便是小數據集,因為屏障式的處理過程是強化數據源的瓶頸,由于缺乏一致性,許多可用的數據被拒之門外。這個屏障創造了同質化的數據,而排除了能使系統真正有用的多樣性,這就如同白面包一樣——一個被濾去了谷物最好營養物質的空空的凈化盒。如果在大數據中使用了這樣的屏障,谷歌和亞馬遜就不可能成功,原始的大數據正是他們成功的原因。
除非每個醫生都同時擁有無與倫比的直覺,否則計算機就應該用來提供更好的醫療。如果我們在處理過程中摒棄小數據思維,并開始建立真正的大數據,那么大數據在醫療支持中將會發揮更加巨大的作用。






















