Nature封面:乘著AI的翅膀,數(shù)據(jù)「帶飛」計(jì)算社會(huì)科學(xué)
早在蘇美爾王國(guó)時(shí)期,這個(gè)智慧王國(guó)的子民就開(kāi)始記錄數(shù)據(jù),進(jìn)行人口普查、分配糧食。
全世界最早產(chǎn)生的文明之一蘇美爾的人口普查記錄
蘇美爾人貢獻(xiàn)了書(shū)面數(shù)據(jù)分析的最早記錄。
隨著計(jì)算機(jī)的出現(xiàn),人們開(kāi)始用機(jī)器分析大型數(shù)據(jù)集,這一階段最早可以追溯到大型計(jì)算機(jī)時(shí)代。
計(jì)算機(jī)大大加快了數(shù)據(jù)分析的速度,被廣泛應(yīng)用在審計(jì)和人口普查上。
而這種將大量數(shù)據(jù)分析與社會(huì)問(wèn)題相結(jié)合的工作,即計(jì)算社會(huì)科學(xué)(Computational social science)近年來(lái)得到了巨大的發(fā)展。
巨大的發(fā)展伴隨的是沒(méi)有限制、不受監(jiān)管的數(shù)據(jù)收集。

這其中存在很大風(fēng)險(xiǎn):缺乏監(jiān)控以及從匿名數(shù)據(jù)中重新識(shí)別身份的風(fēng)險(xiǎn)。
還有人擔(dān)心,收集數(shù)據(jù)卻沒(méi)有征得當(dāng)事人的同意怎么辦?
大部分?jǐn)?shù)據(jù)都被少數(shù)大型科技公司壟斷怎么辦?
不僅大型科技公司掌握數(shù)據(jù)、數(shù)據(jù)使用權(quán)在向發(fā)達(dá)國(guó)家、富裕人群傾斜,這樣做出的決策難免會(huì)有偏差。
所以,目前需要我們將社會(huì)科學(xué)和不同學(xué)科以及收集分析大型數(shù)據(jù)集所需的技能結(jié)合起來(lái),這就需要跨學(xué)科的合作。
但是,目前跨學(xué)科合作面臨諸多挑戰(zhàn)。
今天,Nature就以特刊形式討論了目前計(jì)算社會(huì)科學(xué)面臨的挑戰(zhàn)和機(jī)遇。

克服跨學(xué)科的語(yǔ)言障礙
計(jì)算社會(huì)科學(xué)集社會(huì)、自然、計(jì)算科學(xué)等學(xué)科于一身。
同一個(gè)詞,在不同學(xué)科之間可能有不同的含義,在這種情況下就很容易「雞同鴨講」。
例如,在社會(huì)科學(xué)領(lǐng)域,「預(yù)測(cè)」(prediction)通常含有「相關(guān)」的意思;而在物理科學(xué)領(lǐng)域,這個(gè)詞更多指的是「預(yù)測(cè)」。

「token」在不同領(lǐng)域里也有不同含義
因此,不同學(xué)科之間需要克服同一術(shù)語(yǔ)表達(dá)不同意思的語(yǔ)言障礙。開(kāi)展跨學(xué)科研究時(shí),科學(xué)家們首先需要學(xué)會(huì)彼此的語(yǔ)言,然后得出一種能夠相互理解的術(shù)語(yǔ)。
但比起語(yǔ)言障礙,更難的是如何展示、分析和解釋數(shù)據(jù),最終解釋某種現(xiàn)象。
比方說(shuō),要想了解交通擁堵的原因,研究人員會(huì)收集并預(yù)測(cè)交通流量數(shù)據(jù),還會(huì)從司機(jī)口中了解到他們選擇特定路線的原因。計(jì)算社會(huì)科學(xué)的學(xué)科互補(bǔ)特性,能更高效地回答研究問(wèn)題。
處理數(shù)據(jù)的「大忌」
所有研究結(jié)果取決于分析策略,還取決于數(shù)據(jù)的質(zhì)量,在處理社會(huì)數(shù)據(jù)的時(shí)候更是如此。
要想完成計(jì)算社會(huì)科學(xué)的研究,就先得要有大量的數(shù)據(jù),如手機(jī)的定位信息。但是這些信息通常不是出于研究目的才收集的,因此很容易被人誤解。
僅從數(shù)字中觀察到趨勢(shì)或模式中就得出結(jié)論,這是研究人員處理大數(shù)據(jù)集的「大忌」。研究人員應(yīng)該考慮可能會(huì)影響結(jié)果的因素。
為了提取數(shù)據(jù)的真正意義,研究人員需要確保他們根據(jù)理論,仔細(xì)地定義測(cè)量對(duì)象,并適當(dāng)?shù)剡M(jìn)行驗(yàn)證和解釋。
算法的廣泛影響是另一個(gè)潛在錯(cuò)誤。算法遍及整個(gè)社會(huì),以不同的方式影響著個(gè)人和群體行為,這意味著,所有的觀察不僅在描述人類(lèi)行為,還在描述算法對(duì)人們行為方式的影響。
社會(huì)科學(xué)理論需要更新,承認(rèn)算法帶來(lái)的影響;要是沒(méi)有這些理論,沒(méi)有清晰理解算法對(duì)可用數(shù)據(jù)的影響,研究人員就無(wú)法得出有意義的結(jié)論。
共享數(shù)據(jù)的難處
大型數(shù)據(jù)集通常是商企的私有財(cái)產(chǎn),這是計(jì)算社會(huì)科學(xué)的另一個(gè)復(fù)雜問(wèn)題。搞學(xué)術(shù)的科學(xué)家需要跟企業(yè)聯(lián)系才能獲得訪問(wèn)權(quán)限,這有可能會(huì)產(chǎn)生更多偏見(jiàn)。
對(duì)于公司而言,數(shù)據(jù)是有價(jià)值的,因此共享數(shù)據(jù)會(huì)冒犯到公司的「底線」。這也是公司傾向于限制共享內(nèi)容的原因之一。
但考慮到這些數(shù)據(jù)能提供社會(huì)效益,公司——連同學(xué)術(shù)研究人員和公共機(jī)構(gòu)——需要共同解決這些問(wèn)題,并為數(shù)據(jù)的質(zhì)量、數(shù)據(jù)訪問(wèn)和數(shù)據(jù)所有權(quán)制定標(biāo)準(zhǔn)。
未來(lái)獲取數(shù)據(jù)的方式
一篇關(guān)于「人類(lèi)社會(huì)感知」的文章對(duì)于如何獲得有用、可靠的數(shù)據(jù)列舉了一些方法。這是對(duì)個(gè)人如何在其社交網(wǎng)絡(luò)中收集他人信息的研究。
例如,研究人員可以通過(guò)采訪對(duì)象并詢(xún)問(wèn)他們的朋友在談?wù)撌裁矗瑥亩A(yù)測(cè)出政治觀點(diǎn)的變化。
收集他人的數(shù)據(jù)有助于避免自我報(bào)告數(shù)據(jù)中出現(xiàn)的一些偏見(jiàn),生成匿名數(shù)據(jù)也有額外好處:研究人員永遠(yuǎn)不需要知道他們獲得的數(shù)據(jù)中,任何有關(guān)個(gè)人或敏感細(xì)節(jié)的信息。
獲取數(shù)據(jù)的方式變得更加成熟,這一點(diǎn)體現(xiàn)在傳染病建模和行為科學(xué)的交叉領(lǐng)域。
要建立準(zhǔn)確的傳染和感染模型,研究人員需要了解患病人群的文化和行為。如果不考慮傳播的這些和其他社會(huì)方面的傳播因素,就難以預(yù)測(cè)疾病的傳播路徑。跨學(xué)科的結(jié)構(gòu)和廣泛合作十分關(guān)鍵。
而新冠肺炎疫情已經(jīng)表明,大規(guī)模數(shù)據(jù)集應(yīng)用于科學(xué)能夠挽救生命。隨著具有計(jì)算機(jī)科學(xué)或應(yīng)用數(shù)學(xué)背景的研究人員與社會(huì)科學(xué)家的合作,而這種潛力才剛剛開(kāi)始顯現(xiàn)。






























