NASA和IBM推出INDUS:高級(jí)科學(xué)研究的綜合大模型 原創(chuàng)
在最近的一項(xiàng)研究中,來(lái)自美國(guó)宇航局和IBM的一組研究人員合作開(kāi)發(fā)了一種模型,該模型可應(yīng)用于地球科學(xué),天文學(xué),物理學(xué),天體物理學(xué),太陽(yáng)物理學(xué),行星科學(xué)和生物學(xué)以及其他多學(xué)科學(xué)科。當(dāng)前的模型,如 SCIBERT、BIOBERT和SCHOLARBERT僅部分覆蓋了其中的一些領(lǐng)域。現(xiàn)有的模型沒(méi)有充分考慮所有這些相關(guān)領(lǐng)域。
為了彌合這一差距,該團(tuán)隊(duì)推出了INDUS,這是一套基于LLMs編碼器的專門針對(duì)這些特定領(lǐng)域的設(shè)備。由于INDUS 是根據(jù)從各種來(lái)源精心挑選的語(yǔ)料庫(kù)進(jìn)行培訓(xùn)的,因此可以保證涵蓋這些領(lǐng)域的知識(shí)體系。INDUS 套件包括多種類型的模型,以滿足不同的需求。
在這項(xiàng)研究中,Indus特別關(guān)注與地球、天體、太陽(yáng)和太陽(yáng)系內(nèi)的行星相關(guān)的跨學(xué)科領(lǐng)域,如物理學(xué)、地球科學(xué)、天體物理學(xué)、太陽(yáng)物理學(xué)、行星科學(xué)和生物學(xué)。雖然現(xiàn)有的特定領(lǐng)域模型(如 scibert、biobert和scholarbert)的訓(xùn)練語(yǔ)料庫(kù)部分涵蓋了其中一些領(lǐng)域,但目前還沒(méi)有一個(gè)特定的模型可以共同涵蓋所有感興趣的領(lǐng)域。Indus,這是一個(gè)基于llm Encoder的合集,專注于這些感興趣的領(lǐng)域,使用來(lái)自不同來(lái)源的精心策劃的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。
具體而言,Indus做到了:
1. 利用字節(jié)對(duì)編碼算法IndusBPE,從精選的科學(xué)語(yǔ)料庫(kù)中定制的分詞器。
2. 利用精心策劃的科學(xué)語(yǔ)料庫(kù)和IndusBPE標(biāo)記器預(yù)訓(xùn)練了多個(gè)??encoder-only的大模型???(Indus-base)。通過(guò)微調(diào)這個(gè)編碼器模型,使用??對(duì)比學(xué)習(xí)??目標(biāo)來(lái)學(xué)習(xí)“通用”句子嵌入(粉色的部分),進(jìn)而創(chuàng)建了sentence-embedding模型。最后還使用知識(shí)蒸餾技術(shù)訓(xùn)練了這些模型的更小,更高效的版本(Indus-small)。
3. 本次還創(chuàng)建三個(gè)新的科學(xué)基準(zhǔn)數(shù)據(jù)集,即氣候變化ner(實(shí)體識(shí)別任務(wù))、nasa-qa(抽取式問(wèn)答任務(wù))和 nasa-ir(檢索任務(wù)),以進(jìn)一步加速這一多學(xué)科領(lǐng)域的研究。
4. 通過(guò)實(shí)驗(yàn)結(jié)果表明模型在這些基準(zhǔn)任務(wù)以及現(xiàn)有的特定領(lǐng)域基準(zhǔn)上具有很強(qiáng)的性能,與原始模型相比,在大多數(shù)基準(zhǔn)任務(wù)中,知識(shí)提煉的小模型在延遲方面實(shí)現(xiàn)了顯著提高,同時(shí)保持了強(qiáng)大的經(jīng)驗(yàn)性能。
至于訓(xùn)練數(shù)據(jù)方面,下圖左側(cè)是本次的訓(xùn)練語(yǔ)料庫(kù)的組成部分,右側(cè)對(duì)比RoBERTa和IndusBPE Tokenizer的效率,標(biāo)記越少,計(jì)算成本越低。下文為兩者切詞的對(duì)比。
|
|
- SAO/NASA ADS:涵蓋了天文學(xué)和天體物理學(xué)、物理學(xué)和普通科學(xué)領(lǐng)域的出版物,包括所有arXiv。
- PubMed Central (pmc)是由美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館和美國(guó)國(guó)立衛(wèi)生研究院維護(hù)的生物醫(yī)學(xué)和生命科學(xué)期刊文獻(xiàn)的全文檔案。本次使用了pmc中具有商業(yè)友好許可證的部分,以及pmc中所有文章的PubMed摘要。
- 美國(guó)氣象學(xué)會(huì) (ams): 使用了涵蓋地球系統(tǒng)、地球相互作用、應(yīng)用氣象學(xué)和氣候?qū)W、物理海洋學(xué)、大氣科學(xué)、氣候、水文氣象學(xué)、天氣和預(yù)報(bào)以及社會(huì)影響等主題的全文期刊文件。
- 美國(guó)地球物理聯(lián)盟 (agu):數(shù)據(jù)集包括大氣、生物地球科學(xué)、地球表面、機(jī)器學(xué)習(xí)和計(jì)算、海洋、行星、固體地球和空間物理學(xué)等主題的期刊文檔。
- NASA通用元數(shù)據(jù)存儲(chǔ)庫(kù) (CMR):是一個(gè)高性能、高質(zhì)量的元數(shù)據(jù)系統(tǒng),對(duì)NASA地球科學(xué)數(shù)據(jù)和信息系統(tǒng) (ESDIS)的所有數(shù)據(jù)和服務(wù)元數(shù)據(jù)記錄進(jìn)行編目。
??

模型的整體架構(gòu)如上,沒(méi)有太復(fù)雜的地方。唯一值得關(guān)注的是利用了知識(shí)蒸餾和對(duì)比學(xué)習(xí),訓(xùn)練出更小的模型,和檢索器。

實(shí)驗(yàn)結(jié)果表明,這些模型在最近創(chuàng)建的基準(zhǔn)任務(wù)和當(dāng)前使用的領(lǐng)域特定基準(zhǔn)上都表現(xiàn)良好。它們的性能優(yōu)于特定領(lǐng)域的編碼器(如 SCIBERT)和通用模型(如 RoBERTa),關(guān)鍵是整體的體積很小!

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公



















