AI高分通過美國8年級科學(xué)考試：常識題推理題都能行，不服同臺對戰(zhàn)

作者：量子位 2019-09-05 14:00:56

人工智能

只要60分飄過八年級科學(xué)考試，就能收獲8萬美元獎金(折合人民幣57萬元)。只不過，參加考試的“學(xué)生”，必須是個AI。

只要60分飄過八年級科學(xué)考試，就能收獲8萬美元獎金(折合人民幣57萬元)。

[[276019]]

只不過，參加考試的“學(xué)生”，必須是個AI。

在長達(dá)四年的時間里，700多名計算機(jī)科學(xué)家參與到這項AI競賽當(dāng)中，但他們的AI紛紛折戟，沒有一個能拿到及格分。

但現(xiàn)在，歷史新紀(jì)錄來了。艾倫研究所的一個名叫Aristo的AI搞定了這件事，不僅在8年級科學(xué)考試中答對了90%以上的問題，連高三的考試，它都能答對80%!

AI高分通過美國8年級科學(xué)考試：常識題推理題都能行，不服同臺對戰(zhàn)

這對于AI來說，有點鵝妹子嚶了。

語言理解+邏輯，難倒AI

雖然AI下圍棋能贏世界冠軍，打德?lián)溥€會詐唬，IBM的Watson也早在智力問答《危險邊緣(Jeopardy!)》中大殺四方，但想要通過美國八年級科學(xué)考試，對AI來說仍然是一大挑戰(zhàn)。

即使排除了圖片題和圖表題，科學(xué)考試中的問答依然不是簡單的自然語言理解問題，還涉及到邏輯推理乃至常識——答案并不是明顯存在于某處文本中的。

舉個例子，在考試中，有的問題比較簡單，只涉及到信息檢索：

一組協(xié)同工作以執(zhí)行特定功能的組織稱為：

(1)器官

(2)有機(jī)體

(3)系統(tǒng)

(4)細(xì)胞

但有的問題它長這個樣子：

什么樣的改變會導(dǎo)致區(qū)域內(nèi)的松鼠數(shù)量減少?

(1)食肉動物數(shù)量減少

(2)松鼠之間的競爭減弱

(3)食物增加

(4)森林火災(zāi)發(fā)生次數(shù)增多

這可就不是AI光靠學(xué)習(xí)規(guī)則就能回答的問題了，其中牽扯到的邏輯推理，對人類而言或許是小菜一碟，但對AI來說，并沒有那么簡單。

甚至還有多選問題。

就在AlphaGo震驚世界的2016年，最強(qiáng)的AI系統(tǒng)也只能在紐約州八年級科學(xué)考試中達(dá)到59.3%的準(zhǔn)確率，遺憾未能及格。

基于Bert的Aristo

Aristo是怎樣實現(xiàn)突破的呢?

其實，它是站在了巨人的肩膀之上。

Aristo基于艾倫研究所的深度語境化詞表征ELMo(NAACL 2018最佳論文)和大名鼎鼎的BERT開發(fā)(現(xiàn)已替換為RoBERTa)，集八種類型智能體于一身，有的智能體負(fù)責(zé)在數(shù)據(jù)庫中查找答案，有的負(fù)責(zé)檢查相關(guān)概念列表(元組)，還有的專門執(zhí)行邏輯推理。

每個智能體都會為答案打分，而Aristo會對不同的分?jǐn)?shù)進(jìn)行加權(quán)，最終做出選擇決策。

在實驗測試中，研究人員讓Aristo參加了2017年到2019年各個年級的紐約州會考，結(jié)果顯示，Aristo在4年級和8年級的考試中正確率都到達(dá)了90%左右，符合紐約州教育部認(rèn)定的“優(yōu)秀標(biāo)準(zhǔn)”(85%)。而12年級考試的正確率則是83.54%，離優(yōu)秀只差了一點點。