AI高分通過美國8年級科學(xué)考試:常識題推理題都能行,不服同臺對戰(zhàn)
只要60分飄過八年級科學(xué)考試,就能收獲8萬美元獎金(折合人民幣57萬元)。
只不過,參加考試的“學(xué)生”,必須是個AI。
在長達(dá)四年的時間里,700多名計算機(jī)科學(xué)家參與到這項AI競賽當(dāng)中,但他們的AI紛紛折戟,沒有一個能拿到及格分。
但現(xiàn)在,歷史新紀(jì)錄來了。艾倫研究所的一個名叫Aristo的AI搞定了這件事,不僅在8年級科學(xué)考試中答對了90%以上的問題,連高三的考試,它都能答對80%!

這對于AI來說,有點鵝妹子嚶了。
語言理解+邏輯,難倒AI
雖然AI下圍棋能贏世界冠軍,打德?lián)溥€會詐唬,IBM的Watson也早在智力問答《危險邊緣(Jeopardy!)》中大殺四方,但想要通過美國八年級科學(xué)考試,對AI來說仍然是一大挑戰(zhàn)。
即使排除了圖片題和圖表題,科學(xué)考試中的問答依然不是簡單的自然語言理解問題,還涉及到邏輯推理乃至常識——答案并不是明顯存在于某處文本中的。
舉個例子,在考試中,有的問題比較簡單,只涉及到信息檢索:
一組協(xié)同工作以執(zhí)行特定功能的組織稱為:
(1)器官
(2)有機(jī)體
(3)系統(tǒng)
(4)細(xì)胞
但有的問題它長這個樣子:
什么樣的改變會導(dǎo)致區(qū)域內(nèi)的松鼠數(shù)量減少?
(1)食肉動物數(shù)量減少
(2)松鼠之間的競爭減弱
(3)食物增加
(4)森林火災(zāi)發(fā)生次數(shù)增多
這可就不是AI光靠學(xué)習(xí)規(guī)則就能回答的問題了,其中牽扯到的邏輯推理,對人類而言或許是小菜一碟,但對AI來說,并沒有那么簡單。
甚至還有多選問題。
就在AlphaGo震驚世界的2016年,最強(qiáng)的AI系統(tǒng)也只能在紐約州八年級科學(xué)考試中達(dá)到59.3%的準(zhǔn)確率,遺憾未能及格。
基于Bert的Aristo
Aristo是怎樣實現(xiàn)突破的呢?
其實,它是站在了巨人的肩膀之上。
Aristo基于艾倫研究所的深度語境化詞表征ELMo(NAACL 2018最佳論文)和大名鼎鼎的BERT開發(fā)(現(xiàn)已替換為RoBERTa),集八種類型智能體于一身,有的智能體負(fù)責(zé)在數(shù)據(jù)庫中查找答案,有的負(fù)責(zé)檢查相關(guān)概念列表(元組),還有的專門執(zhí)行邏輯推理。

每個智能體都會為答案打分,而Aristo會對不同的分?jǐn)?shù)進(jìn)行加權(quán),最終做出選擇決策。

在實驗測試中,研究人員讓Aristo參加了2017年到2019年各個年級的紐約州會考,結(jié)果顯示,Aristo在4年級和8年級的考試中正確率都到達(dá)了90%左右,符合紐約州教育部認(rèn)定的“優(yōu)秀標(biāo)準(zhǔn)”(85%)。而12年級考試的正確率則是83.54%,離優(yōu)秀只差了一點點。

在此之前,這些考試數(shù)據(jù)并不在Aristo的訓(xùn)練集中。
并且,現(xiàn)在Aristo的答題范圍不僅僅局限在文字問題中了,涉及到計算機(jī)視覺的圖表題,它也正在拿下。


在接受媒體采訪時,Aristo項目的高級經(jīng)理Peter Clark表示:
Aristo的目標(biāo)不僅僅是通過科學(xué)考試,而是創(chuàng)造一個對科學(xué)有更深入理解的系統(tǒng)。
雖然如從事類似研究的微軟研究員Jingjing Liu所說,實際上,Aristo仍然不具備“真正”的智能,我們無法將Aristo的能力與人類學(xué)生的推理能力相比較。但無疑,它創(chuàng)造了一個很好的應(yīng)用方向。
比如更強(qiáng)大的搜索,比如個性化教育。

對了,Aristo現(xiàn)在有了在線Demo,可以在線調(diào)戲喲。
傳送門
Demo:
http://aristo-demo.allenai.org/
數(shù)據(jù)集:
http://data.allenai.org/ai2-science-questions/
相關(guān)論文:
https://allenai.org/papers/papers-aristo-2019.html



























