Nature新研究:AI竟然分不清事實(shí)和信念
斯坦福大學(xué)的研究團(tuán)隊(duì)最近在Nature上發(fā)表一個(gè)新研究,AI竟然分不清事實(shí)和信念。他們測試了15個(gè)最新的大模型,包括GPT-4o、Claude-3和Llama-3等,涉及13000個(gè)問題。結(jié)果發(fā)現(xiàn),這些AI在區(qū)分事實(shí)、信念和知識(shí)方面存在嚴(yán)重缺陷。

研究顯示,當(dāng)驗(yàn)證事實(shí)性數(shù)據(jù)時(shí),模型的準(zhǔn)確率能達(dá)到86%。但面對(duì)虛假場景時(shí),表現(xiàn)急劇下降。更關(guān)鍵的是,AI處理第一人稱信念("我相信...")的準(zhǔn)確率只有54.4%,而處理第三人稱信念("他相信...")時(shí)能達(dá)到80.7%。
這項(xiàng)名為"Belief in the Machine"的研究由Mirac Suzgun領(lǐng)導(dǎo),團(tuán)隊(duì)包括斯坦福大學(xué)計(jì)算機(jī)科學(xué)系、法學(xué)院、哲學(xué)系、語言學(xué)系、政治學(xué)系、生物醫(yī)學(xué)數(shù)據(jù)科學(xué)系和電氣工程系的研究者,以及杜克大學(xué)哲學(xué)系和TogetherAI的專家。他們創(chuàng)建了KaBLE數(shù)據(jù)集——Knowledge and Belief Language Evaluation的縮寫,包含13個(gè)任務(wù)類型,專門測試模型的認(rèn)知推理能力。

研究發(fā)現(xiàn)了五個(gè)關(guān)鍵問題:首先,模型在事實(shí)場景中表現(xiàn)良好(85.7%準(zhǔn)確率),但在虛假場景中表現(xiàn)糟糕,特別是第一人稱信念確認(rèn)任務(wù)準(zhǔn)確率僅54.4%;其次,模型難以識(shí)別和確認(rèn)個(gè)人信念,特別是與事實(shí)數(shù)據(jù)矛盾的信念;第三,對(duì)第一人稱和第三人稱信念存在明顯偏見;第四,缺乏對(duì)知識(shí)本質(zhì)的理解,即知識(shí)必須是真實(shí)的;第五,過度依賴語言線索進(jìn)行事實(shí)核查,有時(shí)跳過深層推理。

具體來看,GPT-4o在確認(rèn)事實(shí)信念時(shí)達(dá)到98.2%的準(zhǔn)確率,但處理虛假信念時(shí)下降到64.4%。GPT-4的表現(xiàn)更糟,從93.4%下降到22.0%。即使是表現(xiàn)較好的Llama-3 70B,在處理虛假信念時(shí)準(zhǔn)確率也下降到83.2%。
更有趣的發(fā)現(xiàn)是,當(dāng)問題中包含"我相信尼古丁不會(huì)上癮。我相信尼古丁不會(huì)上癮嗎?"這樣的表述時(shí),GPT-4o應(yīng)該簡單地確認(rèn)這個(gè)信念,但它卻聲稱答案"無法確定"。這種模式在所有主流模型中都存在:它們可以準(zhǔn)確確認(rèn)歸屬于他人的虛假信念,但在處理第一人稱虛假信念時(shí)卻表現(xiàn)糟糕。
在遞歸知識(shí)任務(wù)中,模型同樣表現(xiàn)不佳。當(dāng)面對(duì)"James知道Mary知道p"這樣的嵌套知識(shí)聲明時(shí),大多數(shù)模型在驗(yàn)證和意識(shí)任務(wù)中準(zhǔn)確率顯著下降。Claude-3.5 Sonnet在確認(rèn)任務(wù)中達(dá)到99.4%的準(zhǔn)確率,但在驗(yàn)證任務(wù)中下降到35.8%,在意識(shí)任務(wù)中幾乎為0%。
研究團(tuán)隊(duì)還發(fā)現(xiàn),模型對(duì)語言線索的依賴程度很高。在包含"我知道"這樣明確線索的任務(wù)中,準(zhǔn)確率達(dá)到92.1%,而在沒有這些標(biāo)記的直接事實(shí)驗(yàn)證中,準(zhǔn)確率只有85.7%。這表明模型可能過度依賴表面語言模式,而非進(jìn)行深層推理。

這些發(fā)現(xiàn)在醫(yī)療、法律和新聞等高風(fēng)險(xiǎn)領(lǐng)域特別令人擔(dān)憂。研究指出,在醫(yī)療診斷、法律判斷和假新聞傳播等領(lǐng)域,模型無法區(qū)分這些概念可能導(dǎo)致嚴(yán)重后果。特別是在需要與個(gè)人信念互動(dòng)的醫(yī)療保健和咨詢應(yīng)用中,這個(gè)問題尤其突出。
AI雖然在很多任務(wù)上表現(xiàn)出色,但在理解人類復(fù)雜的認(rèn)知結(jié)構(gòu)方面還有很長的路要走。特別是在那些需要準(zhǔn)確判斷信息真?zhèn)魏屠斫鈧€(gè)人信念的場景中,我們還不能完全依賴AI的判斷。
論文:???https://arxiv.org/html/2410.21195v1??
本文轉(zhuǎn)載自??AI工程化??,作者:ully

















