ChatGPT大戰(zhàn)司法考試，無需微調(diào)一類試題達到人類水平！醫(yī)學(xué)化學(xué)公務(wù)員試題都能答

作者：楊凈明敏 2023-01-04 12:49:28

人工智能新聞

研究人員分別對GPT-3.5進行了提示工程、超參數(shù)優(yōu)化以及微調(diào)的嘗試。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

ChatGPT的下一個新身份——做題家！

這不，它已經(jīng)在人類各個考試中開“卷”了。

律師、醫(yī)生、注會什么的，它都開始紛紛展露身手。

比如，全球考生都頭疼的司法考試，現(xiàn)在ChatGPT在兩項試題達到了合格率，其中一項還跟人類水平持平。（還是在沒有任何微調(diào)的基礎(chǔ)上）

“成績”一出，瞬間引發(fā)巨大關(guān)注，網(wǎng)友：Amazing~

還有人表示，要是讓它來參加SAT或AP考試，應(yīng)該會很有趣。

咳咳，要是公務(wù)員考試呢？

咱們結(jié)尾見分曉！?

兩項法考試題合格

具體就先來看看ChatGPT在司法考試中的表現(xiàn)如何。

美國大多數(shù)州統(tǒng)一的司法考試（UBE），有三個組成部分：選擇題（多州律師考試，MBE）、作文（MEE）、情景表現(xiàn)（MPT）。

選擇題部分，由來自8個類別的200道題組成，通常占整個律師考試分數(shù)的50%。

在這項研究中，研究人員對OpenAI的text-davinci-003模型（通常被稱為GPT-3.5）在MBE的表現(xiàn)進行評估。

（ChatGPT正是GPT-3.5面向公眾的聊天機器人版本。）

為了測試實際效果，研究人員購買了官方組織提供的標準考試準備材料，包括練習(xí)題和模擬考試。每個問題的正文都是自動提取的，其中有四個多選選項，并與答案分開存儲，答案僅由每個問題的正確字母答案組成，也沒有對正確和錯誤的答案進行解釋。

隨后，研究人員分別對GPT-3.5進行了提示工程、超參數(shù)優(yōu)化以及微調(diào)的嘗試。結(jié)果發(fā)現(xiàn)，超參數(shù)優(yōu)化和提示工程對GPT-3.5的成績表現(xiàn)有積極影響，而微調(diào)沒有任何效果。

在提示工程中，他們共測試了7種提示類型。

1、只做單項選擇；
2、單項選擇和解釋；
3、只做前兩個選擇；
4、前兩個選擇和解釋；
5、前兩個選擇和重新提示；
6、對所有選擇進行排序；
7、對前三個選擇進行排序。

研究人員在上述的提示和參數(shù)值中執(zhí)行了107次樣本考試。結(jié)果在這些提示中，提示風(fēng)格#7的前三個選項排序表現(xiàn)最好，他們共收集了41個樣本，對這個提示進行參數(shù)組合。

超參數(shù)優(yōu)化中，他們評估了包括溫度系數(shù)、top p、best of、max tokens等參數(shù)。

最終在完整的MBE練習(xí)考試中達到了50.3%的平均正確率，大大超過了25%的基線猜測率，并且在證據(jù)和侵權(quán)行為兩個類型都達到了平均通過率。尤其是證據(jù)類別，與人類水平持平，保持著63%的準確率。

在所有類別中，GPT平均落后于人類應(yīng)試者約17%。在證據(jù)、侵權(quán)行為和民事訴訟的情況下，這一差距可以忽略不計或只有個位數(shù)。

但總的來說，這一結(jié)果都大大超出了研究人員的預(yù)期。

因為它對答案排序與正確性有很強的相關(guān)性，Top2和Top3的選擇分別有71%和88%的正確率。其中“Top2”的準確率全都超過了極限，有五個類別均超過了人類平均水平。而“Top3”的準確度更高，在證據(jù)這一表現(xiàn)中甚至達到了98%。

這也證實了它對法律領(lǐng)域的一般理解，而非隨機猜測。接下來他們將進一步對法考的其他兩部分：作文和情景表現(xiàn)進行上述的研究。

ChatGPT能當考霸嗎？

谷歌資深軟件工程師肯尼斯·古德曼（Kenneth S. Goodman）就拿ChatGPT做了一系列測試，涉及司法、醫(yī)學(xué)、會計學(xué)、化學(xué)等多個領(lǐng)域。

分數(shù)最高的一門是紐約州高中畢業(yè)英語語言藝術(shù)考試，ChatGPT正確率達到了91.6%。

因為是2022年8月的考試，所以ChatGPT數(shù)據(jù)庫中肯定不包含考試內(nèi)容。對于陌生的24道考題，它只錯了2題。

物理/化學(xué)考試中，ChatGPT的表現(xiàn)也不錯，正確率達到了77.7%，45道題目中答對了35道。

前不久，谷歌醫(yī)療大模型Med-PaLM通過美國醫(yī)師執(zhí)照試題（USMLE）驗證。

ChatGPT也不甘于落后，同樣挑戰(zhàn)了USMLE的第一階段基礎(chǔ)醫(yī)學(xué)考試。

去掉有圖像的題目后（因無法輸入對話框），ChatGPT正確率達70%。

其余則是在司法方面，工程師肯尼斯老哥讓ChatGPT嘗試了一些非正式題目。

比如美國律師職業(yè)道德考試（MPRE）的示例題目（共15道），ChatGPT答對了9道，正確率60%。

面對50道律師資格考試模擬試題，ChatGPT的正確率也維持在了70%，答對35道。

此外，在佛羅里達農(nóng)工大學(xué)法學(xué)院的入學(xué)考試中，ChatGPT取得了149分，排名在前40%。其中閱讀理解類題目表現(xiàn)最好。

表現(xiàn)最差的，還是數(shù)學(xué)題。

在CPA注會考試中，ChatGPT的正確率只有40%。肯尼斯老哥還在嘗試一些調(diào)教方法，讓它更聰明一些。

總之，ChatGPT在各種考試中的表現(xiàn)，還是讓人有些意外。

有網(wǎng)友已經(jīng)產(chǎn)生危機感了：

damn，我的工作要被搶了！

有人分析，如果直接讓AI來插手司法相關(guān)的判斷，風(fēng)險真的很大，但如果后期有專人來審核它的輸出結(jié)果，那么AI將能夠很好提升律師的工作效率。

還有人表示，如果能保證任何數(shù)據(jù)都不泄露的話，那ChatGPT將能夠推動更多行業(yè)平民化。

或許正如肯尼斯老哥說的那樣，人類+電腦的組合已經(jīng)超越了人類自身能力，這就是計算機當下正在進行的突破。

One More Thing

最后，我們也讓ChatGPT試了試國內(nèi)法考的題目~

先說結(jié)果，3道選擇題，ChatGPT都沒有答對……雖然解釋得頭頭是道，但它應(yīng)該確實沒有讀過我國的法條。

△參考答案D

（這答案羅翔老師看了直搖頭）

△參考答案A

換成公務(wù)員行測試題呢？沒想到ChatGPT的答案對了，可是過程和答案似乎完全沒關(guān)系……

這……怎么感覺AI秒算結(jié)果，但隨便編了個過程來糊弄人類啊

責(zé)任編輯：張燕妮來源：量子位

GPT-3.5