精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

用「AI人」模擬社會學實驗,居然成功了?斯坦福、NYU用GPT-4模仿人類,準確度驚人!

人工智能 新聞
斯坦福和NYU的研究者發現,GPT-4這樣的「AI人」,可以被用來復制社會科學實驗了。調查了1萬個AI,結果比真人還真?

最近,斯坦福和NYU的一項研究發現,GPT-4能夠很好地模擬人類,高精度地復制社會科學實驗了!

圖片論文地址:https://docsend.com/view/qeeccuggec56k9hd

通過提示,AI可以以隨機人口統計特征的形式回答調查問題,調查了數千名「AI人」后,一份社會科學實驗報告就順利出爐了。

圖片點進這個頁面,就可以使用這個演示,模擬被試生成預測的實驗效果了

社會科學實驗中最困難的過程之一,就是田野調查了。

而現在,可以采用LLM預測社會科學實驗的結果了?

不過有個問題:用LLM模擬真實的人類,結果能準嗎?

研究者發現,在70項研究中,模擬效果和觀察到的效果,存在驚人的一致性。

準確性超越人類專家

用LLM進行社會科學實驗,預測的準確性有多高?

研究者使用GPT-4,從70個實驗中預測了465種效應。

其中包括

-通過NSF資助的TESS計劃進行的50項調查實驗

-20項額外的重復研究

圖片

給模型的提示詞,是(a)從美國人的代表性數據集中提取的人口統計資料和(b)實驗刺激。

通過匯總模型響應估計的效果,可以看出它們與實際的實驗效果密切相關!

圖片

另外研究者們還發現,隨著模型的演進,它們的預測準確性越來越高。

到了GPT-4時,已經超越了美國人在線樣本(N=2,659)的預測。

圖片

這里就有人要問了:有沒有可能,LLM只是從訓練數據中檢索和重現已知的實驗結果呢?

研究者找到了證據,證明并非如此。

他們特意找到了GPT-4訓練數據截止時未發表的研究,發現預測的準確性仍然很高。

我們找到了反對這一點的證據:僅分析 GPT4 訓練數據截止時「未發表」的研究,我們發現預測準確性很高。

圖片

不過還有一個問題,此前人們曾發現,訓練數據中的歧視,會引發LLM的偏見。

這些偏差是否會影響實驗結果預測的準確性呢?

為此,研究者從以下三方面,對結果進行了比較:

- 女性和男性

- 黑人和白人

- 民主黨和共和黨

結果顯示,盡管已知訓練數據不平等,但LLM得出的預測準確性,在各個亞組之間仍然具有可比性。

然而,研究的實驗效果幾乎沒有異質性,因此,還需要更多的研究,來評估LLM實驗結果的預測是否存在偏差,以及是怎樣的偏差。

圖片

此外,研究者還評估了大型研究的預測準確性,比較了大量干預措施的影響。

通過9項調查和實地大型研究可以發現,LLM得出的預測相當準確。

尤其值得注意的是,它們的準確性已經等同或超過了人類預測專家。

圖片

最后,研究者發現LLM可以準確預測對社會有害結果的影響,例如FB上antivax的帖子對vax意圖的影響。

這種能力,可能產生積極的用途,比如幫助內容審核,不過也同時凸顯了濫用的風險。

圖片

總的來說,這項研究發現,LLM在實驗中給出的預測,要比外行和人類專家的樣本都更準確。

這種能力,在科學和實踐方面有多種應用。

比如,運行低成本的試點,來確定有希望的干預措施,或模擬可能對參與者有害的實驗。

不過也存在局限性和風險,包括偏見、過度使用和誤用。

圖片

用LLM復制社會科學實驗,可行嗎?

LLM是一種最新的機器學習模型,經過大量人類語言語料庫的訓練后,它們具有驚人的能力來模擬人類如何思考、交流和行為。

因此,它們能夠模仿廣泛的人類高級能力,例如社會互動和協調、道德判斷、談判、情感支持和說服。

隨著LLM越來越能夠模擬人類語言的使用,那它們能否被用于社會和行為科學的研究呢?

在這項研究中,研究者探討了LLM是否可以用于準確預測行為的結果實驗。如果有效,這種能力就能為建立科學理論和行為干預帶來無數好處。

圖片

他們檢查了先進的公開LLM——GPT-4,是否可用于預測在大量有力的、預先注冊的、具有全國代表性的實驗中觀察到的原始實驗效果(a)NSF 資助的多學科社會科學分時實驗(TESS)計劃和(b)最近復制研究的檔案,它們共同代表了廣泛的不同領域(例如社會心理學、政治學、社會學、公共政策、公共衛生)。

研究者讓GPT-4模擬了大量不同人口的美國人樣本對實驗刺激的反應。

然后,他們比較了不同實驗條件下的平均響應,以生成LLM預測的實驗效應大小,然后將其與原始實驗效應相關聯。

研究者評估了LLM得出的預測對一般美國人和具有獨特學術興趣的幾個亞群體的準確性,系統地對LLM用于預測調查實驗中觀察到的干預效應的能力進行了基準測試。

圖片

最后,他們超越了這個初步的測試檔案,收集并分析多種大型多處理實驗,包括涉及行為測量的研究、干預措施的現場測試和政策影響評估,以更好地評估LLM預測實驗結果的價值和當前局限。」

結果顯示,LLM雖然不會取代人類被試,但廉價、快速且可能大量開展基于LLM的試點研究的能力,可以幫助研究人員確定更有前途的研究想法,促進理論和假設的建立,更好地估計未知的效應大小,以確定所需的效果樣本大小,并優先考慮需要復現的已發表研究。

這種能力也可能具有應用價值。例如,政策制定者可以利用LLM來有效評估許多公共信息傳遞方法,以鼓勵理想的行為(例如公共衛生行為、福利計劃注冊)。

目前,預測實驗結果的最佳可用工具是從專家或非專業預測者那里收集預測。

然而,雖然有時具有預測性,但系統地收集預測既耗時又昂貴,而基于LLM的低成本工具,可以使預測性預測廣泛可用。

研究者研究了LLM在代表性樣本調查實驗中準確模擬人類反應的能力。

他們使用LLM,來模擬了人類對各種主題(包括人格特質、道德判斷和政治態度)的調查問題的反應,并取得了不同程度的成功。

圖片

研究概述

他們研究了是否可以利用當前一代的LLM,來準確預測在美國進行的社會科學實驗效果的方向和程度。

他們首先建立了一個大型的多學科測試檔案,其中包含通過美國國家科學基金會資助的50個調查實驗——2016年至2022年社會科學共享實驗(TESS)項目,全部在全國代表性概率樣本上進行。

我們通過最近的復制項目中的另外20項實驗對此進行了補充,這些實驗也是在全國代表性樣本上進行的。

對于每個實驗,他們都重新分析了原始的、公開的數據集,使用一致的分析方法估計所有實驗對比。

這個測試檔案有幾個優點。

首先,實驗質量高:它們都是高度統計、預先注冊、同行評審、針對全國代表性樣本進行,并且材料是開放獲取的。

使用具有全國代表性的美國人樣本特別有價值,使他們能夠評估LLM對人口亞組的預測的準確性。

其次,檔案內容廣泛且多樣化。

這些實驗由來自不同領域(例如政治學、心理學、社會學、社會政策、公共衛生、傳播學)的77名社會和行為科學家設計,并測試了許多不同類型的實驗治療的效果(例如框架效應、顯著性)主題、啟動社會身份對一系列結果(如政治、文化和宗教態度、對少數群體的偏見、幸福)的影響。

第三,研究者不依賴他人的分析,而是采用致的分析方法來估計實驗治療效果。這樣做可以讓他們避免研究人員的偏見,還可以估計所有可能的實驗對比,包括原始研究人員沒有假設的那些影響,因為它們不太可能在已發表或公開發表的論文中出現。

第四,在GPT-4訓練數據窗口結束時,大量實驗的結果尚未發表或公開發布,這樣研究者就能專門測試LLM在GPT-4無法接觸過的實驗中的預測能力。

當然,測試檔案也有重要的局限性。最關鍵的是,它只包含代表美國人口的研究,無法在該范圍之外進行評估。

此外,雖然它包括來自多個學科的研究,但許多學科并未包括在內(例如認知心理學、行為經濟學、發展經濟學、營銷學)。

最后,檔案完全由基于文本的刺激和自我報告的相關測量的調查實驗組成,不包括現場實驗、行為因變量或圖像或視頻刺激。

為了開始解決主要測試檔案的一些局限性,研究者對下面的補充數據集進行了額外的分析。

他們的研究設計如下圖所示。為了對測試檔案中的實驗結果生成基于LLM的預測,他們獲得了原始研究材料,包括所有實驗條件、結果變量和反應量表的刺激文本。

圖片

從廣義上講,LLM可以被提示(a)直接預測實驗結果,或(b)模擬個體參與者對實驗刺激的反應。

這里,研究者采用了后一種策略。

他們向LLM提出了:

(a)介紹性信息(如「您將被要求預測人們對各種信息的反應」),包括對研究背景的簡要描述;

(b)研究參與者的具體人口統計概況模仿——包括有關性別、年齡、種族、教育、意識形態和黨派偏見的信息,從具有全國代表性的大型樣本中隨機抽取;

(c)實驗刺激的文本;

(d)用于評估結果的問題文本變量,以及結果啦應量表和標簽。

然后,他們提示LLM估計參與者在受到實驗刺激后將如何回應結果問題。

他們使用了集成方法來減少對任何單一提示格式的特殊響應。

對于每個實驗條件和結果測量,研究者都對所有LLM的響應進行了平均。

結果

為了評估當前一代的LLM是否可以用來預測實驗中的干預效應,研究者首先檢查了GPT-4預測的干預效應與實際估計的干預效應之間的相關性。

在對從存檔中的70個實驗計算出的476個實驗效果進行分析時,可以發現GPT-4得出的預測與原始效果大小密切相關。

僅檢査在原始實驗中具有統計顯著效果的成對對比,可以發現對于90%的對比,GPT-4得出的預測方向是正確的。

以下幾個圖,顯示了LLM在美國進行的基于文本的社會科學實驗中,得到了準確的預測效果。

(a)在包含70個基于文本的實驗(具有476個效果)的數據集中,LLM得出的對許多提示的干預效應的估計,與原始干預效應密切相關。

圖片

(b)LLM得出的預測的準確性,在幾代LLM中得到了提高,其準確性超過了從一般人群中收集的預測。

圖片

(c)對于那些不可能出現在LLM訓練數據中的研究,LLM得出的預測仍然高度準確,因為這些研究沒有在LLM訓練數據截止日期之前發布。

圖片

(d)在各個實驗子集的穩健性檢査分析中,LLM得出的預測的準確性仍然很高。在面板A和中,不同的顏色代表不同的研究。

圖片

LLM得出的預測(a)在各個亞組中的準確性相似,并且(b)當存在效應異質性時,交互效應相當準確。圖中描繪了減弱的相關性。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-26 14:56:59

模型訓練

2023-07-21 14:28:54

2023-10-17 13:33:00

AI數據

2025-06-10 11:22:38

AIChatGPT壓縮

2023-03-15 10:35:16

GPTAI

2024-01-03 13:37:00

模型數據

2023-10-06 12:48:43

AI論文

2025-10-29 16:16:58

AICMU編程

2024-01-29 12:49:00

AI模型

2024-09-11 14:59:00

2019-12-16 14:33:01

AI人工智能斯坦福

2024-03-25 07:15:00

AI模型

2023-09-21 12:31:54

AI數據

2023-06-05 15:44:15

GPT-4AI

2024-11-26 08:42:14

2023-12-16 09:45:56

論文GPT-4AI

2023-02-17 09:01:50

ChatGPT對話機器人

2024-01-22 00:25:00

GPT-4ChatGPTQA 模型

2023-07-21 14:16:15

2025-09-24 18:02:55

點贊
收藏

51CTO技術棧公眾號

特黄毛片在线观看| 国内精品久久久久久久久久久| 免费日韩一区二区三区| 狠狠躁天天躁日日躁欧美| 日韩精品一区二区三区丰满| 国产精品久久久久久久久久久久久久久久久久 | 亚洲第一黄色网址| 丰满少妇一区| 亚洲午夜精品在线| 亚洲二区三区四区| 三级网站在线看| 麻豆精品一区二区av白丝在线| 欧美激情精品久久久久久变态| 亚洲精品成人无码熟妇在线| 精品国产亚洲一区二区三区在线| 黄网站色欧美视频| 大桥未久一区二区| 国产在线观看网站| 国产91精品欧美| 国产精品激情自拍| 国产成人无码精品久久久久| 国产精品久久观看| 亚洲精品午夜精品| 亚洲国产精品第一页| a成人v在线| 欧美色播在线播放| h无码动漫在线观看| 瑟瑟视频在线| 国产欧美一区二区精品性| 99www免费人成精品| 亚洲最大成人av| 久久中文欧美| 7777精品久久久久久| 青青草手机视频在线观看| 久久看人人摘| 亚洲最新中文字幕| aa一级黄色片| 好吊妞视频这里有精品| 欧美一级电影网站| 亚洲精品20p| 91欧美精品| 欧美在线一二三| 日韩av资源在线| 日韩精品av| 午夜日韩在线电影| 久艹视频在线免费观看| 亚洲制服国产| 亚洲女人小视频在线观看| 亚洲精品中文字幕乱码三区不卡| 久草视频在线看| 91在线视频免费观看| 国产欧美日韩伦理| 亚洲精品综合久久| 福利一区二区在线| 国产精品xxxx| 狠狠躁夜夜躁av无码中文幕| 国产精品一区二区91| 91青草视频久久| 国产又爽又黄免费软件| 黄色小说综合网站| 91夜夜未满十八勿入爽爽影院| 国产色综合视频| 国产伦理精品不卡| 国产九色91| 神马电影在线观看| 9人人澡人人爽人人精品| 久久波多野结衣| 污污视频在线免费看| xfplay精品久久| 色狠狠久久av五月综合| 成人精品一区二区三区免费 | 日韩一区二区三区电影| 一级全黄裸体片| 日本一区福利在线| 一个色综合导航| 91大神福利视频| 欧美国产综合| 69av视频在线播放| 亚洲成人av网址| 国模娜娜一区二区三区| 成人做爰66片免费看网站| 日韩av成人| 国产精品国产三级国产a| 日本老太婆做爰视频| 123区在线| 一本色道a无线码一区v| wwwwwxxxx日本| 综合激情网...| 亚洲欧美日韩精品久久亚洲区| 成熟人妻av无码专区| 欧美一区高清| 国产91在线播放九色快色| 国产又大又粗又长| 99re在线精品| 中文精品一区二区三区| 国产黄色大片在线观看| 91国产成人在线| 女人扒开腿免费视频app| 欧美美女在线直播| 久久婷婷激情| 精品国产91久久久| 污网站免费在线| 538任你躁精品视频网免费| 日韩精品视频免费专区在线播放| 性欧美一区二区| 欧美日韩第一区| 国产精品久久久久久搜索 | 欧美午夜精品理论片a级大开眼界| 国产亚洲依依| 亚洲午夜久久久久久久久电影网 | 中文字幕av一区二区三区佐山爱| 欧美三级日韩三级国产三级| 日韩黄色一区二区| 日韩精品欧美| 欧美一区亚洲一区| 国产91免费在线观看| 国产女同互慰高潮91漫画| 成人小视频在线观看免费| 成人网ww555视频免费看| 日韩免费看网站| 国产美女高潮视频| 久久亚洲图片| 精品免费国产| 一区二区三区伦理| 欧美三区在线观看| 国产色视频一区二区三区qq号| 亚洲欧美文学| 成人妇女免费播放久久久| 日本1级在线| 亚洲高清不卡在线| 国产精品igao网网址不卡| 欧美精品系列| 日本国产精品视频| 亚洲人妻一区二区三区| 亚洲精品一区二区毛豆| 五月婷婷六月激情| 亚洲黄色性网站| 九九热免费在线观看| 国产伦精品一区二区三区视频 | 国产乱码精品一区二区三区日韩精品| 黄色成人在线观看| 欧美色图片你懂的| 天天操天天干天天操天天干| 午夜一区在线| 久久99精品国产99久久| 97人人爽人人澡人人精品| 欧美一区二区视频在线观看2020| 五月天免费网站| 蜜桃精品视频在线观看| 少妇精品久久久久久久久久| 欧美舌奴丨vk视频| 国产午夜精品一区理论片飘花 | 亚洲视频播放| 国产一级二级三级精品| 国产蜜臀在线| 亚洲精品一区二区精华| 久久久久久国产精品免费播放| 国产精品一区二区久久不卡 | 国产精品日韩精品欧美精品| 国产一区二区三区无遮挡| 国产一二在线播放| 日韩高清不卡av| 黄色片视频免费| 国产欧美日韩精品一区| 欧美自拍小视频| 日本道不卡免费一区| 国产日韩欧美另类| 97超碰在线公开在线看免费| 日韩欧美卡一卡二| 国产精品9191| 久久影视一区二区| 一本色道久久亚洲综合精品蜜桃| 日本不卡高清| 成人av资源网| 69久成人做爰电影| 最近2019中文字幕mv免费看| 国产精品久久无码一三区| 夜夜精品浪潮av一区二区三区| 在线精品视频播放| 老司机精品导航| 特级毛片在线免费观看| 动漫3d精品一区二区三区乱码| 1769国产精品| 免费黄网站在线播放| 精品少妇一区二区三区| 伊人手机在线视频| 成人免费一区二区三区在线观看| 伊人久久久久久久久| 亚洲欧美日韩国产综合精品二区| 欧美一区1区三区3区公司| 国产日本久久| 美女性感视频久久久| 日日夜夜精品免费| 91精品办公室少妇高潮对白| 欧美色视频一区二区三区在线观看| 国产乱理伦片在线观看夜一区| 我的公把我弄高潮了视频| 精品视频97| 国产精品视频免费一区| 精品欧美日韩精品| 午夜精品www| 日p在线观看| 日韩成人性视频| 国产精品久久久久久无人区| 天天免费综合色| 精品国产精品国产精品| 337p粉嫩大胆噜噜噜噜噜91av| 在线观看国产一级片| 亚洲黄色影院| 一级一片免费播放| 精品久久精品| 国产精品免费视频一区二区| 国产精品久久久久77777丨| 久久久久久久影院| 视频一区二区三区不卡| 亚洲欧美日韩在线高清直播| 精品国产av 无码一区二区三区 | 国产丝袜在线精品| 国产乱淫av片| 国内精品自线一区二区三区视频| av在线播放亚洲| 在线中文一区| 水蜜桃一区二区三区| 国产精品欧美大片| 91中文字幕在线| 主播大秀视频在线观看一区二区| 性色av一区二区咪爱| 在线观看中文字幕的网站| 自拍偷拍亚洲区| 邻家有女韩剧在线观看国语| 亚洲成人久久久| www.热久久| 欧美一区2区视频在线观看| 国产又粗又猛又黄视频| 欧美日韩国产一区中文午夜| 久久久久无码国产精品| 亚洲欧美一区二区不卡| 成人精品一二三区| 中文av一区二区| 波多野在线播放| 久久免费看少妇高潮| 亚洲制服丝袜在线播放| 成人禁用看黄a在线| 亚洲av午夜精品一区二区三区| 麻豆成人av在线| 久久黄色片网站| 久久精品久久99精品久久| 欧美三级理论片| 亚洲女人av| 国产主播在线看| 亚洲区欧美区| 国产免费黄色小视频| 国产专区一区| 人妻夜夜添夜夜无码av| 国语自产精品视频在线看8查询8| 加勒比海盗1在线观看免费国语版| 91免费精品| 欧美爱爱视频网站| 亚洲人体av| 99在线观看视频免费| 极品av少妇一区二区| 丰满少妇大力进入| 在线亚洲观看| 波多野结衣家庭教师在线| 国产日韩欧美在线播放不卡| 国产免费黄色av| 久久综合狠狠| 99re6在线观看| 国产精品456| 在线免费播放av| 国产午夜精品久久| 天天色天天综合| 亚洲精品v日韩精品| 日本在线视频中文字幕| 狠狠爱在线视频一区| 国产又大又粗又爽| 欧美日韩色一区| 亚洲高清视频在线播放| 精品国产一区二区三区久久久樱花 | 国产精品麻豆欧美日韩ww| 99在线视频免费| 亚洲激情图片小说视频| 在线观看国产亚洲| 欧美日韩一二区| 亚洲精品国产精| 亚洲丝袜在线视频| 国产黄色在线免费观看| 97在线看福利| 婷婷激情成人| 久久99欧美| 99久久夜色精品国产亚洲96| www.av片| 精品在线一区二区三区| 北京富婆泄欲对白| 国产精品久久久久久久久快鸭| 免费无码毛片一区二区app| 色诱亚洲精品久久久久久| 国产永久免费视频| 日韩电影中文字幕在线观看| 顶级网黄在线播放| 欧美最近摘花xxxx摘花| 4438五月综合| 日本公妇乱淫免费视频一区三区| 欧美一区影院| 国产精品一区二区羞羞答答| 成人免费毛片片v| 欧美日韩生活片| 欧美视频在线看| 成人午夜视频一区二区播放| 有码中文亚洲精品| 精精国产xxxx视频在线野外| 91精品视频在线| 国产一区二区三区天码| 欧美在线一区视频| 国产一区在线观看视频| 欧美熟妇激情一区二区三区| 亚洲国产精品尤物yw在线观看| 一区不卡在线观看| 亚洲视频网站在线观看| 九九精品调教| 亚洲一区二区久久久久久久| 精品国产99| 成人精品视频一区二区| 成人97人人超碰人人99| 精品爆乳一区二区三区无码av| 欧美艳星brazzers| 免费在线视频一级不卡| 性色av一区二区三区| 一区二区三区视频播放| 中文字幕一区二区不卡| 久久精品女人毛片国产| 欧美一三区三区四区免费在线看| 搞黄视频在线观看| 国产成人久久久精品一区| 亚州av一区| 91猫先生在线| 91亚洲精品乱码久久久久久蜜桃| 日本亚洲欧美在线| 欧美sm极限捆绑bd| 日本乱理伦在线| 爱情岛论坛亚洲入口| 欧美在线黄色| 日韩高清一二三区| 亚洲永久免费视频| 亚洲精品无码久久久| 久久久久久免费精品| 麻豆国产一区二区三区四区| 久久久久久久久影视| 国产精品12区| 久久网免费视频| 亚洲国产精品va在线看黑人动漫| 成年网站在线视频网站| 国产精选一区二区| 国产欧美日韩综合一区在线播放| 亚洲男人在线天堂| 久久久美女艺术照精彩视频福利播放| 精品人妻一区二区色欲产成人| 日韩精品在线观看视频| 韩日精品一区二区| 日韩欧美亚洲区| 久久99精品国产.久久久久| 大地资源高清在线视频观看| 91精品国产色综合久久不卡电影| 黄av在线播放| 国产精品国产三级国产专区53| 夜久久久久久| 久久久久久久久久久国产精品| 色综合激情久久| 波多野结衣在线网站| 91色在线视频| 亚洲国产高清视频| 97人妻精品一区二区免费| 在线观看日韩高清av| 精产国品自在线www| 国产精品夜夜夜一区二区三区尤| 亚洲一区一卡| 九九热久久免费视频| 日韩欧美不卡在线观看视频| 涩涩视频在线播放| 亚洲午夜精品一区二区三区| 国产裸体歌舞团一区二区| 亚洲第一精品在线观看| 这里只有精品视频| 一区二区三区高清在线观看| 99精品视频在线看| ●精品国产综合乱码久久久久| 丁香花免费高清完整在线播放| 国产成人久久久| 国内精品久久久久久久影视麻豆| 亚洲天堂资源在线| 7777精品伊人久久久大香线蕉经典版下载 | 国产乱码精品一区二区三区精东| 欧美激情第一页xxx| 国产区精品区| 国产精品嫩草69影院| 91国产丝袜在线播放| 色呦呦久久久| 亚洲在线播放电影| 99久久精品国产麻豆演员表| 亚洲熟女乱色一区二区三区久久久|