精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

集體智慧:LLM預測能力與人群可相互媲美 原創

發布于 2024-4-22 08:45
瀏覽
0收藏

現在,AI系統的預測準確率達到甚至超過了人群。

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

在不斷發展的人工智能(AI)領域,語言模型已取得了重大進展,實現了曾經被認為人類認知才能實現的非凡成就。比如說,Anthropic新的Claude 3語言模型似乎能夠意識到它被測試或被評估,這為AI領域原本惹人矚目的進步另外增添了一層復雜性。

這個進展特別值得注意的一個新領域是預測領域——對未來事件做出準確預測的能力。

我們在這篇博文中深入研究一突破性的研究論文(?https://arxiv.org/pdf/2402.19379.pdf?),探大語言模型(LLM)的預測能力,并將它們與人群預測這個參照標準進行比較。這項研究由倫敦政治經濟學院、麻省理工學院和賓夕法尼亞大學的研究人員共同進行,研究結果刷新了我們對AI能力的理解,并揭示了LLM在現實場景中與人類專業知識相媲美的潛力。

背景介紹

預測是指基于過去和現在的數據、趨勢和模式對未來事件做出預測,它在經濟、政治、技術和科學等領域發揮著至關重要的作用。準確的預測有助于更好的決策、資源分配和風險管理。

傳統上,最可靠的預測方法是“群體智慧”效應,即利用一群不同的個體的集體知識。1907年,英國著名人類學家Francis Galton對這一現象進行了著名的論證,當時他觀察到,一群人在縣集市上猜測的中位數準確地預測了一頭牛的體重。從那以后,眾多研究已證實,將大量不同預測者的預測值匯總起來,可以得出非常準確的結果。

然而,依靠人群進行預測存在幾個局限性:

成本和時間召集一群足夠龐大且多樣化的熟練預測者費錢又費時。

偏見和相關性人類判斷容易受到各種認知偏見的影響,個人預測之間的相關性可能會削弱群體的集體準確性。

可擴展性組織和管理大規模的人類預測比賽操辦起來很復雜,很難擴展。

AI預測的前景

近些年來,AI的快速發展(尤其是在自然語言處理領域)已經引出了使用機器智能進行預測的誘人前景。像GPT-3、GPT-4和Claude 3這樣的LLM在理解和生成類似人類的文本方面表現出了非凡的能力(Claude 3現在甚至知道它在接受測試),這促使研究人員調查LLM對未來事件做出準確預測的潛力。

然而之前的研究表明,與人群預測相比,各個LLM的表現常常不佳。比如說,Schoenegger和Park在2023年發現,盡管GPT-4擁有出眾的語言技能,但其表現不如一個簡單的無信息衡量基準,即預測所有二元問題的50%概率。

硅群體智慧

然而在這篇新論文中,Schoenegger等人假設,要釋放LLM的預測潛力,關鍵可能在于匯總來自多個不同模型的預測,這相當于一種機器“群體智慧”效應。為了測驗這個想法,他們進行了兩項研究:

研究1:LLM并聯vs.人群

在第一項研究中,研究人員從12個不同的LLM那里收集了多達31個二元問題的預測,這些問題來自預測平臺Metaculus上的一項實時預測比賽,925名人類預測者也參與了為期3個月的比賽。LLM涵蓋廣泛的體系結構、訓練數據集和微調方法,包括來自OpenAI、Anthropic、谷歌、Meta等公司的模型。

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

圖1. 測試的模型

針對每個問題,研究人員使用標準化的提示對每個LLM詢問三次,提示包括問題背景、解答標準以及作為“超級預測者”的應答說明。然后,他們算出了12個LLM中所有非缺失預測的中位數,以獲得“LLM群體”預測。

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

圖2. LLM并聯機制概況圖

結果是驚人的:LLM群體在所有問題上的預測都達到了50%的無信息基準(p = 0.026),并且在統計上與人群的準確率沒有區別(p = 0.850)。探索性等效測試進一步表明,LLM和人群在中等效應大小范圍內不相上下。

研究2:利用人類認知輸出改進LLM預測

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

圖3. 第二項預測干預提示

第二項研究調查了是否可以通過為LLM提供人群的中位數預測作為附加信息,進一步提高其預測精度。研究人員專注于兩個最先進的模型:GPT-4和Claude 2,并采用了模型內設計,每個模型都進行了初步預測,然后在接收人群中位數后進行了更新預測。

兩個模型在接收人類人群信息后都顯示出準確性有了顯著提高,GPT-4的平均Brier評分(衡量預測誤差的指標)從0.17降至0.14 (p = 0.003),Claude 2則從0.22降至0.15(p < 0.001)。當人群中位數處于初始范圍內時,這些模型也適當地縮小了其預測區間,顯示了以合理的方式整合額外信息的能力。

集體智慧:LLM預測能力與人群可相互媲美-AI.x社區

圖4. 接收人類預測前后,GPT-4(左)和Claude 2(右)的LLM預測。顏色區分首次預測高于、低于或介于人類中位數預測的20個百分點。高亮顯示的變化和間隔是該組內相應的中位數預測。”

然而探索性分析顯示,僅僅將最初的機器預測與人類中位數相平均,可以得到甚至比模型的更新預測更高的準確率。這表明,雖然LLM可能受益于人類認知輸出,但其推理能力可能還沒有達到整合這類信息的最佳調校水平。

影響和限制

這里的研究發現對預測和AI-人類協作的未來具有重要意義:

可擴展且經濟有效的預測通過利用“硅群體智慧”,組織可以比單獨依賴人群更快速、更廉價地獲得高質量的預測。這可以使數據驅動的決策在各個領域更容易獲得。

人類和AI的互補優勢雖然LLM并聯可能與人群準確性相當,但這項研究也表明,人類認知輸出可以進一步改善機器預測。這凸顯了人類專家和AI系統在預測任務方面協同合作的潛力(這與另一項研究多少有點矛盾;另一項研究發現,AI在診斷疑難疾病方面的表現優于人類醫生,無論AI醫生的參與程度如何)。

促進AI推理能力:該研究提供了LLM參與復雜推理(或至少看起來是推理)和信息整合的能力的證據,盡管還有進一步優化的空間。隨著模型不斷改進,我們可能會看到它們在預測性能方面取得更大的進步。

然而,有必要承認這項研究的局限性和注意事項:

  • 該研究致力于短期(3個月)二元預測。需要做更多的工作來評估LLM在長期預測和更復雜類型的問題上的表現。
  • LLM表現出了一種默認偏差,即使在經驗基礎率接近均等的情況下,它們也往往預測概率> 50%。它們還顯示出了整體校準欠佳,表明需要進一步的改進。
  • 隨著LLM的訓練數據變得越來越過時,如果沒有定期更新以跟上不斷變化的實際環境,預測準確性可能會隨之下降。

結語

盡管存在這些局限性,這項研究還是意義重大,表明AI系統在某些預測領域具有匹配甚至超越人群集體智慧的潛力。通過利用“硅群體智慧”,我們可以讓高質量的、數據驅動的預測比以往任何時候更具可擴展性、更普及。

當然,LLM并不能完全取代人類判斷,人類專家在解釋、結合上下文處理和根據機器預測采取行動方面將始終扮演至關重要的角色。但隨著AI能力不斷提升,越來越明顯的是,未來的預測將是人類智能和機器智能之間密切合作和協同作用的結果。

有些人重視對我們所居住的復雜世界做出準確、及時和可操作的預測,硅群體時代即將到來,這對他們來說確實是令人興奮的前景。隨著研究人員不斷突破AI預測方面的極限,本人一定會替讀者密切關注這方面。

原文標題:The wisdom of the crowd: LLM prediction ability matches human crowds,作者:Mike Young

鏈接:?https://notes.aimodels.fyi/ai-llm-prediction-wisdom-crowd-human/?。

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
久久激五月天综合精品| 亚洲黄页网站| 亚洲综合图片区| 好吊色欧美一区二区三区| 无码人妻丰满熟妇精品| 91影院成人| 精品久久免费看| 男女视频一区二区三区| 成人影欧美片| 91香蕉视频在线| 国产区亚洲区欧美区| 久久9999久久免费精品国产| 九九亚洲视频| 欧美videos中文字幕| 欧美国产日韩在线播放| 天天干在线视频论坛| 国产女主播视频一区二区| av色综合网| 最新国产中文字幕| 亚洲激情黄色| 久久久精品亚洲| 黄色aaa视频| 亚洲精品高潮| 欧美日韩aaa| 国产成人无码一二三区视频| 性网站在线观看| 亚洲国产成人自拍| 久草一区二区| 亚洲av无码乱码在线观看性色| 三级欧美在线一区| 午夜精品久久久久久久久久久久久| 免费黄色在线网址| 日韩免费电影在线观看| 欧美va亚洲va| 中文 日韩 欧美| 成人深夜福利| 色婷婷综合激情| www.avtt| 亚洲区欧洲区| 亚洲欧洲av在线| 亚洲精品在线观看免费| 日本一区二区三区在线观看视频| 成人美女在线观看| 成人看片在线| www.黄色一片| 国产91精品一区二区麻豆网站 | 日韩三区免费| 色婷婷综合久久| 99热成人精品热久久66| 免费看男女www网站入口在线| 亚洲综合网站在线观看| 毛片av在线播放| 污片在线免费观看| 一区二区三区欧美视频| 干日本少妇视频| av网站大全在线| 亚洲美女免费视频| 国产女主播av| 久久不射影院| 精品国产乱码久久久久酒店 | 精品蜜桃传媒| 婷婷五月综合激情| 99re亚洲国产精品| 久久久水蜜桃| 国产精品ⅴa有声小说| 国产偷国产偷精品高清尤物| 日日骚一区二区网站| av中文字幕一区二区三区| 国产欧美精品一区| 亚洲日本欧美在线| av片在线观看永久免费| 一区二区三区中文字幕在线观看| 丰满的少妇愉情hd高清果冻传媒| 91九色国产在线播放| 日韩欧美在线视频日韩欧美在线视频| 国产亚洲精品网站| 成人一区视频| 欧美一级免费大片| 日韩av无码一区二区三区不卡| 全球av集中精品导航福利| 亚洲电影免费观看高清| 成年人免费观看视频网站| 青青草原综合久久大伊人精品| 精品久久久999| 精品一区二区三区人妻| 日日夜夜免费精品| 99在线视频播放| 欧美日韩伦理片| 国产精品国产精品国产专区不片 | 亚洲美女啪啪| 国产精品户外野外| 精品人妻av一区二区三区| 99精品视频中文字幕| 亚洲国产精品综合| 波多野在线观看| 欧美日韩亚洲综合一区二区三区| 日本黄色一级网站| 国产精品免费不| 欧美激情二区三区| 免费一级a毛片| 国产成人免费高清| 日韩精品第一页| 免费看电影在线| 欧美亚洲高清一区| 在线播放av网址| 日韩免费视频| 77777少妇光屁股久久一区| 亚洲天堂国产精品| 91亚洲精品一区二区乱码| 一区二区三区|亚洲午夜| 18video性欧美19sex高清| 欧美日韩不卡视频| 国产精品亚洲无码| 欧美1区3d| 国产精品一香蕉国产线看观看| 日本高清视频在线| 亚洲精品五月天| 麻豆三级在线观看| 欧美影院天天5g天天爽| 精品中文字幕视频| 精品国产青草久久久久96| aaa亚洲精品| 国产一二三四五| 国产一区二区精品调教| 国产视频自拍一区| 国产一级性生活| 国产福利精品一区| 一区视频二区视频| 成人免费av电影| 日韩国产一区三区| 日韩成人高清视频| 国产91丝袜在线观看| 免费成人进口网站| 999精品嫩草久久久久久99| 国产一区二区三区网站| 国产91国语对白在线| www.欧美日韩国产在线| 91.com在线| 最新国产精品精品视频| 欧美成人在线免费| 国产女无套免费视频| 中文字幕中文字幕在线一区 | 亚洲一区二区三区涩| 亚洲伦理影院| 亚洲人成电影网站色xx| 日本免费在线观看视频| 久久久久亚洲蜜桃| 99免费视频观看| 九九综合九九| 国产精品福利观看| a视频网址在线观看| 欧美性大战久久| 欧美精品日韩在线| 麻豆精品国产传媒mv男同| 亚洲 国产 日韩 综合一区| 久久99久久99精品免观看软件| 亚洲欧洲国产一区| 超碰在线观看91| 国产欧美日本一区视频| 日本xxxx黄色| 一精品久久久| 国产精品美女久久久久av福利| 国产精品国精产品一二| 欧美精品一区二区三区一线天视频 | 久久久久免费精品| 日本一区二区三区视频| 91色视频在线导航| 欧美人体视频xxxxx| 欧美精品一区二区不卡| 中文字幕黄色片| 国产精品污污网站在线观看| 91精品视频国产| 精品白丝av| 日韩欧美第二区在线观看| 国产成+人+综合+亚洲欧美| 久久精品国产亚洲一区二区| 超碰福利在线观看| 富二代精品短视频| www久久久久久久| 国产老肥熟一区二区三区| 18黄暴禁片在线观看| 亚洲专区视频| 91久久久久久久| www.综合| 日韩视频在线免费观看| 亚洲a视频在线| 欧美最猛黑人xxxxx猛交| 91 在线视频| 久久午夜羞羞影院免费观看| 中文字幕成人免费视频| 在线欧美一区| 亚洲欧美电影在线观看| 都市激情亚洲欧美| 国产精品久久久久一区二区| 中日韩高清电影网| 亚洲男人天堂2023| 国产裸体无遮挡| 日韩欧美成人精品| 欧美黄色aaa| 久久久久久免费毛片精品| 午夜一区二区视频| 国产精品免费看| 国产香蕉一区二区三区| 欧美日韩国产一区二区三区不卡| 国产精品免费一区二区三区在线观看 | 视频区 图片区 小说区| 久久久噜噜噜久久狠狠50岁| 国产精品无码免费专区午夜| av中文一区| 久久久久久久久四区三区| 精品午夜av| 国产精品你懂得| 日本综合字幕| 91精品国产乱码久久久久久久久 | 老女人性生活视频| 日本不卡视频在线| 男人天堂1024| 黑丝一区二区| 天堂av免费看| 久久视频在线| 日本一区二区不卡高清更新| 久久久久97| 国产精品高清一区二区三区| 亚洲国产综合在线观看| 国产精品免费久久久久久| 免费在线小视频| 欧美激情性做爰免费视频| 欧洲日本在线| 亚洲精品自拍偷拍| 免费观看毛片网站| 欧美成人a在线| 精品人妻少妇AV无码专区| 在线播放91灌醉迷j高跟美女| 中文av免费观看| 欧美在线高清视频| 国产黄色免费视频| 91久久精品国产91性色tv| 成人毛片在线播放| 欧美日韩日本国产| 国产精品一区二区三区四| 亚瑟在线精品视频| 日韩成人av毛片| 五月天网站亚洲| av大片免费在线观看| 亚洲va欧美va国产va天堂影院| 国产亚洲欧美精品久久久久久 | 一区二区亚洲精品国产| 久蕉依人在线视频| 亚洲性av网站| 国产人成在线观看| 这里只有精品丝袜| 日本韩国在线视频爽| 日韩中文av在线| 在线三级电影| 午夜精品视频网站| a一区二区三区| 国产激情视频一区| 国产成人77亚洲精品www| 91色视频在线观看| 国产成人夜色高潮福利影视| 精品午夜一区二区| 偷窥自拍亚洲色图精选| 日本一区二区精品| 天天色天天射综合网| 4444亚洲人成无码网在线观看| 午夜精品国产| 国产免费观看高清视频| 久久精品91| 一级做a免费视频| 国产成人av电影| aaaaa级少妇高潮大片免费看| 国产日产欧美一区二区视频| 91久久久久久久久久久久久久| 亚洲精品欧美在线| 日韩精品在线观看免费| 欧美午夜一区二区三区| 国产欧美日韩成人| 亚洲精品第一国产综合精品| 国产高清视频在线| 欧美日韩成人在线播放| 成人免费看黄| 91精品视频免费| 男人的天堂久久| 亚洲一区二区在线观| 亚洲激情网站| 少妇一级淫免费播放| 成人午夜视频在线观看| 国产又粗又黄又猛| 亚洲国产精品久久久久婷婷884 | 香蕉久久夜色| 狠狠爱成人网| 亚洲久久中文字幕| www.99精品| 在线日韩国产网站| 日韩欧美高清视频| 成人激情四射网| 在线观看欧美成人| 精品极品在线| 91人成网站www| 欧美日一区二区| 97超碰国产精品| 久久精品99国产国产精| 成人影视免费观看| 一区av在线播放| 亚洲一级片免费看| 亚洲欧美中文日韩v在线观看| 亚洲性图自拍| 91精品国产综合久久香蕉最新版| 五月综合久久| 97碰在线视频| 国产在线精品国自产拍免费| 免费观看av网站| 亚洲va欧美va国产va天堂影院| 国产女人18毛片水18精| 伊人亚洲福利一区二区三区| av资源在线| 99在线高清视频在线播放| 久久一区二区三区电影| 青青青在线视频播放| 国产91精品一区二区麻豆网站 | 欧美日韩亚洲一区二区| www.xxxx国产| 欧美成aaa人片免费看| 99久久亚洲国产日韩美女| 久久伊人资源站| 尹人成人综合网| 亚洲乱妇老熟女爽到高潮的片| 亚洲欧美影音先锋| 中文字幕第一页在线播放| 亚洲人成电影在线观看天堂色| 国产在线美女| 久久99国产精品99久久| 亚洲午夜一区| 欧美熟妇精品一区二区| 一区二区成人在线视频| 国产偷拍一区二区| 久久精品最新地址| 精品国产伦一区二区三区观看说明| 亚洲高清视频一区二区| 免费的国产精品| 蜜桃av乱码一区二区三区| 在线一区二区观看| 国产在线一二三| 国产精品欧美一区二区| 国产精品久久久久久| 天天干天天色天天干| 亚洲欧洲精品一区二区精品久久久| 国产又粗又黄又爽的视频| 久久精品国产亚洲| 成人污污视频| 成人一区二区av| 成a人片国产精品| 天堂中文在线网| 亚洲人成自拍网站| 国产乱子精品一区二区在线观看| 亚洲欧美日韩精品综合在线观看| 美日韩一区二区| 国产精品白丝喷水在线观看| 日韩欧美国产不卡| 17videosex性欧美| 欧美日韩在线一二三| 麻豆精品视频在线观看| 国产成人无码aa精品一区| 日韩一区二区免费在线电影| 91av久久| 天堂va久久久噜噜噜久久va| 久久精品国产在热久久| 欧美黄色aaa| 亚洲国产精品久久久久秋霞蜜臀| 中文不卡1区2区3区| 亚洲 国产 欧美一区| 国产精品1区二区.| 日韩人妻无码一区二区三区99| 日韩成人av在线| 六九午夜精品视频| 黄色片免费在线观看视频| 北条麻妃一区二区三区| 日本熟妇一区二区三区| 麻豆国产精品va在线观看不卡| 国产精品18hdxxxⅹ在线| www日韩在线观看| 亚洲欧美乱综合| 亚洲欧洲综合在线| 国产精品自拍视频| 亚洲经典自拍| 波多野结衣欲乱| 欧美mv和日韩mv的网站| 欧美最新精品| 日本国产中文字幕| 久久精品夜夜夜夜久久| 精品国产九九九| 国产成人啪精品视频免费网| 午夜欧美精品| 免费看91的网站| 欧美精品一区二区精品网| a成人v在线| 久久久999视频| 亚洲精品视频免费看| 成年人在线观看| 久久99久久99精品蜜柚传媒|