精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一句話,性能暴漲49%!馬里蘭MIT等力作:Prompt才是大模型終極武器

人工智能 新聞
提示詞才是AI隱藏的王牌!馬里蘭MIT等頂尖機構研究證明,一半提示詞,是讓AI性能飆升49%的關鍵。

AI性能的提升,一半靠模型,一半靠提示詞。

最近,來自馬里蘭大學、MIT、斯坦福等機構聯手驗證,模型升級帶來的性能提升僅占50%,而另外一半的提升,在于用戶提示詞的優化。

他們將其稱之為「提示詞適應」(prompt adaptation)。

論文地址:https://arxiv.org/pdf/2407.14333v5

為此,他們讓DALL-E 2和DALL-E 3來了一場PK,1,893名「選手」在10次嘗試中,用隨機分配三種模型之一復現目標圖像。

令人驚訝的是,DALL-E 3圖像相似度顯著優于DALL-E 2。

其中,模型升級本身僅貢獻了51%的性能,剩余的49%全靠受試者優化的提示詞。

關鍵是,那些沒有技術背景的人,也能通過提示詞,讓DALL-E 3模型生成更好的圖片。

OpenAI總裁Greg Brockman也同樣認為,「要充分發揮模型的潛力,確實需要一些特殊的技巧」。

他建議開發者們去做「Prompt庫」管理,不斷探索模型的邊界。

換言之,你的提示詞水平,決定了AI能不能從「青銅」變成「王者」。

別等GPT-6了!

不如「調教」提示詞

GenAI的有效性不僅取決于技術本身,更取決于能否設計出高質量的輸入指令。

2023年,ChatGPT爆紅之后,全世界曾掀起一股「提示詞工程」的熱潮。

盡管全新的「上下文工程」成為今年的熱點,但「提示詞工程」至今依舊炙手可熱。

然而共識之下,提示詞設計作為一種動態實踐仍缺乏深入研究。

多數提示詞庫和教程,將有效提示視為「可復用成品」,但卻用到新模板中可能會失效。

這就帶來了一些現實的問題:提示策略能否跨模型版本遷移?還是必須持續調整以適應模型行為變化?

為此,研究團隊提出了「提示詞適應」這一可測量的行為機制,用以解釋用戶輸入如何隨技術進步而演進。

他們將其概念化為一種「動態互補能力」,并認為這種能力對充分釋放大模型的經濟價值至關重要。

為評估提示詞適應對模型性能的影響,團隊采用了Prolific平臺一項預注冊在線實驗數據,共邀請了1,893名參與者。

每位受試者被隨機分配三種不同性能的模型:DALL-E 2、DALL-E 3,或自動提示優化的DALL-E 3。

除模型分配外,每位參與者還獨立分配到15張目標圖像中的一張。這些圖像選自商業營銷、平面設計和建筑攝影三大類別。

實驗明確告知參與者模型無記憶功能——每個新提示詞均獨立處理,不繼承先前嘗試的信息。

每人需要提交至少10條提示詞,需通過模型盡可能復現目標圖像,最優表現者將獲得高額獎金。

任務結束后參與者需填寫涵蓋年齡、性別、教育程度、職業及創意寫作/編程/生成式AI自評能力的人口統計調查。

隨機分配,10次生成

實驗的核心結果指標,是參與者生成的每張圖像與指定目標圖像之間的相似度。

這項指標通過CLIP嵌入向量的余弦相似度進行量化。

由于生成模型的輸出具有隨機性,同一提示詞在不同嘗試中可能產生不同的圖像。

為控制這種變異性,研究人員為每個提示詞生成10張圖像,并分別計算它們與目標圖像的余弦相似度,隨后取這10個相似度得分的平均值作為該提示詞的預期質量分數。

回放分析:是模型,還是提示詞?

實驗的另一個核心目標在于,厘清圖像復現性能的提升中,有多少源于更強大的模型,又有多少來自提示詞的優化?

根據概念框架的表述,當模型從能力水平θ1升級至更高水平θ2時,其輸出質量的總改進可表示為:

研究人員將這一變化分解為兩部分:

1. 模型效應:將相同提示詞應用于更優模型時,獲得的性能提升;

2. 提示詞效應:通過調整提示詞以充分發揮更強大模型優勢所帶來的額外改進。

為實證評估這兩個組成部分,研究人員對DALL-E 2和DALL-E 3(原詞版)實驗組參與者的提示詞進行了額外分析。

具體方法是將實驗過程中參與者提交的原始提示詞,重新提交至其原分配模型和另一模型,并分別生成新圖像。

· 分離模型效應

針對DALL-E 2參與者編寫的提示詞(x*(θ1,s)),團隊同時在DALL-E 2和DALL-E 3模型上進行評估,分別獲得Q[θ1s,x*(θ1,s)]和Q[θ2,s,x*(θ_1,s)]的實測值。

這一對比可分離出模型效應:即在固定提示詞情況下,僅通過升級模型獲得的輸出質量提升。

· 比較提示效應

為了評估提示詞效應,作者還比較了以下兩組數據:

1. 在DALL-E 3上回放DALL-E 2提示詞的質量(即Q[θ2,s,x*(θ1,s)]估計值)

2. DALL-E 3的參與者專門為模型編寫的提示詞在相同模型上的質量(即Q[θ2,s,x*(θ2,s)]估計值)

這一差異恰恰能反映,用戶通過調整提示詞,模型本身得到的額外改進。

那么,這項實驗的具體結果如何?

DALL-E 3強大的生圖能力

提示詞解鎖了一半

實驗中,研究團隊主要探討了三大問題:

(i) 接入更強大的模型(DALL-E 3)是否能提升用戶表現;

(ii) 用戶在使用更強模型時如何改寫或優化他們的提示詞;

(iii) 整體性能提升中有多少應歸因于模型改進,多少應歸因于提示詞的適應性調整。

模型升級,是核心

首先,團隊驗證了使用DALL-E 3的參與者,是否比使用DALL-E 2的參與者表現更優?

如下圖1所示,匯總了所有發現。

A展示了三組代表性目標圖像,每組都包含了從兩種模型中抽取的三張圖像。

中間行是,目標圖像余弦相似度最接近全體參與者平均值的生成結果,上行(下行)則呈現比均值相似度高(低)約一個平均處理效應(ATE)的圖像。

在10次必要提示嘗試中,使用DALL-E 3的參與者生成圖像與目標圖像的余弦相似度平均高出0.0164。

這個提升相當于0.19個標準差,如下圖1 B所示。

而且,這種優勢在10次嘗試中持續存在,因此不可否認,模型升級一定會比前代有著顯著的性能提升。

而且,參與者的動態提示行為在兩種模型間也存在顯著差異:

圖C表明,DALL-E 3使用者的提示文本平均比DALL-E 2組長24%,且該差距隨嘗試次數逐漸擴大。

他們更傾向于復用或優化先前提示,這表明當發現模型能處理復雜指令后,他們會采取更具開發性的策略。

此外詞性分析證實,增加的詞匯量提供的是實質性描述信息而非冗余內容:

名詞和形容詞(最具描述性的兩類詞性)占比在兩種模型間基本一致(DALL-E 3組48% vs DALL-E 2組49%,p = 0.215)。

這說明了,提示文本的延長反映的是——語義信息的豐富化,而非無意義的冗長。

模型51%,提示詞49%

研究人員觀察到提示行為的差異表明,用戶會主動適應所分配模型的能力。

DALL-E 3使用者的整體性能提升中,有多少源自模型技術能力的增強,又有多少歸因于用戶針對該能力重寫提示?

為解答這一問題,研究人員采用前文所述的回放(replay)分析法,以實證分離這兩種效應。

模型效應

將DALL-E 2參與者編寫的原始提示,分別在DALL-E 2和DALL-E 3上評估性能。

結果顯示,相同提示在DALL-E 3上運行時余弦相似度提升0.0084(p<10^-8),占兩組總性能差異的51%。

提示效應

將DALL-E 2參與者的原始提示與DALL-E 3參與者編寫的提示(均在DALL-E 3上評估)進行對比。

結果顯示,該效應貢獻了剩余48%的改進,對應余弦相似度提升0.0079(p=0.024)。

總處理效應

總處理效應為0.0164,關鍵的是,當DALL-E 3用戶編寫的提示應用于DALL-E 2時,性能較原始DALL-E 2提示無顯著提升(Δ=0.0020;p=0.56)。

這種不對稱性,印證了提示優化的效果依賴于模型執行復雜指令的能力邊界。

圖2 B通過單一目標圖像直觀呈現這些效應:

  • 上行展示DALL-E 2參與者的原始提示,在DALL-E 3上生成更高保真度的圖像,證明固定提示下模型升級的效果;
  • 下行顯示DALL-E 3參與者的提示在DALL-E 2上輸出質量顯著下降,凸顯當模型能力不足時,提示優化的效果存在天花板。

這些發現研究人員的理論主張,提供了實證支持:

提示優化是一種動態互補策略——用戶根據模型能力提升而主動調整行為,且這種調整對實際性能增益的貢獻不可忽視。

技能異質性

如下表1呈現了「回歸分析結果」,測試了模型效應、提示詞效應以及總效應是否會在不同技能水平的參與者之間系統性地變化。

主要發現如下:

1. 總效應與表現十分位數的交互項呈負相關且統計顯著(?0.000115,p = 0.0152)。

這表明模型改進縮小了高、低績效用戶之間的整體差距,這與概念框架中的命題1一致。

2. 模型效應與表現十分位數的交互項,同樣呈負相關且統計顯著(?0.000059,p=0.0210)。

這說明模型升級主要惠及低技能用戶。這與命題2的理論預測相符,因為接近性能上限的高技能用戶存在收益遞減效應。

3. 并沒有發現提示詞適應的效益,在技能分布上存在顯著差異(?0.000056,p=0.2444)。

此外,研究團隊還評估了自動化提示詞的效果。

結果發現,GPT-4經常添加無關細節或微妙改變參與者的原意,導致模型輸出質量下降58%。

用簡單的話來說,AI寫的提示詞曲解了意圖,不如用戶精心編制的提示詞。

對此,Outbox.ai的創始人Connor Davis給出了建議,不要去過度自動化提示詞,人還應該在其中發揮主動性。

作者介紹

Eaman Jahani

Eaman Jahani是馬里蘭大學商學院信息系統專業的助理教授。

他曾在UC伯克利統計系擔任博士后研究員,還獲得了MIT的社會工程系統與統計學雙博士學位。

Benjamin S. Manning

Benjamin S. Manning目前是MIT斯隆管理學院IT組的四年級博士生。他曾獲得MIT碩士學位和華盛頓大學學士學位。

他的研究圍繞兩個相輔相成的方向:(1) 利用AI系統進行社會科學發現;(2) 探索AI系統如何代表人類并按照人類指令行事。

Joe Zhang

Joe Zhang目前是斯坦福大學博士生,此前,曾獲得了普林斯頓大學的學士學位。

個人的研究喜歡從人機交互到社會科學等多個學術領域汲取靈感,試圖理解新興的人機協作系統及其對商業和社會的影響。

責任編輯:張燕妮 來源: 新智元
相關推薦

2015-08-03 10:21:04

設計模式表達

2020-11-27 09:57:11

Python代碼PyPy

2023-09-05 23:34:52

Kubernetes云原生

2021-11-29 09:45:32

模型人工智能深度學習

2023-05-08 15:44:23

3D數字人

2010-03-29 11:55:12

無線上網報錯

2023-02-10 15:45:05

ChatGPTAIGPT-3

2024-02-08 09:33:37

蘋果AI

2022-12-12 13:45:46

模型修圖

2025-01-02 07:00:00

2018-01-15 10:45:43

社交網絡互聯網巨頭百度

2014-05-07 10:47:51

移動金融互聯網金融GMIC

2020-12-16 10:43:44

PythonPyPy代碼

2019-09-05 10:13:28

2023-08-28 00:53:03

AI3D

2019-08-15 11:42:56

程序員電腦軟件

2023-09-06 15:23:30

Docker容器K8S

2011-06-03 16:42:47

SEO

2023-12-13 21:50:59

騰訊AI模型
點贊
收藏

51CTO技術棧公眾號

天天摸天天碰天天爽天天弄| 黄色一级免费视频| 成人在线中文| 国产精品每日更新在线播放网址 | 免费精品在线视频| 久久久久毛片免费观看| 午夜国产精品影院在线观看| 欧美日本国产精品| av免费观看网址| 国产美女精品| 久久久精品中文字幕| 亚洲观看黄色网| 亚洲人成777| 午夜精品123| 小说区视频区图片区| 日韩一级片免费| 日韩精品一二区| 久久99久久亚洲国产| 一级黄色录像毛片| 97久久综合区小说区图片区| 欧美色国产精品| 国产精品网站免费| 日本电影在线观看网站| 成人午夜精品在线| 91午夜理伦私人影院| www.国产一区二区| 黄色av一区| 久久好看免费视频| 久久久免费看片| 欧美电影免费网站| 日韩三级.com| 九热视频在线观看| 九色porny丨入口在线| 亚洲欧美日韩国产另类专区| 日韩欧美亚洲v片| 婷婷开心激情网| 风间由美性色一区二区三区 | 久久久精品美女| www在线观看免费视频| 动漫3d精品一区二区三区乱码| 欧美日韩国产一级| 成年人在线看片| 爱啪啪综合导航| 曰韩精品一区二区| 日韩一区不卡| 国产在线观看黄| 91原创在线视频| 国产尤物99| 成人免费视频国产| 国产成人99久久亚洲综合精品| 成人国产精品一区| 在线观看国产一区二区三区| 久久精品道一区二区三区| 91精品成人久久| 午夜偷拍福利视频| 亚洲香蕉网站| 欧美精品久久久久久久| 久久国产在线观看| 黄色成人在线网址| 欧美激情综合色综合啪啪五月| 国产女人18水真多毛片18精品| 99久久婷婷这里只有精品| 日韩中文字幕在线| 亚洲一级生活片| 夜间精品视频| 欧美高清在线观看| 国产精品99精品| 亚洲影院一区| 国产91在线播放精品91| 成人毛片一区二区三区| 日日欢夜夜爽一区| 成人黄色av网| 精品欧美一区二区精品少妇| 成人动漫在线一区| 久热国产精品视频一区二区三区| 噜噜噜在线观看播放视频| 久久精品人人做人人爽97| 欧美最大成人综合网| www.久久热.com| 亚洲视频在线一区观看| 女人被男人躁得好爽免费视频| 成人性生交大片免费看在线播放| 亚洲高清免费观看| 国产偷人视频免费| 国产精品久久久久久妇女| 欧美嫩在线观看| 久久发布国产伦子伦精品| 91精品入口| 日韩精品黄色网| 中字幕一区二区三区乱码 | 一二三四视频社区在线| 性感女国产在线| 欧美色图天堂网| 18深夜在线观看免费视频| 另类春色校园亚洲| 中文字幕日韩精品有码视频| 麻豆精品一区二区三区视频| 国产视频一区欧美| 国产美女精品免费电影| 高清国产mv在线观看| 国产日产欧美一区二区视频| 潘金莲一级淫片aaaaaa播放1| 国产一二三在线| 欧美色网一区二区| 国产精品久久久久久久无码| 日韩欧美中文| 97人洗澡人人免费公开视频碰碰碰| 波多野结衣一本一道| 国产aⅴ精品一区二区三区色成熟| 免费久久一级欧美特大黄| 国产超级va在线视频| 欧美日韩黄色大片| 91视频免费入口| 国产精品亚洲人成在99www| 九九精品在线播放| 自拍偷拍福利视频| 91影院在线观看| www.激情网| 成人亚洲免费| 亚洲国产欧美一区二区丝袜黑人 | 日本福利在线观看| 亚洲午夜精品17c| 粉色视频免费看| 亚洲成在人线免费观看| 欧美精品在线视频观看| 中文字幕在线视频第一页| 91免费精品国自产拍在线不卡 | 国产亚洲综合精品| 成人精品水蜜桃| 男人和女人做事情在线视频网站免费观看| 欧美日韩中文在线观看| 91porn在线| 欧美在线免费一级片| 国产欧美日韩中文字幕在线| 激情小说 在线视频| 亚洲成a人片在线观看中文| 在线a免费观看| 国产高清欧美| 国产欧美亚洲精品| av电影在线观看网址| 欧美日韩在线影院| 人妻少妇一区二区| 亚洲一区二区三区高清| 国产精品免费看一区二区三区| 亚洲制服国产| 欧美一区二区三区免费观看视频 | 天堂av资源网| 亚洲一区中文日韩| 成年人看片网站| 午夜日韩福利| 99视频免费观看| 日本高清成人vr专区| 日韩视频在线永久播放| 欧美日韩亚洲国产另类| 国产毛片一区二区| 狠狠干视频网站| 1204国产成人精品视频| 久久久视频精品| 天天综合天天综合| 一本大道久久精品懂色aⅴ| 国产特黄级aaaaa片免| 性一交一乱一区二区洋洋av| 欧美在线激情| 欧美91在线|欧美| 久久久精品视频在线观看| 国产免费黄色大片| 一区二区三区.www| 日本一区二区在线观看视频| 99成人免费视频| 欧美激情www| 韩日精品一区| 美日韩精品免费观看视频| 丰满人妻一区二区| 欧美性生交xxxxx久久久| 国产精品理论在线| 国产精品亚洲专一区二区三区 | 3d动漫精品啪啪一区二区竹菊| 日韩在线一卡二卡| 国产99久久久国产精品| 青青艹视频在线| 国产免费久久| 91精品视频观看| 99riav视频在线观看| 亚洲天堂开心观看| av免费观看在线| 欧美视频专区一二在线观看| 色欲AV无码精品一区二区久久| 国产麻豆91精品| 人人妻人人添人人爽欧美一区| 神马影视一区二区| 91久久久久久久久| 手机在线观看av| xxx欧美精品| 无码精品人妻一区二区三区影院| 欧美日韩午夜影院| 国产在线视频卡一卡二| 久久久精品日韩欧美| 亚洲高清av一区二区三区| 亚洲麻豆av| 国产麻豆电影在线观看| 久久男人av| 成人精品aaaa网站| 热三久草你在线| 欧美另类xxx| 都市激情一区| 亚洲国产天堂网精品网站| 中文字幕av资源| 丁香五六月婷婷久久激情| 2018天天弄| 国产女主播一区| 久久久久国产精品无码免费看| 免费在线成人网| 97国产精东麻豆人妻电影| 羞羞色午夜精品一区二区三区| 蜜桃传媒视频麻豆一区| 日韩在线亚洲| 国产中文字幕亚洲| 久久99久久99精品免观看软件| 欧美乱大交xxxxx| 69视频在线| 亚洲奶大毛多的老太婆| 午夜精品一二三区| 欧美一区二区在线免费播放| 欧美日韩 一区二区三区| 精品动漫一区二区三区| 玖玖爱免费视频| 亚洲欧美视频在线观看| 成人在线手机视频| 久久综合狠狠综合久久综合88| 女同性αv亚洲女同志| 国产一区二区免费视频| 亚洲最大天堂网| 秋霞av亚洲一区二区三| 亚洲少妇第一页| 媚黑女一区二区| 欧美a v在线播放| 精品99视频| 欧美精品卡一卡二| 欧美日韩精品一本二本三本| 不卡中文字幕在线| 亚洲成人国产| 做爰高潮hd色即是空| 五月天久久网站| 夜夜爽www精品| 欧美aaaa视频| 亚洲精品一区二区三区av| 欧美精品久久久久久| 区一区二区三区中文字幕 | 9999在线观看| 999久久久国产精品| 中文字幕日韩一区二区三区不卡| 青青草成人影院| 亚洲mv在线看| 91精品国产自产在线观看永久∴| 一区精品在线| 五月开心六月丁香综合色啪| 在线观看成人免费| 国产综合亚洲精品一区二| 美女扒开大腿让男人桶| 亚洲日本黄色| 国产精品亚洲a| 日韩影院在线观看| 午夜视频在线网站| 国产一区二区三区四区在线观看| 性鲍视频在线观看| 国产精品99久久久久久似苏梦涵| 国产chinesehd精品露脸| 成人精品鲁一区一区二区| 男男做爰猛烈叫床爽爽小说| 久久先锋影音av鲁色资源| 国产综合精品在线| 最新久久zyz资源站| 加勒比av在线播放| 欧美日韩亚洲视频一区| 69亚洲精品久久久蜜桃小说 | 爆乳熟妇一区二区三区霸乳| 久久精品国产网站| 国产精九九网站漫画| 91老师片黄在线观看| 手机看片日韩av| 亚洲激情在线播放| 天天爽夜夜爽夜夜爽精品| 欧美影院午夜播放| www香蕉视频| 亚洲人午夜精品| 精品美女在线观看视频在线观看 | 免费一级肉体全黄毛片| 精品久久久久久中文字幕一区奶水| 亚洲精品男人的天堂| 欧美日韩五月天| 全部免费毛片在线播放一个| 亚洲性视频网站| 亚洲七七久久综合桃花剧情介绍| 91国内免费在线视频| 亚洲精品无播放器在线播放| 99在线国产| 成人在线亚洲| 久久久久免费看黄a片app| 蜜臀国产一区二区三区在线播放| 国产综合内射日韩久| 国产农村妇女毛片精品久久麻豆| 免费一级片在线观看| 欧美日韩国产一区| 日韩av地址| 欧美国产乱视频| 成人国产一区二区三区精品麻豆| 国产精品免费看一区二区三区| 色综合五月天| 久久久久久久激情| 国产成a人亚洲| 青青青视频在线播放| 午夜欧美大尺度福利影院在线看 | 天堂av中文在线观看| 91九色国产在线| 精品九九在线| 国产精品专区在线| 国产一区美女在线| 亚洲自拍偷拍图| 精品成人国产在线观看男人呻吟| 国产又大又黑又粗| 亚洲人成在线观看网站高清| h片精品在线观看| 亚洲一区二区中文| 国产韩日影视精品| 嫩草影院国产精品| 国产午夜精品一区二区| 国产网站在线看| 欧美变态tickling挠脚心| 免费网站看v片在线a| 国产精品丝袜久久久久久高清| 亚洲精品无吗| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 国产精品99久| 亚洲综合网在线| 欧美高清激情brazzers| 尤物在线视频| 国产精品老牛影院在线观看| 深爱激情综合网| 无遮挡又爽又刺激的视频| 26uuu精品一区二区| 特一级黄色大片| 亚洲国产精品成人精品| av3级在线| 激情小说网站亚洲综合网 | www.色偷偷.com| 国产三级精品三级在线专区| 青青青国产在线| 亚洲欧美日韩天堂| 日本高清不卡一区二区三区视频| 免费试看一区| 三级成人在线视频| 51妺嘿嘿午夜福利| 欧美日韩一区二区在线观看视频| av在线免费观看网| 国产拍精品一二三| 91成人精品视频| 国产精品二区视频| 亚洲韩国一区二区三区| 蜜桃久久一区二区三区| 97视频免费看| 亚州综合一区| 黄色一级免费大片| 中文乱码免费一区二区| 国产有码在线观看| 欧美成人一区二区三区电影| 97久久综合精品久久久综合| 欧美一级视频免费看| 久久综合色综合88| 欧美成人一区二区视频| 日韩视频一区在线| 一区二区三区四区精品视频| 国产av天堂无码一区二区三区| 久久久精品国产免费观看同学| 中文字幕在线观看视频免费| 日韩在线视频观看正片免费网站| 成人97精品毛片免费看| 久久亚洲a v| 久久亚洲精品小早川怜子| 中文字幕日韩经典| 久久国产色av| 亚州国产精品| 不用播放器的免费av| 亚洲永久免费av| 激情视频在线观看免费| 92裸体在线视频网站| 亚洲欧洲午夜| 一级黄色片网址| 精品国产乱码久久久久久久久 | 男男一级淫片免费播放| 色欧美片视频在线观看| 老司机精品影院| 精品在线视频一区二区| 精品一区二区三区不卡| 99视频在线看| 日韩日本欧美亚洲| 五月国产精品| 免费观看黄网站| 欧美视频中文字幕| av最新在线| 久久久国产精华液999999|