精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

六大維度,LLM「問題生成」首次正面PK人類!伯克利等發布最新研究

人工智能 新聞
研究人員首次探討了大型語言模型(LLMs)在問題生成任務中的表現,與人類生成的問題進行了多維度對比,結果發現LLMs傾向于生成需要較長描述性答案的問題,且在問題生成中對上下文的關注更均衡。

長期以來,問題生成(Question Generation)任務都是根據「給定事實」來編寫各種相關問題,已經發展出了很多自動化的方法。

大型語言模型(LLM)的興起,極大提升了各種自然語言處理(NLP)任務的性能,其中也包括問題生成,雖然應用廣泛,但還沒有研究討論過「用LLMs生成問題的特點」。

圖片

沒有額外提示約束時,LLMs是更傾向于生成較長還是較短的問題?傾向于問什么類型的問題?LLMs生成的問題與人類編寫的問題又有哪些不同?

最近,加州大學伯克利分校、阿卜杜勒阿齊茲國王科技城、華盛頓大學的研究人員提出了一種基于LLMs的自動化評估方法,重點關注問題的長度、類型、上下文覆蓋范圍和可回答性等維度,結果發現LLMs傾向于生成需要描述性、較長答案的問題;

常見的問答任務中,人類更傾向于選擇文章的開始結束位置生成問題,LLMs對整個上下文的關注更加均衡。

圖片

論文鏈接:https://arxiv.org/pdf/2501.03491

雖然已經有研究通過實證來評估人類一致性,但還沒有將LLMs生成問題的質量標準與人類生成問題進行對比。

這篇文章首次揭示了LLMs在問題生成中的偏好,通過引入自動評估流程,擴展了現有的統計問題質量標準,研究發現為評估下游應用(如RAG系統和幻覺檢測)的提示工程優化提供了經驗,可以防止在不當情境下的濫用,更深入地了解LLMs在問題生成中的行為傾向。

生成流程與指標

從上下文中生成問題

問題的輸入包括:一個段落文本作為上下文C,一個問題生成指令提示P;大模型M的輸出為N個問題Q,其中每個問題都可以用上下文中的事實來回答。

不能直接使用LLM進行問題生成:問題假定讀者對上下文的某個特定范圍很熟悉;生成的問題可能沒有標準答案;有些問題直接引用了上下文,如果沒有上下文就無法回答。

所以研究人員設計了一段提示詞:

You are to generate [N] self-contained short answer questions based on the facts mentioned in the following content. Avoid questions that reference the content directly. Each question should include all relevant context and directly name any referenced items, avoiding pronouns like "it," "the game," or "the person." Do not include phrases that reference the source or context, such as "mentioned in the article" or "according to the text." Provide the questions in an ordered list.

你需要根據以下內容中提到的事實生成[N]個自成一體的簡短答案問題。避免直接引用內容的問題。每個問題都應包含所有相關的上下文,并直接提及任何被引用的項目,避免使用「它」「這款游戲」或「這個人」等代詞。不要包含引用來源或上下文的短語,如「文章中提到的」或「根據文本」。將問題以有序列表的形式提供。

為了構建上下文C,研究人員將WikiText數據集分割成86萬個段落,同時保留章節結構作為元數據;在過濾掉過短的段落并清理特殊字符后,通過整合段落文本并附加相關章節標題來組成上下文。

圖片

該流程類似于HotpotQA的先上下文后問題的方法,眾包人員根據維基百科的多個證據段落生成問題;作為對比,TriviaQA是一個由知識競賽愛好者編纂的問答數據集,標注人員根據問題在文章中尋找證據。

與答案無關的評估指標

問題類型

對于人類來說,選擇提出哪種問題是主觀的,研究人員探索了在沒有額外約束的情況下LLMs能夠生成的問題類型,分析了十個手動定義類別的問題類型(通過觀察HotpotQA、TriviaQA和論文數據集中的混合問題得到),并將其與人類的偏好進行比較。

問題長度

長度是生成問題的一個直觀統計指標,研究人員主要統計單詞數量;除了直接比較人類生成和LLMs生成數據集中的問題長度外,還考察了問題長度與問題類型之間的關系。

下文覆蓋范圍

一個問題可能需要跨多個句子進行推理,研究人員擴展了基于提示的句子級測量方法,還研究了單詞級上下文覆蓋范圍;分析了在生成過程中LLMs傾向于關注上下文的哪些具體部分。

結果可以看到,問題生成并不遵循之前研究中討論問答中的類似位置偏差。

與答案有關的評估指標

圖片

可回答性(Answerability)

問題的關鍵質量標準是,在給定特定知識的情況下,是否能夠被精確回答,即在提供上下文時,生成的問題應該是可回答的。

研究人員提示LLMs使用給定的上下文作為輸入來生成答案;由于答案的正確性也是基于相同的上下文來評估的,因此在大多數情況下,生成的問題都是可回答的。

非常見性(Uncommonness)

LLMs的預訓練數據基于互聯網上廣泛可用的常識,即使沒有明確提供上下文,LLMs仍然可能回答問題。

與可回答性評估相比,關鍵區別在于在答案生成過程中省略了上下文,而其他因素保持不變;結果也可以看到,去除上下文會顯著降低答案質量,也表明,生成的問題對于評估RAG系統或進行自動幻覺測試很有價值。

所需答案長度(Required answer length)

除了問題長度外,所需答案的長度也是衡量問題信息量的有效的指標。

由于生成模型的特性,生成的答案往往更長,包含更多細節;為了從帶有上下文生成的答案中篩選出不必要的信息,研究人員使用了兩種策略來測量答案的基本長度:1)要求模型生成的文字答案最短;2)設置生成字數限制。

結果顯示,該方法可以用更少的字數實現相同的質量評級,并顯著降低答案長度,第二種策略通常來說更好。

實驗結果

研究人員使用兩個具有代表性的大型語言模型(LLMs)進行評估:閉源的GPT-4o和開源的LLaMA-3.1-70b-Instruct,每個模型都使用相同的256個采樣的維基百科上下文(N=4)生成1024個問題;大約使用了5萬次聊天調用。

在答案評分方面,人工標注與GPT-4o評估之間的平均皮爾遜相關系數為0.77,表明存在很強的正線性相關性。

LLMs會提什么類型的問題?

根據預定義的問題類型,研究人員將其分為三組:LLaMA和GPT模型都強烈傾向于詢問具體的事實和數字,可能與訓練數據的分布有關;不太容易提出的問題是根據上下文中的多個事實進行推理,與HotpotQA更相似;大模型也更傾向于詢問描述類、需要詳細答案的問題,這種偏好也導致了答案更長。

圖片

生成的問題有多長?

盡管整體的問題長度大致相似,約為20個單詞,但不同的LLMs傾向于表現出對長度的不同偏好;人類生成的問題長度變化更大。

圖片

使用了多少上下文以及具體是哪部分?

人類生成的問題傾向于覆蓋更多的上下文,無論是句子級還是單詞級測量結果都是一致的。

圖片

人類生成的問題傾向于集中在上下文的開頭,但LLMs生成的問題呈現出更均衡的分布,表明基于LLMs的問題生成與問答相比顯示出幾乎相反的位置關注焦點。

圖片

生成的問題是否可以在有/無上下文的情況下回答?

通過結合答案生成和評分,可以觀察到,在有上下文的情況下,LLMs通常能生成令人滿意的答案,符合預期。

圖片

當不提供上下文時,性能會下降,大約四分之一的生成問題無法得到合適的回答,GPT-4o生成的問題與人類構建的HotpotQA數據集相比,顯示出更高比例的非常見問題。

回答問題需要多少信息?

LLMs生成的答案通常比人類標注的正確答案要長得多,可能是因為生成模型的特性。

圖片

為了更準確地衡量所需信息量,將LLMs生成的答案壓縮,在保持評分的情況下生成最短版本。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-18 07:20:00

2025-04-30 09:09:00

2022-03-28 13:25:42

AI扶貧機器之心

2023-04-03 10:28:53

人工智能機器人

2023-05-26 17:20:29

模型工具

2023-12-16 09:49:18

2025-07-03 09:49:43

2025-06-20 08:54:00

模型AILLM

2024-11-26 13:40:00

2025-11-10 08:51:00

LLMOpenAI模型

2023-05-04 14:55:02

模型AI

2025-01-22 15:21:00

2023-11-14 07:47:42

IGN擴散模型

2024-09-23 14:46:27

2025-06-25 16:09:40

機器人AI訓練

2025-10-11 15:55:08

AI模型數據

2023-05-19 13:34:02

2023-04-04 13:17:00

GPUCMU開源

2023-04-07 09:28:31

模型訓練

2024-02-05 13:28:14

AI音頻虛擬人像
點贊
收藏

51CTO技術棧公眾號

日韩大片免费观看| 特黄视频在线观看| 婷婷亚洲五月| 精品国产乱码久久久久久夜甘婷婷| 男人添女荫道口图片| 国产区视频在线播放| 国产美女精品人人做人人爽| 911国产网站尤物在线观看| 一二三四国产精品| 成人影院中文字幕| 欧美日韩综合在线| 免费看又黄又无码的网站| 超碰免费97在线观看| 成人精品一区二区三区四区| 国产精品视频自拍| 日本天堂网在线观看| 天天综合国产| 亚洲日本aⅴ片在线观看香蕉| 激情成人在线观看| 777午夜精品电影免费看| 亚洲国产wwwccc36天堂| 亚洲一区二区三区精品视频| 色久视频在线播放| 成人午夜激情影院| 成人有码在线播放| 自拍偷拍精品视频| 久久xxxx| 91av免费观看91av精品在线| 日韩一区二区三区四区在线| 色婷婷热久久| 亚洲人成在线免费观看| av无码一区二区三区| 精品久久亚洲| 欧美日本在线播放| 一区二区三区 欧美| 在线看片福利| 精品国产乱码久久久久久婷婷 | 污污网站在线免费观看| 国产一区二区在线观看免费| 国产精品久久久久影院日本 | 欧美美女激情18p| 蜜臀久久99精品久久久酒店新书| 97蜜桃久久| 亚洲香肠在线观看| 轻点好疼好大好爽视频| 26uuu亚洲电影在线观看| 国产精品美女久久福利网站| 日韩亚洲视频在线| 国产在线观看网站| 国产午夜久久久久| 日本一区视频在线| 久草在线网址| 欧美激情一区不卡| 一级特黄录像免费播放全99| 天堂资源在线中文| 一区二区中文字幕在线| 天堂v在线视频| 国产区在线观看| 一区二区三区四区在线播放 | 少妇视频一区二区| 93在线视频精品免费观看| 日韩网站在线观看| 欧美黄色免费看| 亚洲性图久久| 国产69精品久久久久久| 国产又黄又粗又爽| 全国精品久久少妇| 国产原创欧美精品| 99久久久无码国产精品免费| 国产九九视频一区二区三区| 国产精华一区二区三区| 亚洲 欧美 精品| 国产欧美综合色| 黄色免费高清视频| 里番在线播放| 色综合欧美在线视频区| 天天操,天天操| 欧美第一在线视频| 国产午夜精品久久久| 长河落日免费高清观看| 亚洲欧美色图| 午夜精品久久久久久99热| 中文在线第一页| 久久精品国产精品亚洲综合| 成人欧美一区二区三区在线观看| 色资源在线观看| 成人免费在线观看入口| 男人添女荫道口女人有什么感觉| sm性调教片在线观看| 91国产成人在线| 国产性生活一级片| 蜜桃成人av| 久热精品视频在线观看一区| wwwxxx亚洲| 久久成人久久爱| 久久av一区二区三区漫画| 成人高清免费观看mv| 亚洲精品久久久久久国产精华液| 青青草原成人网| 日韩美香港a一级毛片| 亚洲国产精品久久久久| av在线播放中文字幕| 在线看片一区| 91久久久久久久一区二区| 日韩精品视频在线观看一区二区三区| 国产精品久久久久久久久免费樱桃| 国产一区二区三区在线免费| 91欧美精品| 亚洲级视频在线观看免费1级| 操她视频在线观看| 亚洲一区二区免费看| 亚洲综合色激情五月| 久草在线网址| 精品国产户外野外| 女同性αv亚洲女同志| 成人直播大秀| 欧美主播福利视频| 天天爱天天干天天操| 亚洲嫩草精品久久| 久草福利视频在线| 国产精品最新| 91精品国产高清久久久久久久久| 99热这里只有精品在线| 国产精品亲子乱子伦xxxx裸| 国产极品美女高潮无套久久久| 成人线上播放| 欧美激情精品在线| 国产a级免费视频| 中文字幕亚洲综合久久菠萝蜜| 毛葺葺老太做受视频| 欧美黄色录像| 久久久日本电影| 亚洲国产精品久久久久久6q| 综合久久一区二区三区| 亚洲成人福利在线观看| 禁断一区二区三区在线| 欧美中文在线视频| 亚洲色偷精品一区二区三区| 天天免费综合色| 免费a v网站| 亚洲免费观看| 狠狠色噜噜狠狠色综合久| tube8在线hd| 亚洲成人激情在线| 国产一级免费观看| 成人18精品视频| aa视频在线播放| 欧美激情三级| 欧美成人午夜影院| 亚洲国产综合一区| 性做久久久久久免费观看欧美| 久久国产劲爆∧v内射| 黄色亚洲大片免费在线观看| 成人免费看片网站| f2c人成在线观看免费视频| 亚洲第一网中文字幕| 日本熟妇成熟毛茸茸| 91麻豆成人久久精品二区三区| 国产高清精品在线观看| 国产精品一区高清| 国产欧美一区二区三区在线 | 猛男gaygay欧美视频| 国产精品7m视频| 欧美猛烈性xbxbxbxb| 欧美一级生活片| 精品无码黑人又粗又大又长| av午夜精品一区二区三区| 亚洲熟女乱色一区二区三区| 黄色不卡一区| 亚洲va久久久噜噜噜久久天堂| av黄色在线| 亚洲激情在线视频| 国产精品成人久久久| 最新高清无码专区| 北岛玲一区二区| 日韩va亚洲va欧美va久久| 在线播放 亚洲| 荡女精品导航| 国产精品一区二区三区在线播放| a级片国产精品自在拍在线播放| 精品国内二区三区| 无码人妻av免费一区二区三区 | 99这里只有久久精品视频| 免费在线观看毛片网站| 我不卡神马影院| 精品伦理一区二区三区| 久久久久久久性潮| 亚洲91精品在线| 欧美性videos| 亚洲精品成a人在线观看| 在线观看毛片视频| 亚洲国产精品一区二区www在线 | 国产成人精品久久| 肉体视频在线| 中文字幕精品av| 人妻无码中文字幕免费视频蜜桃| 欧洲另类一二三四区| 国产一级理论片| 最近中文字幕一区二区三区| 少妇精品一区二区三区| 国产成人福利片| 国内外成人免费在线视频| 亚洲日韩视频| 路边理发店露脸熟妇泻火| 精品国产一区二区三区av片| www.久久艹| 精品久久在线| 欧美在线国产精品| 国产偷倩在线播放| 久久九九热免费视频| 国产三级在线观看| 日韩大陆欧美高清视频区| 国产美女精品视频国产| 色综合色综合色综合色综合色综合| 久草视频在线免费看| 中文字幕第一区综合| 欧美性xxxx图片| www.亚洲在线| 日本wwwwwww| 国产激情一区二区三区| 日韩一级理论片| 亚洲在线观看| 黄色一级片在线看| 亚洲无线一线二线三线区别av| 日本三级福利片| 欧美3p视频| 视频在线一区二区三区| 欧美日韩一区二区三区四区不卡| 91嫩草在线| 日本成人精品| 97视频中文字幕| av在线亚洲一区| 成人乱人伦精品视频在线观看| 精品裸体bbb| 国产精品久久久久久中文字| 怡红院成人在线| 国产精品久久视频| 欧美暴力调教| 国产精品日本精品| 日韩毛片网站| 亚洲影院高清在线| 日本精品一区二区三区在线观看视频| 91精品免费视频| 欧美国产亚洲精品| 成人欧美一区二区| 欧美大片网址| 日韩欧美精品久久| 波多野结衣的一区二区三区| 一区二区在线不卡| 亚洲第一偷拍| 91视频 - 88av| 亚洲麻豆视频| 国产福利一区视频| 久久精品国产一区二区三区免费看| 奇米影音第四色| 国产揄拍国内精品对白| 色综合久久久无码中文字幕波多| 国产福利一区二区三区| 李丽珍裸体午夜理伦片| 久久综合九色综合久久久精品综合 | 国产一区二区三区在线看 | 亚洲丝袜美腿一区| 少妇特黄a一区二区三区 | 久久久99久久精品女同性| 成人在线播放免费观看| 久久久午夜视频| 亚洲精品动漫| 国产综合色香蕉精品| 亚洲精品观看| 久久婷婷人人澡人人喊人人爽| 精品国产99| 日本老太婆做爰视频| 99成人精品| 日韩大片一区二区| 国产91精品精华液一区二区三区 | 成人欧美一区二区三区白人 | 欧美一区二区大片| 少妇荡乳情欲办公室456视频| 亚洲男人的天堂网站| 免费在线观看av片| 91高清在线免费观看| 欧美日韩尤物久久| 国产成人免费观看| 成人精品中文字幕| 国产精品久久久久7777| 日韩中文字幕不卡| 国产一精品一aⅴ一免费| 久久精品欧美一区二区三区不卡 | 国产在线视频网| 欧美夫妻性生活视频| 视频精品导航| 国产一区免费观看| 99久久亚洲精品蜜臀| 人人妻人人添人人爽欧美一区| 免费观看日韩电影| 国产精品手机在线观看| 成人免费一区二区三区视频| 亚洲 欧美 视频| 制服丝袜av成人在线看| 欧美日韩激情视频一区二区三区| 欧美成aaa人片在线观看蜜臀| 欧美片第1页| 国产高清一区视频| 五月激情综合| 成人黄色一区二区| 成人精品一区二区三区四区 | 亚洲一区美女视频在线观看免费| 偷窥自拍亚洲色图精选| 日韩人妻一区二区三区蜜桃视频| 老司机亚洲精品| 三级视频网站在线观看| 一区二区日韩av| 中文字幕在线观看你懂的| 日韩成人久久久| 成人福利影视| 99久久99久久| 国产精品久久久乱弄| 天天操天天爽天天射| 91偷拍与自偷拍精品| 国产无码精品一区二区| 日韩视频在线永久播放| 福利视频在线导航| 日韩美女免费线视频| 日本一区福利在线| 少妇人妻大乳在线视频| 成人免费观看视频| 激情五月婷婷在线| 日韩精品中文字幕一区二区三区| 男人的天堂在线视频免费观看| 国产成人激情视频| 国产中文精品久高清在线不| 99久久久无码国产精品6| av电影在线观看一区| 国产乱码久久久久久| 欧美va日韩va| 青春草免费在线视频| 99久久99久久精品国产片| 国产精品久久| 91人人澡人人爽| 亚洲国产视频网站| 丰满人妻一区二区三区四区53| 欧美激情视频一区二区| 538任你躁精品视频网免费| 老汉色影院首页| 国产精品亚洲第一| 久草视频免费在线播放| 亚洲成年人影院在线| 超碰在线视屏| 欧美黄色直播| 日本成人在线电影网| 日日碰狠狠添天天爽| 91精品国产欧美一区二区| 亚洲性图自拍| 国产精品一区免费观看| 校园激情久久| 精品无码人妻一区二区免费蜜桃| 欧美影院一区二区三区| 91精彩视频在线播放| 91九色单男在线观看| 欧美日韩国产色综合一二三四| xfplay5566色资源网站| 欧美性xxxxxxxxx| av免费观看一区二区| 91麻豆桃色免费看| 亚洲成人原创| 国产精品av久久久久久无| 欧美高清视频在线高清观看mv色露露十八 | 999精品网站| 国产精品国产三级国产普通话蜜臀 | 波多野结衣中文字幕久久| 久久久久久久久久久久久久一区| 久久精品一区二区国产| 日韩精品一区二区亚洲av性色 | 自拍日韩欧美| 大地资源二中文在线影视观看 | 日韩av免费在线看| 外国成人激情视频| 亚洲欧美在线不卡| 欧美日韩国产在线观看| 国产99re66在线视频| 日本一区二区三区四区高清视频| 久久av资源网| 国产手机在线视频| 色琪琪综合男人的天堂aⅴ视频| 亚洲精品一区二区三区中文字幕 | 国产一区二区不卡| 成人午夜淫片100集| 久久精品小视频| 免费国产自久久久久三四区久久| 婷婷激情小说网| 色久综合一二码| 亚洲小说区图片| 午夜精品一区二区三区四区| 国产成人精品免费| 中文在线最新版天堂| 69视频在线免费观看| 欧美在线日韩| 欧洲性xxxx| 亚洲国产欧美日韩精品| 成人永久在线|