精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

IdentifyMe:一個具有挑戰性的長文本指代消解基準測試

發布于 2024-11-20 14:48
瀏覽
0收藏

1 引言

共指消解(CR)是文本理解的一個基本任務。盡管LLMs在廣泛的NLP任務上取得了巨大進展,但它們在CR上的表現相對不盡人意,甚至在指稱檢測上也面臨困難。通過廣泛分析,Gan等人(2024)的工作已經確定,在典型的CR設置中,由于基于跨度的輸出格式不適合LLMs,因此低估了LLMs出色的指稱理解能力。他們建議調整CR數據集和任務指標,以支持LLMs的評估。

沿著這些思路,我們創建了IdentifyMe基準測試,用于MCQ格式的指稱消解,這種格式通常用于LLMs的評估。為了構建基準測試,我們使用了來自兩個長文本共指基準測試LitBank和FantasyCoref的注釋。為了使基準測試具有挑戰性,我們限制了它只包括代詞和名詞指稱,并為每種指稱類型應用了一些啟發式方法,以過濾掉容易解決的案例。每個MCQ實例都包含了標記有感興趣指稱的文本,選項包括文本中經常出現的實體和“以上都不是”(NoA)選項。圖1展示了從LitBank派生的IdentifyMe中的一個示例。

我們對閉源和開源模型進行了評估。平均而言,LLMs在代詞指稱上的表現比名詞指稱要差,代詞指稱由于其有限的表面信息而更難識別。對于所有模型來說,“以上都不是”作為正確答案的實例尤其具有挑戰性,開源模型的準確率下降了超過50%。在嵌套指稱的情況下,LLMs往往會在具有重疊指稱的實體之間產生混淆。得分最高的模型GPT-4o在IdentifyMe上獲得了81.9%的準確率,突顯了前沿LLMs在指稱能力方面的強大實力,同時也表明在這一領域仍有很大的改進空間。

2 IdentifyMe基準測試

IdentifyMe是一個基于MCQ的基準測試,給定一個帶有標記指稱的文檔,任務是識別它所指的實體。我們從專注于文學文本的兩個共指數據集LitBank和FantasyCoref中派生了這些指稱。這些數據集提供了長篇上下文(FantasyCoref平均為1700個詞,LitBank為2000個詞),并具有多個實體及其豐富的相互依賴性(例如,Mr. 和 Mrs. Pett),這使得解決指稱變得更加具有挑戰性。雖然LitBank提供了多樣的寫作風格和語言結構,但FantasyCoref包括的實體通常會采取不同的形式(例如,偽裝和變形),或者在其頭銜上發生變化(例如,Prince Rudolph在加冕后被稱為The Emperor),這進一步增加了實體映射的復雜性。

共指注釋將指向同一實體的指稱分組為未標記的簇。然而,為了創建一個以實體為選項的MCQ,我們需要為每個簇分配一個代表性短語。我們使用GPT-4o-mini(見表8)根據它們的提及和頻率為每個實體生成短語。這些注釋經過手動審查,以確保每個實體都有一個獨特的短語。

為了防止混淆,我們丟棄并避免標記那些:(i)包含注釋錯誤的簇(例如,由于簇合并或分裂);(ii)太小(<3個提及)或難以/模糊標記的簇(例如,像some這樣的實體);(iii)復數實體,因為它們通常缺乏可以從提及中派生的明確表面形式。

使用標記簇中的提及,從文檔中創建一個MCQ,所有標記的實體都作為選項提供。為了創建一個高質量的基準測試,我們排除了短上下文文檔(<1000個詞)或那些被丟棄的實體占超過50%提及的文檔。

2.1 選擇IdentifyMe的指稱

基于之前利用基于規則的語言模式來執行(Zhou and Su, 2004; Lee et al., 2013)或分析(Haghighi and Klein, 2009; Otmazgin et al., 2023)共指消解的工作,我們提出了一種兩步啟發式方法來識別具有挑戰性的指稱。

步驟1:丟棄簡單指稱。我們應用兩個標準來過濾掉由于句法相似性而可以輕松解決的指稱:

A. 名詞模糊分數計算名詞指稱與相應實體的代表性短語之間的模糊相似度(靈活對待順序和子集擾動)。得分為75%或更高的指稱被丟棄,因為我們期望它們更容易被正確識別。

B. 網絡干擾分數。我們根據性別、數量和活性等屬性對代詞指稱進行分類(LingMess)。附近具有相同類別的代詞指稱(代詞),并且指向同一實體的,可能有助于輕松識別標記指稱。另一方面,那些來自不同類別但同一實體或同一類別但不同實體的指稱可能使其更難識別。我們將標記指稱的網絡干擾分數定義為阻礙識別的相鄰代詞數量減去有助于識別的數量。我們丟棄得分為≤0的指稱。

步驟2:按難度對指稱進行排名。過濾后的指稱從最難到最易進行排名:對于名詞,較低的名詞模糊分數是首選;對于代詞,較高的網絡干擾分數是首選。此外,標記指稱與同一實體的其他指稱之間的距離也表明了難度。我們考慮距離最近的指稱、最近的名詞指稱和最近的類似于代表性短語的指稱作為進一步排名的標準。所有這些單獨的標準結合使用Copeland的方法(Copeland, 1951),通過評估成對勝負來確定最終排名。

2.2 數據集統計

IdentifyMe包括基于上述排名方法選出的1800個最難的問題。這些問題來自159篇文檔(LitBank 64篇,FantasyCoref 95篇)。其中,隨機選取的600個問題用作提示調整和消融實驗的驗證集。所有問題都包含一個“以上都不是”(NoA)選項,以鼓勵模型以更大的確定性做出回應。為了評估模型是否可以選擇NoA作為正確答案,我們從10%的問題中移除了原始的正確實體。數據集在驗證和測試分割中都是跨源數據集和指稱類型(代詞和名詞)平衡的。

2.3 IdentifyMe是否包含難指稱?

我們進行了一項實驗,以評估我們的指稱選擇過程的有效性。我們沒有采用上述方法,而是隨機挑選指稱并評估模型識別它們的能力。Mistral-7B的性能差距為9.5%,而更為穩健的GPT-4o-mini的性能差距為7.2%,這表明IdentifyMe包含了更具挑戰性的指稱。

3 實驗

3.1 模型

在閉源模型中,我們評估了GPT-4o、GPT-4o-mini和Gemini-1.5-Flash。由于計算限制,我們將開源模型的評估限制在10B以下的變體:Llama-3.1-8B和Mistral-7B。

3.2 MCQ設置

選定的指稱在原文中用特殊標記括起來。零樣本提示指導模型從給定的實體集合和NoA中檢索并重新解決指稱,并識別它所指的人或事物。

3.3 推理細節

對于開源模型,我們使用regex-based受限解碼來限制答案僅為特定的實體代表性短語。我們還嘗試了鏈式思維(CoT)方法,指導模型在回答問題之前解釋其推理過程。結果表明,使用CoT可以提高模型性能。

3.4 結果

表3展示了LLMs在IdentifyMe測試集上的整體表現,以及按名詞和代詞指稱類型的細分。隨機基線在基準測試中的準確率為8%。盡管所有LLMs都優于隨機基線,但開源模型仍有很大的改進空間,Llama-3.1-8B的準確率僅為53.3%。GPT-4o是表現最好的模型,準確率為81.9%。同時,GPT-4o-mini作為一個經濟實惠的閉源選項,超越了較小的開源模型,但仍落后于GPT-4o和Gemini-1.5-Flash等頂級表現者。

3.5 錯誤分析

比較實體與NoA。表5提供了當正確選項為實體(Ent)與NoA時的準確率分布。此外,我們將錯誤分為三類:(a)真實值是實體而模型選擇了另一個實體(Ent-Ent),(b)真實值是實體但模型預測了NoA(Ent-NoA),以及(c)真實值是NoA但模型選擇了實體(NoA-Ent)。開源模型在NoA子集上的表現極差,導致高NoA-Ent錯誤。在閉源模型中,Gemini-1.5-Flash在NoA MCQs上的表現較差(下降48.3%),并傾向于在選擇NoA時選擇實體(83/120)。有趣的是,GPT-4o和GPT-4o-mini在NoA問題上更具彈性,分別僅下降了9.6%和0.9%。

嵌套指稱。數據集中包含352個嵌套指稱實例,其中一個指稱的范圍與另一個重疊。表6顯示,嵌套指稱的準確率與整體準確率相當。然而,當模型在解決這些指稱時出錯時,約40%的錯誤是因為預測的實體對應于重疊的指稱。

優點與創新

  1. 新的評估基準:引入了IdentifyMe,一個以多項選擇題(MCQ)格式呈現的提及解析新基準,適用于評估大型語言模型(LLMs)。
  2. 長文本和多樣化提及類型:IdentifyMe包含長文本(平均1700詞)和多種提及類型及其對應的實體,允許對模型性能進行細粒度分析。
  3. 排除易識別的提及:使用啟發式方法排除容易識別的提及,創建更具挑戰性的任務。
  4. 顯著的性能差距:在IdentifyMe上評估了閉源和開源LLMs,發現最先進的亞10B開放模型與閉源模型之間存在20-30%的性能差距。
  5. 高得分模型:最高得分的模型GPT-4o達到了81.9%的準確率,突顯了前沿LLMs的強大指代能力,同時也表明仍有改進空間。
  6. 鏈式思維提示:實驗中使用鏈式思維(CoT)方法提高了模型性能,特別是在處理“無答案”選項時。

不足與反思

  1. 領域限制:IdentifyMe僅限于文學領域,提及類型覆蓋有限(僅有名詞性和代詞性提及),且實體類型不包括復數實體。
  2. 數據集來源:使用的數據集可在線獲取,初步調查顯示LLMs無法重現整個故事的CoNLL注釋,盡管進行了大量處理,但仍有可能存在污染。

關鍵問題及回答

問題1:IdentifyMe基準測試是如何構建的?其獨特之處是什么?

IdentifyMe基準測試是基于多個選擇問題(MCQ)格式構建的,旨在評估大型語言模型(LLMs)在共指消解任務中的表現。其獨特之處包括:

  1. 長文本上下文:IdentifyMe使用了LitBank和FantasyCoref兩個長文本共指消解數據集中的注釋,這些數據集提供了平均1700到2000詞的上下文,使得任務更具挑戰性。
  2. 多樣化的提及類型:基準測試僅限于代詞性和名詞性提及,并對每種提及類型應用了一些啟發式規則以過濾掉容易解決的案例。
  3. 精心設計的MCQ:每個MCQ實例由一段帶有標記提及的文本組成,選擇項包括文本中頻繁出現的實體和“以上都不是”選項。
  4. 手動審核:為了確保每個實體的代表短語是獨特的,使用了GPT-4o-mini生成短語,并由人工審核。
  5. 排除易解決的案例:通過名詞模糊得分和凈干擾得分篩選出難以解決的提及,并按難度進行排序。

問題2:IdentifyMe基準測試的結果顯示LLMs在哪些方面存在困難?

  1. 代詞性提及的消解:LLMs在處理沒有明確表面形式線索的代詞性提及時表現較差,尤其是那些缺乏足夠上下文信息的代詞。
  2. 選擇“以上都不是”:當問題要求模型拒絕所有錯誤選項并選擇“以上都不是”時,LLMs的表現尤其糟糕,開源模型在這一子集上的準確率下降超過50%。
  3. 嵌套提及:在處理嵌套提及時,LLMs容易混淆重疊的提及。盡管嵌套提及的準確性與整體準確性相當,但模型在解決這些提及時的錯誤中有約40%是因為預測的實體對應于重疊的提及。

問題3:IdentifyMe基準測試對未來的研究和模型改進有何啟示?

  1. 改進評估方法:IdentifyMe展示了傳統共指消解評估方法和輸出格式無法充分捕捉LLMs的指代理解能力,提示需要開發更適合LLMs的評估方法。
  2. 增強模型訓練:LLMs在處理代詞性提及和嵌套提及時的困難表明,需要在模型訓練中加強對這些復雜指代關系的理解和生成能力。
  3. 更多樣化和復雜的基準測試:IdentifyMe的成功表明,設計多樣化和復雜的基準測試可以更好地評估和改進LLMs的性能,特別是在處理長文本和多種提及類型時。

本文轉載自 ??AI論文解讀??,作者:柏企

已于2024-11-20 16:53:46修改
收藏
回復
舉報
回復
相關推薦
亚洲按摩av| 精品一区二区无码| 久久久久久毛片免费看 | 伊人久久久久久久久久久久| 日韩www.| 亚洲精品一区二区三区蜜桃下载 | 国产精品一区二区精品| 亚洲国产你懂的| 日韩亚洲视频| 后入内射欧美99二区视频| 天堂精品中文字幕在线| 欧美成人高清视频| 91精品人妻一区二区三区蜜桃欧美| 精品免费av在线| 亚洲国产精品一区二区久久| 日韩精品一区二区三区四区五区| 日韩欧美aⅴ综合网站发布| 91亚洲午夜在线| 五月激情六月丁香| 99精品视频精品精品视频| 亚洲国产日韩欧美综合久久| 亚洲美女性囗交| 麻豆蜜桃在线观看| 亚洲另类色综合网站| 日本免费高清一区二区| 亚洲成人黄色片| 美日韩一区二区| 日本高清不卡的在线| 91插插插插插插| 欧美一区电影| 日韩久久精品成人| 艳妇乳肉豪妇荡乳xxx| 国产福利电影在线| 成人视屏免费看| 国产中文字幕91| 日本免费在线观看视频| 啄木系列成人av电影| 日韩欧美综合一区| www.久久久久久久久久久| 欧美日韩大片| 福利二区91精品bt7086| 欧美久久在线观看| 羞羞的视频在线看| 亚洲男人的天堂一区二区| 亚洲国产精品www| shkd中文字幕久久在线观看| 久久综合av免费| 久久99国产精品| 色婷婷综合视频| 成人午夜电影网站| 风间由美久久久| 国产一级在线播放| 欧美成人一品| 亚洲欧美www| 极品人妻一区二区三区| 四虎5151久久欧美毛片| 亚洲精品美女久久久| 天堂www中文在线资源| eeuss国产一区二区三区四区| 亚洲成人免费视频| 国产一二三四五| 天堂中文在线看| 成人美女在线观看| 国产高清精品一区二区三区| 国产高中女学生第一次| 美女国产精品| 国产精品久久久999| 国产精品无码粉嫩小泬| 日本不卡的三区四区五区| 国产精品青草久久久久福利99| 91视频久久久| 麻豆精品新av中文字幕| 亚洲一区二区三区乱码aⅴ蜜桃女| 国产丝袜在线视频| 成人一级片网址| 久久免费看av| sese在线视频| 夜夜夜精品看看| 日本黄网站色大片免费观看| 都市激情国产精品| 欧美性极品少妇| 91人妻一区二区三区| 国产另类在线| 在线日韩欧美视频| 欧美色图一区二区| 亚洲一区区二区| 国产伦精品一区二区三区精品视频 | 99热这里只有精品66| 国产xxx精品视频大全| 久久99精品久久久久久久久久| 九色网友自拍视频手机在线| 中文字幕亚洲视频| 亚洲国产精品成人综合 | 一本色道久久综合亚洲91| 日韩免费中文专区| 蜜桃av在线免费观看| 久久久精品国产免费观看同学| 任我爽在线视频精品一| 黄色小网站在线观看| 午夜伊人狠狠久久| 日韩av片网站| 成人在线超碰| 在线观看精品自拍私拍| 国产亚洲精品码| 久久久久久久久99精品大| 欧美国产亚洲精品久久久8v| 久艹在线观看视频| 在线一区免费观看| 国产日韩亚洲欧美| 日本一区高清| 伊人婷婷欧美激情| 色综合手机在线| 国产欧美啪啪| 另类专区欧美制服同性| 夜夜爽妓女8888视频免费观看| 丰满亚洲少妇av| 亚洲一区二区在线免费观看| h片在线观看视频免费| 欧美久久婷婷综合色| www.久久国产| 欧美午夜在线| 成人性生交xxxxx网站| 怡红院男人的天堂| 9久草视频在线视频精品| 色中文字幕在线观看| 欧美成年黄网站色视频| 欧美午夜xxx| 国产综合内射日韩久| 国产精品99一区二区三区| 国产精品69久久| 午夜视频1000| 亚洲国产va精品久久久不卡综合| 亚洲精品自拍网| 精品国产欧美日韩| 91高清视频免费观看| www.xxxx国产| 亚洲欧美另类小说| www.51色.com| 欧美电影一二区| 国产精品三级在线| 精品成人一区二区三区免费视频| 亚洲成在人线免费| 亚洲av永久无码精品| 激情丁香综合| 国产精品久久久对白| 在线观看电影av| 91精品国产综合久久精品图片| 大吊一区二区三区| 免播放器亚洲一区| 亚洲国产一区二区精品视频 | 一级欧洲+日本+国产| 国产精品日韩欧美综合| 浮生影视网在线观看免费| 一本久久a久久免费精品不卡| 国产在线观看无码免费视频| 亚洲一区久久| 视频一区三区| 色成人综合网| 欧美成人在线免费| 亚洲国产日韩在线观看| 亚洲国产欧美一区二区三区丁香婷| 岛国大片在线免费观看| 精品成人久久| 久久综合入口| 亚洲四虎影院| 久久天天躁狠狠躁夜夜躁2014| 国产精品免费无遮挡| 一区二区视频在线看| 人妻激情偷乱频一区二区三区| 在线播放精品| 欧美日韩精品久久| 伊人国产精品| 久久久久久噜噜噜久久久精品| 少妇av在线播放| 色成人在线视频| 四季av中文字幕| 国产一区二三区| 欧美不卡在线播放| 欧美色图一区| 亚洲一区二区三区在线免费观看| 黄页网站大全在线免费观看| 日韩电影视频免费| 中文字幕日本人妻久久久免费| 亚洲日本乱码在线观看| 欧洲黄色一级视频| 国产一区二区三区91| 久久久最新网址| 欧美高清电影在线| 午夜精品久久久| 在线国产视频一区| 国产美女在线精品| 欧美日韩中文在线视频| 99久久精品费精品国产| 国产精品一区二区三区在线观| 国产精品久久久久av电视剧| 久久久精品久久| 午夜福利理论片在线观看| 精品视频在线视频| 国产午夜视频在线| 日韩精品成人一区二区在线| 亚洲砖区区免费| 国产精品色在线网站| 国产精品都在这里| 白白色在线观看| 尤物tv国产一区| 国产 日韩 欧美 精品| 欧美视频一区在线| 国产在线视频卡一卡二| 中文字幕第一页久久| 免费观看一区二区三区| 日本网站在线观看一区二区三区 | 国模一区二区三区| 丝袜美腿玉足3d专区一区| 黄色欧美在线| 亚洲自拍欧美色图| 成人黄色在线| 欧美一级片一区| 伦理在线一区| 久久艹在线视频| 国产对白叫床清晰在线播放| 欧美精品一区二区蜜臀亚洲| 国产又粗又猛又爽又黄的视频一| 色综合久久天天| 日本在线免费观看| 一区二区三区波多野结衣在线观看| 日韩福利在线视频| 久久久亚洲综合| 网站免费在线观看| 国产成人av影院| 日韩精品xxx| 国产一区高清在线| 性欧美在线视频| 美女视频黄a大片欧美| av免费中文字幕| 国产亚洲网站| 国产亚洲精品网站| 亚洲欧美日韩精品一区二区| 老太脱裤子让老头玩xxxxx| 激情综合网址| 人体内射精一区二区三区| 国产精品啊啊啊| 台湾无码一区二区| 欧美视频在线观看| 成人精品视频在线播放| 欧美久久一级| 欧美又粗又长又爽做受| 午夜精品久久| 综合视频免费看| 最新精品国产| av片在线免费| 亚洲高清久久| 黄色一级片播放| 老鸭窝亚洲一区二区三区| 免费高清在线观看免费| 香蕉精品999视频一区二区| 东京热加勒比无码少妇| 日日摸夜夜添夜夜添亚洲女人| 精品久久久久久久无码 | 91精品久久久久久久蜜月| 亚洲日本欧美在线| 在线国产一区| av免费观看国产| 免费视频一区二区三区在线观看| 老熟妇仑乱视频一区二区| 麻豆一区二区99久久久久| 手机免费av片| 成人美女在线视频| 国产精品无码午夜福利| 国产日韩欧美综合在线| 亚洲a∨无码无在线观看| 亚洲私人影院在线观看| 久久免费在线观看视频| 日韩欧美一区二区在线| 中文字幕观看视频| 欧美一区二区精品久久911| 性网爆门事件集合av| 亚洲精品国精品久久99热 | 国产又黄又粗又硬| 精品免费一区二区三区| 最近中文字幕在线观看视频| 欧美人伦禁忌dvd放荡欲情| 99精品久久久久久中文字幕| 亚洲精品二三区| av在线收看| 欧美激情精品久久久久久大尺度| 日韩激情电影| 成人午夜在线观看| 日韩精品丝袜美腿| 青青草原国产免费| 亚洲精品字幕| 午夜剧场在线免费观看| 成人av网站在线观看| 欧美三级视频网站| 亚洲一区二区三区三| 日本黄色一级视频| 日韩美女主播在线视频一区二区三区 | 婷婷婷国产在线视频| 欧美大片拔萝卜| 女人偷人在线视频| 欧美美最猛性xxxxxx| 成人影院在线看| 91av视频在线观看| 国产精品一站二站| 欧洲久久久久久| 黄色精品一区| 91亚洲免费视频| 91浏览器在线视频| 久草视频免费在线| 欧美三级午夜理伦三级中视频| 人妻夜夜爽天天爽| 久久手机免费视频| 视频精品导航| 欧美二级三级| 99热精品在线观看| 国产老头和老头xxxx×| 中文字幕欧美日韩一区| 中文字幕激情小说| 精品乱人伦小说| 成人在线app| 国产欧美日韩综合精品| 久久综合影院| 男人的天堂99| 91在线云播放| 免费看黄色的视频| 亚洲国产日韩综合久久精品| 国产精品久久久久久免费| 在线播放国产精品| 免费看av不卡| 久久国产精品99久久久久久丝袜| 欧美成人69| 伦伦影院午夜理论片| 一区二区中文视频| 国产精品露脸视频| 亚洲无线码在线一区观看| 日韩精品极品| 久久久久久国产精品免费免费| 国自产拍偷拍福利精品免费一 | 国产xxxx振车| 国产成人综合亚洲网站| 久热这里有精品| 制服.丝袜.亚洲.中文.综合 | 97在线视频一区| 久久视频在线观看| 97超碰青青草| 91天堂素人约啪| av图片在线观看| 亚洲网址你懂得| 亚洲www啪成人一区二区| 色播五月综合| 久久国内精品视频| 三级全黄做爰视频| 欧美成人猛片aaaaaaa| 欧美78videosex性欧美| 国产精品视频免费观看| 在线欧美亚洲| 日韩人妻一区二区三区| 91久久一区二区| eeuss影院www在线播放| 国产日韩精品综合网站| 一级毛片免费高清中文字幕久久网| 欧美国产日韩在线视频 | 精品国产乱子伦| 永久免费精品影视网站| 欧美激情啪啪| 久久久无码中文字幕久...| 懂色av中文一区二区三区| 日韩免费不卡视频| 在线观看网站黄不卡| 成人精品一区| 亚洲r级在线观看| 亚洲精品裸体| 亚洲第一综合网| 91精品国产91综合久久蜜臀| 欧美78videosex性欧美| 欧美激情第六页| 久久精品国产精品亚洲红杏| 欧美片一区二区| 日韩成人在线观看| 亚洲国产尤物| 黄黄视频在线观看| 99re热视频精品| 亚洲在线精品视频| 久久久之久亚州精品露出| 欧洲激情视频| 91精品人妻一区二区三区蜜桃2| 婷婷中文字幕综合| chinese偷拍一区二区三区| 99久久自偷自偷国产精品不卡| 中文在线一区| 在线日韩国产网站| 亚洲第一男人av| 国产精品亲子伦av一区二区三区| 特级西西人体www高清大胆| 26uuu亚洲综合色| 亚洲最大成人在线视频| 韩国三级日本三级少妇99| 清纯唯美综合亚洲| 亚洲の无码国产の无码步美| 欧美三级视频在线播放| 国产天堂在线播放视频|