精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4完成正確率僅6%!北大等提出首個(gè)「多輪、多模態(tài)」PPT任務(wù)完成基準(zhǔn)PPTC

人工智能 新聞
為了填補(bǔ)LLM在復(fù)雜多模態(tài)環(huán)境中利用復(fù)雜工具完成多輪、多模態(tài)指令的評(píng)估空白,研究人員引入了PowerPoint任務(wù)完成(PPTC)基準(zhǔn)測(cè)試,以評(píng)估LLM創(chuàng)建和編輯PPT文檔的能力。

最近對(duì)大型語言模型(例如ChatGPT和GPT-4)進(jìn)行的評(píng)估工作主要側(cè)重于在基本自然語言任務(wù)上的能力,以及模型生成用于解決單句用戶指令的API的工具使用能力,卻忽略了在理解復(fù)雜多模態(tài)環(huán)境中使用API完成用戶指令的難題。

此外,現(xiàn)有評(píng)估方法主要集中在比較生成的API與標(biāo)簽API序列,但在存在多個(gè)/無限正確解決方案的復(fù)雜情況下,這種方法也變得不再適用。

為了解決這個(gè)挑戰(zhàn),來自北大和微軟亞洲研究院的研究人員們提出了測(cè)試大模型在多輪,多模態(tài)環(huán)境下完成PPT任務(wù)的評(píng)估數(shù)據(jù)集PPTC(PowerPoint Task Completion)。

論文地址:http://arxiv.org/abs/2311.01767

開源項(xiàng)目:https://github.com/gydpku/PPTC

如圖1(a)所示,為了幫助用戶完成對(duì)PPT文檔的創(chuàng)建和編輯,研究人員采取多輪人機(jī)對(duì)話的形式來構(gòu)建數(shù)據(jù)集。

==

圖1:(a)模擬了人類與語言模型之間的多輪對(duì)話場(chǎng)景,以評(píng)估語言模型在PPT任務(wù)完成性能方面的表現(xiàn)。(b)對(duì)話單元的輪次數(shù)量分布。

每輪開始于用戶的指令,大模型需要生成對(duì)應(yīng)的API序列作為解決方法,執(zhí)行并返回生成的PPT文檔給用戶。

數(shù)據(jù)集中一共有279個(gè)像這樣的多輪對(duì)話單元,如圖1(b)所示,大部分單元由3到10對(duì)話輪次組成。

更進(jìn)一步,如圖2(a)所示,數(shù)據(jù)集中包含各種難度的用戶指令(由所需API數(shù)量決定),如數(shù)百個(gè)涉及到統(tǒng)計(jì)圖表、表格、圖像、空間位置相關(guān)多模態(tài)操作的指令。

圖2:(a)指令所需最少API數(shù)量分布。(b)涉及到統(tǒng)計(jì)圖表,表格,圖片和位置操作的用戶指令數(shù)量。

生成和執(zhí)行API序列

為了完成每輪用戶的指令,研究人員主要考慮:

  1. 當(dāng)前輪次的用戶指令
  2. 之前輪次的用戶指令(對(duì)話歷史)
  3. PPT文檔(環(huán)境信息)
  4. 可使用的API列表作為大模型輸入,prompt大模型生成對(duì)應(yīng)的API序列作為解決方案。

圖3:一個(gè)會(huì)話單元中語言模型如何完成一個(gè)輪次。(A)用當(dāng)前的指令、之前的指令(對(duì)話歷史)、PPT文件內(nèi)容以及API參考文件作為輸入prompt大模型。(B)然后,語言模型生成API序列并執(zhí)行它,以獲取預(yù)測(cè)的PPT文件。(C)評(píng)估預(yù)測(cè)文件中的屬性和位置關(guān)系

為了方便大模型處理信息,研究人員提供一個(gè)PPT文檔讀取函數(shù)來將多模態(tài)文檔轉(zhuǎn)化為文字形式的文檔內(nèi)容,以及一個(gè)API執(zhí)行函數(shù)來自動(dòng)執(zhí)行大模型生成的API序列,從而生成對(duì)應(yīng)的預(yù)測(cè)PPT文檔。

評(píng)估大模型生成的PPT文檔

本文提出PPTX-Match評(píng)估系統(tǒng)來評(píng)估大模型生成的文檔是否正確。

如圖3所示,它使用PPTX庫來抽取生成的文檔中所有的元素,并逐一驗(yàn)證元素間的空間位置關(guān)系是否正確,并驗(yàn)證元素的屬性內(nèi)容是否和標(biāo)簽文檔的對(duì)應(yīng)內(nèi)容匹配。

本文的評(píng)測(cè)系統(tǒng)只評(píng)測(cè)最終生成的PPT文檔,因此允許各種API序列來完成用戶指令。

基于這個(gè)系統(tǒng),本文的評(píng)測(cè)指標(biāo)分別包括只考慮當(dāng)前輪次的輪次層面表現(xiàn)和考慮整個(gè)單元的單元層面表現(xiàn)。

實(shí)驗(yàn)結(jié)果  

本文在3個(gè)閉源大模型和6個(gè)開源大模型上測(cè)試PPTC數(shù)據(jù)集。進(jìn)一步的,本文測(cè)試計(jì)劃算法(零樣本思維鏈(Zero-shot CoT)和思維樹(ToT)算法)以及PPT內(nèi)容和API選擇算法是否能進(jìn)一步提升GPT-4模型在PPTC上的表現(xiàn)。

從表1和表2展現(xiàn)出的結(jié)果中,可以得出以下結(jié)論:

(1)GPT-4是9個(gè)大模型中表現(xiàn)最強(qiáng)的模型,在創(chuàng)建新PPT文檔任務(wù)中它甚至能實(shí)現(xiàn)75%的輪次層面正確率。

(2)基于開源大模型(LLaMa-2)的進(jìn)一步代碼預(yù)訓(xùn)練(code-LLaMa)和對(duì)齊能夠進(jìn)一步提升模型輪次層面表現(xiàn)

本文在3個(gè)閉源大模型和6個(gè)開源大模型上測(cè)試PPTC數(shù)據(jù)集。進(jìn)一步的,本文測(cè)試計(jì)劃算法(零樣本思維鏈(Zero-shot CoT)和思維樹(ToT)算法)以及PPT內(nèi)容和API選擇算法是否能進(jìn)一步提升GPT-4模型在PPTC上的表現(xiàn)。

從表1和表2展現(xiàn)出的結(jié)果中,可以得出以下結(jié)論:
(1)GPT-4是9個(gè)大模型中表現(xiàn)最強(qiáng)的模型,在創(chuàng)建新PPT文檔任務(wù)中它甚至能實(shí)現(xiàn)75%的輪次層面正確率。
(2)基于開源大模型(LLaMa-2)的進(jìn)一步代碼預(yù)訓(xùn)練(code-LLaMa)和對(duì)齊能夠進(jìn)一步提升模型輪次層面表現(xiàn)

表1:9個(gè)大語言模型的結(jié)果?!窽D-003」是指Text-Davinci-003模型

(3)計(jì)劃算法和選擇算法能夠進(jìn)一步提升GPT-4 2到5個(gè)百分點(diǎn)的輪次層面正確率。然而,本文發(fā)現(xiàn),盡管思維樹相對(duì)零樣本思維鏈花了超過數(shù)倍的推斷成本,它的表現(xiàn)卻并沒有明顯進(jìn)一步的提升。

表2:GPT-4和基于GPT-4模型的算法的結(jié)果。'CoT'和'ToT'分別是思維鏈和思維樹算法

三個(gè)PPTC上的主要挑戰(zhàn)

進(jìn)一步的,本文分析得出大模型在PPTC上遇到的三個(gè)主要的挑戰(zhàn):

1.錯(cuò)誤累計(jì)導(dǎo)致大模型單元層面表現(xiàn)糟糕

盡管諸如GPT-4這樣的大模型在輪次層面表現(xiàn)較好,但當(dāng)本文測(cè)試大模型在包含多個(gè)輪次的單元層次表現(xiàn)時(shí),大模型表現(xiàn)普遍糟糕。

如表1所示,在創(chuàng)建新文檔任務(wù)中,GPT-4只正確完成了不到百分之23的多輪次單元。

2.大模型處理長(zhǎng)PPT模版的能力欠佳

在PPT文檔編輯任務(wù)中,大模型需要基于給予的長(zhǎng)PPT模板完成用戶指令。

圖4: 創(chuàng)建新的PPT文件任務(wù)(任務(wù)1)和編輯PPT模板任務(wù)(任務(wù)2)的分析結(jié)果。在子圖(a)中,本圖展示了涉及圖表、表格、圖片、位置和純文本的指令的平均基于輪次的準(zhǔn)確度。在子圖(b)中,本圖展示了GPT-4的四種常見錯(cuò)誤的比例。

然而,如表1所示,即使是GPT-4,也只實(shí)現(xiàn)了百分之38的輪次正確率,只完成了6%的多輪次單元。如圖4(b)所示,對(duì)文檔的誤解成為編輯任務(wù)的主要錯(cuò)誤原因。

3.多模態(tài)指令提高了任務(wù)難度

如圖4(a)所示,大模型在處理圖表,表格,圖像,空間位置相關(guān)的指令上的表現(xiàn)遠(yuǎn)不如處理只涉及純文本操作的指令表現(xiàn),特別是涉及到移動(dòng)空間位置的指令。

如圖4(b)所示,糟糕的空間位置感知成為創(chuàng)建新文檔任務(wù)的主要錯(cuò)誤原因。

總結(jié)

  1. 本文提出了PowerPoint任務(wù)完成評(píng)估測(cè)試(PPTC),用于衡量在 PowerPoint 官方軟件中的語言模型的任務(wù)完成性能。這一基準(zhǔn)測(cè)試包含了279個(gè)多輪會(huì)話單元,涵蓋了復(fù)雜的多模式環(huán)境中的數(shù)百個(gè)多模式指令。
  2. 本文提出了PPTX-Match評(píng)估系統(tǒng),用于自動(dòng)測(cè)量語言模型在PPTC中的性能。本文測(cè)試了3個(gè)閉源語言模型和6個(gè)開源語言模型,發(fā)現(xiàn)GPT-4是所有語言模型中性能最強(qiáng)的。
  3. 本文進(jìn)一步發(fā)現(xiàn)了三個(gè)關(guān)鍵的錯(cuò)誤因素:會(huì)話中的錯(cuò)誤累積、長(zhǎng)的PPT模板處理和多模態(tài)感知。這些發(fā)現(xiàn)為未來的語言模型和基于語言模型的agent系統(tǒng)提出了重要的挑戰(zhàn)。
責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-18 08:49:00

模型系統(tǒng)AI

2024-08-08 13:04:28

2023-10-17 12:47:26

AI數(shù)據(jù)

2024-06-28 18:13:05

2024-05-20 08:20:00

OpenAI模型

2025-06-09 08:50:00

2023-10-30 15:06:00

模型數(shù)據(jù)

2023-11-09 15:10:00

訓(xùn)練數(shù)據(jù)

2023-03-10 13:30:01

微軟人工智能

2025-08-18 08:40:00

模型AI算法

2025-05-30 03:10:00

AISeePhys多模態(tài)短板

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-03-10 13:03:09

人工智能模型

2015-07-31 11:37:49

任務(wù)完成率

2025-05-15 09:10:00

2024-07-02 01:09:02

2023-05-08 10:14:07

模型AI

2024-03-01 11:58:26

MLLMs大語言模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

黄色羞羞视频在线观看| 在线观看中文字幕2021| 欧美激情影院| 在线观看免费亚洲| 乱熟女高潮一区二区在线| 四虎在线视频免费观看| 日韩av电影免费观看高清完整版| 久久视频在线直播| 国产精品三级在线观看无码| 日日夜夜精品| 天天射综合影视| 中文字幕成人一区| 亚洲欧美日本在线观看| 国精产品一区一区三区mba桃花 | 成人动漫视频在线观看完整版| 久久夜靖品2区| 99re66热这里只有精品8| 亚洲精品在线免费播放| 九九热在线免费| 高h视频在线播放| 国产精品久久久久四虎| 欧美黑人3p| 亚洲精品一区二区口爆| 久久69国产一区二区蜜臀| 欧美伊久线香蕉线新在线| 免费中文字幕在线| 97精品国产福利一区二区三区| 精品视频在线播放免| 欧美激情 亚洲| 白嫩亚洲一区二区三区| 欧美主播一区二区三区| 国产亚洲欧美在线视频| 欧美videos另类精品| 一区二区中文字幕在线| 亚洲欧美久久久久一区二区三区| 视频国产在线观看| 波多野结衣中文一区| 91丨九色丨国产在线| 中文字幕资源网| 日日嗨av一区二区三区四区| 91高清免费视频| 国产无遮挡又黄又爽在线观看| 一区二区三区午夜视频| 中文字幕亚洲一区二区三区五十路| 蜜桃精品成人影片| 丝袜美腿综合| 亚洲欧美国产va在线影院| 免费看毛片的网站| 国产成人在线中文字幕| 欧美mv和日韩mv的网站| 国产伦理在线观看| 亚洲精品18| 日韩区在线观看| 国偷自产av一区二区三区麻豆| 国色天香久久精品国产一区| 7777精品伊人久久久大香线蕉经典版下载| 精品亚洲一区二区三区四区| 国产美女久久| 制服丝袜激情欧洲亚洲| 91蝌蚪视频在线| 日韩有吗在线观看| 亚洲成人久久久| 香港三级日本三级| 亚洲人成网77777色在线播放| 日韩精品在线观| 国产三级av在线播放| 日韩欧美一区二区三区在线视频| 日韩在线视频免费观看| 中文字幕电影av| 国产在线成人| 欧美有码在线视频| 中文字幕人妻一区二区在线视频 | 国产精品久久久久久av下载红粉| 在线免费看毛片| 久久久久国产精品一区三寸| 欧洲日本亚洲国产区| 免费看毛片网站| 久久精品国产77777蜜臀| 91精品久久久久久久久久另类| 国产乱叫456在线| 国产a级毛片一区| 久久久久久久久四区三区| 国产在线观看免费网站| 国产精品国产自产拍在线| 伊人再见免费在线观看高清版 | 欧洲成人在线观看| 国产又黄又粗又长| 成人网在线播放| 欧美日韩国产一二| 黄色成人在线| 黑人精品xxx一区一二区| 我要看一级黄色大片| 亚洲大奶少妇| 亚洲久久久久久久久久久| 天天操天天摸天天舔| 亚洲性人人天天夜夜摸| 久久久久久久久国产| 可以在线观看av的网站| 久久福利视频一区二区| 精品无人区一区二区三区| 欧美videos极品另类| 欧美日韩国产精品一区二区不卡中文| 一道本视频在线观看| www国产精品| 久久好看免费视频| 国产精品久久久久久久久久精爆| 国产在线视频精品一区| 蜜桃91精品入口| 18网站在线观看| 欧美在线不卡一区| 亚洲图片综合网| 午夜久久免费观看| 国产福利视频一区二区| 欧美一级性视频| 专区另类欧美日韩| 99草草国产熟女视频在线| 亚洲国产视频二区| 久久久97精品| 97人妻精品视频一区| av不卡免费在线观看| 少妇高潮流白浆| 日本美女一区| 日韩h在线观看| 精品97人妻无码中文永久在线| 免费人成网站在线观看欧美高清| 久久精品欧美| 国产乱码午夜在线视频| 欧美大片免费久久精品三p| 国产三级精品三级观看| 日韩高清在线观看| 欧美日韩一区二区三区在线视频 | 国产美女一区| 国产在线视频欧美一区二区三区| 青春草在线免费视频| 欧美一二三区在线观看| 69夜色精品国产69乱| 奇米精品一区二区三区在线观看 | 日韩免费网站| 欧美亚日韩国产aⅴ精品中极品| 69xxx免费视频| 你懂的国产精品| 97netav| 91cn在线观看| 日韩丝袜情趣美女图片| 2018天天弄| 国产成人自拍在线| 久久国产精品免费观看| 精品国产三级| 欧美成人免费一级人片100| 国产精品伦理一区| 亚洲摸摸操操av| 三日本三级少妇三级99| 欧美日韩一区二区高清| 96久久精品| 国产激情视频在线看| 亚洲精品国精品久久99热| 久久黄色精品视频| 久久亚洲免费视频| 超碰在线人人爱| 99久久亚洲精品蜜臀| 91精品视频免费观看| 在线中文字幕-区二区三区四区| 日韩欧美国产三级| 国产性70yerg老太| 97国产一区二区| 欧在线一二三四区| 国产精品久久久久蜜臀| 亚洲最大福利网| 高清视频在线观看三级| 亚洲欧洲午夜一线一品| 久久久久精彩视频| 亚洲乱码日产精品bd | 久久久久久久久久久99999| 污污视频网站免费观看| 999久久久91| 97人人模人人爽视频一区二区 | 国产精品老女人视频| 黄色免费在线网站| 亚洲电影在线看| 中文字幕人妻一区二区在线视频| 亚洲美女在线一区| 特级西西人体wwwww| 免费成人性网站| 国产精品久久久久久久久电影网| 中国av一区| 91在线观看免费高清| 小h片在线观看| 精品国内亚洲在观看18黄| 五月婷婷六月丁香| 欧美另类变人与禽xxxxx| 五月天婷婷丁香| 中文一区二区在线观看| 国产性猛交96| 久久精品国产精品青草| 欧美黑人经典片免费观看| 日本一区二区高清不卡| 国产伦精品一区二区三区免费视频 | 日韩国产综合| 狠狠久久综合婷婷不卡| 色成人综合网| 热草久综合在线| 欧美人与性动交α欧美精品济南到| 亚洲午夜未删减在线观看 | 国产精品怡红院| 日韩欧美在线第一页| 国产精品久久久久久久精| 久久久久亚洲蜜桃| 91精品人妻一区二区三区四区| 三级久久三级久久| 国内精品在线观看视频| 91精品国产乱码久久久久久| 日本精品一区二区三区高清 久久| 中文字幕一区二区三区日韩精品| 国产精品久久一| 免费福利视频一区二区三区| 国色天香2019中文字幕在线观看| 欧美激情午夜| 中文字幕亚洲激情| 九一在线视频| 日韩精品999| 国产小视频免费观看| 91精品国产丝袜白色高跟鞋| 成人黄色三级视频| 欧美性猛交xxxx| 日韩欧美a级片| 亚洲最新视频在线观看| 波多野结衣爱爱视频| 中文字幕一区二区三区在线不卡| 国产女主播喷水高潮网红在线| 国产 日韩 欧美大片| 91视频福利网| 精品亚洲成a人在线观看| 午夜精品在线免费观看| 蜜桃视频一区| 人妻少妇被粗大爽9797pw| 亚洲精品欧美| 毛片在线播放视频| 99国产精品久久久久久久成人热| 久久av综合网| 一区精品久久| 超碰成人免费在线| 亚洲激情黄色| 亚洲熟妇国产熟妇肥婆| 亚洲久久视频| 草草久久久无码国产专区| 国产亚洲午夜| 凹凸日日摸日日碰夜夜爽1| 久久综合图片| 亚州精品一二三区| 精品亚洲成a人| 男男受被啪到高潮自述| 国产在线视频不卡二| 91免费视频污| 国产成人午夜精品5599 | 天堂av一区| 懂色中文一区二区三区在线视频| 一区二区三区亚洲变态调教大结局| 国产精品sss| 亚洲天堂日韩在线| 日韩免费三级| 91成人超碰| 欧美中日韩在线| 国产视频久久| 亚洲福利精品视频| 国产毛片精品一区| 日韩精品视频一区二区| 久久久亚洲国产美女国产盗摄| 国产一级久久久久毛片精品| 国产精品乱人伦一区二区| 卡通动漫亚洲综合| 亚洲不卡在线观看| 日本久久综合网| 7777精品伊人久久久大香线蕉经典版下载| 精品国产99久久久久久宅男i| 亚洲变态欧美另类捆绑| 麻豆影视在线| 久久久国产在线视频| 182在线视频观看| 国产精品劲爆视频| 中文字幕亚洲在线观看| 欧美日韩国产免费一区二区三区 | 欧美精品九九久久| 亚洲成人看片| 99精品在线直播| 欧美爱爱网站| 国产欧美综合一区| 免费久久99精品国产自在现线| 污污网站免费观看| 不卡的电视剧免费网站有什么| 亚洲精品91在线| 亚洲国产一区二区a毛片| 波多野结衣绝顶大高潮| 精品捆绑美女sm三区| av中文天堂在线| 欧美激情一区二区三区在线视频观看 | 亚洲欧洲精品成人久久奇米网| 国产一国产二国产三| 欧美日韩成人综合在线一区二区| 日本久久一级片| 精品久久久999| 成人开心激情| 国产乱码精品一区二区三区卡| 欧美国产一级| 国产男女激情视频| 成人av在线影院| 国产一区二区播放| 欧美在线色视频| 欧美视频一二区| 久久色在线播放| 欧美色999| 精品一区二区三区免费毛片| 中文字幕乱码亚洲无线精品一区| 免费一级特黄录像| 337p粉嫩大胆色噜噜噜噜亚洲| 久久精品一级片| 欧美一区二区三区视频| 欧美三级黄网| 国产精品久久久久久久久久ktv| 香蕉久久99| 久久久久久久久久久99| 国产成人综合亚洲网站| 欧美做爰啪啪xxxⅹ性| 欧美在线综合视频| 免费资源在线观看| 欧美一级在线播放| 国产乱人伦精品一区| 波多野结衣与黑人| 国产一区二区按摩在线观看| 91社区视频在线观看| 91极品美女在线| 深夜福利在线看| 国产91|九色| 亚洲精品国产setv| 91九色在线观看视频| 不卡一区二区中文字幕| 精品无码人妻一区二区三区品| 日韩欧美美女一区二区三区| 中文在线手机av| 91传媒视频在线观看| 我不卡手机影院| 想看黄色一级片| 亚洲色图在线看| aaa国产视频| 欧美精品999| 欧美顶级毛片在线播放| 中国丰满人妻videoshd| 久久综合狠狠综合久久激情| 亚洲GV成人无码久久精品| 日韩精品在线视频观看| 亚洲美女尤物影院| 色爱区成人综合网| 理论电影国产精品| √天堂中文官网8在线| 精品乱码亚洲一区二区不卡| 岛国av在线网站| 免费国产在线精品一区二区三区| 日本在线不卡一区| 97在线观看视频免费| 日韩欧美一二区| 毛片在线网站| 日韩免费电影一区二区| 黄页网站大全一区二区| 丰满少妇高潮久久三区| 亚洲成人黄色在线| 久久精品女人天堂av免费观看| 亚洲国产一区二区三区在线播| 韩国午夜理伦三级不卡影院| 国产五月天婷婷| 在线播放日韩av| 久久的色偷偷| 国产成人黄色片| 最好看的中文字幕久久| 精品国产亚洲一区二区麻豆| 91精品国产91久久久久久吃药 | 99re热这里只有精品免费视频| 无码无套少妇毛多18pxxxx| 久久国产一区二区三区| 久久久久97| 波多野结衣xxxx| 亚洲一本大道在线| 国产在线观看黄| 91在线免费网站| 亚久久调教视频| 乱老熟女一区二区三区| 亚洲精品国产电影| 九七影院97影院理论片久久 | 青娱乐精品在线视频| 久久久久久天堂| 亚洲性视频网站| eeuss鲁片一区二区三区| 熟妇人妻va精品中文字幕| 亚洲欧美日本在线| 欧美巨乳在线| 国产精品xxxx| 日本系列欧美系列| 国产无遮挡又黄又爽又色| 久久久国产精品免费| 久久99视频| 欧美极品jizzhd欧美仙踪林| 欧美男生操女生|