精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首個標注詳細解釋的多模態科學問答數據集,深度學習模型推理有了思維鏈

人工智能 新聞
深度學習模型是否可以打開「黑箱」,對其推理過程提供一個思維鏈呢?近日,UCLA 和艾倫人工智能研究院(AI2)提出了首個標注詳細解釋的多模態科學問答數據集 ScienceQA,用于測試模型的多模態推理能力。

在回答復雜的問題時,人類可以理解不同模態的信息,并形成一個完整的思維鏈(Chain of Thought, CoT)。深度學習模型是否可以打開「黑箱」,對其推理過程提供一個思維鏈呢?近日,UCLA 和艾倫人工智能研究院(AI2)提出了首個標注詳細解釋的多模態科學問答數據集 ScienceQA,用于測試模型的多模態推理能力。在 ScienceQA 任務中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基于思維鏈的提示學習,從而使得模型能在生成答案的同時,生成相應的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實現了 75.17% 的準確率;并且人類評估表明,其可以生成較高質量的解釋。

像人類一樣有效地學習并完成復雜的任務是人工智能追求的長遠目標之一。人類在決策過程中可以遵循一個完整的思維鏈(CoT)推理過程,從而對給出的答案做出合理的解釋。

然而,已有的機器學習模型大多依賴大量的輸入 - 輸出樣本訓練來完成具體的任務。這些黑箱模型往往直接生成最終的答案,而沒有揭示具體的推理過程。

科學問答任務(Science Question Answering)可以很好地診斷人工智能模型是否具有多步推理能力和可解釋性。為了回答科學問題,一個模型不僅需要理解多模態內容,還需要提取外部知識以得出正確答案。同時,一個可靠的模型還應該給出揭示其推理過程的解釋。然而,目前的科學問答數據集大多缺乏對答案的詳細解釋,或者局限于文字模態。

因此,作者收集了全新的科學問答數據集 ScienceQA,它包含了 21,208 道來自中小學科學課程的問答多選題。一道典型的問題包含多模態的背景(context)、正確的選項、通用的背景知識(lecture)以及具體的解釋(explanation)

圖片

ScienceQA 數據集的一個例子。

要回答上圖所示的例子,我們首先要回憶關于力的定義:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」,然后形成一個多步的推理過程:「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」,最終得到正確答案:「This force is a pull. 」。

在 ScienceQA 任務中,模型需要在預測答案的同時輸出詳細地解釋。在本文中,作者利用大規模語言模型生成背景知識和解釋,作為一種思維鏈(CoT)來模仿人類具有的多步推理能力

實驗表明,目前的多模態問答方法在 ScienceQA 任務不能取得很好的表現。相反,通過基于思維鏈的提示學習,GPT-3 模型能在 ScienceQA 數據集上取得 75.17% 的準確率,同時可以生成質量較高的解釋:根據人類評估,其中 65.2% 的解釋相關、正確且完整。思維鏈也可以幫助 UnifiedQA 模型在 ScienceQA 數據集上取得 3.99% 的提升。

圖片

  • 論文鏈接:https://arxiv.org/abs/2209.09513
  • 代碼鏈接:https://github.com/lupantech/ScienceQA
  • 項目主頁:https://scienceqa.github.io/
  • 數據可視化:https://scienceqa.github.io/explore.html
  • Leaderboard:https://scienceqa.github.io/leaderboard.html

1、ScienceQA 數據集

數據集統計

ScienceQA 的主要統計信息如下所示。

圖片

ScienceQA 數據集的主要信息

ScienceQA 包含 21208 個例子, 其中有 9122 個不同的問題(question)。10332 道(48.7%)有視覺背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有視覺 + 文本的背景信息。絕大部分問題標注有詳細的解釋:83.9% 的問題有背景知識標注(lecture),而 90.5% 的問題有詳細的解答(explanation)。

圖片

ScienceQA 數據集中問題和背景分布。

數據集主題分布

不同于已有的數據集,ScienceQA 涵蓋自然科學、社會科學和語言學三大學科分支,包含 26 個主題(topic)、127 個分類(category)和 379 個知識技能(skill)

圖片

ScienceQA 的主題分布。

數據集詞云分布

如下圖的詞云分布所示,ScienceQA 中的問題具有豐富的語義多樣性。模型需要理解不同的問題表達、場景和背景知識。

ScienceQA 的詞云分布。

數據集比較

ScienceQA 是第一個標注詳細解釋的多模態科學問答數據集。相比于已有的數據集,ScienceQA 的數據規模、題型多樣性、主題多樣性等多個維度體現了優勢。

圖片

ScienceQA 數據集與其它科學問答數據集的比較。

2、模型和方法

Baselines

作者在 ScienceQA 數據集了評估不同的基準方法,包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT,大規模語言模型如 UnifiedQA 和 GPT-3,以及 random chance 和 human performance。對于語言模型 UnifiedQA 和 GPT-3,背景圖片會被轉換成文本形式的注釋(caption)。

GPT-3 (CoT)

最近的研究工作表明,在給定合適的提示后,GPT-3 模型可以在不同的下游任務表現出卓越的性能。為此,作者提出 GPT-3 (CoT) 模型,在提示中加入思維鏈(CoT),使得模型在生成答案的同時,可以生成對應的背景知識和解釋

具體的提示模板如下圖所示。其中 Ii 表示訓練例子,It 表示測試例子。訓練例子包含問題(Question)、選項(Options)、背景(Context)和答案(Answer)元素,其中答案由正確答案、背景知識(Lecture)和解釋(Explanation)組成。GPT-3 (CoT) 會根據輸入的提示信息,補全測試例子的預測答案、背景知識和解釋。

圖片

GPT-3 (CoT) 采用的提示模板。

3、實驗與分析

實驗結果

不同的基準和方法在 ScienceQA 測試集上的準確率結果如下表所示。當前最好的 VQA 模型之一的 VisualBERT 只能達到 61.87% 的準確率。在訓練的過程引入 CoT 數據,UnifiedQA_BASE 模型可以實現 74.11% 的準確率。而 GPT-3 (CoT) 在 2 個訓練例子的提示下,實現了 75.17% 的準確率,高于其它基準模型。人類在 ScienceQA 數據集上表現優異,可以達到 88.40% 的總體準確率,并且在不同類別的問題上表現穩定。

圖片

不同的方法在 ScienceQA 測試集上的結果。

生成解釋的評估

作者用自動評估指標如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 評估了不同方法生成的解釋。由于自動評估指標只能衡量預測結果和標注內容的相似性,因此作者進一步采用了人工評估的方法,來評估生成解釋的相關性、正確性和完整性。可以看到,GPT-3 (CoT) 生成的解釋中 65.2% 符合了 Gold 標準

不同評估方法對生成解釋的結果。

不同的提示模板

作者比較了不同的提示模板對 GPT-3 (CoT) 準確率的影響。可以看到在 QAM-ALE 的模板下,GPT-3 (CoT) 可以獲得最大的平均準確率和最小的方差。另外,GPT-3 (CoT) 在 2 個訓練例子的提示下,表現最佳。

不同提示模板的結果比較。

模型上限

為了探索 GPT-3 (CoT) 模型的性能上限,作者把標注的背景知識和解釋加入模型的輸入(QCMLE*-A)。我們可以看到 GPT-3 (CoT) 可以實現高達 94.13% 的準確率。這也提示了模型提升的一個可能方向:模型可以進行分步推理,即先檢索到準確的背景知識和生成準確的解釋,然后把這些結果作為輸入。這個過程和人類解決復雜問題的過程很相似。

圖片

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者進一步討論了 GPT-3 (CoT) 在生成預測時,不同的 ALE 位置對結果的影響。在 ScienceQA 上的實驗結果表明,如果 GPT-3 (CoT) 先生成背景知識 L 或解釋 E,再生成答案 A,其預測準確率會大幅下降。其主要原因是背景知識 L 和解釋 E 有較多的詞語數量,如果先生成 LE,GPT-3 模型有可能用完最大詞數,或者提前停止生成文本,從而不能得到最終的答案 A。

圖片不同的 LE 位置。

成功案例

如下 4 個例子中,GPT-3 (CoT) 不但能生成正確的答案,也能給出相關、正確且完整的解釋。這說明 GPT-3 (CoT) 在 ScienceQA 數據集上表現出較強的多步推理和解釋能力。

圖片

圖片

圖片

圖片

GPT-3 (CoT) 生成正確答案和解釋的例子。

失敗案例 I

在下面的三個例子中,GPT-3 (CoT) 雖然生成了正確的答案,但是生成的解釋不相關、不正確或者不完整。這說明 GPT-3 (CoT) 對于生成邏輯一致的長序列還面臨較大的困難。

圖片

圖片

圖片

GPT-3 (CoT) 能生成正確答案、但是生成的解釋不正確的例子。

失敗案例 II

在下面的四個例子中,GPT-3 (CoT) 不能生成正確的答案,也不能生成正確的解釋。其中的原因有:(1)當前的 image captioning 模型還不能準確地描述示意圖、表格等圖片的語義信息,如果用圖片注釋文本表示圖片,GPT-3 (CoT) 還不能很好地回答包含圖表背景的問題;(2)GPT-3 (CoT) 生成長序列時,容易出現前后不一致(inconsistent)或不連貫(incoherent)的問題;(3)GPT-3 (CoT) 還不能很好地回答需要特定領域知識的問題。

圖片

圖片

圖片

圖片

GPT-3 (CoT) 能生成錯誤答案和解釋的例子。

4、結論與展望

作者提出了首個標注詳細解釋的多模態科學問答數據集 ScienceQA。ScienceQA 包含 21208 道來自中小學科學學科的多選題,涵蓋三大科學領域和豐富的話題,大部分問題標注有詳細的背景知識和解釋。ScienceQA 可以評估模型在多模態理解、多步推理和可解釋性方面的能力。作者在 ScienceQA 數據集上評估了不同的基準模型,并提出 GPT-3 (CoT) 模型在生成答案的同時,可以生成相應的背景知識和解釋。大量的實驗分析和案例分析對模型的改進提出了有利的啟發。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-16 07:30:00

2023-06-05 10:01:18

模型測評

2024-04-08 00:12:19

2024-08-12 09:40:00

模型數據

2025-05-14 08:51:00

2025-03-25 09:06:11

2025-05-21 08:47:00

2025-06-10 03:30:00

2024-12-18 18:57:58

2025-10-10 01:25:00

大模型訓練數據OpenAI

2025-02-13 09:00:00

2025-06-27 08:40:00

模型推理AI

2025-08-28 09:22:23

2024-09-23 08:20:00

模型訓練

2025-06-09 08:37:00

2020-09-29 17:00:33

人工智能

2022-11-08 09:59:07

數據集技術

2025-05-30 15:54:16

模型AI生成

2023-11-19 23:36:50

點贊
收藏

51CTO技術棧公眾號

国产成人啪精品视频免费网| 欧美日韩精品综合在线| av在线不卡一区| 男人的天堂一区二区| 妖精视频一区二区三区 | 国产精品1234区| 免费精品国产| 精品欧美一区二区三区精品久久| 色综合av综合无码综合网站| 久草资源在线观看| 99久久精品一区| 国产在线观看一区二区三区| 国产一级av毛片| 日韩一区亚洲二区| 日韩精品在线免费观看视频| 久久精品免费网站| 2018av在线| 中文字幕一区在线观看视频| 精品一区二区久久久久久久网站| 一级久久久久久久| 性欧美xxxx大乳国产app| 美女视频久久黄| 北条麻妃一区二区三区中文字幕| 日韩一区二区三区高清| 亚洲精品免费在线观看视频| 日韩av在线播放中文字幕| 欧美精品久久久久久久久久| 成人无码精品1区2区3区免费看| 卡通动漫国产精品| 日韩一区二区三区四区| 亚洲 中文字幕 日韩 无码| 欧美巨大xxxx做受沙滩| 中文字幕日韩一区二区| 日韩免费av电影| 欧美91精品久久久久国产性生爱| 成人一区在线看| 91香蕉国产在线观看| 在线观看免费中文字幕| 狂野欧美性猛交xxxx巴西| 91av福利视频| 免费观看一区二区三区毛片| 欧美视频网站| 欧美精品在线免费| 91精品国产高清一区二区三蜜臀| 五月天久久网站| 精品国模在线视频| 伊人久久大香线蕉成人综合网| 日本黄色大片视频| 福利电影一区二区| 不卡视频一区二区| 午夜精品久久久久久久爽 | 国产不卡的av| 99久热在线精品视频观看| 色综合久久久久久久| 九九九九免费视频| 在线免费三级电影网站| 黑人巨大精品欧美一区免费视频| 国产自产在线视频| 极品av在线| 欧美日韩中文字幕日韩欧美| 欧美日韩在线不卡视频| 影视一区二区三区| 在线欧美福利| 国产精品夫妻自拍| 亚洲精品国产一区| 色网站免费在线观看| 国产精品伦理在线| 一区二区视频在线观看| 欧美a在线看| 亚洲伦理在线精品| 国产视频在线观看网站| 91福利在线免费| 一本一道久久a久久精品 | 欧美人与禽zozzo禽性配| 国产精品v日韩精品v欧美精品网站 | 极品日韩av| 奇门遁甲1982国语版免费观看高清 | 成年人在线视频| 亚洲色图欧美激情| 男人添女荫道口女人有什么感觉| f2c人成在线观看免费视频| 欧美性xxxx极品hd欧美风情| 日本中文字幕精品—区二区| 日韩高清一区| 亚洲欧美一区二区三区情侣bbw | 下面一进一出好爽视频| 久久porn| www.国产一区| 91久久国产视频| 日韩制服丝袜av| 亚洲自拍偷拍色片视频| 亚洲国产精品午夜在线观看| 久久国产精品久久久久久电车| 国产精品亚洲欧美导航| 草久视频在线观看| 蜜臀av国产精品久久久久| 91嫩草在线| 国产三级在线免费观看| 一区二区三区在线不卡| 日韩中文字幕二区| 日本久久伊人| 亚洲丝袜av一区| 久久久国产成人| 青青青爽久久午夜综合久久午夜| 国产精品视频第一区| 日韩av电影在线播放| aaa一区二区| 久久精品日韩一区二区三区| 97在线免费视频观看| 国产成人精品123区免费视频| 日韩欧美国产一区二区三区| 国产ts在线播放| 欧美日韩精品| 国产欧美精品日韩精品| 四虎在线观看| 亚洲一区二区三区四区五区中文| 亚洲成人天堂网| 亚洲成人一品| 高清欧美电影在线| 国产高中女学生第一次| 国产精品免费网站在线观看| 日本福利视频在线| av不卡一区二区| 久久福利网址导航| 依依成人在线视频| 国产日韩av一区二区| 日本一道本久久| av不卡一区二区| 欧美丰满老妇厨房牲生活| 真实新婚偷拍xxxxx| 91视频免费播放| 免费 成 人 黄 色| 大奶在线精品| 国内精品久久久久久影视8| 国产成人精品一区二三区四区五区 | 97久草视频| 国产原创在线观看| 欧美精品一二三区| av永久免费观看| 视频一区二区三区中文字幕| 久久精品二区| 丝袜老师在线| 精品视频久久久久久| 成年人午夜视频| 99久久精品免费看国产免费软件| 日韩极品视频在线观看| 91欧美日韩在线| 欧美激情在线观看| 无码国产精品高潮久久99| 亚洲成人一区二区在线观看| 丰满少妇xbxb毛片日本| 亚洲性图久久| 精品不卡在线| 亚洲黄色网址| 国产精品久久| 日韩亚洲欧美成人| 一级淫片免费看| 亚洲品质自拍视频网站| 久久久久久久久久毛片| 欧美日韩一区二区三区四区在线观看| 亚洲一区二区免费| 丰满的护士2在线观看高清| 精品99一区二区| 影音先锋在线国产| 欧美国产日韩亚洲一区| 国产精品久久久久久9999| 欧美啪啪一区| 免费h精品视频在线播放| 欧美日韩免费观看视频| 日韩中文字幕免费| 亚洲美女性生活| 欧美性猛交xxxx免费看漫画| 日本理论中文字幕| 国产综合色在线| a级黄色一级片| 久久av中文| 91在线无精精品一区二区| 18video性欧美19sex高清| 国产亚洲精品久久久久久| 96日本xxxxxⅹxxx17| 一区二区三区成人| 国产麻豆天美果冻无码视频| 蜜芽一区二区三区| 人妻av无码专区| 狠狠操综合网| 国产精品swag| se69色成人网wwwsex| 久久99久久亚洲国产| 日韩精品视频无播放器在线看 | 极品人妻一区二区| 久久精品一区二区三区中文字幕 | a级片免费观看| 懂色av一区二区三区免费看| 韩国日本在线视频| 最新欧美人z0oozo0| 欧美精品欧美精品系列c| 91精品国产一区二区在线观看| 久久久人成影片一区二区三区| 偷拍自拍在线视频| 欧美一区二区三区人| 国产精品美女久久久久av爽| 日韩毛片一二三区| 在线不卡av电影| 国产成人av福利| 欧美激情第3页| 宅男噜噜噜66一区二区| 欧美大片免费播放| 精品国产精品久久一区免费式 | 色哟哟精品视频| 在线精品一区二区| 裸体裸乳免费看| 成人3d精品动漫精品一二三| 国产精品久久7| 国产一区精品二区| 国产精品亚洲美女av网站| 亚洲妇女成熟| 久久免费少妇高潮久久精品99| 麻豆免费在线观看| 色综久久综合桃花网| 国外av在线| 精品丝袜一区二区三区| 好吊视频一二三区| 欧美不卡一区二区三区四区| 国产尤物视频在线观看| 欧美中文字幕亚洲一区二区va在线| 精品成人久久久| 亚洲午夜一区二区三区| 丝袜美腿小色网| 一色屋精品亚洲香蕉网站| 男人的天堂av网| 国产亚洲婷婷免费| 精品人妻一区二区三区视频| caoporn国产精品| 野战少妇38p| 成人一区二区三区视频| 色综合久久久无码中文字幕波多| 国产美女精品人人做人人爽 | 亚洲男人在线| 成人综合网网址| 亚洲精品成a人ⅴ香蕉片| 国产欧美一区二区三区四区| 国产资源一区| 成人av资源在线播放| 久久精品嫩草影院| 一区二区三区高清| 毛片在线播放视频| 激情婷婷欧美| 国产v片免费观看| 午夜亚洲视频| 国内外免费激情视频| 三级久久三级久久久| 青青草av网站| 久久66热re国产| 中文字幕中文字幕一区三区| 成人精品亚洲| 伊人久久大香线蕉精品| 一区二区电影在线观看| 国产又爽又黄ai换脸| 91精品99| 国产一二三区在线播放| 亚洲国产一区二区三区高清| 各处沟厕大尺度偷拍女厕嘘嘘| 亚洲一区区二区| 日本爱爱免费视频| 久久91精品久久久久久秒播| 午夜影院免费观看视频| 成人性生交大片免费| 私密视频在线观看| 国产亚洲精品福利| 国产又色又爽又高潮免费| 亚洲免费资源在线播放| 国产欧美日韩另类| 91成人在线观看喷潮| 一区二区三区黄色片| 日韩欧美资源站| 日本人妖在线| 日韩中文第一页| 国产理论电影在线| 国产成人精品午夜| 日韩08精品| 日韩精品电影网站| 欧美99久久| 激情婷婷综合网| 国产精品一区二区无线| 亚洲第一成人网站| 亚洲视频免费看| 亚洲精品狠狠操| 国产sm主人调教女m视频| 亚洲大胆美女视频| aiai在线| 91精品国产91| 青娱乐极品盛宴一区二区| 国产精品免费一区二区| 精品美女久久久| 丰满少妇大力进入| 久久精品国产色蜜蜜麻豆| 西西大胆午夜视频| 亚洲免费av网站| 亚洲男人天堂网址| 亚洲二区中文字幕| 麻豆tv免费在线观看| 777777777亚洲妇女| 国产一区二区视频在线看| 日本一区二区精品视频| 国产精品videosex极品| 自拍偷拍一区二区三区四区| 97se亚洲国产综合自在线不卡| 手机在线中文字幕| 色综合久久99| 天天操天天干天天| 久久91精品国产91久久久| 成人涩涩视频| 欧美另类高清视频在线| 亚洲小说欧美另类婷婷| 中文字幕在线视频一区二区三区| 91麻豆精品在线观看| 妺妺窝人体色www聚色窝仙踪| 欧美午夜在线一二页| 久久经典视频| 4k岛国日韩精品**专区| 北条麻妃一区二区三区在线观看| 一区二区三区电影| 青娱乐精品在线视频| 泷泽萝拉在线播放| 午夜伊人狠狠久久| 成人免费视频国产| 美乳少妇欧美精品| 日韩国产一二三区| 亚洲成人一区二区三区| 日韩精品一卡二卡三卡四卡无卡| 亚洲观看黄色网| 亚洲成av人**亚洲成av**| 性一交一乱一伧老太| 久久资源免费视频| 国产亚洲高清一区| 成人国产一区二区三区| 国产精品白丝jk白祙喷水网站 | 日本精品三区| 亚洲免费av一区二区三区| 久久免费看少妇高潮| av资源免费观看| 亚洲精品视频免费在线观看| 蜜桃麻豆av在线| 久久99国产精品| 国产精品美女久久久| 大又大又粗又硬又爽少妇毛片| 欧美日韩在线免费观看| 深夜福利免费在线观看| 69精品小视频| 蜜乳av综合| 色一情一乱一伦一区二区三区日本| 国产欧美一区二区精品性| 中文天堂在线视频| 日韩视频在线观看免费| 国产又粗又长又黄的视频| 久久人人97超碰com| 亚洲乱码国产乱码精品| 国产午夜精品免费一区二区三区| 第84页国产精品| 亚洲不卡1区| 蜜臀久久99精品久久久久久9 | 99视频精品全国免费| 国内自拍第二页| 亚洲在线视频一区| 香蕉视频黄在线观看| 国产va免费精品高清在线| 青青草成人影院| 香蕉网在线视频| 午夜视频在线观看一区二区三区| 少妇激情av一区二区| 国产精品入口日韩视频大尺度| 亚洲xxx拳头交| 日韩女优在线视频| 在线欧美一区二区| 麻豆免费在线观看| 精品国产aⅴ麻豆| 日本视频一区二区三区| 日韩一级片大全| 亚洲国产精品久久久久秋霞不卡| 国产精品一区二区av影院萌芽| 亚洲图片都市激情| 成人一级黄色片| 国产情侣小视频| 九九久久精品一区| 深爱激情综合| 91国内在线播放| 精品美女永久免费视频| 日韩理伦片在线| 国产区一区二区| 久久国产精品99久久人人澡| 日本少妇全体裸体洗澡| 日韩中文av在线| 亚洲精品国产精品粉嫩| 国产精品久久久久久久99| 狠狠躁夜夜躁久久躁别揉| 成人免费网站在线观看视频| 免费h精品视频在线播放| 国产成人午夜99999| 天天干,天天干| 91精品91久久久久久|