精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大語(yǔ)言模型的進(jìn)化樹(shù),這是一份超詳細(xì)ChatGPT「食用」指南

人工智能 新聞
ChatGPT 引發(fā)的輿論熱潮至今仍未消退,以其為代表的大型語(yǔ)言模型(LLM)正是目前自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn),同時(shí)其在機(jī)器翻譯、文本生成和聊天機(jī)器人等方面的應(yīng)用也讓實(shí)踐者們躍躍欲試,期望找到新的應(yīng)用和商業(yè)機(jī)會(huì)。

而在實(shí)際探索的過(guò)程中,實(shí)踐者可能會(huì)苦于尋找適合自己應(yīng)用的 AI 模型:是選擇 LLM 還是微調(diào)模型?如果用 LLM,又該選擇哪一種?

近日,來(lái)自亞馬遜、德州農(nóng)工大學(xué)、萊斯大學(xué)等機(jī)構(gòu)的學(xué)者對(duì) ChatGPT 等語(yǔ)言模型的發(fā)展歷程進(jìn)行了一番討論,其文章也得到了 Yann LeCun 的轉(zhuǎn)推。

圖片

論文:https://arxiv.org/abs/2304.13712

相關(guān)資源:https://github.com/Mooler0410/LLMsPracticalGuide

圖片

本文將從實(shí)際應(yīng)用角度出發(fā),探討適用 LLM 的任務(wù)以及在選擇模型時(shí)需要考慮的模型、數(shù)據(jù)和任務(wù)等方面實(shí)際問(wèn)題。

1 引言

近年來(lái),發(fā)展迅猛的大型語(yǔ)言模型(LLM)已然引發(fā)了自然語(yǔ)言處理(NLP)領(lǐng)域的革命。這些模型非常強(qiáng)大,有望解決許多不同種類的 NLP 任務(wù) —— 從自然語(yǔ)言理解(NLU)到生成任務(wù),甚至鋪就了通往通用人工智能(AGI)之路。但是,為了有效且高效地利用這些模型,我們需要立足實(shí)際地理解它們的能力和局限,還要理解 NLP 所涉及的數(shù)據(jù)和任務(wù)。 

這篇論文重點(diǎn)著眼于在下游 NLP 任務(wù)中實(shí)際應(yīng)用 LLM 的各個(gè)方面,以給實(shí)踐者和最終用戶提供指引。本指南的目標(biāo)是為讀者提供實(shí)際有用的建議,以助其了解是否應(yīng)該為給定任務(wù)選用 LLM 以及如何選擇最適用的 LLM—— 這其中需要考慮諸多因素,比如模型大小、計(jì)算需求、具體領(lǐng)域是否已有預(yù)訓(xùn)練模型等。本文還會(huì)從實(shí)際應(yīng)用角度介紹和解釋 LLM,這些實(shí)用知識(shí)能助力實(shí)踐者和最終用戶成功利用 LLM 的力量來(lái)解決他們自己的 NLP 任務(wù)。

本文的結(jié)構(gòu)為:本文首先會(huì)簡(jiǎn)要介紹 LLM,其中主要會(huì)討論最重要的 GPT 式和 BERT 式架構(gòu)。然后會(huì)深入介紹數(shù)據(jù)方面影響模型性能表現(xiàn)的關(guān)鍵因素,包括預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練數(shù)據(jù) / 調(diào)優(yōu)數(shù)據(jù)、測(cè)試數(shù)據(jù)。在最后也是最重要的部分,本文會(huì)深入各種具體的 NLP 任務(wù),介紹 LLM 是否適用于知識(shí)密集型任務(wù)、傳統(tǒng) NLU 任務(wù)和生成任務(wù),此外還會(huì)描述這些模型不斷獲得的新能力以及具有挑戰(zhàn)性的現(xiàn)實(shí)世界應(yīng)用場(chǎng)景。我們會(huì)提供詳細(xì)的案例,以彰顯 LLM 在實(shí)踐中有用和有局限的地方。 

為了分析大型語(yǔ)言模型的能力,本文會(huì)將它們與微調(diào)模型(fine-tuned model)進(jìn)行比較。對(duì)于 LLM 和微調(diào)模型的定義,目前而言我們還沒(méi)有一個(gè)得到廣泛認(rèn)可的標(biāo)準(zhǔn)。為了實(shí)際有效地區(qū)分,本文給出的定義如下:LLM 是指在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練得到的大型語(yǔ)言模型并且沒(méi)有針對(duì)具體任務(wù)調(diào)整數(shù)據(jù);微調(diào)模型則通常更小一些,它們?cè)诮?jīng)過(guò)預(yù)訓(xùn)練后還會(huì)在更小的具體任務(wù)數(shù)據(jù)集上做進(jìn)一步微調(diào),以優(yōu)化它們?cè)谠撊蝿?wù)上的表現(xiàn)。 

本文總結(jié)了在以下方面使用 LLM 的實(shí)用指南:

  • 自然語(yǔ)言理解。當(dāng)實(shí)際數(shù)據(jù)不在訓(xùn)練數(shù)據(jù)的分布范圍內(nèi)或訓(xùn)練數(shù)據(jù)非常少時(shí),可利用 LLM 那出色的泛化能力。 
  • 自然語(yǔ)言生成。使用 LLM 的能力為各種應(yīng)用創(chuàng)造連貫的、上下文相關(guān)的和高質(zhì)量的文本。 
  • 知識(shí)密集型任務(wù)。利用 LLM 中存儲(chǔ)的廣博知識(shí)來(lái)處理需要特定專業(yè)知識(shí)或一般性世界知識(shí)的任務(wù)。 
  • 推理能力。理解和利用 LLM 的推理能力來(lái)提升各種情形中制定決策和解決問(wèn)題的能力。

2 模型方面的實(shí)用指南

圖片

圖 1:這幅現(xiàn)代 LLM 的進(jìn)化樹(shù)追溯了近些年語(yǔ)言模型的發(fā)展歷程,其中重點(diǎn)凸顯了某些最知名的模型。同一分支上的模型關(guān)系更近。基于 Transformer 的模型都不用灰色表示:僅解碼器模型是藍(lán)色分支,僅編碼器模型是粉色分支,編碼器 - 解碼器模型是綠色分支。模型在時(shí)間軸的豎直位置表示其發(fā)布時(shí)間。實(shí)心方塊表示開(kāi)源模型,空心方塊則是閉源模型。右下角的堆積條形圖是指各家公司和機(jī)構(gòu)的模型數(shù)量。

這一節(jié)會(huì)簡(jiǎn)要介紹當(dāng)前表現(xiàn)最佳的 LLM。這些模型有著各不相同的訓(xùn)練策略、模型架構(gòu)和用例。為了更清晰地理解 LLM 的整體圖景,我們可將其分為兩大類:編碼器 - 解碼器或僅編碼器(encoder-only)語(yǔ)言模型和僅解碼器(decoder-only)語(yǔ)言模型。圖 1 詳細(xì)展示了語(yǔ)言模型的演化過(guò)程。基于這幅進(jìn)化樹(shù),我們可以觀察到一些有趣的結(jié)論:

a)僅解碼器模型正逐漸成為 LLM 發(fā)展的主導(dǎo)模型。在 LLM 的早期發(fā)展階段,僅解碼器模型的流行程度趕不上僅編碼器和編碼器 - 解碼器模型。但在 2021 年之后,GPT-3 的出現(xiàn)改變了行業(yè)圖景,僅解碼器模型經(jīng)歷了爆發(fā)式的發(fā)展。與此同時(shí),BERT 也為僅編碼器模型帶來(lái)了初始的爆發(fā)式增長(zhǎng),但在那之后,僅編碼器模型卻漸漸淡出了視野。

b)OpenAI 持續(xù)保持著其在 LLM 方向上的領(lǐng)先地位,現(xiàn)在如此,未來(lái)很可能也是如此。為了開(kāi)發(fā)可與 GPT-3 和 GPT-4 媲美的模型,其它公司和機(jī)構(gòu)正在奮力追趕。OpenAI 的領(lǐng)先地位可能需要?dú)w功于其在技術(shù)上持續(xù)不懈的投入,即便該技術(shù)在早期時(shí)并未得到廣泛認(rèn)可。

c)Meta 在開(kāi)源 LLM 和推動(dòng) LLM 研究方面貢獻(xiàn)卓越。在對(duì)開(kāi)源社區(qū)(尤其是與 LLM 相關(guān)的)的貢獻(xiàn)方面,Meta 尤為突出,是最慷慨的商業(yè)公司之一,因?yàn)?Meta 開(kāi)源了其開(kāi)發(fā)的所有 LLM。

d)LLM 開(kāi)發(fā)有閉源的趨勢(shì)。在 LLM 發(fā)展的早期階段(2020 年之前),絕大部分模型都是開(kāi)源的。但是,隨著 GPT-3 的推出,公司越來(lái)越傾向于選擇閉源他們的模型,比如 PaLM、LaMDA 和 GPT-4。也因此,學(xué)術(shù)研究者越來(lái)越難以進(jìn)行 LLM 訓(xùn)練實(shí)驗(yàn)。這就導(dǎo)致了一個(gè)結(jié)果:基于 API 的研究可能會(huì)成為學(xué)術(shù)界的主導(dǎo)方法。

e)編碼器 - 解碼器模型依然有發(fā)展前景,因?yàn)楣竞蜋C(jī)構(gòu)依然在積極探索這類架構(gòu),并且大部分模型都是開(kāi)源的。谷歌在開(kāi)源編碼器 - 解碼器方面有重大貢獻(xiàn)。但是,由于僅解碼器模型的靈活性和通用性,谷歌在這個(gè)方向上堅(jiān)持成功的希望似乎更小一些。

表 1 簡(jiǎn)要總結(jié)了各種代表性 LLM 的特點(diǎn)。

圖片

表 1:大型語(yǔ)言模型的特點(diǎn)

2.1 BERT 式語(yǔ)言模型:編碼器 - 解碼器或僅編碼器

由于自然語(yǔ)言數(shù)據(jù)很容易獲得,并且還能使用無(wú)監(jiān)督訓(xùn)練范式來(lái)更好地利用超大規(guī)模數(shù)據(jù)集,因此最近一段時(shí)間,自然語(yǔ)言無(wú)監(jiān)督學(xué)習(xí)的發(fā)展獲得了長(zhǎng)足的進(jìn)步。一種常用方法是基于上下文來(lái)預(yù)測(cè)句子中被遮掩的詞。這種訓(xùn)練范式被稱為掩碼語(yǔ)言模型(Masked Language Model)。這種訓(xùn)練方式讓模型能更深刻地理解詞與其上下文之間的關(guān)系。這些模型是在大型文本語(yǔ)料上訓(xùn)練的,使用了 Transformer 架構(gòu)等技術(shù),并且在許多 NLP 任務(wù)上達(dá)到過(guò)最佳表現(xiàn),比如情感分析和命名實(shí)體識(shí)別。著名的掩碼語(yǔ)言模型有 BERT、RoBERTa 和 T5。由于其在多種任務(wù)上的成功表現(xiàn),掩碼語(yǔ)言模型已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的一種重要工具。

2.2 GPT 式語(yǔ)言模型:僅解碼器

盡管語(yǔ)言模型的架構(gòu)通常與具體任務(wù)無(wú)關(guān),但這些方法需要基于具體下游任務(wù)的數(shù)據(jù)集進(jìn)行微調(diào)。研究者發(fā)現(xiàn)擴(kuò)增語(yǔ)言模型的規(guī)模就能顯著提升其在少樣本或零樣本時(shí)的表現(xiàn)。在提升少樣本和零樣本時(shí)的表現(xiàn)方面,最成功的模型是自回歸語(yǔ)言模型,它的訓(xùn)練方式是根據(jù)給定序列中前面的詞來(lái)生成下一個(gè)詞。這些模型已被廣泛用于文本生成和問(wèn)答等下游任務(wù)。自回歸語(yǔ)言模型包括 GPT-3、OPT、PaLM 和 BLOOM。變革性的 GPT-3 首次表明通過(guò)提示和上下文學(xué)習(xí)能在少 / 零樣本時(shí)給出合理結(jié)果,并由此展現(xiàn)了自回歸語(yǔ)言模型的優(yōu)越性。

另外還有針對(duì)具體任務(wù)優(yōu)化的模型,比如用于代碼生成的 CodeX 以及用于金融領(lǐng)域的 BloombergGPT。近期的重大突破是 ChatGPT,該模型是針對(duì)對(duì)話任務(wù)優(yōu)化的 GPT-3,其能為多種現(xiàn)實(shí)世界應(yīng)用生成更具交互性、更連貫且更貼合上下文的對(duì)話。

3 數(shù)據(jù)方面的實(shí)用指南

本節(jié)將介紹在為下游任務(wù)選擇合適模型時(shí)數(shù)據(jù)的關(guān)鍵性作用。數(shù)據(jù)對(duì)模型有效性的影響從預(yù)訓(xùn)練階段就開(kāi)始了,并會(huì)一直持續(xù)到訓(xùn)練和推理階段。

重點(diǎn) 1

(1)當(dāng)下游任務(wù)會(huì)用到分布之外的數(shù)據(jù)時(shí),比如使用對(duì)抗樣本或數(shù)據(jù)域變化時(shí),LLM 的泛化能力優(yōu)于微調(diào)模型。

(2)當(dāng)已標(biāo)注數(shù)據(jù)有限時(shí),LLM 優(yōu)于微調(diào)模型;當(dāng)有豐富的已標(biāo)注數(shù)據(jù)時(shí),兩者都是合理選擇,這取決于具體的任務(wù)需求。

(3)建議選擇預(yù)訓(xùn)練使用的數(shù)據(jù)域與下游任務(wù)數(shù)據(jù)域相似的模型。

4 NLP 任務(wù)方面的實(shí)用指南

本節(jié)將詳細(xì)討論 LLM 在多種下游 NLP 任務(wù)上是否有用以及對(duì)應(yīng)的模型能力。圖 2 是將所有討論總結(jié)成的一張決策流程圖。當(dāng)面對(duì)某個(gè)任務(wù)時(shí),可基于該流程進(jìn)行快速?zèng)Q策。

圖片

圖 2:用戶為 NLP 應(yīng)用選擇 LLM 或微調(diào)模型時(shí)的決策流程。這張決策流程圖可幫助用戶評(píng)估他們手頭的下游 NLP 任務(wù)是否滿足特定條件,并且還能基于評(píng)估結(jié)果確定他們的應(yīng)用最適合選擇 LLM 還是微調(diào)模型。在圖中的決策流程中,Y 表示符合條件,N 表示不符合條件。最后一個(gè)條件的 Y 旁的黃色圓圈表示目前還沒(méi)有很適合這類應(yīng)用的模型。

4.1 傳統(tǒng)的 NLU 任務(wù)

傳統(tǒng) NLU 任務(wù)是 NLP 領(lǐng)域中一些基本任務(wù),包括文本分類、命名實(shí)體識(shí)別(NER)、蘊(yùn)含預(yù)測(cè)(entailment prediction)等。這些任務(wù)中的許多都可用作更大型 AI 系統(tǒng)的中間步驟,比如將 NER 用于知識(shí)圖譜構(gòu)建。

不適用 LLM:對(duì)于大多數(shù)自然語(yǔ)言理解任務(wù),比如 GLUE 和 SuperGLUE 中的任務(wù),如果該任務(wù)已有豐富的標(biāo)注良好的數(shù)據(jù)并且測(cè)試集中僅有非常少的數(shù)據(jù)在分布之外,那么微調(diào)模型的表現(xiàn)依然更好。當(dāng)任務(wù)與數(shù)據(jù)集各不相同時(shí),小型微調(diào)模型和 LLM 之間的差距也會(huì)不同。

適用 LLM:但是,也有些 NLU 任務(wù)更適合用 LLM 處理。其中兩項(xiàng)代表性任務(wù)是繁雜文本的分類問(wèn)題和對(duì)抗式自然語(yǔ)言推理。

重點(diǎn) 2

對(duì)傳統(tǒng)自然語(yǔ)言理解任務(wù)而言,微調(diào)模型通常是比 LLM 更好的選擇,但如果該任務(wù)需要強(qiáng)大的泛化能力,那么 LLM 可提供幫助。

4.2 生成任務(wù)

自然語(yǔ)言生成的目標(biāo)是創(chuàng)建連貫的、有意義的且符合上下文的符號(hào)序列,其大致上包含兩大類任務(wù)。第一類任務(wù)關(guān)注的重心是將輸入文本轉(zhuǎn)換成新的符號(hào)序列,例子包括段落摘要和機(jī)器翻譯。第二類任務(wù)則是「開(kāi)放式生成」,目標(biāo)是從頭開(kāi)始生成文本或符號(hào),使之準(zhǔn)確匹配輸入的描述,比如編寫(xiě)電子郵件、撰寫(xiě)新文章、創(chuàng)造虛構(gòu)故事以及寫(xiě)代碼。

適用 LLM:生成任務(wù)需要模型全面理解輸入的內(nèi)容或需求并且還需要一定程度的創(chuàng)造力。這正是 LLM 擅長(zhǎng)的。

不適用 LLM:在大多數(shù)有豐富資源的翻譯任務(wù)和資源很少的翻譯任務(wù)上,微調(diào)模型的表現(xiàn)更佳,比如 DeltaLM+Zcode。對(duì)于有豐富資源的機(jī)器翻譯,微調(diào)模型稍微優(yōu)于 LLM。對(duì)于資源極少的機(jī)器翻譯,比如英語(yǔ) - 哈薩克語(yǔ)翻譯,微調(diào)模型顯著優(yōu)于 LLM。

重點(diǎn) 3

得益于強(qiáng)大的生成能力和創(chuàng)造力,LLM 在大多數(shù)生成任務(wù)上都有優(yōu)勢(shì)。

4.3 知識(shí)密集型任務(wù)

知識(shí)密集型 NLP 任務(wù)是指非常依賴背景知識(shí)、特定領(lǐng)域?qū)I(yè)知識(shí)或一般性真實(shí)世界知識(shí)的任務(wù)類別。這些任務(wù)需要的不僅僅是模式識(shí)別或句法分析。它們高度依賴記憶和適當(dāng)利用知識(shí),這些知識(shí)關(guān)聯(lián)著我們的真實(shí)世界的特定實(shí)體、事件和常識(shí)。

適用 LLM:一般來(lái)說(shuō),如果有數(shù)以十億計(jì)的訓(xùn)練 token 和參數(shù),LLM 所包含的真實(shí)世界知識(shí)量可遠(yuǎn)遠(yuǎn)超越微調(diào)模型。

不適用 LLM:某些其它任務(wù)需要的知識(shí)不同于 LLM 學(xué)習(xí)到的知識(shí)。所需的知識(shí)不是 LLM 學(xué)習(xí)到的關(guān)于真實(shí)世界的知識(shí)。在這樣的任務(wù)中,LLM 沒(méi)有明顯優(yōu)勢(shì)。

重點(diǎn) 4

(1)得益于龐大的真實(shí)世界知識(shí),LLM 擅長(zhǎng)處理知識(shí)密集型任務(wù)。(2)當(dāng)知識(shí)需求與所學(xué)知識(shí)不匹配時(shí),LLM 會(huì)遇到困難;或者當(dāng)任務(wù)只需要上下文的知識(shí)時(shí),微調(diào)模型可以達(dá)到與 LLM 同等的表現(xiàn)。

4.4 在擴(kuò)展規(guī)模方面的能力

擴(kuò)展 LLM 的規(guī)模(比如參數(shù)、訓(xùn)練計(jì)算等)可以極大助力預(yù)訓(xùn)練語(yǔ)言模型。通過(guò)擴(kuò)大模型規(guī)模,模型處理多種任務(wù)的能力通常能得到提升。反映到某些指標(biāo)上,模型的性能表現(xiàn)與模型規(guī)模呈現(xiàn)冪律關(guān)系。舉個(gè)例子,用于度量語(yǔ)言建模性能的交叉熵?fù)p失會(huì)隨模型規(guī)模的指數(shù)級(jí)增長(zhǎng)而線性下降,這也被稱為「標(biāo)度律(scaling-law)」。對(duì)于推理等某些關(guān)鍵能力,擴(kuò)大模型規(guī)模就能逐漸將這些能力從非常低的水平提升到一個(gè)可使用的水平,甚至可接近人類水平。本小節(jié)將從規(guī)模對(duì) LLM 的能力和行為的影響方面介紹 LLM 的使用。

推理方面的 LLM 用例:推理涉及到理解信息、進(jìn)行推論和做出決定,是人類智力的一大核心能力。對(duì) NLP 而言,推理卻極具挑戰(zhàn)性。現(xiàn)有的許多推理任務(wù)可以分為常識(shí)推理和算術(shù)推理兩類。模型增大能極大提升 LLM 的算術(shù)推理能力。常識(shí)推理不僅需要 LLM 記住事實(shí)性知識(shí),還需要 LLM 執(zhí)行一些有關(guān)事實(shí)的推理步驟。常識(shí)推理能力會(huì)隨模型大小的增長(zhǎng)而逐漸提升。相比于微調(diào)模型,LLM 在大多數(shù)數(shù)據(jù)集上都表現(xiàn)更優(yōu)。

涌現(xiàn)能力方面的 LLM 用例:擴(kuò)增模型規(guī)模還能賦予模型一些超越冪律規(guī)則的前所未有的奇妙能力。這些能力被稱為「涌現(xiàn)能力(emergent ability)」。正如論文《Emergent Abilities of Large Language Models》中定義的那樣:LLM 的涌現(xiàn)能力是指小規(guī)模模型不具備但出現(xiàn)在大規(guī)模模型中的能力。(有關(guān)該論文的更多解讀可參閱《Jeff Dean 等人新作:換個(gè)角度審視語(yǔ)言模型,規(guī)模不夠發(fā)現(xiàn)不了》)這意味著我們無(wú)法基于小規(guī)模模型的性能提升而推斷預(yù)測(cè)出這種能力;而在某些任務(wù)上,模型的規(guī)模一旦超過(guò)一定程度,就可能突然獲得優(yōu)異表現(xiàn)。涌現(xiàn)能力通常不可預(yù)測(cè)并且出人意料,這可能導(dǎo)致模型有能力處理隨機(jī)出現(xiàn)或意料之外的任務(wù)。

不適用 LLM 以及理解涌現(xiàn):盡管大多數(shù)情況下,模型更大,表現(xiàn)也更優(yōu),但也依然存在例外情況。

在某些任務(wù)上,隨著 LLM 規(guī)模的提升,模型表現(xiàn)會(huì)開(kāi)始下降。這也被稱為反標(biāo)度現(xiàn)象(Inverse Scaling Phenomenon)。此外研究者還觀察到另一個(gè)有關(guān)規(guī)模的有趣現(xiàn)象,即 U 形現(xiàn)象(U-shaped Phenomenon)。顧名思義,該現(xiàn)象是指隨著 LLM 模型增大,其在特定任務(wù)上的表現(xiàn)一開(kāi)始會(huì)提升,然后會(huì)開(kāi)始下降,之后又會(huì)再次提升。

為了推進(jìn)該領(lǐng)域的研究,我們必需更深入地理解涌現(xiàn)能力、反標(biāo)度現(xiàn)象和 U 形現(xiàn)象。

重點(diǎn) 5

(1)隨著模型規(guī)模的指數(shù)級(jí)增長(zhǎng),LLM 的算術(shù)推理和常識(shí)推理能力也會(huì)上升。(2)隨著 LLM 規(guī)模的擴(kuò)增,涌現(xiàn)能力能機(jī)緣巧合地發(fā)現(xiàn)新用途,比如詞處理能力和邏輯能力。(3)模型的能力并不總是會(huì)隨規(guī)模提升,而且我們對(duì)大型語(yǔ)言模型的能力與規(guī)模的關(guān)系的理解還很有限。

4.5 雜項(xiàng)任務(wù)

為了更好地理解 LLM 的優(yōu)勢(shì)和短板,下面會(huì)談?wù)勆厦鏇](méi)有涉及到的其它任務(wù)。

不適用 LLM:如果模型目標(biāo)與訓(xùn)練數(shù)據(jù)有差異,那么 LLM 在這些任務(wù)上通常會(huì)遇到困難。

適用 LLM:LLM 尤其適用于某些特定任務(wù)。舉些例子,LLM 非常擅于模仿人類、LLM 還可用于評(píng)估摘要和翻譯等某些 NLG 任務(wù)的質(zhì)量、LLM 的某些能力還能帶來(lái)性能提升之外的其它好處,如可解釋性。

重點(diǎn) 6

(1)對(duì)于遠(yuǎn)離 LLM 的預(yù)訓(xùn)練目標(biāo)和數(shù)據(jù)的任務(wù)而言,微調(diào)模型和特定領(lǐng)域模型仍有一席之地。(2)LLM 擅于模仿人類、數(shù)據(jù)標(biāo)注和生成。它們也可用于 NLP 任務(wù)的質(zhì)量評(píng)估,并且有可解釋性等好處。

4.6 真實(shí)世界「任務(wù)」

本小節(jié)最后討論一下 LLM 和微調(diào)模型在真實(shí)世界「任務(wù)」上的應(yīng)用。這里所用的「任務(wù)」一詞并不嚴(yán)謹(jǐn),因?yàn)椴煌趯W(xué)術(shù)場(chǎng)景,真實(shí)世界場(chǎng)景通常缺乏形式優(yōu)良的定義。對(duì)模型的很多需求甚至不能被視為 NLP 任務(wù)。模型面臨的真實(shí)世界挑戰(zhàn)來(lái)自以下三方面:

  • 有噪聲的 / 非結(jié)構(gòu)化的輸入。真實(shí)世界的輸入來(lái)自真實(shí)世界的人,他們大都不是專家。他們并不了解如何與模型適當(dāng)交互,甚至都可能無(wú)法流暢地使用文本。因此,真實(shí)世界的輸入數(shù)據(jù)可能很混亂、帶有拼寫(xiě)錯(cuò)誤、口語(yǔ)化文本和多語(yǔ)言混雜,這不同于預(yù)訓(xùn)練或微調(diào)使用的定義格式良好的數(shù)據(jù)。
  • 未被學(xué)術(shù)界形式化的任務(wù)。真實(shí)世界場(chǎng)景中的任務(wù)通常沒(méi)有得到學(xué)術(shù)界的良好定義,并且多樣性也遠(yuǎn)遠(yuǎn)超出學(xué)術(shù)研究場(chǎng)景的定義。用戶通常提出的查詢或請(qǐng)求并不能很好地歸入預(yù)定義的類別,并且有時(shí)單個(gè)查詢會(huì)包含多項(xiàng)任務(wù)。
  • 遵從用戶的指令。用戶的請(qǐng)求可能會(huì)包含多個(gè)隱含意圖(比如對(duì)輸出格式有具體要求),或者如果沒(méi)有后續(xù)問(wèn)題,不清楚用戶期望的預(yù)測(cè)結(jié)果。模型需要理解用戶的意圖并提供與這些意圖一致的輸出。

本質(zhì)上講,來(lái)自用戶請(qǐng)求的這些真實(shí)世界難題是因?yàn)槠x了針對(duì)特定任務(wù)設(shè)計(jì)的任何 NLP 數(shù)據(jù)集的分布。公共 NLP 數(shù)據(jù)集并不能反映這些模型的使用方式。

重點(diǎn) 7

相比于微調(diào)模型,LLM 更適合用于處理真實(shí)世界場(chǎng)景。但是,評(píng)估模型在真實(shí)世界中的有效性依然是一個(gè)懸而未決的問(wèn)題。

5 其它方面

盡管 LLM 適用于多種下游任務(wù),但也有其它一些因素需要考慮,比如效率和可信度。效率方面涉及到的問(wèn)題包括 LLM 的訓(xùn)練成本、推理延遲度以及高效利用參數(shù)的調(diào)優(yōu)策略。在可信度方面則需要考慮 LLM 的穩(wěn)健性和校準(zhǔn)能力、公平和偏見(jiàn)、潛在的錯(cuò)誤相關(guān)性以及安全性難題。重點(diǎn) 8(1)如果任務(wù)對(duì)成本敏感或有嚴(yán)格延遲要求,那么應(yīng)該優(yōu)先考慮輕量的本地微調(diào)模型。在部署和交付模型時(shí),可考慮進(jìn)行調(diào)優(yōu)以高效利用參數(shù)。(2)LLM 的零樣本方法能防止其從具體任務(wù)的數(shù)據(jù)集中學(xué)習(xí)捷徑,而這種情況對(duì)微調(diào)模型來(lái)說(shuō)卻很常見(jiàn)。盡管如此,LLM 仍會(huì)表現(xiàn)出一定的捷徑學(xué)習(xí)問(wèn)題。(3)由于 LLM 潛在的有害或有偏見(jiàn)輸出以及幻覺(jué)(hallucination)問(wèn)題可能導(dǎo)致嚴(yán)重后果,因此與 LLM 相關(guān)的安全問(wèn)題應(yīng)得到最大重視。人類反饋等方法有望緩解這些問(wèn)題。

6 總結(jié)和未來(lái)挑戰(zhàn) 

這份實(shí)用指南提供了有關(guān) LLM 的洞見(jiàn)以及在各種 NLP 任務(wù)上使用 LLM 的最佳實(shí)踐方法。希望這能幫助研究者和實(shí)踐者利用 LLM 的潛力并推動(dòng)語(yǔ)言技術(shù)的創(chuàng)新。 

當(dāng)然,LLM 也還有一些有待解決的挑戰(zhàn): 

  • 在真實(shí)世界數(shù)據(jù)集上對(duì)模型進(jìn)行評(píng)估。盡管現(xiàn)有的深度學(xué)習(xí)模型主要是在 ImageNet 等標(biāo)準(zhǔn)學(xué)術(shù)數(shù)據(jù)集上進(jìn)行評(píng)估,但標(biāo)準(zhǔn)學(xué)術(shù)數(shù)據(jù)集是有局限的,并不能確切反映模型在真實(shí)世界中的表現(xiàn)。隨著模型的進(jìn)步,有必要在反映真實(shí)需求的更多樣化、復(fù)雜和真實(shí)的數(shù)據(jù)上評(píng)估它們。在學(xué)術(shù)數(shù)據(jù)集和真實(shí)世界數(shù)據(jù)集上評(píng)估模型,能模型得到更嚴(yán)格的測(cè)試,還能讓我們更好地理解它們?cè)谡鎸?shí)世界應(yīng)用中的有效性。這能確保模型有能力解決真實(shí)世界難題并交付實(shí)際可用的解決方案。 
  • 模型合準(zhǔn)(Model Alignment)。確保日益強(qiáng)大和自動(dòng)化的模型與人類價(jià)值觀和優(yōu)先項(xiàng)保持一致是非常重要的。我們必須想出辦法,確保模型的行為符合預(yù)期,并且不要為我們不想要的結(jié)果而優(yōu)化模型。要從模型開(kāi)發(fā)過(guò)程一開(kāi)始就整合合準(zhǔn)技術(shù),這是很重要的。在評(píng)估和確保合準(zhǔn)方面,模型透明性和可解釋性也很重要。此外,著眼未來(lái),還有更加艱巨挑戰(zhàn)正在顯現(xiàn):對(duì)超人類的系統(tǒng)執(zhí)行合準(zhǔn)。盡管目前這一任務(wù)超出了我們的需求,但重點(diǎn)是要考慮到合準(zhǔn)這樣先進(jìn)的系統(tǒng)并為此做準(zhǔn)備,因?yàn)樗鼈兛赡軙?huì)帶來(lái)獨(dú)特的復(fù)雜性和道德倫理問(wèn)題。 
  • 安全性合準(zhǔn)(Safety Alignment)。盡管討論 AI 帶來(lái)的存在主義風(fēng)險(xiǎn)很重要,但我們還是需要切實(shí)的研究來(lái)確保能安全地開(kāi)發(fā)先進(jìn) AI。這包括用于可解釋性、可擴(kuò)展監(jiān)督與治理以及模型屬性的形式驗(yàn)證的技術(shù)。在模型的構(gòu)建過(guò)程中,安全不應(yīng)被視為一個(gè)附加組件,而應(yīng)是整體的組成部分。 
  • 在模型規(guī)模變化時(shí)預(yù)測(cè)其表現(xiàn)。當(dāng)模型大小和復(fù)雜性顯著提升時(shí),我們很難預(yù)測(cè)模型會(huì)有何表現(xiàn)。應(yīng)當(dāng)開(kāi)發(fā)技術(shù)來(lái)更好預(yù)測(cè)模型規(guī)模提升或使用新架構(gòu)時(shí)模型的表現(xiàn)情況,這能讓我們更高效地使用資源以及加快開(kāi)發(fā)進(jìn)程。有這樣一些可能性:訓(xùn)練一個(gè)更小的「種子」模型并通過(guò)外推方式預(yù)測(cè)其增長(zhǎng)情況,模擬擴(kuò)大規(guī)模或調(diào)整模型的效果,以及對(duì)不同規(guī)模的模型的測(cè)試基準(zhǔn)進(jìn)行迭代以構(gòu)建標(biāo)度律。這能讓我們?cè)跇?gòu)建模型之前就對(duì)模型的性能表現(xiàn)有所了解。
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2018-06-14 15:34:59

深度學(xué)習(xí)GitHub機(jī)器學(xué)習(xí)

2023-03-21 09:44:34

模型AI

2023-07-04 12:55:39

模型指南IFT

2018-10-10 09:30:29

Spring Boot知識(shí)框架

2020-06-01 15:04:44

甲骨文自治數(shù)據(jù)庫(kù)

2023-09-01 14:02:25

用戶分析攻略

2019-01-15 09:34:30

MySQL高性能優(yōu)化

2020-01-02 14:13:01

機(jī)器學(xué)習(xí)模型部署預(yù)測(cè)

2023-09-03 23:04:36

網(wǎng)絡(luò)互聯(lián)網(wǎng)

2023-07-08 23:20:41

2024-10-09 09:38:11

2019-11-14 21:21:50

數(shù)據(jù)挖掘數(shù)據(jù)處理數(shù)據(jù)分析

2019-03-18 08:08:24

知識(shí)圖譜技術(shù)

2015-03-19 15:17:11

2018-07-29 15:33:04

2018-01-29 16:29:35

數(shù)據(jù)開(kāi)發(fā)從業(yè)

2019-06-10 15:06:56

高考AI人工智能

2018-05-15 09:15:03

CNN卷積神經(jīng)網(wǎng)絡(luò)函數(shù)

2022-02-28 11:26:40

模型深度學(xué)習(xí)谷歌

2024-02-19 00:06:50

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

男人的j进女人的j一区| 精品国产一区二区三区久久久樱花| 亚洲激情图片一区| 国模精品娜娜一二三区| 瑟瑟视频在线免费观看| 欧美成人69av| 亚洲欧美在线看| 深爱五月综合网| 国模套图日韩精品一区二区| 亚洲视频一区二区在线| 蜜桃麻豆91| av老司机久久| 视频一区欧美精品| 欧美激情一区二区三级高清视频| 波多野结衣a v在线| 91精品福利观看| 精品日韩中文字幕| 蜜臀av.com| 成人午夜在线观看视频| 成人美女视频在线看| 国产精品午夜国产小视频| 国产精品30p| 婷婷六月综合| 国产午夜精品美女视频明星a级| 九色91porny| 123成人网| 精品久久久久久久久久ntr影视| 国产精品波多野结衣| 国产主播福利在线| www.66久久| http;//www.99re视频| 成人一二三四区| 一本色道久久综合| 久久久久久久久久久免费精品| 呻吟揉丰满对白91乃国产区| 最新精品国偷自产在线| 精品国产区一区| 在线免费黄色小视频| 国产精品xxx| 欧洲一区二区av| 无码人妻丰满熟妇区毛片18| xxxx视频在线| 亚洲伊人色欲综合网| 欧美少妇一区二区三区| 精品孕妇一区二区三区| 国产精品色呦呦| 日韩资源av在线| 你懂的视频在线| 99精品国产热久久91蜜凸| 国产伦视频一区二区三区| 99精品视频在线播放免费| 蜜桃传媒麻豆第一区在线观看| 欧洲一区二区视频| 秋霞av一区二区三区| 久久精品伊人| 国产精品69久久| 无码视频在线观看| 日本午夜一区二区| 国产精品视频yy9099| 免费精品一区二区| 美女一区二区三区在线观看| 国产精品综合不卡av| 中文字幕 国产| 久久福利资源站| 成人午夜在线影院| 国产成人精品亚洲精品色欲| 国产成人综合精品三级| 国产精品久久亚洲| 青草久久伊人| 中文字幕不卡在线播放| 亚洲欧美电影在线观看| 黄色网页在线看| 亚洲综合男人的天堂| 蜜臀av色欲a片无码精品一区 | 国产日韩亚洲欧美综合| 亚洲欧美日韩在线综合| 黄色网在线播放| 亚洲一二三四在线| 日韩欧美精品在线观看视频| 成人做爰免费视频免费看| 51精品国自产在线| 国模私拍在线观看| 欧美日韩高清| 九九视频直播综合网| 国产污污视频在线观看| 蜜臀久久99精品久久久久宅男| 91精品视频在线| 五月婷中文字幕| 国产精品久久久久久久蜜臀| 伊人再见免费在线观看高清版| 多野结衣av一区| 欧美日韩免费高清一区色橹橹 | 99国产精品久久久久99打野战| 成人免费视频播放| 日韩免费毛片| 激情在线视频播放| 一本大道综合伊人精品热热| 亚洲a级黄色片| 台湾亚洲精品一区二区tv| 最近中文字幕日韩精品| 国产无套内射又大又猛又粗又爽| 日韩中文字幕区一区有砖一区 | 洋洋av久久久久久久一区| 妞干网在线视频观看| 国产精品天堂蜜av在线播放 | 日韩精品视频一区二区| 91视频综合| 555www成人网| 亚洲AV无码成人片在线观看| 国产三级精品在线| 久在线观看视频| 日韩精品一区二区三区中文 | 欧美办公室脚交xxxx| 欧美日韩激情一区二区三区| 国产激情视频网站| 午夜精品偷拍| 国产精品亚洲网站| 女人偷人在线视频| 亚洲国产精品久久久久秋霞影院| 亚洲国产高清av| 久久超碰99| 韩国三级日本三级少妇99| 一区二区三区播放| 国产亚洲欧美日韩日本| 国产综合av在线| 99国产精品免费网站| 久久精品99无色码中文字幕| 无码人妻精品一区二区50| 不卡一区在线观看| 日韩video| crdy在线观看欧美| 中文字幕精品网| 欧美三级网站在线观看| 久久在线观看免费| 无码人妻丰满熟妇区96| 99亚洲乱人伦aⅴ精品| 美女久久久久久久久久久| 伊人久久成人网| 国产无人区一区二区三区| 欧美日韩在线中文| 日韩大尺度在线观看| 久久久久久久久中文字幕| 99在线观看精品视频| 国产精品久久久久久久午夜片 | 国产成人精品免费视频网站| 超碰在线免费观看97| 日韩欧美激情| 久久香蕉频线观| 国产草草影院ccyycom| 亚洲免费观看高清完整版在线| www.污网站| 欧美日韩一视频区二区| aa成人免费视频| www中文字幕在线观看| 欧美精品一区二区三区很污很色的| 国产一区二区三区在线视频观看| 国产原创一区二区| 少妇久久久久久被弄到高潮| 96sao在线精品免费视频| 午夜精品久久久久久久久久久久 | 精品国内亚洲在观看18黄| 在线免费观看高清视频| 国产精品久久二区二区| 最新av免费在线观看| 中文精品久久| 国产免费一区二区三区| 天堂中文在线播放| 一区国产精品视频| 性刺激的欧美三级视频| 精品国产中文字幕第一页| 国产精品久久久久7777婷婷| 午夜在线播放| 日韩视频中午一区| 中文字幕一区二区三区精品| 2021中文字幕一区亚洲| 美女网站色免费| 欧美日本国产| 狼狼综合久久久久综合网| 成人免费av电影| 久久艹在线视频| 亚洲精品无码久久久| 欧美日韩性视频| 精品国产国产综合精品| 丁香婷婷深情五月亚洲| 欧美日韩激情视频在线观看| 国产一区二区三区日韩精品| 91成人伦理在线电影| 中文字幕在线官网| 日韩中文在线观看| 熟妇人妻一区二区三区四区 | 黄大色黄女片18第一次| 欧美日本一区二区视频在线观看 | 99久久精品久久久久久ai换脸| 成年人在线网站| 少妇高潮久久77777| 丰满人妻一区二区三区免费视频| 色综合天天综合网国产成人综合天 | www.国产精品一区| 国产精品视频一区二区三区四| 秋霞在线视频| 中文字幕免费精品一区| 亚洲免费一级片| 欧美日韩一区二区在线观看| 欧美亚洲天堂网| 1区2区3区国产精品| 日本黄色特级片| 国产福利不卡视频| 亚洲第一中文av| 久久aⅴ乱码一区二区三区| 久久精品国产精品亚洲精品色| 全国精品免费看| 国产精品久久久久免费| 91嫩草国产线观看亚洲一区二区 | 国产www免费| 91久久夜色精品国产按摩| 九色一区二区| 久久99精品久久久野外观看| 国产精品成人品| 美女100%一区| 国产91|九色| 678在线观看视频| 欧美成人精品激情在线观看| 中文字幕在线视频区| 亚洲美女性视频| 天天干天天操av| 亚洲电影天堂av | 国产91在线播放精品| 97精品久久久| www.综合网.com| 久久久久久综合网天天| 在线视频国产区| 日韩一区二区三区在线播放| 国产在线电影| 亚洲人永久免费| 欧美伦理影视网| 日韩精品中文字幕在线观看 | 亚洲视频欧美视频| 亚洲aⅴ在线观看| 亚洲国产成人精品一区二区| 亚洲AV午夜精品| 精品国产精品一区二区夜夜嗨| 国产99久久九九精品无码免费| 欧美片网站yy| 91午夜交换视频| 777午夜精品视频在线播放| 一级黄色片在线| 欧美剧情片在线观看| 91国内精品视频| 欧美一区二区三区男人的天堂| 国产有码在线观看| 欧美一区二区免费观在线| 99热这里精品| 精品国产一区二区三区av性色| 亚洲奶汁xxxx哺乳期| 精品国产免费久久| 深夜福利视频在线观看| 亚洲欧美日韩国产中文专区| 九色在线免费| 日韩亚洲精品电影| gogo在线高清视频| 国产+人+亚洲| 26uuu亚洲电影| 国产精品久久久久久久9999| 国外成人福利视频| 亚洲xxx视频| 色悠久久久久综合先锋影音下载| 国产精品久久波多野结衣| 色先锋久久影院av| 视频一区不卡| 最新国产精品| 黄色片视频在线免费观看| 蜜臀av一区二区在线免费观看| 午夜一级免费视频| 成人av在线看| 少妇愉情理伦三级| 一区二区不卡在线播放 | 午夜亚洲激情| 91n.com在线观看| 国产美女精品人人做人人爽| 香港三日本8a三级少妇三级99| 国产偷v国产偷v亚洲高清| 秋霞欧美一区二区三区视频免费| 亚洲午夜久久久久久久久电影网| 亚洲熟妇无码乱子av电影| 欧美三级欧美一级| 韩国av电影在线观看| 亚洲天堂免费在线| 日本孕妇大胆孕交无码| 欧洲亚洲免费视频| 秋霞一区二区三区| 日本不卡一区| 国产精品大片| 欧美日韩亚洲自拍| 成人亚洲一区二区一| 国产又粗又硬视频| 午夜日韩在线电影| 国产精品久久久久久久一区二区 | av在线亚洲男人的天堂| 狠狠综合久久av一区二区蜜桃| 无码人妻aⅴ一区二区三区日本| 国产日韩欧美| 在线观看你懂的视频| 欧美国产激情一区二区三区蜜月| 久草国产在线观看| 欧美日韩色一区| 日本一二三区在线视频| 久久99精品视频一区97| 精品国模一区二区三区| 国产在线精品一区| 最新国产精品| 欧美美女一级片| 久久久久久久久久电影| 日本熟妇毛耸耸xxxxxx| 4438x亚洲最大成人网| 成人在线观看黄色| 欧美在线激情视频| 91成人福利| 无颜之月在线看| 麻豆91精品视频| 亚洲精品国产熟女久久久| 精品久久久久久久久久| 男人天堂网在线视频| 美女999久久久精品视频| 国产原创一区| 一区二区三区视频| 日韩国产欧美三级| 久久久视频6r| 色偷偷88欧美精品久久久 | 日韩有码在线电影| 四虎成人在线| 日韩jizzz| 日韩国产精品91| 国产高清一区二区三区四区| 岛国av一区二区三区| 深爱激情五月婷婷| 国内揄拍国内精品| 露出调教综合另类| 国产在线播放观看| av不卡免费在线观看| 一级片免费网址| 日韩av在线天堂网| 澳门成人av网| 日本成人黄色| 另类欧美日韩国产在线| 懂色av蜜臀av粉嫩av永久| 精品视频一区二区不卡| 在线视频三区| 成人淫片在线看| 欧美在线精品一区| 精人妻一区二区三区| 一区二区三区四区av| 狠狠躁夜夜躁av无码中文幕| 久久久久国产一区二区三区| 国产精品乱战久久久| 成人黄色av片| 久久久亚洲欧洲日产国码αv| 中国女人一级一次看片| 最新的欧美黄色| 日韩精品亚洲专区在线观看| 日韩精品在线观看av| 久久综合九色综合97婷婷| 999视频在线| 日韩中文字在线| 一区二区三区国产好| 日韩久久一级片| 亚洲国产成人在线| 精品国产乱码一区二区三| 色综合久久久888| 亚洲日本三级| 狠狠操狠狠干视频| 亚洲午夜视频在线| 国产小视频免费在线观看| 91精品啪aⅴ在线观看国产| 欧美日韩1区2区3区| 可以直接看的无码av| 欧美日韩一级二级三级| 日本中文字幕中出在线| 久久草.com| 精品在线免费视频| 精品视频在线观看免费| 亚洲桃花岛网站| 91成人噜噜噜在线播放| 国内自拍视频一区| 亚洲人成电影网站色mp4| 天天干,夜夜爽| 成人午夜小视频| 午夜在线视频观看日韩17c| 91久久国产综合| 日韩国产高清污视频在线观看| 国产精品第一| 色综合久久久久无码专区| 国产精品女主播在线观看| 五十路在线视频| 91精品视频一区| 日韩和欧美的一区| 免费一级肉体全黄毛片| 在线电影av不卡网址| 成午夜精品一区二区三区软件| 男女男精品视频站| 精品国产乱码久久久久久天美|