精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama-3的競爭對手來了——可運行在iPhone上的小體量高性能LLM模型Phi-3 原創

發布于 2024-5-15 08:37
瀏覽
0收藏

這篇文章將深入探討Phi-3論文中的新發現,以及Phi-3等模型發布的重要意義。

簡介

熟悉我的文章的讀者可能還記得我以前報道《課本就是你所需要的一切》(https://medium.com/@mgunton7/the-impact-of-better-data-on-llms-46153ba26795)時的情景,這是微軟的一篇論文,展示了高質量的數據如何對模型性能產生巨大影響。文章中的新發現直接駁斥了模型必須巨大才能發揮作用的觀點。值得慶幸的是,這篇論文的研究人員一直在繼續他們的工作,最近又發表了一些讓我覺得非常令人興奮的東西。

他們發表的最新論文《Phi-3技術報告:手機本地運行的高性能語言模型》(https://arxiv.org/pdf/2404.14219)也許正解釋了相關的最大發現。

接下來,讓我們深入了解作者從Phi-2模型中改變了什么,他們是如何進行模型訓練的,以及該模型在iPhone上是如何工作的。

關鍵術語

在深入了解上述模型的體系結構之前,首先需要了解幾個關鍵概念。如果您已經知道這些內容,請隨時跳到下一節。

第一個關鍵概念是模型的參數(parameters),它是指模型在訓練過程中學習的權重和偏差的數量。如果你有10億個參數,那么你就有10億的權重和偏差來決定模型的性能。參數越多,神經網絡就越復雜。第二個關鍵概念是頭(head),它是指轉換器中的自注意機制所具有的鍵、值和查詢向量的數量。第三個關鍵概念是層(layers),它是指轉換器的神經網絡中存在的神經段的數量;其中,隱藏維度是典型隱藏層中的神經元數量。

此外,分詞器(Tokenizer)是一個軟件組件,它能夠把你的輸入文本轉換成一個嵌入,然后由轉換器使用它。詞匯大小(vocabulary size)是指在其上進行訓練的模型的唯一符號的數量。轉換器的塊結構(block structure)是指為特定模型選擇的層、頭、激活函數、分詞器和層規范化的組合。

Llama-3的競爭對手來了——可運行在iPhone上的小體量高性能LLM模型Phi-3-AI.x社區

圖片來自于論文“GOA:從多頭檢查點訓練廣義的多查詢轉換器模型”(https://arxiv.org/pdf/2305.13245)

最后,還有一個重要術語是分組查詢注意力(GQA:Grouped-Query Attention),它是我們優化多頭注意力以減少訓練和推理過程中的計算開銷的一種方法。正如您從下圖中看到的,GQA采用了中間方法——我們采用了1:1:M的方法,而不是將1個值和1個鍵與1個查詢配對,其中許多比整個查詢都小。這樣做仍然可以從多查詢注意力(MQA)中獲得訓練成本效益,同時最大限度地減少我們隨后看到的性能下降。

Phi 3體系架構

讓我們從這個模型背后的體系架構開始講起。研究人員發布了3種不同的僅包含解碼器的模型,分別是phi-3-mini、phi-3-small和phi-3-medium,每種模型都使用了不同的超參數。

phi-3-mini

  • 38億個參數
  • 32個頭
  • 32個層
  • 3072個隱藏尺寸
  • 4k大小的符號默認上下文長度
  • 詞匯量大小為32064
  • 權重以bfloat16類型存儲
  • 使用3.3萬億個符號進行訓練

phi-3-small

  • 70億個參數
  • 32個頭
  • 32個層
  • 4096個隱藏維度
  • 8k大小的符號默認上下文長度
  • 詞匯量大小為100352
  • 權重以bfloat16類型存儲
  • 使用4.8萬億個符號進行訓練

phi-3-medium

  • 140億個參數
  • 40個頭
  • 40個層
  • 3072個隱藏尺寸
  • 使用4.8萬億個符號進行訓練

現在,我們來比較一下它們一些差異。首先,phi-3-mini模型是使用典型的多頭注意力訓練的。雖然論文中沒有提到,但讓我懷疑的是,由于該模型的大小大約是其他兩個模型的一半,因此與多頭相關的訓練成本并不令人反感。當然,當它們擴展到phi-3-small時,使用的是分組查詢注意力,其中4個查詢連接到1個鍵。

此外,他們使phi-3-mini的嵌段結構盡可能接近LLaMa-2結構。這里的目標是允許開源社區繼續他們對LLaMa-2和Phi-3的研究。這對于進一步理解塊結構的力量是有意義的。

然而,phi-3-small沒有使用LLaMa的塊結構,而是選擇使用Tiktoken分詞器,使用交替的密集注意力層和新的塊稀疏注意力層。此外,他們在這些模型的訓練數據集中添加了10%的多語言數據。

訓練和數據優化組合

與Phi-2類似,研究人員主要投資于高質量的數據。他們在生成數據來訓練模型時使用了類似的“教育價值”范式,選擇使用比上次多得多的數據。他們分兩個階段創建數據。

第一階段涉及尋找他們發現對用戶具有高“教育價值”的網絡數據。這里的目標是為模型提供一般知識。然后,第二階段獲取第一階段數據的子集,并生成數據,教導模型如何進行邏輯推理或獲得特定技能。

這里面的挑戰是,如何確保來自每個語料庫的數據組合適合正在訓練的模型的規模(即phi-3-small與phi-3-mini)。這就是“數據優化”機制背后的理念,在該機制中,您提供給LLM進行訓練的數據為其塊結構提供了最佳能力。換言之,如果你認為數據是訓練一個好的LLM的關鍵區別,那么通過數據找到正確的技能組合來展示模型與找到好的數據同樣重要。研究人員強調,他們希望該模型具有比知識更強的推理能力,從而從第二階段語料庫中選擇的數據比從第一階段語料庫中更多。

Llama-3的競爭對手來了——可運行在iPhone上的小體量高性能LLM模型Phi-3-AI.x社區

論文(https://arxiv.org/pdf/2404.14219)中的圖2強調了數據優化的潛在關系

有趣的是,當他們用與訓練phi-3-small大致相同的數據混合物訓練phi-3-medium時,他們注意到從7B參數到14B的改進遠比從3.8B到7B的改進有限。作者懷疑這不是塊結構的限制,而是他們用來訓練phi-3-medium的數據混合。

后期訓練

該團隊使用監督微調(Supervised Fine Tuning:SFT)和直接偏好優化(DPO:Direct Preference Optimization)技術來改進訓練后的模型。有興趣深入了解DPO的讀者可以從鏈接https://medium.com/towards-data-science/understanding-the-implications-of-direct-preference-optimization-a4bbd2d85841處查看我的博客文章。監督微調是一種遷移學習方法,我們使用自定義數據集來提高LLM在該數據集上的能力。作者使用SFT來提高模型在數學、編碼、推理和安全等不同領域的能力。然后,他們使用DPO進行聊天優化,引導其遠離他們想要避免的回應,轉向理想的回應。

正是在這個階段,作者將phi-3-mini的上下文窗口從4k個符號大小擴展到128k個符號。他們把用來做這件事的方法命名為“長繩索(Long Rope)”。作者聲稱,這兩種上下文類型之間的性能是一致的,考慮到上下文長度的巨大增加,這是一件大事。如果有足夠的興趣,我將再單獨發表一篇關于該論文中相關研究成果的博客。

手機使用場景下的量化

盡管上述這些模型很小,但要讓這些模型在手機上跑起來,仍然需要進一步最小化。通常,LLM的權重被存儲為浮點形式;例如,Phi-3的原始權重是bfloat16,這意味著每個權重占用內存中的16位。雖然16位可能看起來微不足道,但當你考慮到10?數量級大小的模型中的參數時,您就會意識到每個額外的位加起來的速度是怎樣的。

為了解決這個問題,作者將權重從16位壓縮到4位。其基本思想是減少存儲每個數字所需的位數。作為一個概念性的例子,數字2.71828可以濃縮為2.72。雖然這是一種有損操作,但它仍然可以捕獲大部分信息,同時占用的存儲空間要少得多。

Llama-3的競爭對手來了——可運行在iPhone上的小體量高性能LLM模型Phi-3-AI.x社區

論文(https://arxiv.org/pdf/2404.14219)中的圖1內容

作者在安裝A16芯片的iPhone上運行了上述量化內容,發現它每秒可以產生多達12個符號。相比之下,運行LLaMa-2量化4位的M1 MacBook的運行速度約為每秒107個符號。我見過的最快的符號生成(Groq)以每秒853.35個符號的速度生成符號。鑒于這僅僅是一個開始,我們能夠以如此之快的速度看到這款模型在iPhone上生成的符號,這一點值得注意。另外,推斷速度方面似乎只會更快一些。

將Phi-3與搜索引擎配對

小型模型的一個局限性是它在網絡中存儲信息的位置較少。因此,我們發現Phi-3在需要廣泛知識的任務方面不如LLaMa-2等模型執行得好。

論文作者建議,通過將Phi-3與搜索引擎配對,該模型的能力將顯著提高。如果是這樣的話,我認為檢索增強生成(RAG)很可能會繼續存在,成為幫助小型模型和大型模型一樣具有性能的關鍵部分。

Llama-3的競爭對手來了——可運行在iPhone上的小體量高性能LLM模型Phi-3-AI.x社區

論文(https://arxiv.org/pdf/2404.14219)中的圖4強調如何搜索能夠提高Phi-3性能

結論

如今,我們看到了機器學習領域已經出現了高性能的小型模型。雖然訓練這些模型在很大程度上仍然依賴于高性能硬件,但對它們的推理正日益普及開來。這將引發一些有趣現象的出現。

首先,可以在本地運行的模型幾乎是完全私有的,允許用戶提供這些LLM數據;否則,他們可能會覺得在互聯網上發送不舒服。這為更多的應用場景打開了大門。

其次,這些模型將推動移動硬件的性能提升。因此,我希望在高端智能手機上看到更多的片上系統(SoC),尤其是CPU和GPU之間具有共享內存的SoC,以最大限度地提高推理速度。此外,與該硬件具有高質量接口也是至關重要。在消費硬件領域,任何新的硬件上市都可能需要像Apple Silicon的MLX這樣的庫。

第三,正如論文所展示的,在LLM領域,高質量數據在許多方面都可以勝過更多的網絡復雜性;因此,人們一方面要尋找高質量數據,同時生成高質量數據的競爭也會不斷加劇。

總之,當前我們正處于一個激動人心的發展時期。

參考文獻

【1】Abdin, M.,等人?!癙hi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone” (2024)。arXiv。

【2】Ding,Y.等人?!癓ongRoPE: Extending LLM Context Window Beyond 2 Million Tokens” (2024),arXiv。

【3】Gerganov, G.,等人?!癙erformance of llama.cpp on Apple Silicon M-series” (2023),GitHub。

【4】Ainslie, J.,等人。“GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints” (2023),arXiv。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Phi-3 and the Beginning of Highly Performant iPhone LLMs,作者:Matthew Gunton

鏈接:

https://towardsdatascience.com/phi-3-and-the-beginning-of-highly-performant-iphone-models-d413d8ea0714。

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-5-15 08:42:47修改
收藏
回復
舉報
回復
相關推薦
日韩欧美在线影院| 国内精品伊人久久久久av影院| 日韩一区二区三区观看| 黄黄视频在线观看| 婷婷视频在线观看| 日本91福利区| 欧美激情精品久久久久久大尺度| 天堂久久久久久| 国产精品久久久久久吹潮| 一区二区在线电影| 日本精品一区二区三区视频| 一级特黄aaa大片| 在线播放亚洲| 精品五月天久久| 欧美国产日韩另类 | 久久老女人爱爱| 91嫩草在线视频| 黄瓜视频在线免费观看| 午夜性色一区二区三区免费视频 | 国产精品无码在线| 亚洲日本免费电影| 一本到不卡免费一区二区| 日韩视频在线免费播放| 黄色视屏网站在线免费观看| 岛国av在线一区| 成人精品视频久久久久| 亚洲精品成人在线视频| 亚洲无吗在线| 久久国产精品亚洲| 天天舔天天操天天干| 免费看成人人体视频| 日韩视频免费观看高清完整版在线观看 | 一级全黄裸体片| 交100部在线观看| 亚洲久本草在线中文字幕| 欧美一级片免费观看| 欧美一级淫片免费视频魅影视频| 久久99精品一区二区三区| 奇米4444一区二区三区| 尤物视频在线观看国产| 国产精品啊啊啊| 久久影院资源网| 久久精品一区二区三区四区五区| 欧美日韩黑人| 国产一区二区黄| 玖玖爱在线观看| 欧美精品国产白浆久久久久| 亚洲成人av在线播放| 少妇极品熟妇人妻无码| av一级久久| 6080yy午夜一二三区久久| 午夜久久久精品| 成人免费黄色| 欧美日韩视频在线第一区| 中文字幕一区二区三区四区在线视频| 成人美女黄网站| 日韩欧美在线视频日韩欧美在线视频 | 九一在线视频| 久久久噜噜噜久久中文字幕色伊伊 | ww国产内射精品后入国产| 1024在线看片你懂得| 午夜不卡av免费| aa在线免费观看| 男人最爱成人网| 欧美亚洲综合另类| 玖玖爱视频在线| 精品国产18久久久久久二百| 日韩一区二区三区在线观看 | 日韩欧美中文在线观看| 精品久久国产97色综合| 亚洲最大免费视频| 国产麻豆一区二区三区精品视频| 亚洲色图25p| 日本伦理一区二区三区| 在线国产一区| 91av在线免费观看| 伊人网av在线| 国产成人免费av在线| 精品亚洲一区二区三区四区五区高| 午夜在线视频免费| 欧美韩国一区二区| 日韩精品久久一区二区| 中文在线免费视频| 欧美日韩亚洲另类| 一边摸一边做爽的视频17国产 | 国产欧美久久久久| 在线中文字幕播放| 欧美亚洲国产bt| 日本泡妞xxxx免费视频软件| 九九综合在线| 精品国偷自产在线视频| 色婷婷在线观看视频| 日本v片在线高清不卡在线观看| 91视频国产一区| 婷婷视频在线观看| 亚洲丝袜自拍清纯另类| 欧美三级在线观看视频| 天堂久久一区| 精品亚洲男同gayvideo网站| 国产尤物在线播放| 香蕉久久久久久久av网站| 成人黄色av网站| 亚洲av成人无码网天堂| 中文字幕一区二区三区在线不卡 | 九九热国产精品视频| 日韩极品在线观看| 国产一级二级三级精品| 美女av在线播放| 色噜噜狠狠成人中文综合| 亚洲av无一区二区三区久久| 精品不卡一区| 欧美1区二区| 亚洲第一二三四五区| 日韩黄色中文字幕| 99精品福利视频| 亚洲综合日韩在线| 91精品国产综合久久久久久豆腐| 亚洲午夜久久久久| 国产精欧美一区二区三区白种人| 日本亚洲不卡| 欧美国产日韩一区二区三区| 91在线视频国产| 久久精品视频一区二区三区| 六月婷婷在线视频| 欧美大片91| 中文字幕9999| 国产又大又黄又粗| 不卡的看片网站| 伊人网在线免费| 亚洲美女色播| 正在播放欧美一区| 免费无码国产精品| 久久久久久免费毛片精品| 国产一区二区三区小说| 欧美专区视频| 久久天天躁狠狠躁夜夜躁| 亚洲视频在线观看免费视频| 久久久久久久久岛国免费| www.av中文字幕| 国产精品视屏| 久久久久久久网站| 囯产精品久久久久久| 亚洲综合免费观看高清完整版| 中文字幕日韩久久| 99久久婷婷| 成人中心免费视频| www红色一片_亚洲成a人片在线观看_| 欧美日韩一区久久| 三级黄色免费观看| 久久国产生活片100| 正在播放一区| 欧美a在线观看| 久久久久久久影院| 五月婷婷开心中文字幕| 精品成人久久av| 无套内谢大学处破女www小说| 欧美一级专区| 日韩精品成人一区二区在线观看| 日韩欧美精品电影| 色综久久综合桃花网| 91麻豆成人精品国产免费网站| 1024精品合集| 制服.丝袜.亚洲.中文.综合懂 | 久久九九精品99国产精品| 中文字幕 亚洲视频| 99热精品国产| 日本熟妇人妻中出| 羞羞色午夜精品一区二区三区| 91手机视频在线观看| 日韩av播放器| 色综合一本到久久亚洲91| 亚洲福利视频网站| 日韩精品久久久久久久酒店| 91视频你懂的| www.这里只有精品| 欧美+日本+国产+在线a∨观看| 国产欧美久久久久久| 成人高清免费在线| 亚洲国产天堂久久综合网| 国产一级一级国产| 国产精品乱码一区二三区小蝌蚪| 污免费在线观看| 日韩视频三区| 先锋影音一区二区三区| 日本一区二区三区电影免费观看| 97免费在线视频| 午夜激情在线观看| 亚洲精品一区二区三区99| 久久精品视频2| 亚洲老妇xxxxxx| 中文字幕国产综合| 国产在线乱码一区二区三区| 男人添女人下面高潮视频| 久久影院一区| 精品福利影视| 国产成人免费av一区二区午夜| 8050国产精品久久久久久| 在线国产情侣| 日韩精品在线影院| 国产黄色一区二区| 在线欧美日韩国产| 日韩精品乱码久久久久久| 国产精品嫩草影院com| 日产精品久久久一区二区福利| 久久国产精品波多野结衣| 国产亚洲精品中文字幕| 特种兵之深入敌后| 麻豆一区二区三区| 人妻有码中文字幕| 黄色欧美日韩| 综合网五月天| 精品美女久久久| 久久久精品国产一区二区三区| 国产亚洲字幕| 国产精品自拍偷拍| 欧美男体视频| 91av在线精品| а√在线中文在线新版| 久久在线精品视频| 在线免费观看的av网站| 亚洲午夜精品视频| 天堂在线免费av| 精品999久久久| 精品国产999久久久免费| 欧美日韩免费观看一区二区三区 | 欧美亚洲图片小说| 欧美日韩综合一区二区三区| 亚洲高清视频在线| 欧美日韩国产精品综合 | 国产精品成人av久久| 亚洲日韩欧美一区二区在线| 欧洲性xxxx| 国产精品视频九色porn| 午夜时刻免费入口| 久久精品欧美一区二区三区不卡| 亚洲精品乱码久久久久久蜜桃图片| 国产乱码精品一区二区三| 91亚洲精品久久久蜜桃借种| 美国av一区二区| 黄色手机在线视频| 免费高清视频精品| 国产喷水theporn| 日本视频一区二区| 看欧美ab黄色大片视频免费 | 97精品中文字幕| 亚洲免费视频一区| 成人在线免费观看91| 日韩欧美手机在线| 久久精品播放| 在线视频不卡一区二区| 91精品久久久久久久蜜月| 欧美h视频在线观看| 天天综合网网欲色| 日韩精品一区二区三区电影| 欧美aa国产视频| 欧美一级免费播放| 销魂美女一区二区三区视频在线| 毛片av免费在线观看| 日韩经典一区二区| 国产无色aaa| 国产**成人网毛片九色| 2一3sex性hd| 国产欧美一区二区三区在线老狼 | 亚洲精品乱码久久久久久久久| 欧美日韩在线国产| 性做久久久久久久免费看| 国产精品久久久久久久妇| 一本大道久久a久久综合婷婷| 欧美在线视频精品| 日韩一区国产二区欧美三区| 欧美性受xxxx狂喷水| 亚洲欧美日韩网| 视频免费一区| 欧美极品在线视频| 欧美羞羞视频| 91免费福利视频| 极品国产人妖chinesets亚洲人妖| 精品一卡二卡三卡四卡日本乱码| 国产欧美日韩在线一区二区| 亚洲最新免费视频| 在线成人av| 手机视频在线观看| 高清成人在线观看| 日韩精品无码一区二区三区久久久| 国产精品国产三级国产普通话三级 | 精品福利在线观看| 在线免费观看高清视频| 日韩免费成人网| 国产午夜在线观看| 欧美大片在线看| 成人日韩精品| 产国精品偷在线| 国产在视频线精品视频www666| 日本一区二区三区四区五区六区| 午夜在线一区二区| 性生活在线视频| 日本一区二区三区国色天香 | 国产精品视频看看| 午夜av一区二区三区| 6—12呦国产精品| 日韩av在线网站| xvideos国产在线视频| 国产精品第8页| 久久a爱视频| 日韩人妻精品一区二区三区| 午夜在线视频观看日韩17c| 18深夜在线观看免费视频| 欧美韩国日本一区| 欧美 日韩 精品| 欧美精品一区二区三区高清aⅴ | 色欲无码人妻久久精品| 国产日韩欧美亚洲| 国产成人亚洲欧洲在线| 日韩视频免费观看高清完整版 | 在线视频婷婷| 日本国产高清不卡| 九色丨蝌蚪丨成人| 国产女主播av| 久久国产视频网| 美国美女黄色片| 在线观看三级视频欧美| 四虎精品在线| 97香蕉超级碰碰久久免费软件| 国产激情综合| 91免费网站视频| 蜜臀91精品一区二区三区| 午夜在线观看一区| 日韩欧美国产骚| 亚洲av成人无码网天堂| 久久免费视频在线| 国产成人夜色高潮福利影视| 粉嫩av一区二区三区天美传媒 | 国精产品一区| 国产欧美一区二区三区在线 | 97精品电影院| 日韩精品视频播放| 日韩av网站导航| 蜜桃视频动漫在线播放| 久久国产一区| 性xx色xx综合久久久xx| 人妻熟女aⅴ一区二区三区汇编| 精品日本美女福利在线观看| 日本精品久久久久久| 国内成人精品一区| 欧美理论电影在线精品| av动漫在线看| 久久午夜羞羞影院免费观看| 欧美精品一二三四区| 亚洲人成网站免费播放| 欧美三区四区| 宅男噜噜99国产精品观看免费| 加勒比av一区二区| 中文字幕在线观看成人 | 蜜桃视频在线入口www| 欧洲午夜精品久久久| 欧美伦理在线视频| 亚洲欧美日韩三级| 亚洲精品国产高清久久伦理二区 | 一区二区三区亚洲| 欧美高清xxx| 今天免费高清在线观看国语| 成人午夜免费视频| 午夜婷婷在线观看| 在线观看日韩视频| 成人国产精品一区二区网站| 国产精品自拍合集| 99精品1区2区| 特级西西444www高清大视频| 精品国内亚洲在观看18黄| 久久丁香四色| 免费欧美一级视频| 欧美经典一区二区| 国产黄色小视频在线观看| 97视频免费观看| 色135综合网| 无码人妻aⅴ一区二区三区玉蒲团| 五月婷婷欧美视频| av女优在线| 成人在线免费观看一区| 久久久蜜桃一区二区人| 日本 欧美 国产| 亚洲国产日韩一区| 国精品产品一区| 日本wwwcom| 中文字幕欧美激情一区| 丰满肉肉bbwwbbww| 国产精品国产三级国产aⅴ浪潮| 欧美+日本+国产+在线a∨观看| 亚洲一区二区观看| 91精品福利在线一区二区三区| 黄在线观看免费网站ktv| 在线观看日韩羞羞视频| av不卡一区二区三区| 97人妻人人澡人人爽人人精品| 国产69精品99久久久久久宅男| 欧美呦呦网站| 欧美深性狂猛ⅹxxx深喉| 7878成人国产在线观看| 日韩av中字| 国产高清av在线播放|