精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

邊緣生成式AI:在三重約束下尋求可部署的智能

發布于 2025-9-15 08:00
瀏覽
0收藏

核心觀點

核心論點:生成式AI正經歷從云端向邊緣的根本性范式轉移。這一戰略轉型由對低延遲、高隱私、強可靠性及可持續性的迫切需求所驅動,而這些恰是傳統云中心化模型的固有瓶頸。

然而,將AI部署于邊緣的核心挑戰,在于前沿大模型巨大的資源消耗與邊緣設備嚴苛的資源限制之間的尖銳矛盾。為系統性地剖析并應對這一挑戰,本文提出了一個核心分析框架——“數據-模型-計算”(Data-Model-Compute, DMC)交互三角,它定義了邊緣AI必須同時克服的三大根本性約束:

1. 數據(Data)約束:處理有限、私密且分散的數據

  • 挑戰:邊緣設備的數據天生具有稀缺性、高度個性化和隱私敏感性,難以進行大規模集中式訓練。
  • 路徑:必須依賴聯邦學習(Federated Learning)在保護隱私的前提下實現協同訓練,并通過低秩適應(LoRA)等輕量化微調技術,使模型能在設備端僅憑極少量數據便實現個性化,同時避免“災難性遺忘”。

2. 模型(Model)約束:在緊湊體積內平衡能力與風險

  • 挑戰:“瘦身”后的小模型(SLM)雖高效,但其知識儲備與推理能力會隨之下降,導致“幻覺”和安全偏見風險顯著增加。
  • 路徑:技術重心正從單純追求模型規模,轉向模型壓縮(如量化、蒸餾、剪枝)與架構創新(如專家混合模型MoE)。更重要的是,必須正視并管理“安全-效率權衡曲線”——即模型效率越高,安全風險越大的固有矛盾。未來的關鍵在于通過對齊蒸餾(Alignment Distillation)等技術,在同等效率下實現更高的安全性,并引入如“每瓦時幻覺數”這類新的復合評估指標。

3. 計算(Compute)約束:在極致功耗預算下實現實時推理

  • 挑戰:邊緣設備面臨延遲、內存、功耗和散熱四重“天花板”,無法承受大模型的計算開銷。
  • 路徑:必須進行軟硬件協同優化,充分利用端側芯片的專用處理單元(NPU/DSP)。模型設計需具備硬件感知能力,通過算子融合、自適應計算等技術,在嚴格的功耗預算內滿足實時交互的嚴苛延遲要求。

生成式AI演進脈絡

生成式AI的演進可劃分為以下幾個階段:

  • 起源(2010年代):從基于RNN的序列到序列模型起步。
  • 飛躍(Transformer架構):引入注意力機制與Transformer架構,實現了從機器翻譯到多模態生成(如DALL·E)的巨大進步。
  • 規模化(GPT系列):參數規模指數級增長,引入少樣本學習、指令調優和RLHF對齊技術,以減少幻覺和偏見。
  • 邊緣化(SLM興起):逆向趨勢涌現,通過知識蒸餾、量化和剪枝等技術壓縮大模型,由此誕生了小型語言模型(SLM)。這些模型參數量在108到109級,體積為100MB到2GB,極其適合移動硬件。
  • 能力增強(RAG):檢索增強生成(RAG)技術通過外置知識來彌補SLM的局限性,使其緊湊模型能夠媲美大型LLM的效用。

這一分化預示著:前沿研究追求模型規模的極限,而邊緣部署則更側重效率與實際應用。

模型分類與部署環境

按規模分類:

  • 小型(SLM):<10億參數,是邊緣設備的首選。
  • 中型:10-100億參數,適用于高端移動設備。
  • 大型:100-1000億參數,主要部署在云服務器。
  • 超大型:>1000億參數,為云端專屬。

按架構分類:

  • Transformer:主導語言模型。
  • 擴散模型/GAN:主導圖像和音頻生成。
  • 混合架構:融合多種模態。

部署環境:

  • 微控制器(TinyML)
  • 霧計算
  • 云端

唯有小型模型(SLM)能夠在邊緣環境實現理想的可行性。

變革性應用場景

  • 醫療:本地SLM實時總結病史和生成診斷建議,確保患者數據隱私不離開設備。
  • 可穿戴/AR:智能眼鏡即時描述場景,智能手表進行生物反饋,需要低延遲和NPU優化。
  • 機器人:具身化SLM驅動規劃與交互(如RT-2),實現自主導航和信任解釋。
  • 工業IoT:邊緣網關生成日志摘要和異常報告,進行需求預測,其優勢在于專有數據保護和快速決策。

未來展望與行動綱領

邊緣生成式AI的終極形態將不再是大模型的簡單壓縮版,而是邁向一個全新的智能生態:

  • 從“壓縮”到“原生設計”:未來的主流將是從零開始、為特定邊緣場景和硬件原生設計的專用小模型(Purpose-built SLMs)。
  • 從“孤島”到“協作智能”:AI將演變為分布式的多智能體系統(Multi-Agent Systems)和聯邦生成(Federated Generation)網絡,多個設備上的小型模型將協同工作,共同完成復雜任務。
  • 從“數字”到“物理世界”:具身化智能(Embodied AI)將成為關鍵,小型化的基礎模型將被嵌入機器人、自動駕駛汽車等實體中,直接與物理世界交互。

邊緣生成式AI:挑戰與機遇——AI部署的下一個前沿

到2030年,預計將有超過500億臺邊緣設備——包括智能手機、AR(增強現實)眼鏡、可穿戴設備和工業物聯網(IoT)系統——實時地生成、解析并處理數據。不妨想象這樣的場景:一副AR眼鏡能在您漫步于異國城市時,為您解說眼前的地標;一塊智能手表能根據您的生物特征數據,預測您的壓力水平;家中的服務機器人能與其他設備協同,自動完成家務。這些曾經僅存于科幻領域的設想,正隨著一場深刻的范式轉變而成為現實:人工智能正從以云為中心,轉向可在邊緣部署的智能形態。

在生成式AI系統崛起的浪潮中,這一轉型尤為顯著。如今,以ChatGPT和DALL·E為代表的強大模型,正是當前主流范式的體現。這些模型是托管在集中式云環境中的龐大前沿模型,為數百萬用戶的多樣化應用提供服務。這類生成式系統通過學習海量訓練數據中的模式,合成出未經顯式編程的新內容——無論是撰寫風格自然的文本、生成栩栩如生的圖像,還是譜寫樂曲、編寫代碼。它們理解上下文、遵循指令并產出創意內容的能力,已經徹底改變了我們與技術互動的方式。

然而,隨著對實時響應、隱私保護以及在有限帶寬下運行的需求日益普遍,依賴云計算的AI模式其局限性也愈發凸顯。邊緣計算旨在應對這些挑戰,它將AI處理能力直接遷移到產生數據和用戶交互的數十億臺設備之上。以下幾個關鍵因素,正在推動生成式AI向邊緣端演進。首先,通過消除數據往返遠程數據中心的延遲,本地化處理能提供增強現實體驗和機器人系統所需的高速響應。其次,邊緣部署提升了系統的可靠性,即便網絡連接時斷時續甚至完全中斷,設備也能維持其AI能力。最重要的一點是,設備端處理能夠更好地保護用戶隱私,因為它將醫療記錄、個人對話和生物特征數據等敏感信息保留在用戶設備本地,而非上傳至外部服務器。除了這些用戶層面的益處,分布式的邊緣推理還能帶來更廣泛的可持續性優勢,因為它有望降低與大型集中式云基礎設施相關的巨大能耗和成本。

盡管邊緣部署具備這些顯著優勢,但重大的技術障礙依然存在。當今最先進的生成式模型屬于資源密集型,其參數量通常高達數千億,這使得它們難以在專用的數據中心之外運行。大語言模型(LLM)通常面臨推理延遲高、內存占用大和功耗顯著等問題,這些特性與邊緣環境的資源限制形成了尖銳沖突。此外,大模型往往假設有持續的云連接,以便獲取更新或外部知識,而邊緣部署的設備則可能需要長時間自主運行。

這些因素引出了一個核心問題:我們應如何將大型生成模型的強大能力引入邊緣端,同時平衡好效率、安全與自主性之間的關系? 本文旨在探討生成式AI向高效模型的演進路徑,基于模型規模和部署特性提出一種分類方法,并審視其在醫療、可穿戴設備、機器人技術及物聯網領域的實際應用。本文還將討論“數據-模型-計算”三角交互模型中的關鍵挑戰,引入“每瓦時幻覺”(hallucinations per watt-hour)等新型評估指標,并最終論證:可部署的智能將是釋放生成式AI在日常設備中全部潛力的關鍵所在。

生成式AI的演進之路

要深入探討邊緣部署,理解生成式AI的演進歷程至關重要。首先,這段歷史揭示了模型能力日益強大、但資源消耗也愈發密集的發展趨勢——這正是邊緣AI所面臨的核心矛盾。其次,審視那些塑造了當今先進模型的技術突破,有助于我們識別哪些創新可以被改造或重新設計,以適應資源受限的環境。最后,這種歷史視角有助于我們理解該領域當前的分化現象:一方面,前沿模型在規模和能力上持續增長;另一方面,一股并行的趨勢正朝著更小、更高效的模型發展,而這些模型正是為滿足邊緣部署的需求而生。

生成式AI已經歷了多輪創新浪潮,從早期的序列到序列(sequence-to-sequence)模型,發展到如今能夠遵循指令的多模態龐大模型。這段旅程始于2010年代中期,當時基于RNN(循環神經網絡)的seq2seq模型被用于機器翻譯等任務。通過訓練一個編碼器-解碼器RNN(通常帶有長短期記憶單元)來將輸入序列映射到輸出序列,Sutskever等人展示了首個端到端的神經翻譯系統,該系統能夠將一種語言的文本轉換為另一種語言,而無需依賴獨立的分析、轉換和生成組件。不久之后,注意力機制的引入使得解碼器能夠聚焦于輸入序列中的相關部分,極大地提升了序列生成的質量。這些進步共同確立了“seq2seq+注意力”架構作為自然語言處理(NLP)領域生成模型的核心范式。

一個重大的轉折點是Transformer架構的問世。Vaswani等人摒棄了RNN的循環結構,轉而采用自注意力機制,從而允許構建更深、更易于并行化的序列模型。Transformer將序列生成能力提升到了新的高度,并催生了第一波LLM的浪涌。如圖1所示,這一時期標志著模型參數數量的指數級增長,并清晰地分化為不同規模的層級。

邊緣生成式AI:在三重約束下尋求可部署的智能-AI.x社區

圖1:語言模型的演進

該圖描繪了語言模型規模隨時間的增長情況,Y軸為對數尺度下的原始參數數量。模型被分為四個規模層級:小模型(10?–10? 參數,綠色高亮)、中模型(10?–101? 參數,橙色高亮)、大模型(101?–1011 參數,藍色高亮)和超大模型(>1011 參數,紅色高亮)。

OpenAI的GPT系列和Google的BERT(盡管從技術上講,BERT是一個僅編碼器模型)證明了將參數規模擴展至數十億級別,能夠顯著改善模型的語言理解和生成能力。例如,擁有1750億參數的GPT-3展示了僅通過少量示例便能學習新任務的能力,即所謂的“少樣本學習”(few-shot learning)。它能將接收到的文本輸入視為臨時的“程序”來執行多樣化的任務,而無需對其底層模型進行復雜的更新。

然而,單純擴大模型規模也暴露了其局限性:模型往往會產生不連貫或不符合事實的輸出(即所謂的“幻覺”),缺乏精細的控制力,并且可能表現出從訓練數據中學到的有害或帶有偏見的言行。下一階段的演進通過指令調優和基于人類反饋的對齊來解決這些問題。研究人員使用“指令-響應”格式的數據集對大模型進行微調,并采用人類反饋強化學習(RLHF)技術,使模型的輸出與人類的偏好對齊。值得注意的是,Ouyang等人的研究表明,一個經過RLHF微調的1.3B參數GPT-3模型(名為InstructGPT),其輸出在人類偏好評估中甚至優于原始的175B參數GPT-3。這一驚人的結果意味著,一個經過對齊的較小模型,在遵循用戶指令方面的表現,可能超越一個雖更大但未經對齊的模型。以OpenAI的InstructGPT和Anthropic經過RLHF訓練的Claude為代表的指令調優模型,證明了其更高的可用性,這標志著整個行業從原始的生成模型,轉向了更注重實用性和安全性的新階段。

與此同時,生成式AI也擴展到了新的模態。視覺模型從早期的GAN(生成對抗網絡)發展到自回歸模型和擴散模型,已經能夠合成高度逼真的圖像。例如,OpenAI的圖像生成器DALL·E(2021年)使用Transformer來逐個生成圖像的“令牌”,而其后續版本DALL·E 2(2022年)則采用擴散模型,通過迭代的方式逐步優化圖像。擴散模型通過將一個隨機噪聲輸入逐步去噪,最終生成清晰連貫的圖像,現已成為圖像和視頻生成領域的先進技術。到2023年,如OpenAI的GPT-4等多模態LLM已經展現出同時處理文本和圖像的能力,逐漸模糊了語言和視覺領域之間的界限。

隨著模型能力的增長,其規模也水漲船高——直到實際部署成為一個無法回避的問題。此時,一股逆向趨勢應運而生,即開發參數量遠為稀少(在10?–10?量級)但仍保留實用生成能力的小語言模型(SLM)。如圖1所示,語言模型的演進既呈現出向更大模型發展的趨勢,也出現了為適應邊緣部署而生的更小、更高效模型的逆流。Sun等人推出了MobileBERT,這是一個為資源受限設備優化的緊湊型BERT變體;而Lan等人則展示了ALBERT如何通過參數共享和嵌入因式分解技術,在保持性能的同時大幅縮減模型規模。

兩種關鍵方法催生了性能出眾的小模型。第一種是知識蒸餾,它將大模型的知識“壓縮”到一個小模型中。例如,DistilBERT(2019年)在僅有BERT約40%參數的情況下,保留了其97%的語言理解能力,并且運行速度提升了60%。第二種是量化,它使用低精度算術來減少內存需求。近期的8位和4位量化方法,已能讓大模型在運行時僅有微小的質量損失。這些進步共同推動了SLM的發展,使其能夠在消費級硬件上運行。

各大公司已經開始在邊緣設備上部署SLM:最新的智能手機集成了設備端語言模型(如Google的Gemini Nano服務),而Apple的Neural Engine則運行本地的Transformer模型,以支持文本自動填充和聽寫等任務。因此,生成式AI的發展軌跡呈現出分化:一方面,規模日益龐大的前沿模型不斷刷新性能記錄;另一方面,經過優化的小型模型正將AI帶入我們的日常設備。

另一個顯著的進展是知識檢索。即使是小型模型,通過查詢外部知識庫,也能表現得博學多識。檢索增強生成(RAG)技術,通過將來自數據庫或網絡的相關文檔置于模型輸入的上下文之前,為模型提供了其自身可能缺乏的事實信息。Lewis等人的研究表明,檢索增強模型在開放域問答任務上刷新了記錄,性能優于純參數模型。通過將世界知識的“記憶”外置到外部存儲中,RAG技術允許核心模型保持相對緊湊的體積,同時不犧牲事實的準確性。這一理念現已廣泛應用于生產系統(例如搜索引擎中的聊天機器人):一個中等規模的語言模型,在搜索索引或向量數據庫的輔助下,其實際效用可以媲美一個規模遠大于它的獨立模型。

生成式AI從最初的seq2seq模型演進到龐大的多模態LLM,如今正步入一個注重優化和部署意識的設計新時代。盡管通過龐大參數量來擴展LLM以追求頂級性能的研究備受關注,但邊緣生成式AI需要的是一種截然不同的方法。Transformer架構的發明、人類反饋對齊的應用、檢索增強技術的興起以及模型壓縮技術的進步等關鍵轉折點,正在催生一類全新的、小型的、專用的、可部署的模型。這些SLM的目標并非通過純粹的規模在排行榜基準上取勝,而是在能力與效率之間尋求一個“恰到好處”的平衡點,以完美適應在邊緣設備上運行的需求。

生成式模型的分類

隨著生成式AI在邊緣的部署日益接近現實,建立一套清晰的分類體系變得至關T重要。原因如下:首先,它有助于我們系統性地評估哪些類型的模型能夠在邊緣的資源約束下實際運行。其次,它為針對不同模型類別進行特定的優化提供了框架。第三,結構化的分類能幫助研究人員和從業者追蹤進展,并識別在開發邊緣友好型生成式AI過程中的空白領域。最后,它促進了在邊緣部署相關維度上對模型進行有意義的比較。基于此,我們可以從多個維度對生成模型進行分類:模型規模(參數數量)、架構、輸入/輸出模態以及預期的部署環境。

模型規模

模型可分為小型、中型、大型和超大型前沿模型:

  • 小型模型(參數少于約10億):如DistilGPT-2、ALBERT和MobileBERT,這類模型將效率置于首位,通常通過壓縮更大型號的模型得到。其體積通常在約100MB到2GB之間,適用于智能手機、平板電腦以及計算資源有限的邊緣設備。
  • 中型模型(10億至100億參數):如7B參數的LLaMA模型,這類模型在性能與效率之間取得了平衡。其體積從約2GB到20GB不等,適用于高端移動設備或單個GPU。
  • 大型模型(100億至1000億參數):包括GPT-3(175B)和Meta的200B+模型等旗艦級LLM,它們通常需要服務器級別的加速器才能運行,內存占用約在20GB到200GB之間。
  • 超大型前沿模型(超過1000億參數):如Google的PaLM(540B)和GPT-4(1.8T稀疏參數),這些模型挑戰著當前硬件的極限,體積超過約200GB,僅限于大規模的云環境部署。

模型規模不僅與知識儲備和語言流暢度相關,還直接影響內存占用、運行時間和能耗——這些都是部署就緒矩陣中的關鍵因素。表1展示了這些不同規模的模型類別如何與不同的部署環境相對應。

邊緣生成式AI:在三重約束下尋求可部署的智能-AI.x社區

表1:邊緣生成式AI的部署就緒矩陣

該矩陣展示了不同規模的模型在各類部署環境中的運行可行性。顏色編碼表示部署的可行性:綠色(理想)、黃色(有挑戰但可能)和紅色(不可行)。小型模型(<1B參數)在大多數環境中均可行,而超大型模型(>100B參數)則主要局限于云端部署。

該矩陣清晰地揭示了隨著模型規模的增加,內存、計算和功耗的限制如何逐步壓縮部署選項。它描繪了從微控制器到云服務器等不同硬件環境下運行各類模型的可能性,并突出了每種組合所面臨的實際制約。如圖所示,只有小型模型是真正適合邊緣部署的可行選擇;中型模型對于大多數移動設備而言仍具挑戰,但適用于企業級環境;大型和超大型模型則主要局限于云環境,其中大型模型在資源充裕的本地服務器上尚有一定應用潛力。

架構

生成模型涵蓋了多種神經網絡架構。在語言領域,占主導地位的是基于自注意力機制的Transformer架構,它驅動了GPT、BERT、T5等眾多模型,如圖1所示。在圖像領域,自回歸Transformer(如GPT)、GAN、VAE(變分自編碼器)以及擴散模型都廣受歡迎。GAN由一個生成器和一個判別器組成,在一種“最小-最大”博弈中進行訓練,通常能產生照片級的逼真輸出(如用于圖像生成的StyleGAN)。VAE則通過學習數據的概率性潛在表示來進行生成,這在異常檢測等任務中頗具價值。

擴散模型是一類較新的基于似然性的模型,因其訓練穩定性和生成質量,已在圖像和音頻生成領域超越了GAN(例如Stable Diffusion中的潛在擴散模型,或用于語音生成的音頻擴散模型)。此外,還存在混合型架構,例如將自回歸與VQ-VAE結合(如DALL·E的離散VAE + Transformer),或使用擴散目標訓練的Transformer模型。值得注意的是,模型架構往往決定了其計算復雜度——Transformer的計算量隨序列長度呈二次方增長,而擴散模型則需要多次迭代步驟——這直接影響了它們在邊緣設備上運行的適用性。如果能實現可接受的效果,結構更簡單的RNN或CNN(卷積神經網絡)生成器可能更適合低功耗設備。

模態

生成式AI如今已覆蓋文本、視覺、音頻、代碼及其組合。我們可以根據模型生成的內容類型對其進行分類。文本生成器包括語言模型(如GPT-2、GPT-3),主要產出自然語言。圖像生成器包括像BigGAN和StyleGAN這樣的GAN模型,以及像Imagen這樣的擴散模型,用于創建或轉換圖像。音頻生成模型可生成語音或音樂(如WaveNet用于生成逼真的語音,Jukebox用于創作音樂)。視頻生成器(如擴散模型)則將圖像模型沿時間維度進行擴展,以合成視頻片段。有些模型能夠處理多模態輸出,例如,根據文本描述生成圖像(文生圖,如DALL·E),或反之(通過語言模型為圖像生成字幕)。此外,還有專門的代碼生成模型(如OpenAI Codex),能夠根據自然語言描述生成編程代碼。

每種模態都有其獨特的輸入/輸出結構和評估指標(例如,文本領域的BLEU/ROUGE,圖像領域的FID)。但有趣的是,底層的模型技術(如Transformer、擴散模型等)已開始在不同模態之間趨于融合或相互借鑒。對于邊緣部署而言,模態至關重要,因為它決定了所需的傳感器類型(如攝像頭、麥克風)以及對實時性的要求(例如,為實時對話生成音頻,其時間敏感性遠高于起草一封電子郵件)。

部署類別

這個維度根據模型的運行環境進行區分。云端模型假設擁有充足的GPU/TPU(張量處理單元)資源,并受益于近乎無限的內存和彈性伸縮能力;它可能會優先追求最高的準確性,并接受高昂的計算成本(例如GPT-4或Imagen的最高配置版本)。邊緣模型則經過優化,以便在消費級硬件(如移動SoC、筆記本CPU/GPU等)上獨立運行,優先考慮低延遲和高效率。

介于兩者之間,還存在一個霧計算/企業級模型類別:這類模型部署在受控環境中,如工廠服務器或5G邊緣服務器,可用的計算資源中等,但達不到超大規模云的水平。

在需求最低的一端,是微控制器或IoT模型,它們在極其嚴苛的約束下運行(例如,只有幾MB內存,且沒有硬件加速器)。TinyML社區已經實現了在微控制器上運行關鍵詞檢測神經網絡等壯舉;而生成式TinyML(例如在設備上提供短語建議)則是一個新興的前沿領域。

邊緣應用場景

通過上述分類,我們可以清晰地看到,邊緣部署涉及特定的模型組合:通常是小型到中型的規模、經過效率優化的架構、與應用相關的模態,以及適應設備限制的部署配置。基于此,在設備端或邊緣本地部署生成模型,將在以下幾個領域催生變革性的應用:醫療健康、可穿戴與AR設備、機器人技術以及工業/物聯網。每個領域都帶來了獨特的延遲、模態和隱私要求,這也解釋了為何“一刀切”的云模型往往難以滿足需求。

醫療健康與醫療設備

在醫療領域,數據隱私和即時響應有時甚至關乎生死。想象一下,一個智能內窺鏡能夠在手術過程中實時生成觀察摘要,供外科醫生參考;或者一個胰島素泵能夠持續地將血糖傳感器的讀數轉化為給患者的自然語言飲食建議。這些生成任務必須在本地執行,因為隱私(患者數據不能離開設備)和可靠性(手術室可能沒有互聯網連接)是硬性要求。

設備端語言模型正在被探索用于臨床決策支持和醫療文檔的起草。例如,一個醫生的智能助手可以在檢查過程中,于平板電腦上實時總結患者病史并提出可能的診斷建議,而無需將敏感記錄發送到云端。早期的研究表明這在技術上是可行的:Nissen等人對Phi-3(2.7B參數)等緊湊型模型在智能手機上的臨床推理能力進行了基準測試,發現它們可以達到合理的準確性和可接受的速度,尤其是在經過醫療知識微調之后。像Med42和Aloe這樣專用的醫療小模型(MedLM),已經在醫療問答任務上進行了微調,展現出很高的準確性,盡管它們通常需要比舊款設備更多的內存。

該領域面臨的關鍵挑戰包括保證事實的準確性(一個帶有幻覺的診斷可能是危險的)以及在保護患者隱私的同時持續從新數據中學習。隱私保護微調技術(如設備端學習或跨醫院的聯邦學習)是一個活躍的研究領域,旨在讓本地的生成模型能夠保持更新,而無需建立一個集中的數據池。

可穿穿戴設備與增強現實

智能眼鏡、耳塞和手表等可穿戴設備具有高度個性化和情境感知的特點,這使它們成為承載定制化生成式AI的理想平臺。設想一副AR眼鏡,如Ray-Ban Meta眼鏡,它能看到用戶所見,并低聲提示上下文信息:“這款產品有四星評價”或“走近的這個人是John;你們在2019年的一次會議上見過面”。要使這類眼鏡在社交場合被接受,它們必須在設備端處理視覺輸入并生成輸出(文本或音頻),因為持續地將第一人稱視角的視頻流傳輸到云端將是一場隱私噩夢。邊緣生成模型可以為視障用戶即時描述場景,或者翻譯用戶視野中的外語文本(以圖像到文本的形式生成)。可穿戴健康監測器則可以利用小型生成模型,將原始的傳感器讀數轉化為連貫的洞察(“今天你的壓力水平高于平時,或許可以散個步”)。

這里的模態和資源限制是關鍵:可穿戴設備通常需要處理多模態數據(加速度計、GPS、攝像頭、麥克風),但其計算能力卻非常有限(智能手表的AI任務或許只有幾百MHz的CPU預算)。這推動了對多模態SLM的研發興趣,即能夠高效處理文本、音頻和簡單視覺信息的模型。例如,高通公司已經展示了在頭戴式設備上本地生成混合現實場景的技術。另一個例子是能夠在離線狀態下運行的個人語音助手——最新的旗艦手機已經可以完全在設備端運行經過壓縮的語音識別和合成技術棧,從而實現對話期間的實時語言翻譯等功能,完全無需依賴云端。

對于AR和可穿戴設備而言,低延遲至關重要(AI應能實時增強現實),同時散熱限制也極為嚴格(沒人愿意佩戴發燙或沉重的眼鏡)。這些應用場景推動了專用架構的發展,例如為低功耗NPU(神經處理單元)優化的Transformer主干網絡,以及集成了傳感器專用AI模塊的方案,比如將一個小型視覺模型的結果饋送給一個語言模型。

機器人技術

在物理世界中操作的機器人,無論是家用機器人、無人機還是工業自動化設備,正日益將生成式AI用于規劃、感知和交互。機器人基礎模型的概念已經出現:即一個大型(通常是多模態)模型,能夠驅動一系列的機器人行為。例如,谷歌的PaLM-SayCan系統將一個語言模型與機器人的執行模型相結合,使得機器人能夠解析高層次的指令(如“給我拿點零食”)并生成相應的動作序列。近期的工作,如RT-2(Robotics Transformer),則使用一個視覺語言模型,直接從視覺輸入中輸出機器人動作,這本質上是將機器人策略視為一種文本生成任務(其中,“文本”指的是電機指令序列)。

目前,這些演示大多依賴于云規模的模型和服務器級的GPU;機器人本身則通過網絡連接到這些強大的計算資源。邊緣計算面臨的挑戰在于,如何將足夠強大的智能嵌入到機器人的板載計算機中,使其能夠在現場自主運行,尤其是在網絡連接可能不可靠的環境下(例如,一架檢查偏遠站點的無人機)。這需要具身化的小語言模型(Embodied SLM),即將傳感器數據——如攝像頭、激光雷達(LIDAR)——與語言或策略生成能力整合在一起的緊湊模型,并使其完全在機器人的硬件(可能是NVIDIA Jetson或DSP)上運行。

機遇是廣闊的:自動駕駛汽車可以搭載一個生成模型,實時向乘客解說其決策邏輯(“我正在減速,因為我看到前方有一個騎自行車的人”),從而增加乘客的信任感。家用的輔助機器人可以擁有一個本地的LLM,使其能夠自然地與用戶對話,并適應家庭特定的指令,而無需將每個語音查詢都發送到外部服務器(這解決了家庭內部互動的隱私問題)。在工業環境中,工廠車間的機器人可以本地共享一個生成模型來協調任務,它們可以合成計劃并相互廣播——這是向多智能體協作邁出的一步。

機器人應用場景尤其受益于邊緣AI的低延遲反應能力(機器人可能需要在毫秒內做出反應)和自主性(火星探測車必須在沒有地球服務器支持的情況下自主生成計劃)。盡管如此,在機器人中部署生成模型也引入了安全關鍵性的考量:板載模型若生成錯誤的指令,可能會造成物理傷害。這凸顯了對嚴格驗證、故障安全機制或混合系統的需求,即由可靠的經典控制算法來監督生成式規劃器提出的“創意”建議。

工業與物聯網應用

在工業領域,大量的物聯網設備正在生成海量的傳感器數據流。邊緣生成模型可以將這些數據轉化為有意義的敘述或預測。例如,一個智能工廠中的邊緣物聯網網關可以使用SLM來生成機床日志的摘要(“A號機床的主軸出現磨損跡象;建議在10天內進行維護”),而不僅僅是向上游發送原始的日志文件。在電網中,邊緣AI可以通過生成未來可能情景的模擬數據,來預測需求模式(這是一種數據合成的形式)。

異常檢測也可以被視為一種生成任務:模型學習傳感器讀數的正常分布模式,并將任何它無法“生成”的數據點標記為可能的異常。一個具體的應用是,部署在邊緣的攝像頭不僅能通過視覺模型檢測入侵者,還能生成事件的文本報告(“下午3點05分,一名身份不明的人員從北門進入,攜帶一個疑似工具箱的物體”)。在本地生成這份報告意味著,敏感的安全錄像永遠不會未經加密地離開場所。

在工業環境中,隱私問題更多地關系到專有數據(例如制造工藝的商業秘密);本地生成有助于將這些信息保留在內部。當需要快速的決策循環時(例如,邊緣AI在檢測到危險情況時生成控制信號以關閉閥門),延遲就顯得尤為重要。許多工業邊緣設備是帶有一定加速能力的小型計算機(如NVIDIA Jetson Nano或Google Coral開發板),它們能夠運行中等規模的模型,但功率預算非常緊張。

散熱限制和全天候的可靠性在這里也至關重要:邊緣生成模型可能需要連續不斷地運行,因此它們必須足夠高效以避免過熱或耗盡備用電源,并且足夠穩健以避免崩潰(工廠機器人AI中的內存泄漏可能會導致整條生產線停工)。

縱觀以上這些應用場景,一些共同的主題浮現出來。首先,多模態通常是邊緣環境的需求——設備擁有各種傳感器(攝像頭、麥克風等),并且必須生成多樣的輸出(文本、語音、圖像)。這有利于采用模塊化或復合模型(例如,一個小型視覺模型將結果饋送給一個語言模型),或者采用統一的多模態模型(如果能做到足夠高效)。

其次,個性化和情境化是關鍵:邊緣AI服務于特定的用戶或環境,因此必須能夠適應上下文。云模型服務于數十億用戶,其上下文是平均化的;而設備端模型則可以進行特化(例如,學習用戶的詞匯習慣、工廠的典型工況等)。下一節將討論微調或本地數據學習等個性化技術,它們既是機遇也是挑戰(因為本地數據有限)。

第三,隱私和安全既是邊緣生成式AI的賣點,也是其基本要求。在本地保留數據可以保護隱私,但確保模型自身的安全也同樣重要(例如,確保它不會泄露已記憶的敏感信息,并能抵御篡改)。

總之,在邊緣部署生成模型開啟了對那些要求低延遲、能在資源受限下工作,并且常常涉及敏感數據或環境的應用的可能性。表2中的示例說明了對邊緣生成模型的多樣化需求。沒有單一的模型能夠覆蓋所有場景;相反,我們可能會看到針對特定細分領域的專用小型模型大量涌現。下一節將深入探討實現這些邊緣應用場景必須克服的核心技術挑戰,并按照數據、模型和計算的結構進行組織。

邊緣生成式AI:在三重約束下尋求可部署的智能-AI.x社區

表2:邊緣生成模型的多樣化需求

邊緣生成式AI的核心挑戰

在邊緣部署生成式AI需要克服多重挑戰。這些挑戰可以被歸納為三個相互作用的維度:數據(Data)、模型(Model)和計算(Compute)。本節將依次審視每個維度,并關注它們之間的交集。由此,我們提出了所謂的DMC(數據-模型-計算)交互三角(如圖2所示),其中每個頂點都對應一個根本性的約束:有限的本地數據、受限的計算資源和對小型模型的需求。三角形的邊則代表了兩兩之間的相互作用(例如,數據-計算:聯邦學習處理本地數據;模型-計算:量化/剪枝以適應硬件;數據-模型:遷移學習用少量數據來適應模型)。

邊緣生成式AI:在三重約束下尋求可部署的智能-AI.x社區

圖2:邊緣AI的“數據-模型-計算”交互三角

在三角形的中心,所有三個約束匯集于此,形成了最具挑戰性的區域,需要對DMC的權衡進行整體優化。邊緣生成式AI正處于這種復合部署約束的范疇內,其中對一個方面的優化往往會加劇另一個方面的問題。在邊緣環境中,數據往往是稀缺且孤立的,模型必須小型而高效,計算資源(包括能源和散熱空間)也極為有限。滿足其中一個約束已屬不易,同時滿足所有約束則是邊緣AI部署的核心所在。

數據約束

與在海量集中式數據集上訓練的云模型不同,部署在邊緣的生成模型必須應對數據有限且分散的現實。單個邊緣設備(如智能手機或物聯網傳感器)只能接觸到數據的冰山一角,這可能不足以訓練甚至微調一個強大的模型。這導致了以下幾個挑戰。

數據稀缺與質量

許多邊緣生成應用場景涉及模型原始訓練語料庫中未曾見過的個人化或情境化數據。例如,一個個人助手可能需要適應用戶的寫作風格,或者一個工廠模型需要學習某臺特定機器的正常運行模式。用于這些特定微調任務的數據量通常很小(可能只有幾份文檔或幾天的日志),并且可能帶有噪聲或未經標注。在小數據集上微調大模型存在過擬合或學習到虛假模式的風險(例如,語言模型可能會固化用戶文本中的一些特殊習慣,從而降低其通用流暢性)。少樣本和零樣本學習技術正在被研究,以使模型能用最少的數據進行適應;數據增強技術(甚至可能利用生成模型自身來合成額外的訓練樣本)也是一個方向。

在醫療等領域,標注數據不僅稀缺,而且極其敏感——本地模型或許可以訪問患者記錄,但將其用于訓練則會引發隱私擔憂。差分隱私和聯邦學習(FL)等技術在此發揮作用,它們允許模型從數據中學習,同時不暴露原始數據(例如,谷歌的Gboard輸入法就使用FL技術,在不上傳用戶數據的情況下,跨用戶改進設備端的鍵盤建議)。然而,聯邦方法在處理邊緣數據的高度異構性和非獨立同分布(non-iid)特性時可能會遇到困難——一個用戶或傳感器的數據分布可能與其他的截然不同。目前正在開發新的基準測試,以評估FL在這些多樣的非獨立同分布條件下的性能。

設備端微調(個性化)

理想情況下,邊緣生成模型可以從用戶的反饋或新的本地數據中持續學習,從而隨時間不斷改進(例如,讓你的聊天機器人更懂你的網絡用語)。然而,在設備上進行完整的反向傳播訓練通常是不可行的,因為它受到計算和內存的限制。即便設備能夠處理,也存在模型過擬合用戶數據而喪失通用性(你的個性化模型可能對他人毫無用處)以及災難性遺忘(適應新數據可能導致原有知識性能下降)的風險。

近期的LoRA(低秩適應)和適配器模塊等方法,提供了一種輕量化的方式,只需微調模型的一小部分,從而減少了所需的計算資源和數據量。另一種方法是基于提示的個性化:我們不改變模型的權重,而是存儲個性化的提示或前綴(有時稱為軟提示或嵌入),用以在特定于用戶的上下文中引導模型。這類似于在不重新訓練的情況下,給模型一個關于用戶數據的快速記憶。這里的挑戰在于,如何確保這些個性化設置不會損害模型的底層安全性或引入偏見(以及如何保護這些設置本身——如果有人提取了你的提示,是否會泄露你的私人信息?)。通信高效的聯邦學習策略可以緩解持續進行本地適應所帶來的帶寬和能源成本。

隱私與數據治理

邊緣生成式AI處于用戶數據與AI輸出的交匯點,這引發了新型的隱私問題。模型可能會無意中輸出其訓練數據中的敏感信息(在NLP領域,模型反演攻擊的研究表明,罕見的訓練短語有時可以被逐字復現)。當模型在設備上進行訓練或適應時,需要有機制來確保它們不會在響應中“泄露”這些數據。這是邊緣模型可審計性這一更廣泛挑戰的一部分——與云服務提供商可以監控問題輸出不同,設備端的模型是自主行動的。設備可能需要工具來掃描生成的內容,以防止隱私泄露,或者過濾掉那些看起來與私人訓練數據過于相似的內容(例如,一個在醫院本地部署的生成模型,在生成通用報告時不應意外地泄露出患者姓名)。

像GDPR(通用數據保護條例)這樣的法律框架也在此發揮作用:如果手機上的模型根據你的數據進行了微調,那么這是否被視為你的數據(答案很可能是肯定的)?如果是,又該如何提供透明度或實現“被遺忘權”?這些問題在很大程度上仍是開放的,需要技術和政策層面的共同創新。

總而言之,交互三角中的“數據”一角,要求我們開發出能從有限數據中學習、能在不共享原始數據的情況下跨設備共享洞見(通過聯邦或協作訓練),并能維護隱私的方法。當數據成為瓶頸時,我們往往會轉向最大限度地利用模型和計算資源(例如,使用一個更大的預訓練模型,以減少適應所需的數據量)。但更大的模型又與交互三角的其他角產生了沖突,我們將在下一節看到。

模型約束

模型自身——包括其規模、架構和訓練方式——是邊緣部署這一難題的核心部分。這里的挑戰包括:如何使模型更小、更高效(同時不損失過多性能);如何在資源受限的環境中處理模型的幻覺和錯誤;以及如何確保模型在經過量化或剪枝等修改后,依然保持安全和穩健。

模型壓縮(規模 vs. 性能)

或許最顯而易見的挑戰是:當前最優的模型體積龐大,而龐大的模型無法在邊緣設備上良好運行,甚至根本無法運行。研究社區已經開發出了一整套模型壓縮技術——其中量化、剪枝和蒸餾是主要手段。量化通過降低數值精度(例如,使用8位或4位權重,而非16/32位),可以顯著縮小模型體積,并在支持低精度計算的硬件上加速推理。量化感知訓練或智能校準方法(如GPTQ、SmoothQuant)甚至能讓LLM在8位精度下實現最小的準確率損失。近期的研究,如QT-DoG,進一步探索了量化后的模型如何保持其在未見領域上的泛化能力,這對于真實世界的邊緣應用至關重要。然而,過于激進的量化可能會損害模型的“平滑性”。一些用戶報告稱,4位量化的聊天模型會產生更多重復或混亂的輸出,這表明精度的降低可能會以一種微妙的方式降低生成過程的質量。另一個關鍵的壓縮方法是剪枝,它通過移除冗余的權重或整個神經元來縮減模型。它在視覺模型上效果顯著,但對于密集的語言模型,除非操作非常謹慎(例如,在微調后進行幅度剪枝),否則剪枝往往會損害輸出的連貫性。

蒸餾,即訓練一個較小的“學生”模型來模仿一個較大的“老師”模型,是在用更小的體積保留高性能方面,產出最佳結果的方法之一。其缺點是,蒸餾過程本身需要在一個可能非常大的語料庫上進行廣泛的訓練(通常是原始訓練數據或由“老師”生成的合成數據集)。對于邊緣環境,一個有趣的方向是在線蒸餾:設備是否可以通過與云端模型的交互,持續地將知識蒸餾到本地模型中?例如,當你的手機在線時,它可以查詢云端模型,并利用這些查詢-回答對來改進其離線模型。這將是聯邦學習與蒸餾的結合,但目前這在很大程度上仍處于概念階段。

除了壓縮,另一個在邊緣部署中前景廣闊的途徑是MoE(專家混合) 架構。MoE模型將整個模型分解為多個專用的“專家”,在每個推理步驟中只激活其中的一個子集。這種稀疏化的方法可以在保持較大模型性能的同時,降低計算需求。盡管MoE已在云環境中顯示出效率優勢,但將其應用于邊緣環境也帶來了新的挑戰,例如在延遲約束下的專家路由選擇,以及在低功耗環境中的動態專家調度。

盡管存在理論上的優勢,但由于實際的權衡,MoE在本地模型中的應用仍然有限。它們要么需要(1)更多的HBM(高帶寬內存)來存儲完整的專家集合,同時在每次推理中使用較少的計算資源;要么需要(2)復雜的專家加載/卸載機制,這對于資源受限的邊緣設備而言并不常見。這些內存與計算之間的權衡,往往使得傳統的密集型模型對于當前的邊緣部署更為實用。盡管如此,MoE選擇性分配計算資源的能力,使其成為在資源受限環境中平衡模型規模與性能的一種有潛力的方法,尤其是在邊緣硬件能力持續演進的背景下。

幻覺與可靠性

生成模型以“捏造”信息而聞名——這在聊天機器人中可能只是無傷大雅的怪癖,但在某些邊緣應用場景下卻可能是災難性的(想象一下,一個汽車導航AI幻覺出一條不存在的道路)。大型模型通過RLHF和RAG等技術來緩解幻覺問題。然而,在邊緣設備上,你可能使用的是一個遠小于大型模型、且沒有這些奢侈功能的模型,或者是一個未經嚴格對齊訓練的模型,因為它學習和存儲精細對齊偏好的能力受限于其自身規模。小型模型通常更容易產生幻覺,因為它們內置的知識和語言技巧更少。這對邊緣技術的普及是一個嚴峻的問題——用戶必須能夠信任設備端的AI,它才能真正發揮作用。(畢竟,沒人希望自己的AR眼鏡偶爾會描述一些不存在的東西。)

一種策略是縮小邊緣模型的使用范圍:對于關鍵決策,依賴確定性算法或簡單的模型,而將生成能力保留用于低風險任務。另一種方法是設備端驗證——例如,如果一個邊緣模型為機器人生成了一個計劃,一個輕量級的驗證器(如經典的規劃器或物理模擬器)可以評估該計劃的可行性。雖然這會增加延遲,但有助于防止明顯的失敗。第三種方法是延遲決策,即當邊緣模型不確定時,將任務卸載到云端。這與Ong等人在RouteLLM中描述的路由方法相符,該方法基于偏好數據學習如何將查詢路由到最合適的模型。例如,一個設備端的助手可以本地處理大多數查詢,但在置信度較低時(例如,最高預測的概率較低,或檢測到領域外的輸入),則將任務轉交給更強大的云模型。

在邊緣設備緊湊的計算約束下,為生成模型設計回退邏輯和置信度度量仍然是一個開放的挑戰,因為傳統的用于量化不確定性的方法(如蒙特卡洛dropout或集成模型)可能計算成本過高。

基于這些考量,一種更動態的方法正在出現,旨在平衡安全與效率:測試時計算(Test-Time Compute, TTC)。在這種模式下,推理期間的計算預算會根據任務的復雜性或模型的置信度進行實時調整。TTC不是為每個輸入都靜態地分配資源,而是動態地伸縮計算量——只在必要時才調用更大的子模型或更復雜的計算路徑。這使得邊緣模型能夠為模糊或高風險的輸入分配更多的計算資源,同時為常規任務保持高效率。例如,一個設備端的助手可能用一個輕量級模型處理簡單的請求,但在處理模糊查詢或關鍵指令時,則升級到一個能力更強的模型。

TTC引入了一種自適應的推理范式,它將計算投入與任務的復雜性對齊,從而使邊緣部署能夠在不犧牲效率的前提下實現更高的安全性。然而,在資源受限的環境中實現TTC也帶來了新的挑戰,例如需要設計低延遲的置信度評估器,并確保升級閾值經過精心調優以避免不必要的計算開銷。盡管存在這些挑戰,TTC為在邊緣動態平衡模型的安全與效率帶來了希望。

邊緣對齊與安全

大規模的對齊(如RLHF)通常是在云端,利用龐大的模型和大量的人類反饋來完成的。那么,你如何確保一個小型邊緣模型的安全性、禮貌性和規范性呢?一種可能是將大型模型的對齊行為蒸餾到小型模型中。Ouyang等人的發現——即便是1.3B參數的模型也可以被對齊到超乎尋常的指令遵循水平——是很有希望的,它表明在小體積內實現某種程度的對齊是可能的。例如,對齊后的模型通常具有校準良好的拒絕行為(“抱歉,我無法協助該請求。”)。問題在于,如果這個模型被嚴重壓縮,它是否仍能可靠地觸發這種拒絕行為,還是會產生不安全的響應?

早期的證據表明,如果不仔細管理,壓縮有時會降低審核過濾的有效性,或使模型更有可能產生有害輸出。因此,挑戰在于開發出專門針對邊緣約束的安全指標和測試方法。我們需要度量諸如“每單位內存占用的有害內容量”這樣的指標,或者評估幻覺率作為量化水平的函數。稍后的“安全-效率權衡”一節將提出一些想法。

持續學習與模型刷新

邊緣模型一旦部署,其更新頻率可能很低(不像云模型可以被中央隨時修補或替換)。這引發了模型陳舊的問題;隨著時間的推移,設備端的生成模型在其知識庫中可能會變得過時(想象一個本地新聞摘要應用,因為它是在2024年訓練的,所以對2025年之后發生的事件一無所知)。如果設備主要處于離線狀態,它就無法獲取更新。

如何保持模型的新鮮度?一種方法是集成一個檢索機制,使其能夠獲取新信息(只要它能訪問某些數據源)。另一種方法是在設備連接時進行周期性更新,但為數十億設備頻繁推送大型模型更新并非易事(而且,用戶可能不希望下載如此大的文件)。一個相關的挑戰是異構性:在一個由眾多邊緣設備組成的網絡中,所有模型的更新可能不會在同一時間進行,甚至不會更新到同一個版本。這可能會使聯邦學習變得復雜(客戶端的模型版本不同),并造成不一致的用戶體驗。

邊緣生成式AI:在三重約束下尋求可部署的智能-AI.x社區

圖3:聯邦學習方法比較

該圖說明了:(a)傳統的聯邦學習,其中客戶端在本地模型和服務器維護的全局模型之間共享更新;以及(b)個性化的聯邦學習,其中客戶端維持適應個體用戶需求的個性化模型,同時仍然貢獻并受益于全局知識庫。

“在現場”的模型不再是單一的實體,而是一個版本的分布。邊緣友好的算法可能需要能夠適應任何現存的模型版本(或許可以通過保持系統其余部分使用的API或接口的穩定性來實現,即使內部實現有所不同)。

每個設備在進行個性化時,可能會從基礎模型中“分叉”出自己的版本,這使得在不覆蓋個人適應性調整的情況下應用通用更新變得更加困難。解決這個問題可能需要將基礎模型的知識與個人的增量更新解耦(以便可以安全地更新基礎模型),并使用聯邦蒸餾等技術,即用戶的模型知識被蒸餾到一個新的全局模型中,然后以保護隱私的方式將更新合并后發回。

本質上,交互三角中的“模型”一角,要求我們在緊湊性與能力之間取得平衡,并以一種能讓模型保持真實、安全和更新的方式來實現。這些方面大多又與計算因素直接相關,因為像運行驗證器或檢索系統這樣的解決方案都需要額外的計算資源。現在,讓我們轉向那個角。

計算約束

邊緣設備種類繁多,從電池供電的物聯網傳感器到智能手機和汽車,但它們都共同面臨計算、內存和能源的限制。計算維度通常是最直接的約束——如果一個模型運行太慢或太耗能,它就根本無法在設備上部署。關鍵挑戰包括滿足延遲要求、遵守能源/散熱預算,以及有效利用硬件加速器。

延遲與實時操作

許多邊緣應用場景都有嚴格的延遲限制(例如,一個AR翻譯應用可能需要在50毫秒內生成文本才能感覺即時,汽車AI必須在幾十毫秒內做出反應,而一個對話助手則應在不到一秒的時間內響應才能感覺流暢)。要實現這一點,意味著模型的推理過程必須被優化到極致。批處理(即將多個請求的開銷分攤)通常不適用于邊緣環境,因為任務是一個接一個地到達。這與云端不同,在云端,跨用戶的批處理可以提高吞吐量。因此,邊緣模型必須在單實例推理時保持高效。這里的技術包括量化(再次強調,對于某些硬件,這可以提速)、操作融合、優化的圖編譯器(以減少神經網絡層之間的開銷),以及在某些情況下,跨時間分割模型(例如,大部分時間運行一個較小的模型,只在處理復雜查詢時偶爾調用一個較大的模型,從而動態地權衡質量與延遲)。

另一種方法是為速度而蒸餾:除了壓縮參數,你還可以訓練一個學生模型用更少的層數來匹配老師的輸出,這直接針對減少順序操作的數量(因為在設備上,不像大型GPU集群,你無法在多個核心上進行大規模并行計算——你往往受限于在少數核心上的順序執行)。某些模型架構也更利于降低延遲:例如,單向Transformer必須為每個生成的令牌順序地計算注意力,這會增加與輸出長度成比例的延遲。非自回歸的生成方法(通過迭代精煉來并行生成多個令牌),如果其準確性能被接受,則有可能顯著降低延遲。

內存與存儲

內存是許多設備上的硬性限制——如果模型無法裝入RAM(或移動GPU上的VRAM),它就無法運行。與云服務器不同,你不能簡單地為手機或手表增加更多內存。這就是為什么模型規模(參數數量)如此關鍵。但問題不僅在于模型的權重;推理期間的激活內存也同樣重要。運行一個6B參數的模型,在半精度下可能僅權重就需要12GB內存,這遠遠超過了典型移動設備的RAM。即使加載一個1B參數的模型(約2GB),也可能給某些設備帶來壓力。另一個問題是模型存儲:在設備的閃存中存儲大型模型可能會成為問題,尤其是對于那些必須低于特定APK(Android Package Kit)大小限制的應用。壓縮技術(如權重聚類和編碼)可以在量化的基礎上進一步減小磁盤占用,盡管它們可能需要在運行時于設備上進行解壓。像Edge-LLM中提出的統一壓縮和自適應層調優等技術,通過聯合優化計算和內存使用,同時保留模型的核心能力,提供了一種優雅的解決方案。

能源與散熱限制

邊緣設備通常依靠電池運行,并在嚴格的散熱范圍內工作。一個復雜的生成模型如果讓手機的CPU/GPU滿負荷運行幾秒鐘,就會耗盡電池并可能導致設備過熱,從而引發性能節流。因此,每次推理的能耗必須被考慮在內。一些學術工作提出了諸如“每焦耳預測數”甚至“每千瓦時令牌數”這樣的指標。例如,一個int8量化的模型,在同一硬件上,其每次查詢的能耗可能比FP16模型低五倍。然而,近期的MLPerf Power基準測試表明,盡管硬件有所改進,ML模型的能效提升正趨于平緩,這凸顯了優化回報遞減的現象。這種趨平意味著,要進一步降低能耗,可能不僅需要硬件的進步,還需要更激進的模型壓縮和架構創新。如果一個應用場景需要頻繁地進行生成(例如,在AR中持續運行評論),模型就必須極其高效,或者有專門的硬件加速。

說到硬件,現代手機通常配備了NPU/DSP,它們在處理神經網絡任務時比通用CPU的能效高得多。充分利用這些硬件是一個挑戰,因為這通常需要對模型進行定制化優化(例如,量化到芯片支持的格式,使用特定的操作)。邊緣部署策略應包括硬件感知的模型設計,甚至可能需要搜索最適合目標設備加速器的模型架構(正如PhoneLM的設計過程所做的那樣)。散熱問題意味著,即使一個設備可以短時間爆發進行大量計算,它也可能無法持續。一個虛擬現實頭盔或許可以運行一個重型模型一分鐘,但隨后可能因為達到散熱極限而必須關閉它。

緩解策略包括占空比循環(即間隔地運行模型)、將部分計算任務卸載到附近的邊緣服務器(如果可用)——這是一種被稱為分割計算的范式。例如,攝像頭的數據在設備上進行預處理,然后發送到邊緣服務器進行生成,最后結果返回。當完全在設備上運行不可行時,分割計算是一種折衷方案,但它引入了對網絡的依賴,這可能與我們最初選擇邊緣計算的原因相悖。盡管如此,在本地網絡或以設備為中心的場景中,它可能很有用(考慮一個智能家居,其中一個更強大的中心設備運行重型模型,為多個低功耗傳感器提供服務)。

計算-數據交匯

值得注意的是計算和數據是如何相互作用的。如果你的計算能力低下,你就無法在設備上運行復雜的訓練算法,這限制了你利用數據的方式。反之,如果數據稀缺,你或許可以為每個數據點分配更多的計算資源,以從中榨取更多信息(例如,在少量樣本上進行非常長時間的訓練,盡管這可能導致過擬合)。一個交匯的例子是聯邦學習的開銷:聯邦學習要求設備進行本地訓練(這是計算密集型的),并通信更新(如果模型很大,這可能會很耗費資源)。在手機上對整個LLM進行聯邦平均是不切實際的,因為它對計算的要求太高了——因此需要像聯邦蒸餾這樣的研究,或者發送更輕量級的更新(例如,只發送小型適配器的梯度,而非整個模型)。

另一個交匯點:復合部署約束的發生。例如,當你試圖量化一個模型(以滿足計算限制)時,你發現它的準確性現在降低了,需要更多的數據或微調才能達到可接受的性能,但你并沒有這些數據。或者,你嘗試在設備上微調一個模型(數據-模型交互),卻遇到了內存問題(模型-計算交互)。孤立地解決一個約束是不夠的;設計必須能夠聯合滿足數據、模型和計算的約束。

為了說明這一點,讓我們再次回到交互三角圖:一個邊緣解決方案可能會選擇一個中等規模的模型(以滿足計算需求),然后用檢索來增強它(以彌補數據/知識的限制),并對其進行量化(以進一步降低計算需求),但這種量化可能會使模型與檢索系統的集成不夠連貫,或影響其安全性。這些被稱為復合部署約束,即邊緣環境的要求組合在一起,創造出了在單獨考慮每個因素時不會出現的新研究挑戰。

總而言之,“計算”一角要求高效的推理、內存優化以及通常是定制化的硬件感知實現。邊緣生成式AI本質上是一項系統工程:它關心的不僅僅是模型的原始準確率,而是整個“傳感器→模型→輸出”管道在嚴格預算下運行的能力。數據、模型和計算約束之間的相互作用表明,我們需要一個整體的解決方案——更小的模型、更聰明地使用數據的方式,以及充分利用硬件。沒有單一的靈丹妙藥。

安全-效率權衡

隨著生成模型為適應邊緣部署而進行優化,效率(速度、體積、資源占用)與安全(事實準確性、一致性、輸出的無害性)之間不可避免地會出現權衡。這表現為一條“安全-效率權衡曲線”——改善一方往往會降低另一方。理解并量化這種權衡至關重要,這樣我們才不會部署一個速度超快但卻輸出不可靠或有害內容的模型,也不會部署一個過度安全但卻臃腫到無法在目標設備上運行的模型。

一個重大的擔憂是,對模型進行激進的壓縮或截斷,可能會侵蝕掉大型模型所擁有的經過微調的保護機制和知識。例如,一個4位量化的模型可能會節省內存并運行得更快,但微妙的量化噪聲可能會導致它比其16位版本產生更多有害或帶有偏見的輸出,從而破壞了在安全方面所做的努力。同樣,剪枝掉模型30%的權重可能對評估困惑度的影響微乎其微,但這個被剪枝的模型可能會在拒絕不當請求時失敗,而原始模型本可以拒絕這些請求。

這些擔憂并非空穴來風;近期的研究已經考察了不同壓縮技術——如剪枝和量化——對安全指標(包括有害性、偏見和真實性)的影響。他們的研究結果表明,剪枝尤其比量化更能顯著增加困惑度,這突顯了壓縮后模型安全性能下降的風險。然而,該研究并未跨越不同模型規模來比較這些效應,從而留下了關于壓縮如何與模型規模相互作用,以及較小的模型是否更容易受到安全侵蝕的開放問題。

邊緣生成式AI:在三重約束下尋求可部署的智能-AI.x社區

圖4:假設的“安全 vs. 效率”權衡曲線

如圖4所示,這種關系可以被概念化,其中X軸代表效率(模型規模或計算要求),Y軸代表安全風險(幻覺、有害性、錯誤)。向著更高效率移動(向左,更少的FLOPs或更小的模型)往往會增加模型出錯或產生不安全行為的風險(向上)。紅色曲線表示當前的權衡。像蒸餾對齊、選擇性重訓練或混合檢索等技術(綠點)可以在給定的效率水平下實現更安全的行為,從而將曲線推向理想的綠色前沿。值得注意的是,極小的模型在幻覺和有害性等問題上會出現急劇上升,這表明在給定的模型規模下存在一個安全的底線。

向更高效的模型移動(從右到左)意味著安全性趨于惡化(更高的有害性、更多的錯誤)。例如,從一個6B模型切換到一個1.3B模型,可能會使在問答基準測試中的幻覺率翻倍。如果進一步縮小到300M模型,可能會使其增加兩倍。

也可能存在不連續性:如果量化跨越了某個精度閾值,模型的錯誤率可能會突然跳升。我們研究的目標是向上彎曲這條曲線,找到那些能在不犧牲過多安全性的前提下提供更好效率的技術路徑,從而有效地超越舊的曲線(實現帕累托改進)。

讓我們來分解一些在邊緣約束下的具體安全擔憂。

事實性下降

隨著參數數量的減少或量化程度的增加,模型可能會丟失存儲知識或保持事實準確性所需的精度。一個規模更大的LLM可能知道晦澀的歷史事實,而一個較小的模型可能只能給出近似的答案,或者完全捏造答案。如果檢索功能也被移除了(因為設備處于離線狀態),那么小模型就只能依靠自己了。這可以通過在設備上維護一個用于驗證事實的緩存(一個小型知識庫)來緩解,但這又回到了需要更多內存和檢索代碼的問題上。

一個有前景的領域是穩健的知識蒸餾,即老師模型不僅蒸餾原始輸出,還強制學生模型內化事實(或許通過生成問答對或真/假陳述,并訓練學生模型來掌握它們)。也有研究致力于將知識模塊化,以便小型模型可以按需查詢一個經過壓縮的知識庫。但接下來的挑戰是,如何確保模型真的會去查詢,而不是產生幻覺。像KnowNo這樣的技術,它使用保形預測來校準不確定性,并提示模型在置信度低時推遲響應,為緩解這個問題提供了一種有前景的方法。這類方法可以降低幻覺風險,并確保即使在模型離線或在資源受限條件下運行時,也能保持事實性。為了取得進展,對設備端事實性的評估可能需要新的指標,以平衡準確性與資源限制。例如,“每千焦耳的準確答案數”可能聽起來有些奇怪,但卻是一個有用的指標,它將事實準確性與能源效率結合了起來。

有害性與偏見

許多大型模型都經過了安全訓練,以避免產生有害語言或帶有偏見的輸出。如果你對模型進行了深度壓縮,你需要檢查這些過濾機制是否仍然有效。有可能被剪枝的模型無意中移除了一些對于過濾仇恨言論至關重要的神經元。例如,一個經過對齊的模型通常有一個通過許多微妙參數編碼的“道德羅盤”——它對壓縮的脆弱性很高。

一種方法是在安全特定的數據上對壓縮后的模型進行重新訓練或微調。例如,在量化之后,再進行一輪額外的RLHF或指令調優,專注于避免有害輸出。這可以重新對齊量化后的模型。然而,在設備上進行RLHF是不可行的;這需要在服務器上完成,然后將新的權重推送到設備上。如果設備對模型進行了個性化,它們可能會以偏離安全準則的方式進行(并非有意,但假設一個用戶在一個小眾網絡論壇的文本上對模型進行了微調,它可能會習得該亞文化的語言,而按更廣泛的標準來看,這可能是有害的)。將需要有政策來規定用戶在多大程度上可以自由地改變設備上模型的行為——這開始觸及用戶責任與開發者責任的邊界。

近期的研究表明,壓縮和微調的順序可以顯著影響模型的準確性和偏見。這些發現指出,剪枝后進行微調往往能更好地保留模型的整體準確性,而微調后進行剪枝則能得到一個偏見更低的模型。一種混合方法——根據對準確性和偏見的具體需求來選擇操作順序——可能為壓縮經過安全對齊的模型提供一個更穩健的解決方案。

對分布變化的魯棒性

邊緣模型可能會面臨與其訓練數據不同的輸入分布(或許是更多的方言,或帶有噪聲的傳感器數據)。大型模型往往更具魯棒性(得益于其廣泛的訓練),而小型模型則可能很脆弱。如果一個邊緣模型遇到了意外的輸入,它會優雅地回答“我不知道”,還是會出故障(輸出隨機或不安全的內容)?通常,高效的模型在不確定性校準方面不夠穩健。像Liang等人的HELM(語言模型的整體評估)這樣的工作強調了對魯棒性和校準的評估,但針對邊緣的模型也需要同樣的要求——可能需要新的基準測試,其中模型在資源受限的設置下,或在經過壓縮操作后進行評估,以量化魯棒性下降的程度。多智能體設置(例如,小型模型的集成)在這里可能會有所幫助——如果一個模型不確定,另一個模型可能會發現它,但在邊緣設備上運行多個模型是一種計算上的奢侈,可能無法實現。

新興的組合指標

既然現有的指標不足以應對挑戰,可能需要新的指標來結合安全與效率,以引導未來的研究。例如,我們可以使用“每瓦時幻覺數”,即在一個事實問答任務上運行一個模型,直到它消耗了固定的能量(比如1Wh),然后計算它產生了多少不正確的事實陳述。這個數字越低越好(意味著單位能量產生的幻覺更少)。或者,我們可以使用諸如“每單位模型規模每令牌的有害性”這樣的指標,這基本上是測量有害內容的比例,并按模型規模進行歸一化,以觀察壓縮是否增加了單位參數產生有害內容的傾向。

雖然這些指標有些刻意,但它們強制我們進行多目標的思考。社區可以考慮將效率納入排行榜;“能量 vs. 準確率”的圖表已經在“綠色AI”的討論中出現,所以將其擴展到“能量 vs. 準確率 vs. 安全”是合乎邏輯的。最終,一個“足夠好”但高效的模型(如圖4中的綠點所示)可能優于一個超級安全但龐大到無法部署的模型,或者一個高效但不安全并導致危害的模型。

要駕馭“安全-效率”的權衡,很可能需要混合解決方案(例如,一個小型模型輔以一個輕量級的安全層)。一個想法是設置一個“管理者”——一個遠小于主模型的次要模型,用于監控輸出以防范危險信號。這與Ji等人的研究相符,他們證明了分析LLM的內部狀態可以有效地揭示響應中存在幻覺的風險。例如,設備上的一個小型文本分類器可以監控LLM的輸出,以檢測仇恨言論或明顯的謊言(如果可以參考事實),然后否決或修改輸出。這類似于某些云系統擁有一個獨立的審核API。這個管理者本身必須是高效的(或許只是一個簡單的關鍵詞列表或一個小型的神經網絡)。這種雙模型系統會稍微增加資源占用,但可能比試圖讓一個模型做所有事情,實現更高的“單位安全的效率”。

承認并解決“安全-效率”的權衡,對于負責任地部署邊緣AI至關重要。我們既不應該為了追求效率而忽視安全(導致不可信的模型),也不應該假設安全只是云端才需要關心的問題。下一代的基準測試和研究應該對模型進行聯合譜系的評估。只有這樣,我們才能規劃出一條同時改善兩者的路徑——例如,發現某些量化方案能更好地保留事實性,或者某些模型架構在壓縮時更少地丟失對齊。有了穩健的評估方法,社區就可以朝著設計出既可信又高效的邊緣模型的目標迭代前進。

未來展望

生成式AI與邊緣計算的融合正在開啟一個新的前沿。正如本文所討論的,挑戰與機遇并存,但通往解決方案的勢頭已經清晰可見。本章最后將概述關鍵趨勢,并為充分實現可部署的生成式AI提出一個研究議程。我們的指導愿景是,一個由無處不在、個性化且協同工作的智能設備組成的世界,這些設備由可稱之為“嵌入式基礎模型”的技術驅動,它們封裝了有用的知識和技能,同時又足夠輕量和安全,能夠嵌入到日常技術中。

邊緣生成式AI:在三重約束下尋求可部署的智能-AI.x社區

圖5:AI能力與底層硬件的演進預測(2025–2030)

圖5呈現了未來五年邊緣生成式AI演進的預測時間線,描繪了硬件進步與可能出現應用能力的對應關系。該路線圖突顯了模型壓縮、專用硬件和聯邦學習等基礎研究將如何轉化為實際能力,并逐步解決“數據-模型-計算”三角所概述的挑戰。

邁向“為設計而生”的專用小模型

迄今為止,許多小型模型都是通過壓縮更大型號的模型得到的。一個新興的趨勢是,從一開始就以邊緣部署為目標來設計SLM。PhoneLM項目就是這一理念的例證:它執行了架構搜索,以找到在手機硬件上運行最優的Transformer變體,然后對其進行預訓練。谷歌的Gemma 3是這一哲學的另一個成功實踐。這些模型專為單GPU和資源受限的使用環境而設計,展現了有目的地構建的小模型可以實現令人印象深刻的結果。值得注意的是,Gemma 3甚至優于其更大模型Gemini的舊版本,這突顯了資源高效模型與其更大對應物之間的性能差距正在迅速縮小。

這顛覆了傳統的范式——我們通常是先訓練再優化;但現在,我們是先優化設計。為了推動這一前沿,我們可以期待更多關于在資源約束下對生成模型進行神經架構搜索(NAS)的研究。也可能出現算法上的突破——例如,占用內存更少的新型注意力機制,或新的令牌表示方案(線性或塊稀疏注意力的研究可能允許在設備上處理更長的上下文)。

另一個方向是模型模塊化:不是讓一個龐大的模型做所有事情,而是由多個更小的組件,每個處理任務的一部分(一個用于語言理解,一個用于事實回憶,一個用于風格調整等),它們在設備上或通過本地網絡進行協調。這種模塊化的方法可以與操作系統調度進程的方式相類比(例如,只在需要時運行視覺模塊,否則就讓它休眠以節省能源)。研究這些模塊之間的接口協議(以便它們能高效地共享上下文)將非常有價值。

聯邦生成與學習

在分布式傳感器網絡或用戶社區的場景中,我們可以設想一種聯邦生成式AI,即多個設備協作訓練,甚至共同生成內容。聯邦學習(FL)已經在判別模型上進行了研究;對于生成模型,則有額外的復雜性。例如,如果100部手機共同訓練一個語言模型,你如何確保它不會過擬合某個用戶的風格,或者將一個用戶的短語泄露給另一個用戶?已經有關于聯邦GAN和VAE的研究,但聯邦LLM仍是一個新興領域。

除了訓練,還可以考慮聯邦生成。設備之間是否可以共享部分結果來共同生成某些內容?例如,在一個多人的AR游戲中,每個用戶的設備可能生成故事或環境的一部分,這需要保持一致性。這里引入的概念是“聯邦生成”,即生成分布在多個節點上。一個簡單的例子是鏈式生成:設備A開始一個故事,設備B繼續,以此類推,整個過程完全在本地進行,沒有中央服務器。這要求模型(或模型們)能夠保持連貫,并可能需要共享潛在狀態。將需要新的算法來在設備之間同步生成狀態。另一個例子是投票或共識:多個設備,每個運行本地模型,然后聚合它們的輸出(例如,一群無人機,每個都設想出一條最優路徑,然后它們共同商定一條)。這與多智能體系統產生了交集。

多智能體與協作式SLM

多智能體AI通常指的是相互作用的獨立AI實體。在這里,我們將多智能體SLM視為一組能夠溝通以解決任務的小型模型。不是讓一個模型試圖做所有事情(這可能需要它非常龐大),而是可以有一個由五個小型模型組成的團隊,每個都是某個領域的專家,它們在設備上或通過本地網絡進行“交談”,以產生結果。近期關于生成代理——即在沙盒環境中模擬類人行為和對話的AI代理——的研究已經表明,即使是大型模型,當多個智能體互動時,也會出現有趣的涌現行為。

將這一理念應用到邊緣的小型模型上,你可以想象,例如,一個擁有各種設備的家庭,每個設備都運行一個代理:冰箱里有一個膳食規劃代理,健身手環上有一個健康教練代理,它們通過本地對話進行協調,為你推薦當天的飲食。這聽起來有些未來主義,但它與“環境計算”的愿景相符,即智能是分布式的。研究問題包括:你如何確保代理之間的一致性?如何防止復合錯誤(一個代理相信了另一個代理的幻覺)?它們應該使用什么樣的通信協議(或許是一種極簡的語言或數據格式)才能保持高效?

具身化與物理世界基礎模型

正如在機器人技術部分所討論的,人們對能夠編碼與世界互動技能的機器人基礎模型(RFM)越來越感興趣。未來的具身化SLM可能會將語言、視覺和動作能力整合到一個小體積的模型中,用于家用機器人或汽車助手。術語“具身化SLM”旨在強調那些擁有傳感器和運動能力的小型模型。這些模型很可能需要用模擬和真實世界的數據進行訓練,并處理連續的控制輸出(這與離散的令牌生成有所不同)。像微軟的Phi-1模型(一個1.3B的LLM)這樣的努力已經表明,通過適當的訓練,模型可以展現出某些涌現能力。將經典的控制知識,如PID(比例-積分-微分)控制器或運動規劃器,集成到網絡中(或許作為可微分的模塊),可以為具身化應用產生既安全又靈活的行為。這里的研究議程是,以一種資源高效的方式,將基于模型的控制與無模型的生成策略結合起來。

可信與倫理

隨著邊緣生成式AI變得日益普遍,確保可信AI至關重要。這涵蓋了魯棒性(不會因為微小的輸入擾動而崩潰或行為失常)、透明度(提供某種解釋模型為何產生某個輸出的能力,這對于生成模型來說很困難,但或許可以給出近似的解釋),以及用戶控制(允許用戶設定偏好或AI行為的限制)。例如,用戶可能希望邊緣助手避免談論某些話題;在本地實現這一點,可能需要一個用戶可編輯的過濾列表,模型的解碼器會遵守這個列表。研究社區也應該研究普及設備端生成式AI的社會影響:它是否會因為每個人的模型都高度個性化于其觀點而加劇“回音室效應”?它是否會降低人們對驗證信息來源的依賴(因為模型即使錯了也能自信地說話)?它是否會帶來積極的影響,例如改善沒有互聯網連接的用戶的可及性和賦權?這些問題將塑造技術的設計和部署。與社會科學家和用戶體驗專家的多學科研究將非常有價值,正如為分析大型基礎模型所做的那樣;邊緣基礎模型也需要同樣的研究。

可持續性作為未來要務

隨著生成式AI向邊緣環境中多智能體協作和聯邦生成轉型,可持續性成為一個核心關切。雖然邊緣推理可以通過消除與云端的通信開銷來減少運營能耗,但部署數十億智能邊緣設備所帶來的隱含碳成本仍然是一個挑戰。在生成式AI中實現可持續性,將需要在硬件效率、生命周期管理和負責任的邊緣部署策略方面進行創新。到2030年,嵌入式基礎模型不僅要做到自適應和可信,還必須在其整個生命周期內都是可持續的——從制造到實時推理。應對這些挑戰將需要協作努力,以開發標準化的可持續性基準,并確保未來的AI系統能夠平衡性能與長期的環境影響。

標準化基準與指標

與分類或檢索任務不同,生成式AI本質上更難評估,因為它產生的是開放式的輸出,而非離散的預測。這種復雜性在邊緣環境中更為突出,因為延遲、內存和能源的限制與安全、隱私和個性化的要求交織在一起。正如MLPerf已經為數據中心、移動設備和邊緣環境的AI性能基準測試奠定了基礎,新一代的基準測試需要捕捉到部署在邊緣設備上的生成模型的細微需求。這些基準測試應反映實際任務,如實時摘要、低分辨率圖像的字幕生成以及注重隱私的對話代理,同時整合多維度的指標,以考量質量、延遲、能耗以及像幻覺或有害性這樣的安全風險。在這個領域內,標準化的評估不僅對于比較模型至關重要,也對于確保生成式AI在真實世界設置中負責任且高效地部署至關重要。

然而,未來的邊緣AI基準測試必須超越傳統的性能指標。可持續性和能源效率應成為評估的核心維度。隨著邊緣生成式AI的部署規模擴大到數十億臺設備,理解模型推理的碳足跡、本地適應的影響以及邊緣設備的生命周期排放,對于負責任的AI部署將至關重要。基準測試也應鼓勵參與者提交整個系統,而不僅僅是模型,以確保運行時優化和硬件利用的改進被計入總分。像“每瓦時幻覺數”這樣精煉的指標,可以進一步將基準測試與可持續性目標對齊,鼓勵那些能夠平衡安全、效率和環境影響的創新。

行動號召

隨著生成式AI模型從集中式的云服務,演進為在邊緣運行的自適應多智能體系統,安全、效率和性能之間的權衡將變得更加復雜。本文討論的創新——MoE、測試時計算、聯邦學習、多智能體協作和具身化AI——是這段旅程中的關鍵里程碑。到2030年及以后,我們可以期待嵌入式基礎模型的出現,它們將無縫地平衡這些權衡,在多樣的邊緣環境中提供情境感知、高效且可信的AI體驗。

但要構建這些系統——并使這一愿景成為現實——需要對機器學習基礎設施的復雜性有深刻理解的工程師和研究人員。AI未來的許多創新,不僅取決于算法或數據,更取決于設計、優化和規模化部署智能系統的能力。為此,下一代人才必須接受培訓,將機器學習系統理解為一個成熟的工程學科。

結論

邊緣生成式AI是AI部署的下一個前沿:從集中的超級計算機,走向與人類并肩工作的無處不在的助手和創造者。挑戰是巨大的,但個性化、隱私和創新的機遇也同樣巨大。通過應對技術障礙并建立新的框架(無論是概念上的還是基礎設施上的),我們可以確保這一轉型是成功且有益的。未來幾年,我們很可能會看到具身化、聯邦化和協作式的小型模型變得司空見慣,它們在幕后安靜地工作,提升我們的生活,就像前幾代技術中的嵌入式微控制器一樣。不同的是,這些模型不僅會計算,它們還會溝通、創造和適應。這取決于我們,研究人員和工程師,為這種可部署的智能鋪平道路,并從一開始就以效率、安全和可信的價值觀來塑造它。

參考資料:Vijay Janapa Reddi. 2025. Generative AI at the Edge: Challenges and Opportunities: The next phase in AI deployment. Queue 23, 2 (May 2025), 79–137. DOI:??https://doi.org/10.1145/3733702??.

本文轉載自??Andy730??,作者:常華

已于2025-9-15 11:14:28修改
收藏
回復
舉報
回復
相關推薦
夜夜揉揉日日人人青青一国产精品| 美女精品一区二区| 亚洲成人久久一区| 日韩毛片在线免费看| 91露出在线| 久久av资源网| 97精品国产97久久久久久春色| 日本黄色网址大全| 日韩精品一页| 精品久久久久久久久国产字幕| 日韩久久不卡| 亚洲精品第五页| 久久亚洲精品伦理| 欧美激情亚洲视频| 久久久久无码精品国产sm果冻| 99热这里有精品| 精品久久久久久久久久国产| 中文字幕在线观看一区二区三区| 黄色av一区二区三区| 麻豆精品在线视频| 欧美一性一乱一交一视频| 青青青视频在线免费观看| 动漫视频在线一区| 制服丝袜在线91| 美女福利视频在线| 国产丝袜视频在线播放| 国产欧美久久久精品影院| 国产乱码精品一区二区三区不卡| 无码人妻精品一区二区三区9厂 | 久久这里只有精品6| 91美女福利视频高清| 成人免费毛片男人用品| 欧美三区视频| 日韩在线播放一区| 亚洲无人区码一码二码三码的含义| 亚洲高清在线一区| 在线播放日韩导航| 天天干在线影院| 91av亚洲| 色综合色综合色综合色综合色综合 | 天堂网在线播放| 国产不卡一区视频| 亚洲一区二区免费| 国产尤物视频在线观看| 青娱乐精品视频| 国产成人涩涩涩视频在线观看| 精品久久免费视频| 雨宫琴音一区二区在线| 欧美高清电影在线看| av激情在线观看| 亚洲乱码精品| 久久精品国产v日韩v亚洲| 亚洲无人区码一码二码三码的含义| 色老板在线视频一区二区| 精品国产免费久久| japanese在线观看| 日韩高清电影免费| 亚洲欧美日韩直播| 女~淫辱の触手3d动漫| 网红女主播少妇精品视频| 亚洲精品按摩视频| 大地资源二中文在线影视观看| 久久悠悠精品综合网| 日韩高清中文字幕| 国产女主播喷水高潮网红在线| 色88888久久久久久影院| 精品视频在线播放免| 老司机福利av| 久久免费精品视频在这里| 日韩最新中文字幕电影免费看| 91视频最新网址| 中文字幕免费一区二区三区| 欧美大片免费观看| 国产无套在线观看| 午夜亚洲福利在线老司机| 国产精品96久久久久久又黄又硬 | 三级影片在线观看欧美日韩一区二区| 日韩av电影院| ,一级淫片a看免费| 国产成人精品免费视频网站| 国产精品三区四区| 免费理论片在线观看播放老| 国产偷国产偷亚洲高清人白洁| 亚洲三区视频| 久草成色在线| 色丁香久综合在线久综合在线观看| 北条麻妃在线视频| 四虎影视国产精品| 精品1区2区在线观看| 中国美女乱淫免费看视频| 成人婷婷网色偷偷亚洲男人的天堂| 精品国产区一区二区三区在线观看| 9999热视频| 日韩香蕉视频| 国产在线拍揄自揄视频不卡99| 国产高清免费观看| 久久这里都是精品| 一区二区三区国产福利| 成人三级高清视频在线看| 91福利视频在线| www日本在线观看| 欧洲毛片在线视频免费观看| 欧美肥婆姓交大片| 国产成人精品一区二区色戒| 国产成人午夜99999| 欧洲亚洲一区二区| 久久免费电影| 欧美丰满高潮xxxx喷水动漫| 中文字幕 亚洲一区| 亚洲国产不卡| 国产成人亚洲综合| 天天综合网在线观看| 自拍av一区二区三区| 欧美丰满熟妇bbbbbb百度| 成人自拍视频| 在线视频一区二区| 久热这里只有精品6| 久久91精品国产91久久小草| 欧美精品免费观看二区| 日本一级理论片在线大全| 欧美日韩高清一区二区三区| 中文字幕狠狠干| 黄色综合网站| 91久久爱成人| 国产三区在线观看| 欧美网站一区二区| a级大片在线观看| 国产精品夜夜夜| 成人激情直播| 午夜小视频福利在线观看| 欧美日本视频在线| 69精品无码成人久久久久久| 亚洲三级影院| 国产精品久久久一区二区三区| 美女免费久久| 欧美日韩精品一区二区| 乐播av一区二区三区| 国产日韩一区二区三区在线| 国产精品乱码| 免费在线播放电影| 日韩精品一区二区三区视频| 久久福利免费视频| 捆绑调教一区二区三区| 天天人人精品| 成人国产在线| 日韩在线欧美在线| 在线观看国产小视频| 国产精品美日韩| 潘金莲激情呻吟欲求不满视频| 日韩aaaa| 成人精品在线观看| 黄色网址视频在线观看| 91精品在线一区二区| 国产日产精品一区二区三区的介绍| 美女一区二区视频| 日韩人妻精品一区二区三区| 国产精品一级在线观看| 久久综合色影院| 亚洲风情第一页| 亚洲国产日日夜夜| 99久久人妻精品免费二区| 国产美女一区| 日韩精品电影网站| 欧美国产视频| 久久99国产精品自在自在app| www.蜜臀av| 精品国产乱码久久久久酒店 | 欧洲亚洲女同hd| 亚洲国产综合在线| 国产精品一区二区三区在线播放| 国产在线网站| 欧美日韩国产一区二区三区地区| 五月天精品视频| 毛片av一区二区| 超碰超碰超碰超碰超碰| 久久99国产精品久久99大师| 国产成人精品久久| 免费a级人成a大片在线观看| 欧美一级久久久久久久大片| 日韩激情在线播放| 国产亚洲精品中文字幕| 亚洲免费999| 欧美午夜久久| 日韩aⅴ视频一区二区三区| 亚洲成人高清| 91av在线精品| 黄色网在线看| 精品亚洲国产视频| 一级黄色片在线| 偷拍日韩校园综合在线| 手机看片福利视频| 国产高清精品在线| 黄色一级大片在线观看| 午夜国产精品视频| 日韩av免费电影| 99国产精品免费网站| 国产精品三级美女白浆呻吟| 国产高清在线a视频大全 | 精品久久久久一区二区三区 | 色综合咪咪久久网| 国产美女精品在线观看| 国模私拍国内精品国内av| 久久久久久欧美| 在线观看中文字幕2021| 国产精品22p| 欧美激情videos| 第一页在线观看| 亚洲精品一区在线观看| 中文字幕一区二区在线视频| 亚洲福利视频一区| 欧美一级特黄高清视频| 国产日本一区二区| 国产+高潮+白浆+无码| 久久精品免费观看| 蜜臀av午夜一区二区三区| 海角社区69精品视频| 亚洲mv在线看| av理论在线观看| 国产精品国产三级国产有无不卡 | 欧美色精品在线视频| 国产主播在线看| 欧美特黄a级高清免费大片a级| 日韩欧美一区二区三区四区五区 | 亚洲日本精品国产第一区| 精品网站aaa| 成人av影视在线| 亚洲第一二区| 成人动漫视频在线观看免费| 成人在线啊v| 国产中文字幕91| 国产三级一区| 国产精品露脸自拍| 国模视频一区| 国产精欧美一区二区三区| 中文在线最新版地址| 97精品视频在线| 97超碰在线免费| 久久青草福利网站| 美女精品导航| 久久久久久成人精品| av网站在线免费| 九九热精品在线| 91高清在线观看视频| 久久手机免费视频| 亚洲www色| 欧美激情精品久久久久久蜜臀| 制服丝袜中文字幕在线| 欧美大片欧美激情性色a∨久久| 成人免费观看视频大全| 欧美日韩国产999| 国产理论电影在线| 91精品国产乱码久久久久久蜜臀 | 国产黄色片在线播放| 亚洲视频在线看| porn亚洲| 精品国产一区av| 五月婷婷视频在线观看| 久久久久久伊人| 中文字幕在线官网| 国产成人一区三区| 日韩护士脚交太爽了| 91九色蝌蚪成人| 欧美色资源站| 欧美日韩电影一区二区三区| 欧美理论在线播放| 亚洲黄色网址在线观看| 国语对白精品一区二区| 日韩在线综合网| 蜜臀久久99精品久久久画质超高清 | 欧美日韩一区二区三区在线视频 | 国产伦精品一区二区三区在线播放 | 国产又粗又大又爽视频| 日韩一卡二卡三卡四卡| 凸凹人妻人人澡人人添| 在线观看欧美视频| av毛片在线看| 啪一啪鲁一鲁2019在线视频| 国产福利一区二区三区在线播放| 91久久久久久国产精品| jazzjazz国产精品久久| 日韩福利在线| 欧美激情视频一区二区三区在线播放 | 91精品国产一区二区三区蜜臀| 亚洲精品国产一区二| 亚洲视频axxx| 成人影院在线观看| 青青a在线精品免费观看| 祥仔av免费一区二区三区四区| 国产偷国产偷亚洲高清97cao| 精品国产乱码久久久久久果冻传媒 | 97超碰在线播放| 一本色道久久综合亚洲精品酒店| 亚洲五月六月| 夜久久久久久| 永久免费黄色片| 久久精品夜夜夜夜久久| 免看一级a毛片一片成人不卡| 在线观看亚洲精品视频| 亚洲精品无amm毛片| 色老头一区二区三区在线观看| 丁香花在线观看完整版电影| 国产精品久久久久久中文字| 波多野结衣一区二区三区免费视频| 视频一区亚洲| 亚洲综合日本| 少妇伦子伦精品无吗| 国产精品私人自拍| 免费在线观看黄网站| 91精品国产91热久久久做人人| 欧美91精品久久久久国产性生爱| 欧美精品制服第一页| 欧美高清免费| 日韩影视精品| 美女精品网站| 艳妇乳肉豪妇荡乳xxx| 亚洲另类色综合网站| 中文字幕人妻丝袜乱一区三区 | 熟女丰满老熟女熟妇| 亚洲精品成人在线| 在线观看黄色国产| 亚洲天堂第二页| 日韩大片免费观看| 粉嫩av四季av绯色av第一区| 91亚洲自偷观看高清| 99热手机在线| 国产亚洲一区二区在线观看| 国产成人在线视频观看| 亚洲成色777777在线观看影院| 3d玉蒲团在线观看| 91免费版网站入口| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 日韩 欧美 高清| www激情久久| 亚洲男人的天堂在线视频| 亚洲国产精品推荐| av女在线播放| 精品欧美一区二区久久久伦 | 97精品国产97久久久久久春色| 色妞ww精品视频7777| japanese在线播放| 国产伦精品一区二区三区视频青涩 | 国产资源在线看| 国产成人激情小视频| 自拍亚洲一区| 妞干网在线免费视频| 国产午夜精品久久久久久久| 久久精品视频2| 在线播放日韩精品| jizzyou欧美16| 在线观看欧美一区| 国产一区二区不卡在线| 四虎永久免费在线| 欧美成人女星排行榜| 超碰97国产精品人人cao| 国产一区二区在线网站| 国产农村妇女毛片精品久久莱园子| 在线天堂www在线国语对白| 精品美女永久免费视频| 青青草免费观看免费视频在线| 国产91露脸中文字幕在线| 精品视频亚洲| www.日本久久| 午夜伊人狠狠久久| 精品av中文字幕在线毛片| 国产精品视频网址| 在线看片不卡| 成人手机在线免费视频| 在线观看一区二区精品视频| 久久亚洲天堂| 国内精品久久国产| 日韩精品每日更新| 中文字幕另类日韩欧美亚洲嫩草| 精品捆绑美女sm三区| 亚洲天堂电影| 宅男av一区二区三区| 成人精品免费网站| 中文在线免费看视频| 欧美理论电影在线观看| 日韩深夜影院| 色噜噜狠狠一区二区| 亚洲一区二区三区国产| 韩国中文免费在线视频| 92看片淫黄大片看国产片| 宅男噜噜噜66国产日韩在线观看| 91社区视频在线观看| 日韩精品最新网址| 电影天堂国产精品| 成人av在线播放观看| 国产午夜亚洲精品羞羞网站| 国产三级漂亮女教师| 欧美在线观看网址综合| 香蕉精品视频在线观看| 国产精品无码网站| 91精品国产综合久久久久久| 九色porny丨首页入口在线| 一区二区三区|亚洲午夜| 91麻豆精品在线观看| 国产丰满果冻videossex| 国产成人精品久久二区二区| 综合天堂av久久久久久久|