大語言模型對汽車行業的影響和實踐探索
汽車行業作為技術創新的重要領域,正迅速采納大語言模型,如 GPT 系列,以推動行業的數字化轉型。這些模型在提升車載智能系統的交互體驗、優化客戶服務、加速產品開發及市場營銷策略方面展現出巨大潛力。通過具體應用案例分析,接下來我們一起揭示大語言模型如何為汽車企業帶來效率提升和成本優化,同時探討這些技術在未來汽車行業中的潛在發展方向。
一、大語言模型簡介
人工智能技術蓬勃發展,并于 2012 年開始加速。那一年,Hinton 及其指導的學生通過 AlexNet 網絡在 2012 年 ImageNet 圖像分類大賽中奪冠,標志著深度學習技術重新獲得了廣泛關注。自 2012 年至 2017 年間,有監督學習技術成為了主流,期間圖像處理技術迅猛發展,然而自然語言處理領域卻未能實現突破性進展。
這個階段在解決自然語言處理問題時,雖然采用了循環神經網絡、長短期記憶網絡等復雜的網絡結構,但仍未能解決自然語言處理領域的核心問題,如長期依賴導致的梯度消失問題、處理效率無法并行化,以及依賴大量標注數據的監督學習模式使得數據獲取成本高昂。正因如此,該時期自然語言處理領域并未實現顯著的突破。
然而,一切在 2017 年發生了轉變,Google 發布了開創性的論文《Attention is All You Need》,首次提出了基于注意力機制的 Transformer 網絡架構。這種架構完全舍棄了傳統的循環和卷積網絡結構,實現了模型的并行化處理和自監督學習,使得大量未標注數據得以有效利用。并行化處理降低了計算復雜度,加速了大規模計算任務的處理速度。
Transformer 網絡的提出促進了大規模預訓練模型的興起,標志性地將我們的研究方向分為三個主要類別:基于 Transformer 的 Encoder-Decoder 結構,分別形成了 Encoder 類、Decoder 類以及 Encoder-Decoder 的預訓練模型。例如,2018 年提出的 BERT 模型,屬于 Encoder 類,能夠執行閱讀理解等任務,通過上下文推斷含義;而 GPT 系列模型,作為 Decoder 類,側重于根據前文預測后文;Encoder-Decoder 模型則在如機器翻譯等任務中表現出色。這些創新大大推動了自然語言處理技術的發展。
從下圖中可以看到基于 Transformer 架構衍生出的各類大型模型。左側圖展示了三個主要分支:紅色代表僅包含編碼器(encode only)的模型,中間部分包含編碼器和解碼器(encode-decode)的模型,而右側則聚焦于僅含解碼器(decode only)的模型。
右側的圖則依據模型的規模進行分類。我們可以觀察到,自 Transformer 誕生后,隨著 GPT-1 的推出,模型規模開始逐漸增大。隨后,BERT 的問世以及 GPT 系列的持續發展,在 Transformer 架構的基礎上不斷演進,展現了模型規模的快速增長趨勢。

下圖詳細闡述了 GPT 系列模型的演進歷程。自 Transformer 模型問世以來,OpenAI 以此為基礎,提出了一種新的范式:利用預訓練加微調的方法來處理自然語言任務。GPT-1 采用了 5GB 的訓練語料和 1 億參數,盡管其性能不及隨后Google 推出的 BERT 模型,但 OpenAI 堅信未來的發展應朝向無監督學習方向邁進。因此,在 2019 年,OpenAI 推出了 GPT-2,使用了 40GB 的訓練數據和 15 億參數,并實施了 Zero-shot 學習,能在模型未接觸過的任務上進行作業,盡管生成的文本已相對較長,但仍存在改進空間。
隨后,OpenAI 以 570GB 的數據訓練量和 1750 億參數推出了 GPT-3。與前作相比,GPT-3 采用了 Few-shot 學習方法,僅需少數樣本即可顯著提升性能,實現了接近監督學習最優效果的無監督學習能力。
GPT-3 之后,OpenAI 轉而專注于模型的可控性問題。GPT-3 雖然功能強大,但其輸出內容有時并不完全符合人類的意圖。這一挑戰促使 OpenAI 發展出 ChatGPT,旨在從有監督學習向無監督學習轉變,同時從不可控走向可控,進而發展至今日的多模態方向,標志著自然語言處理技術向更加高級的發展階段邁進。

ChatGPT 的推出,為大型模型的訓練提供了一種新的范式。這一訓練范式的核心在于先進行預訓練,緊接著通過有監督的微調過程,進而采用獎勵建模,最終通過強化學習來優化模型性能。這種方法論不僅加深了我們對大規模自然語言處理模型訓練的理解,而且為未來模型的發展指明了方向,即如何有效結合預訓練、微調和強化學習,以實現更高效、更精準的語言模型訓練。
二、大語言模型對汽車行業的影響
上述訓練范式提出之后,國內大型模型相關的發展也隨之加速。目前,大型模型的生態系統主要分為兩類:一類是以 OpenAI 的 ChatGPT 為代表的閉源模型,這類模型通過提供 API 服務進行應用;另一類是以 Meta 的 LLAMA 為代表的開源模型生態。除此之外,國內的大型模型發展同樣迅猛,展現了中國在人工智能領域的強大實力和獨特貢獻。這些發展不僅促進了技術的進步,還為未來的人工智能應用和研究打開了新的可能性。
大模型的快速發展,不僅在國內外科技領域引起轟動,也為汽車行業帶來了實質性的應用機遇。通過這些實際應用案例,我們得以洞察大型語言模型所擁有的獨特能力。首先是理解能力的顯著提升。與早期模型相比,現代大型模型能更加自然地理解人類語言,其交互體驗遠勝過以往,讓人們更愿意與之對話,不再感覺像是與一臺機器人交流。其次,生成能力也大大增強。開發人員可以利用這些模型編寫代碼,生成符合預期的汽車外觀設計等內容,極大地拓展了創造性應用的邊界。再有,規劃能力的提升讓大模型能夠協助人們規劃活動、安排日程,有效地優化活動流程和步驟。最后,評估能力也是一個重要的進步。用戶可以向模型提出評估要求,例如對文本進行評分、檢測錯別字等,模型能夠根據要求完成評價任務。盡管在數學問題上可能仍存在不足,但在代碼審查和改進建議方面,大模型已展現出其潛在的評估和優化能力。
汽車供應鏈的復雜性及其環節的廣泛性為大語言模型提供了廣闊的應用場景。從研發、生產制造,到銷售、物流,乃至售后服務,每一個環節都蘊含著與大語言模型結合的潛力。
在銷售和售后服務方面,大語言模型能夠處理和分析行業新聞,對新出臺的政策進行摘要,幫助企業快速把握行業動態。此外,通過匯總和分析來自各大 APP 的市場評價,模型可以為產品改進提供實時反饋,指導市場營銷策略的調整。
在產品研發和長期規劃方面,大語言模型通過處理大量文本數據,能夠挖掘出創新點和用戶需求,為產品迭代和創新提供有力的數據支撐。
客服領域尤其能體現大模型的價值,不僅可以提供常規的客戶咨詢響應,還能在專業知識領域內提供支持,如快速識別合適的維修方案,從而提高服務效率和顧客滿意度。
總的來說,大語言模型能夠深入汽車供應鏈的各個環節,優化流程,提高效率,同時也為企業提供了前所未有的洞察力,從而在競爭激烈的市場中獲得優勢。
在汽車行業中,大型語言模型展現出多種關鍵應用場景:
- 語音助手與車載娛樂。智能座艙可以劃分為三個主要功能:一是執行基本命令,比如查詢天氣、股票信息或播放音樂;二是通過語音控制車輛的內部系統,以一系列語句完成復雜操作;三是將車輛當作多功能的 AI 助手,它能在游戲中擔當各種角色,豐富娛樂體驗。
- 客戶支持與售后。在這里,大模型可協助坐席人員處理客戶的咨詢與問題,提升服務效率。
- 銷售與市場營銷。通過分析用戶通過各種渠道提出的需求,有助于大模型精準營銷和銷售策略的優化。
- 車輛設計和系統研發。由于該領域涉及大量專業知識,通用大模型可能需要針對性的微調或專項訓練才能發揮作用。
- 企業內部知識服務。大模型可以通過問答系統或檢索企業內部的知識庫來優化知識管理。
- 自動駕駛技術。在此,大模型能生成逼真的模擬場景,助力自動駕駛系統的測試和開發。
三、大語言模型的實踐探索
在本節中,將介紹大型語言模型在實際操作中的探索。隨著去年 LLAMA-70B 模型的問世,我們見證了開源大模型數量的顯著增加,并借此機會進行了一系列的實踐探索。這些探索主要基于 Transformer 結構,可分為三大類:語言理解、語言生成以及機器翻譯相關任務。
具體到問答機器人,我們嘗試了 FAQ 問答,針對常見問題提供快速響應;此外,我們還開展了基于汽車手冊或企業內部知識文檔的長文本問答實踐。在傳統 NLP 任務方面,借鑒 OpenAI 發布的 GPT-2 研究成果,我們測試了模型在文本分類上的能力,并嘗試利用其生成報告的摘要。在 AI 代理的應用上,我們開發了自然語言查詢數據庫的功能,允許不具備編程技能的用戶通過自然語言完成數據庫查詢,尤其適用于無法直接生成報表的臨時查詢。進一步地,我們還探索了 AI 代理在更廣泛任務中的應用,例如自動填寫請假申請等行政事務。
接下來,將詳細介紹 FAQ 問答機器人的應用場景。
在大模型興起之前,常規做法是建立并維護一個問答知識庫,對用戶提出的查詢進行匹配,匹配工作通常是 Q-Q 的相似性,或是 Q-A 間的相似性,有時則是將這兩者結合起來進行。這一過程最終會產出一個答案。
這里的主要挑戰包括相似問題的生成,因為標準問題的變體可能非常多,這就需要大量的人力投入。另一個挑戰是語義相似度模型的匹配準確度,Q-Q 和 Q-A 的匹配質量完全取決于相似度模型的性能,這就使得其語義理解的能力相對較弱。

我們從去年 6 月份開始嘗試了幾個不同版本的大語言模型。最初,我們直接使用指令詢問大模型,但這樣的方式無法達到我們預期的效果。隨后,我們對大模型進行了微調,并結合 prompt 進行了實驗,這種方法在問答生成上的效果有所改善,但結果的不確定性依然較大。
我們的第三次嘗試結合了自有知識庫的相似度匹配和經過微調的大模型,這種方法的表現超過了前兩種。但當時使用的都是較小的 6B 模型,即便采用了 RAG(Retriever-Augmented Generation)加上 prompt 和微調的方式,生成的結果仍舊難以控制。之后,我們嘗試了 13B 和 70B 的大模型,并專注于利用這些模型的理解能力而非生成能力,這樣做取得了不錯的效果。

此外,我們也嘗試了多種使用 prompt 的技巧。分享一個小竅門:prompt 需要明確且清晰,指令需精準無誤,而最終輸出的結果最好是有強代碼結構的,比如 JSON 格式,或者是預先定義的明確結構。如果模型較大,使用 few-shot 方法效果會更好;只需給出幾個示例,模型便能呈現出較佳的性能。再者,向模型說明思考方式,逐步引導其如何操作,也能有效提升結果。
在實際測試中,我們主要使用了 40 對 FAQ 標準問,并測試了 167 條數據。在第一版中,我們采用傳統的語義相似性方法進行問答,手動擴展了 300 條相似問,得到的準確率為 82%。需要注意的是,這個準確率是基于我們自己的測試數據得出的,不同的數據集可能會有不同的準確率。
在第二版中,我們利用大模型生成每個標準問的 50 條相似問,這在使用大型語言模型時相對容易實現。結合語義相似性和大模型的方法,我們獲得了 94% 的回答準確率。這里的“準確”是指生成的答案必須與知識庫中的標準答案完全一致。雖然剩余的 6% 在檢查時發現與知識庫中的答案有些模糊匹配的情況,但 94% 的準確率在我們看來,實際上已經非常接近完美了。在第三版的實驗中,我們將每個標準問的相似問擴展到 100 條,測試后發現準確率略有下降,為 93%。
在 FAQ 問答場景的測試中得出的結論是,大型語言模型能夠協助我們擴展相似問題。此外,結合了 RAG 索引輔助生成與大型語言模型(LLM)的方法能夠提高 FAQ 智能問答場景的準確率??傮w來看,效果的優劣與召回數據的相關性以及大型語言模型的理解能力密切相關。
四、數據分析人員的要求
關于數據分析人員的能力要求,大模型的出現確實引發了一部分人的焦慮,擔心自己的工作會被取代,或者擔心趕不上這一技術浪潮。然而,我認為大模型不會取代我們的工作,而是會成為我們完成任務的強大助手,促使我們做出積極的改變。通過前期的一些探索,我們發現大語言模型實際上能在數據分析工作中發揮重要作用。
在項目實施過程中,大模型可以在多個階段提供支持。例如,在需求定義階段,它能夠提供需求靈感、輔助編寫和潤色文檔,提供關鍵需求信息,甚至在我們還未完全明確需求時補充設計元素。它還能幫助審核文檔,確保關鍵信息的包含。
在構建階段,大模型能輔助生成代碼,補充代碼注釋,以及進行不同開發語言之間的代碼翻譯。這在一些擁有較老系統需要語言轉換的公司中尤其有用,特別是當這些系統的代碼注釋不夠充分時。此外,大模型還能進行代碼審核,確保代碼符合公司的要求,輔助開發框架的設計和生成。
在測試階段,大模型能夠幫助生成測試用例、編寫測試文檔以及修復 bug。這些都是在大模型應用場景中應該考慮到的作用。

對于數據分析人員而言,大模型的出現帶來了技能要求的變化。首先,大模型可以輔助寫代碼,提高代碼編寫效率。這意味著數據分析人員不僅要掌握編碼技能,還需要能夠明確地定義和描述問題,以便大模型能高效生成代碼。因此,問題定義、分解能力以及設計規劃能力變得尤為重要。
其次,代碼質量的辨別能力也變得關鍵。雖然大模型能生成代碼,但有時候生成的代碼可能是錯誤的。如果數據分析人員本身編碼水平有限,可能難以識別錯誤,進而影響工作效率。這意味著對代碼質量的判斷能力對于數據分析人員來說變得更加重要,特別是對于高資質人員的需求可能會增加,而對于剛入門的人員需求可能減少。但對新手來說,大模型也提供了學習和成長的機會。
第三,代碼測試和診斷能力。隨著 AI 生成代碼的普及,數據分析人員需要能夠診斷和測試大模型生成的代碼,這要求具備高度的代碼理解能力和測試技能。
第四,掌握 prompt 工程能力。大模型的輸出質量很大程度上取決于 prompt 的編寫質量。寫好 prompt 是達成高效輸出的關鍵,同時也需要考慮到安全管控和響應時間的優化。
此外,作為算法相關人員,需要掌握對大模型的評估和評價能力,判斷不同模型是否適用于特定應用場景,以及它們的優勢和局限性。同時,對算力和資源的評估也變得重要,需要在使用大模型和資源投入之間做出權衡。
最后,選擇合適的解決方案對于特定場景至關重要,并不是所有問題都需要用到大模型。數據分析人員需要具備判斷并選擇最適合當前場景解決方案的能力。
五、問答環節
Q1:如何保證大模型的可控性?
A1:目前,RAG(Retriever-Augmented Generation)是大家討論的熱點。使用 RAG 的通常做法是:首先將知識向量化存儲到向量數據庫中,然后查詢與之相似的問題,并讓大模型生成答案。但是,如果僅僅按照這種方式操作,很難保證生成的答案與知識庫中的信息完全一致,即使考慮到大模型的規模,也存在一定的困難。
我們之所以能實現 94% 的準確率,與知識庫內容完全匹配,是因為我們采取了特定的策略。在提問時,我們根據問題的相似性選擇最相似的幾個問題,然后在生成答案時指導大模型選擇與哪個問題最相似,而不是直接將問題和答案一起提供給大模型讓其理解后再生成答案。我們是讓大模型直接返回最相似問題的編號。通過這種方式,我們可以通過編號直接獲取對應的準確答案,從而保證了答案的相似性和準確性。
Q2:大語言模型可以做推薦系統嗎?
A2:在我們的汽車行業場景中,使用大語言模型進行推薦的案例相對較少。我們主要在售后服務領域探索推薦系統的應用,由于汽車配件的種類較少,這與電商領域的推薦系統有所不同,因此我們還未在電商領域那樣廣泛嘗試使用大語言模型進行推薦。
在售后服務領域,大語言模型的應用主要集中在售后維修案例的檢索上,這涉及到與知識庫相關的內容檢索。例如,基于用戶對售后維修或保養的咨詢,以及參與售后活動的需求,大語言模型可以輔助客服人員檢索知識庫中的相關信息,從而提供輔助服務。
Q3:在 70B 的模型中,RAG +微調 + prompt 是否效果比 RAG + prompt 好?
A3:由于資源限制,我們尚未對 70B 的大模型進行調整,這取決于具體應用場景的需求。如果是通用場景,我們目前的測試顯示不需要進行微調。然而,對于特定垂直領域,如汽車行業中的特殊場景,我們還沒有進行嘗試,可能會需要進行相應的微調。
Q4:大語言模型中做自然語言查詢數據庫,會不會有幻覺的問題?
A4:我們采用的自然語言查詢實現方式是這樣的:基于一種不會產生幻覺的方法,或者說,采用類似于 AI agent 的框架。它首先將自然語言轉換為 SQL 語句,然后執行數據庫查詢。如果 SQL 語句轉換錯誤,則查詢結果也會出錯。通常情況下,我們的測試結果顯示,要么查詢正確,要么由于生成的 SQL 語句錯誤而沒有產生結果。我們使用的是 Vicuna-13B v1.5 版本來生成 SQL 語句,主要進行了單表查詢的測試。在單表情況下,處理單表操作是可行的,包括執行 where 語句、模糊查詢等。
Q5:是否有嘗試過用 Stable Diffusion 進行汽車設計?
A5:SD(Stable Diffusion)可以應用于汽車設計領域,我們的設計部門已經在使用它進行汽車設計工作。此外,SD 還能夠進行產品設計,我們已經在進行一些相關的嘗試。它還能生成一些海報,使得我們日常的海報生成工作比以往更為迅速。
Q6:70B 模型的 GPU 配置要求是什么呢?以及它能支持多大的流量查詢?
A6:對于 70B 模型,我們采用了量化版本,例如使用 INT4 量化,需要 43G 的顯存。有關大模型的詳細配置,可以在官網找到相應的信息,這與模型能夠支持的流量查詢量密切相關。
我們實際測試情況供參考:72b-int4 用 vllm 推理加速,輸入輸出共 1000 token,4 秒之內返回,用 A100 40G 2 張,可以支持 4 個并發。



























