一文講清大模型AI應用架構

作者：二姐存錢罐 2024-01-12 07:14:52

盡管畢業(yè)于同一專業(yè)，進入不同的公司，會有不同的業(yè)務領域。面對不同問題，會首先考慮公司是不是有現(xiàn)有資源（RAG）知識庫，再加上外部的通用知識，去提出解決方案。

本文轉載自微信公眾號「產(chǎn)品二姐」，作者產(chǎn)品二姐。轉載本文請聯(lián)系產(chǎn)品二姐公眾號。

如果說 2023 年是大模型大爆發(fā)的一年，這一年的機會主要給了大廠或者拿到大筆融資的創(chuàng)業(yè)者；那么 2024 年將是 AI 應用大爆發(fā)的一年，也意味著普通人有更多的機會加入這一浪潮。今天結合基于大模型的 AI 產(chǎn)品架構來看看普通人的機會在哪里，這些普通人包括：

AI 應用開發(fā)者
AI 產(chǎn)品經(jīng)理、提示詞工程師
希望通過 AI 來提效增收的中小老板

在講述 AI 產(chǎn)品架構之前，我們先來看看客戶的訴求。因為一切的設計都是從需求出發(fā)，大模型AI 產(chǎn)品也不例外。

1、從 AI 產(chǎn)品的訴求出發(fā)看 AI 產(chǎn)品設計

最近接觸到最多的訴求是：如何基于自己的知識庫構建自己的問答機器人，比如：

繪本館老板希望通過機器人對話來推薦書籍，提高社群活躍度。
面向大學生的留學咨詢機構希望通過機器人解答專業(yè)論文難題來獲取留學線索。
企業(yè)內部的 HR 希望通過機器人來進行日常的答疑解惑。

實際上，這些需求早已存在，只是一直沒有被很好地解決，大模型之前做出來的機器人是"人工智障"，大模型出來之后，"人工智障"變成了"人工幻覺"。可喜的是現(xiàn)在"幻覺"這一現(xiàn)象某種程度上正在被更好地解決，這一點本文會講到，而解決幻覺問題也是 2024 年 AI 技術的一大趨勢。

1.1為什么不用 ChatGPT

你可能會說：問答工具用 ChatGPT 不就好了嗎？

但如果你讓一個繪本館老板評價 ChatGPT 推薦書籍的能力，他估計會一笑了之，一是 ChatGPT 的推薦能力值得商榷，二是 ChatGPT 并不能讓用戶落在自己的繪本館里。繪本館老板真正的訴求是：

為什么 ChatGPT 不能按照我的資料庫推薦，我的資料比 ChatGPT 專業(yè)多了。
我有精準的用戶數(shù)據(jù)，比如用戶之前看了什么書，用戶的孩子多大了，而且還要結合館內的庫存狀態(tài)給每個用戶做不同的推薦。
我這里還有豐富的書籍的推薦話術，但是我希望結合每個客戶的不同習慣，同一本書籍用不同的話術推薦。

以上幾點構成了基于大模型 AI 產(chǎn)品的三個訴求：

個性化訴求：問答中所用到的知識庫和數(shù)據(jù)（客戶標簽，客戶閱讀歷史）希望用自己的。
需要結合傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)洞察能力給出更精準的回答。
強大的知識檢索、整合、表達能力，其實只有最后一點才是"大模型特色"的能力。

而解決這三個問題的背后要依托的是一個完整 AI 產(chǎn)品架構，架構的每一層里都可以負責解決不同的問題。

2、一圖說明基于大模型的 AI 產(chǎn)品架構

下面這張圖就是我總結的優(yōu)秀的 AI 產(chǎn)品架構(以問答機器人為例)，如果你比較了解 AI 應用的現(xiàn)狀，應該很容易理解。

圖片

接下來的內容就主要圍繞這張圖的深入討論，你會發(fā)現(xiàn)看似簡單的產(chǎn)品背后其實并不容易。首先我們按照調用時序來展開產(chǎn)品每一層的動作，以及由誰來做哪些事情。

2.1用戶層（前端）提問

這一層的目標是營造良好的用戶體驗，主要是產(chǎn)品經(jīng)理，UE，UI 負責，和傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品沒有區(qū)別。

需要注意的是，讓用戶感受不到 AI 的存在是最好的。在問答這個產(chǎn)品中，可能就是一個簡單的對話框，甚至可能融入微信、釘釘?shù)犬a(chǎn)品中。而推送僅僅在必要時進行，比如在繪本館的這個例子中，我們僅僅在借閱書籍即將到期進行提醒，同時推薦合適的書籍。

當然，也有可能用戶會主動提問："有哪些適合 3-5 歲男孩看的繪本"，這時用戶層就會喚起應用層。

2.2應用層提問

這一層是不同于傳統(tǒng)互聯(lián)網(wǎng)的一層，也是 AI 應用開發(fā)者，產(chǎn)品經(jīng)理的重頭戲。它的目標是將用戶的提問加工，發(fā)給適合模型層的 Prompt 提示詞，這里會分幾步走：

第一步：將 "有哪些適合 3-5 歲男孩看的繪本"這個問題轉化成專業(yè)提示詞。

比如按照 CRISPE 結構進行提問（CRISPE 是一種提示詞結構，可百度），這一步主要由提示詞工程師完成，在小產(chǎn)品中由產(chǎn)品經(jīng)理兼任，提示詞能力是大模型 AI 產(chǎn)品經(jīng)理的必備技能。

提示詞需要根據(jù)不同領域、不同場景、不同的知識庫、不同模型進行反復實驗，同時要具備結構化特征，抽象成模板，以適用于不同的參數(shù)值，比如把"3-5 歲"抽象為參數(shù) Age，把"男孩"抽象為參數(shù)"gender" 。專業(yè)提示詞的目標是讓開發(fā)能用，同時還能讓應用給出的回答盡可能準確、可控。

以下是一個提示詞模板的示例(摘自 Github 9000 STAR 的項目:https://github.com/yzfly/wonderful-prompts?tab=readme-ov-file#prompt-%E5%B7%A5%E7%A8%8B%E5%B8%88) 。

圖片

實際中你絕對不可能讓用戶輸入這么長的提示詞。作為產(chǎn)品經(jīng)理出身，稍后也會有文章專門講提示詞的各種套路（關注我不迷路）。

第二步：根據(jù)提示詞去檢索客戶已有知識庫，數(shù)據(jù)庫的內容。

這一步是解決用戶的個性化訴求，即引用自有知識庫、數(shù)據(jù)庫內容，同時著重降低幻覺。

當下解決這一問題的武器主要是 RAG(Retrieval-Augmented Generation，檢索增強生成，Augmented AI 也被認為是 2024 年 AI 發(fā)展的大趨勢之一）。這一步的工作最繁重，會涉及三項：

第一項：客戶(希望通過 AI 來提效增收的中小老板)準備適合大模型理解和閱讀的知識庫，通常需要條理清晰，結構化，圖片視頻要配文字等，這里不僅僅是為了讓機器人的回答更準確，更重要的是一定程度上可以節(jié)約大模型 token 的消耗成本。后面會整理文章專門說這一點，或許也可以找到合適的工具來做這個事情。
第二項：主要是研發(fā)同學來做，負責知識庫導入、分塊、向量化處理(Embedding)，建索引、檢索等，而這其中的每一步都有不同方法，且會影響回答的效果（參考文章《RAG行業(yè)交流中發(fā)現(xiàn)的一些問題和改進方法》）。
第三項：因為不同方法會有不同效果，所以最后還需要拉上產(chǎn)品經(jīng)理同學一起進行評測（參考文章《LangChain應用開發(fā)指南-TruLens用量化對抗幻覺》）。

實際中，做好這三項是比較繁瑣、困難的，也需要進行大量的實驗。

第三步：將第一步、第二步里的內容合成提示詞，加上問答上下文等，形成新的提示詞。

所以最終你會看到客戶的一個簡短問題，變成了一個專業(yè)問題發(fā)給了大模型。這時一個新的問題誕生了，提示詞越長，token 消耗越高，成本就越高（試問一次提問消耗 1 塊錢還會不會有老板想用）所以提示詞壓縮的技術實踐也應運而生。

第四步：壓縮提示詞

目前這塊研究不多，暫時引用知乎上的一篇文章《壓縮你的Prompt，讓LLMs處理多達2倍的Context》大家可以自行知乎搜索了解一下（公眾號不能鏈接外部文章）。

經(jīng)過四步處理，提示詞終于來到了模型層。

2.3模型層：

在這一層會有兩種模型：

一是直接使用通用大模型，眾所周知，它是建立在算法算力數(shù)據(jù)上的基礎設施
二是垂直大模型（比如法律、醫(yī)學、電商的垂直大模型），2023"百模大戰(zhàn)"里的模型大部分屬于這種。這些大模型一般是在通用大模型基礎上進行有監(jiān)督學習、強化學習改變大模型的參數(shù)，也就是我們說的"微調"。但"微調"的算力成本并不"微"，對于普通個體來說，也沒啥機會。

這一層主要是大模型廠商們的機會。在應用側的產(chǎn)品經(jīng)理、研發(fā)同學更應該關注的是"如何為自己的應用挑選合適的大模型"，這其中要主要考慮能力匹配和成本因素。

能力匹配方面：可以參照各大模型評測機構的結果
成本方面：有個坑就是各大廠商的 token 的消耗量似乎尚未統(tǒng)一，甚至同一模型，同樣的提問， token 的消耗也不一樣，這一塊可能要做一些實驗才能得出結果。在經(jīng)驗不足的時候，我們使用文心一言測試曾遭遇過一個問題一萬 token 的情況，合人民幣一塊錢。

接下來，就是生成回答的過程。

2.4生成回答的過程

這個過程比較簡單，主要集中在應用層收到模型層的回復后，需要做一層包裝，最終返回給用戶。這個包裝可能包括：

壓縮冗余信息：大模型一般會對自己的思路進行闡述，這是產(chǎn)品經(jīng)理或者提示詞工程師調教時需要了解的信息，但對用戶來說不需要，所以需要壓縮。
結合客戶個性化需求，補充信息：比如在推薦書籍的同時，加上書籍的“在館狀態(tài)”等信息。

這一步也主要由產(chǎn)品經(jīng)理來定義，與 UE，研發(fā)同學一起實現(xiàn)。

看完了整個過程，相信你對 AI 產(chǎn)品架構、架構每一層要實現(xiàn)的目標、主要角色和工作有了大概的理解。回應開頭的產(chǎn)品訴求來看：

個性化的訴求主要留給應用層的 RAG, 提示詞和傳統(tǒng)互聯(lián)網(wǎng)的思路來解決。模型層要做的是是否需要用垂直大模型。
強大的知識檢索、整合、表達能力主要由模型層來解決，主要考慮適用性和成本。

網(wǎng)上有個很好的比喻：模型相當于一個勤學苦讀的學生，學生要考試了，提示詞相當于解題技巧，RAG 相當于開卷考試中可以參考的資料。

3、用人才成長階梯重新審視 AI 產(chǎn)品架構

我們也經(jīng)常聽到一個比喻是"把大模型比作一個哈佛畢業(yè)的本科生"。我們以這個角色作為參照，再從底層到頂層來看大模型 AI 產(chǎn)品的架構，你會發(fā)現(xiàn)這其中每一層就像是從學校走向社會成為一個可用之才的過程。

圖片

第一層：算法算力數(shù)據(jù)這一層相當于教育體系。這包括教學硬件(算力)，優(yōu)秀的老師(算法)，和豐富的學習資源(數(shù)據(jù))。

第二層：模型層相當于在這個教育體系下培養(yǎng)出來的本科生（通用大模型）、研究生（垂直大模型）。

不管是本科生，還是研究生，他們具備了強大的綜合知識，思維框架，和學習能力，還有一點，他們都是預訓練的，距離真正有用還有一點距離。

第三層：應用層是職業(yè)生涯的開始。

可能在最初幾年，會迅速成長為一個領域專家。這個時候，通常是對客戶的問題進行專業(yè)分析，給出專業(yè)答案，但缺乏客戶的同理心，直接面對客戶會嚇跑客戶。

第四層：用戶層就是成為客戶喜歡的專家。

再過幾年，你開始會為客戶考慮，充分理解客戶的訴求，然后用客戶聽得懂的語言回答。最終成長為一個用戶喜歡的專家，這才是最終呈現(xiàn)給用戶的"產(chǎn)品"。

4、總結

寫到這里，也沒想到自己寫了這么長，過程中也給自己留了兩個作業(yè)：

1）AI 產(chǎn)品經(jīng)理的知識結構之"提示詞工程"，目前網(wǎng)上這一塊內容很多，大家可以參考 Github 9000star 的項目 ( https://github.com/yzfly/wonderful-prompts?tab=readme-ov-file#prompt-%E5%B7%A5%E7%A8%8B%E5%B8%88 )。后續(xù)會把自己一些特色實踐補上。

2）老板們如何準備適合大模型易讀的知識庫，這一塊內容不多，后面來補充。

最后來總結一下：

算法、算力、數(shù)據(jù)是科研教育機構的機會
模型層是大廠的機會
應用層才是大多數(shù)個體的機會。

你是否找到了自己的機會呢？

責任編輯：武曉燕來源：產(chǎn)品二姐

AI 應用架構