精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

企業級 RAG 系統實戰:10 個項目踩過的坑(附代碼工程示例)

人工智能
從這篇開始,我會把日常閑暇時觀摩的一些海外優質內容整理和加工后,附上自己的不同觀察和思考也通過文章或者視頻的形式發布出來,給各位做個參考。主要聚焦在 Reddit、Medium、X、Youtube 等平臺。這篇就以 Reddit 上 r/AI_Agents 中一個月前發布的一篇有 905 upvotes 的帖子做個翻譯整理。

25 年以來寫了 55 篇技術 Blog,字數也累計超過 50 萬字。每篇內容背后都是幾十甚至上百個小時的項目工程實踐的經驗提煉,雖然原創性沒話說,但還是產出效率太低,以及也難免受限于個人的經驗和水平。

So,從這篇開始,我會把日常閑暇時觀摩的一些海外優質內容整理和加工后,附上自己的不同觀察和思考也通過文章或者視頻的形式發布出來,給各位做個參考。主要聚焦在 Reddit、Medium、X、Youtube 等平臺。這篇就以 Reddit 上 r/AI_Agents 中一個月前發布的一篇有 905 upvotes 的帖子做個翻譯整理。

圖片

Blog 原地址:https://www.reddit.com/r/AI_Agents/comments/1nbrm95/building_rag_systems_at_enterprise_scale_20k_docs/ 

這篇試圖說清楚:

原帖的中文翻譯(人話版)、原帖中四個工程要點的代碼示例及實際應用建議、以及帖子評論區精華部分的內容節選。

以下,enjoy:

1、原帖子翻譯

企業級 RAG 系統實戰(2萬+文檔):10 個項目踩過的坑

原文來自 Reddit,作者在受監管行業(制藥、金融、法律)為中型企業(100-1000 人)構建了 10+ 個 RAG 系統

過去一年我一直在做企業級 RAG 系統,服務的客戶包括制藥公司、銀行、律所、咨詢公司。說實話,這玩意兒比任何教程說的都難太多了。我想分享一些真正重要的東西,而不是網上那些基礎教程。

先說背景:這些公司手里都有 1 萬到 5 萬份文檔,堆在 SharePoint 或者 2005 年的文檔管理系統里。不是什么精心整理的數據集,也不是知識庫——就是幾十年積累下來的業務文檔,現在需要能被搜索到。

1.1文檔質量檢測:沒人說的關鍵環節

這是我最大的發現。大多數教程都假設你的 PDF 是完美的。現實是:企業文檔就是一坨垃圾。

我有個制藥客戶,他們有 1995 年的研究論文,是打字機打出來再掃描的。OCR 基本不行。還混著現代的臨床試驗報告,500 多頁,里面嵌了各種表格和圖表。你試試對這兩種文檔用同一套分塊策略,保證給你返回一堆亂七八糟的結果。

我花了幾周調試,搞不懂為什么有些文檔效果很差,有些又很好。最后意識到:必須先給文檔質量打分,再決定怎么處理

  • 干凈的 PDF(文本提取完美)→ 完整的層級化處理
  • 一般的文檔(有點 OCR 問題)→ 基礎分塊 + 清理
  • 垃圾文檔(掃描的手寫筆記)→ 簡單固定分塊 + 標記人工復查

我做了個簡單的評分系統,看文本提取質量、OCR 瑕疵、格式一致性,然后根據分數把文檔送到不同的處理流程。

"This single change fixed more retrieval issues than any embedding model upgrade."

這一個改動解決的檢索問題,比升級 embedding 模型管用得多。

1.2固定大小分塊基本是錯的

所有教程都說:"把所有東西切成 512 token,加點重疊就行!"

現實是:文檔是有結構的。研究論文的方法論部分和結論部分不一樣。財報有執行摘要,也有詳細表格。如果無視結構,你會得到切到一半的句子,或者把不相關的概念混在一起。

我必須構建層級化分塊(Hierarchical Chunking),保留文檔結構:

  • 文檔級(標題、作者、日期、類型)
  • 章節級(摘要、方法、結果)
  • 段落級(200-400 tokens)
  • 句子級(用于精確查詢)

核心思路:查詢的復雜度決定檢索的層級。寬泛的問題在段落級檢索。精確的問題比如"表 3 里的劑量是多少?"需要句子級精度。

我用簡單的關鍵詞檢測——像"exact"(精確)、"specific"(具體)、"table"(表格)這些詞會觸發精準模式。如果置信度低,系統會自動下鉆到更精確的分塊。

1.3元數據架構比你的 Embedding 模型更重要

這部分我花了 40% 的開發時間,但 ROI 是最高的。

大多數人把元數據當成事后想起來的東西。但企業查詢的上下文非常復雜。一個制藥研究員問"兒科研究",需要的文檔和問"成人群體"的完全不同。

我為不同領域構建了專門的元數據模式:

制藥文檔:

  • 文檔類型(研究論文、監管文件、臨床試驗)
  • 藥物分類
  • 患者人口統計(兒科、成人、老年)
  • 監管類別(FDA、EMA)
  • 治療領域(心血管、腫瘤)

金融文檔:

  • 時間周期(2023 Q1、2022 財年)
  • 財務指標(收入、EBITDA)
  • 業務部門
  • 地理區域

別用 LLM 提取元數據——它們不靠譜。簡單的關鍵詞匹配效果好得多。查詢里有"FDA"?就過濾 regulatory_category: "FDA"。提到"兒科"?應用患者群體過濾器。

從每個領域 100-200 個核心術語開始,根據匹配不好的查詢逐步擴展。領域專家通常很樂意幫忙建這些列表。

1.4語義搜索失效的時候(劇透:很多)

純語義搜索失效的頻率比大家承認的高得多。在制藥和法律這種專業領域,我看到的失敗率是 15-20%,不是大家以為的 5%。

讓我抓狂的主要失敗模式:

縮寫混淆: "CAR" 在腫瘤學里是"嵌合抗原受體",但在影像論文里是"計算機輔助放射學"。相同的 embedding,完全不同的意思。這讓我頭疼死了。

精確技術查詢: 有人問"表 3 里的確切劑量是多少?"語義搜索會找到概念上相似的內容,但會錯過具體的表格引用。

交叉引用鏈: 文檔之間不斷互相引用。藥物 A 的研究引用了藥物 B 的交互數據。語義搜索完全丟失這些關系網絡。

解決方案: 構建混合方法。用圖層(Graph Layer)在處理時跟蹤文檔關系。語義搜索之后,系統會檢查檢索到的文檔是否有相關文檔有更好的答案。

對于縮寫,我做了上下文感知的擴展,用領域專用的縮寫數據庫。對于精確查詢,關鍵詞觸發會切換到基于規則的檢索來獲取特定數據點。

1.5為什么我選開源模型(具體是 Qwen)

大多數人以為 GPT-4o 或 o3-mini 總是更好。但企業客戶有些奇怪的約束:

  • 成本: 5 萬份文檔 + 每天幾千次查詢,API 費用會爆炸
  • 數據主權: 制藥和金融不能把敏感數據發到外部 API
  • 領域術語: 通用模型會在沒訓練過的專業術語上產生幻覺

Qwen QWQ-32B 在領域微調后效果出奇的好:

  • 比 GPT-4o 便宜 85%(大批量處理)
  • 一切都在客戶基礎設施上
  • 可以在醫療/金融術語上微調
  • 響應時間穩定,沒有 API 限流

微調方法很直接——用領域問答對做監督訓練。創建像"藥物 X 的禁忌癥是什么?"這樣的數據集,配上實際的 FDA 指南答案。基礎的監督微調比 RAFT 這種復雜方法效果更好。關鍵是要有干凈的訓練數據。

1.6表格處理:隱藏的噩夢

企業文檔里到處都是復雜表格——財務模型、臨床試驗數據、合規矩陣。標準 RAG 要么忽略表格,要么把它們提取成非結構化文本,丟失所有關系。

"Tables contain some of the most critical information... If you can't handle tabular data, you're missing half the value."

表格包含了最關鍵的信息。如果處理不好表格數據,你就丟了一半的價值。

財務分析師需要特定季度的精確數字。研究人員需要臨床表格里的劑量信息。

我的方法:

  • 把表格當成獨立實體,有自己的處理流程
  • 用啟發式方法檢測表格(間距模式、網格結構)
  • 簡單表格:轉成 CSV。復雜表格:在元數據中保留層級關系
  • 雙重 embedding 策略:既 embed 結構化數據,也 embed 語義描述

在銀行項目里,到處都是財務表格。還得跟蹤匯總表和詳細分解表之間的關系。

1.7生產基礎設施的現實檢驗

教程假設資源無限、運行時間完美。生產環境意味著并發用戶、GPU 內存管理、穩定的響應時間、運行時間保證。

大多數企業客戶已經有閑置的 GPU 基礎設施——未使用的算力或其他數據科學工作負載。這讓本地部署比預期的容易。

通常部署 2-3 個模型:

  • 主生成模型(Qwen 32B)用于復雜查詢
  • 輕量級模型用于元數據提取
  • 專門的 embedding 模型

盡可能用量化版本。Qwen QWQ-32B 量化到 4-bit 只需要 24GB VRAM,但保持了質量。可以在單張 RTX 4090 上運行,不過 A100 對并發用戶更好。

最大的挑戰不是模型質量——而是防止多個用戶同時訪問系統時的資源競爭。用信號量限制并發模型調用,加上合適的隊列管理。

1.8真正重要的經驗教訓

  1. 文檔質量檢測優先: 不能用同一種方式處理所有企業文檔。先構建質量評估,再做其他事。
  2. 元數據 > embeddings: 元數據不好,檢索就不好,不管你的向量有多棒。花時間做領域專用的模式。
  3. 混合檢索是必須的: 純語義搜索在專業領域失敗太頻繁。需要基于規則的后備方案和文檔關系映射。
  4. 表格很關鍵: 如果處理不好表格數據,就丟失了企業價值的一大塊。
  5. 基礎設施決定成敗: 客戶更在乎可靠性,而不是花哨功能。資源管理和運行時間比模型復雜度更重要。

1.9說點真話

"Enterprise RAG is way more engineering than ML."

企業 RAG 更多是工程,而不是機器學習。

大多數失敗不是因為模型不好——而是低估了文檔處理的挑戰、元數據的復雜性、生產基礎設施的需求。

現在需求真的很瘋狂。每個有大量文檔庫的公司都需要這些系統,但大多數人根本不知道處理真實世界的文檔有多復雜。

反正這玩意兒比教程說的難太多了。企業文檔的各種邊緣情況會讓你想把筆記本扔出窗外。但如果搞定了,ROI 還是很可觀的——我見過團隊把文檔搜索從幾小時縮短到幾分鐘。

2、四個工程要點代碼示例

上面譯文看完可能還不夠直觀,我挑了四個覺得比較重要的工程要點,并結合對應的業界常用的開源組件進行核心代碼邏輯的展示,供各位參考。

2.1文檔質量評分系統

原帖最大的創新點是在處理文檔前先給它打分,根據質量路由到不同 pipeline。作者說這一個改動解決的檢索問題比升級 embedding 模型還多。

核心是識別三種文檔:Clean(80+分)的文檔文本提取完美,可以完整層級化處理;Decent(50-80 分)的文檔有 OCR 瑕疵,需要基礎分塊加清理;Garbage(<50 分)的掃描手寫筆記只能固定分塊并人工復查。

評分維度包括文本提取質量(權重 50%)、格式一致性(30%)和表格完整性(20%),通過采樣前 3 頁來快速評估整個文檔。下面以 PaddleOCR 為例,做個代碼邏輯演示:

from paddleocr import PaddleOCR
import numpy as np

class DocumentQualityScorer:
    def __init__(self):
        self.ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    def score_document(self, pdf_images):
    """對文檔打分并選擇pipeline"""
    scores = []
    for img in pdf_images[:3]:  # 采樣前3頁
        result = self.ocr.ocr(img, cls=True)
        if not result or not result[0]:
            scores.append(0)
            continue

        # 提取置信度
        confidences = [line[1][1] for line in result[0]]
        avg_conf = np.mean(confidences)
        scores.append(avg_conf * 100)

    overall = np.mean(scores)

    # 分類并路由
    if overall >= 80:
        return "clean", CleanPipeline()
    elif overall >= 50:
        return "decent", DecentPipeline()
    else:
        return "garbage", GarbagePipeline()

這段代碼的核心邏輯是采樣前 3 頁圖像進行 OCR,提取每個文本塊的置信度分數(PaddleOCR 會為每個識別的文字塊返回 0-1 的 confidence 值),然后通過平均值轉換為 0-100 的分數。閾值 80 和 50 來自作者在多個項目中總結的經驗值:置信度高于 80%的文檔基本可以認為文本提取完美,50-80%之間有一些瑕疵但可用,低于 50%說明 OCR 質量很差。

只采樣 3 頁而不是全文是因為前幾頁通常能代表整體風格,處理全文太慢(100 頁文檔需要 10+分鐘),實測 3 頁的準確率已經 95%以上。這里用置信度 * 100 是為了將 0-1 的浮點數轉為 0-100 的分數,便于理解和設置閾值。

在實際使用時,建議先在數據集上標注 100 個文檔(人工判斷 Clean/Decent/Garbage),然后跑評分畫散點圖看三類文檔的分數分布,調整閾值讓分類準確率超過 90%。常見的坑是彩色掃描件 OCR 置信度可能很高但實際是垃圾,需要加入"是否為圖片 PDF"的判斷;表格很多的文檔(如財報)會被低估,可以提高表格評分的權重到 30%。性能優化方面,可以改為均勻采樣(第 1 頁、中間頁、最后頁各 1 頁)來提高代表性,多頁圖像可以并行 OCR 加速處理,同一文檔的評分結果應該緩存避免重復計算。

2.2層級化分塊策略

原帖批判了"固定 512 token 分塊"的做法,提出 4 層結構:Document(2048 tokens)→ Section(1024 tokens)→ Paragraph(512 tokens)→ Sentence(128 tokens)。關鍵洞察是查詢復雜度應該決定檢索層級:寬泛問題如"這篇講什么"適合段落級或章節級檢索,精確問題如"表 3 第 2 行是多少"需要句子級定位。每一層都生成獨立的 embedding 存儲在向量數據庫,檢索時根據查詢特征自動選擇合適的層級,從而避免大海撈針的問題。下面以 LlamaIndex 為例進行演示:

from llama_index.core.node_parser import HierarchicalNodeParser
from llama_index.core import Document

class AdaptiveRetriever:
    def __init__(self):
        self.parser = HierarchicalNodeParser.from_defaults(
            chunk_sizes=[2048, 1024, 512, 128]
        )
        self.precision_keywords = ['exact', 'table', 'figure', '表', '圖', '第']

    
    def retrieve(self, query, doc_text, vector_store):
    """層級化分塊并自適應檢索"""
    # 生成4層節點
    doc = Document(text=doc_text)
    nodes = self.parser.get_nodes_from_documents([doc])

    # 判斷查詢類型選擇層級
    has_precision = any(kw in query.lower() for kw in self.precision_keywords)
    word_count = len(query.split())

    if has_precision:
        level = 'sentence'
    elif word_count > 15:
        level = 'section'
    else:
        level = 'paragraph'

    return vector_store.search(query, filter={'layer': level}, top_k=5)

HierarchicalNodeParser 會根據 chunk_sizes 參數自動將文檔切分成 4 層,每層的大小是近似值而不是嚴格限制,因為切分時會保持語義邊界完整。參數[2048, 1024, 512, 128]適合英文,中文建議調整為[3000, 1500, 600, 150]因為中文信息密度更高。

查詢路由的邏輯是:如果包含精確關鍵詞(table、figure、第 X 章等)就用句子級,如果查詢很長(超過 15 個詞)說明是復雜概念問題就用章節級,否則默認段落級。這個啟發式規則來自原帖討論區的經驗,實測準確率在 85%左右。層級存儲在 vector_store 時通過 metadata 的 layer 字段區分,檢索時用 filter 過濾只在對應層級搜索。

實際使用時不是每次查詢都需要 4 層,大部分情況 paragraph 層足夠用,可以先在 paragraph 層檢索,如果置信度低再下鉆到 sentence 層做二次檢索。document 層主要用于"文檔級"問題如"這篇講什么"或生成摘要。

特殊文檔類型需要特別處理:表格和代碼塊應該提前提取單獨 chunk 避免被切碎,標題要合并到后續內容而不是單獨成 chunk,列表要保持完整性不在中間切斷。性能優化方面,chunk_sizes 的 overlap 建議設置為 size 的 5-10%來防止切斷完整語義,太大浪費存儲太小丟失上下文。對于技術文檔(代碼多)可以用更大的 chunk 如[4096, 2048, 1024, 256]。

2.3混合檢索問題

原帖指出純語義搜索在專業領域失敗率 15-20%,需要三路并行:語義檢索(向量相似度)理解語義但可能漏掉精確匹配,關鍵詞檢索(BM25)精確匹配但不理解同義詞,元數據過濾(結構化字段)過濾無關文檔。然后用 RRF(Reciprocal Rank Fusion)算法融合結果,公式是對于文檔 d 在結果列表中的排名 rank_d,融合分數等于各路結果的權重除以(60 + rank_d)之和。常數 60 是 RRF 標準參數,用于平衡頭部和尾部結果,權重一般設置為語義 0.7、關鍵詞 0.3,具體場景可調整。以 Qdrant 為例做個代碼示例:

from qdrant_client import QdrantClient

class HybridRetriever:
    def __init__(self):
        self.client = QdrantClient("localhost", port=6333)
    def search(self, query, top_k=10):
    """三路檢索 + RRF融合"""
    # 語義檢索(dense vector)
    semantic = self.client.search(
        collection_name="docs",
        query_vector=("dense", embed(query)),
        limit=top_k * 2
    )

    # 關鍵詞檢索(sparse vector)
    keyword = self.client.search(
        collection_name="docs",
        query_vector=("sparse", extract_keywords(query)),
        limit=top_k * 2
    )

    # RRF 融合
    scores = {}
    for rank, r in enumerate(semantic, 1):
        scores[r.id] = scores.get(r.id, 0) + 0.7 / (60 + rank)
    for rank, r in enumerate(keyword, 1):
        scores[r.id] = scores.get(r.id, 0) + 0.3 / (60 + rank)

    # 排序返回
    return sorted(scores.items(), key=lambda x: x[1], reverse=True)[:top_k]

Qdrant 支持在同一文檔上同時存儲 dense 和 sparse 兩種向量,dense 是傳統的語義 embedding(如 OpenAI、BGE),sparse 是關鍵詞的稀疏表示類似 BM25 的詞頻向量。RRF 融合算法的核心是用排名的倒數而不是原始分數來融合,這樣可以處理不同檢索器分數尺度不統一的問題。權重 0.7 和 0.3 是通用場景的經驗值(語義為主),精確查詢多的場景可以設為 0.5/0.5 均衡,概念查詢多可以設為 0.8/0.2 更偏語義。limit 設為 top_k * 2 是因為融合后會有重復,多取一些保證最終有足夠結果。元數據過濾(如 doc_type='clinical_trial')應該在數據庫層面用 Filter 實現而不是在應用層過濾,性能更好。

混合檢索在專業術語多的領域(醫療、法律、金融)是必須的,純語義搜索會漏掉縮寫、代號、產品型號等精確匹配。用戶查詢包含需要精確匹配的內容(如法規編號、技術規格)時也必須啟用。但通用聊天場景可選,純語義已經夠用,開啟混合檢索會增加 20-30%延遲。性能優化方面,三路檢索可以并行執行減少延遲,高頻查詢的結果應該緩存。

在實踐中建議通過 A/B 測試來調整權重:記錄用戶點擊率,看哪個權重組合的 top3 點擊率最高。如果你的文檔有豐富的元數據(如時間、類別、作者),元數據過濾能顯著提升準確率,例如"2024 年兒科臨床試驗"這種查詢,先用元數據過濾掉無關文檔再做語義檢索。

2.4置信度驅動的智能路由

來自原帖討論區的具體參數:0.7 相似度閾值加上 20-30 個觸發詞。邏輯是初始用段落級檢索獲得最高分數,如果高置信度(大于 0.85)說明段落級足夠,如果中置信度(0.7-0.85)且包含精確關鍵詞就切換到句子級,如果低置信度(0.5-0.7)就下鉆到句子級細粒度檢索,如果極低置信度(小于 0.5)就降級到關鍵詞搜索兜底。這是一個簡單但有效的"智能路由",避免所有查詢都用同樣粒度檢索,既節省計算又提高準確率。以下是純 python 的實現示例:

class ConfidenceRouter:
    def __init__(self):
        self.precision_kw = ['exact', 'table', 'figure', '表', '圖', '第']
        self.high_conf = 0.85
        self.med_conf = 0.70
        self.low_conf = 0.50
    def route(self, query, search_engine):
    """置信度驅動的檢索路由"""
    # 初始檢索(段落級)
    initial = search_engine.search(query, level='paragraph', top_k=10)
    if not initial:
        return []

    max_score = max(r.score for r in initial)
    has_precision = any(kw in query.lower() for kw in self.precision_kw)

    # 決策
    if max_score >= self.high_conf:
        return initial  # 高置信度,段落級足夠
    elif max_score >= self.med_conf:
        if has_precision:
            return search_engine.search(query, level='sentence', top_k=10)
        return initial
    elif max_score >= self.low_conf:
        return search_engine.search(query, level='sentence', top_k=10)
    else:
        return search_engine.keyword_search(query, top_k=10)  # 兜底

閾值 0.85/0.7/0.5 來自原帖討論區作者在多個項目中驗證的經驗值,這些數字在實際項目中肯定不是拍腦袋定的,而是要通過標注數據找出的準確率突變點。精確關鍵詞列表有 20-30 個詞,包括 exact、table、figure 以及中文的"表、圖、第"等,還可以用正則匹配"表 3"、"第 5 章"這種模式。決策邏輯是先用段落級試探,根據最高分數和是否有精確詞來決定是否需要更細粒度,這樣大部分查詢(約 70%)在段落級就能解決,只有 30%需要下鉆到句子級或降級到關鍵詞。降級到關鍵詞搜索是兜底策略,雖然粗糙但總比返回空結果好,在語義搜索完全失敗時至少能匹配到一些相關詞。

實際使用的時候,建議在數據上標注 100 個左右查詢,畫出相似度分數的分布圖,找到準確率突變點來設置閾值,不要直接照搬 0.7/0.85 這些數字。精確關鍵詞列表需要持續維護,從 bad case 中收集(用戶重新搜索說明上次結果不滿意),定期 review 刪除誤判率高的詞,也可以用 TF-IDF 找領域特有的精確詞。

建議記錄詳細日志包括 query、max_score、選擇的 strategy(paragraph/sentence/keyword)、has_precision_kw 以及用戶點擊率,通過日志分析持續優化閾值和觸發詞。A/B 測試時可以對比不同閾值組合的 top3 點擊率,選擇表現最好的。常見問題是閾值設置過高導致過多下鉆到句子級增加延遲,或設置過低導致很多查詢在段落級就返回但準確率不夠,需要根據業務場景平衡準確率和性能。

3、技術問答討論

原帖已經信息密度很高,但評論區里藏著更多實戰細節。我從 108 條討論中精選了 17 條核心問答,涵蓋以下四大主題:

技術實現細節:為什么 VLM 處理 PDF 比 HTML 轉換更靠譜、小模型 7B-13B 能干什么不能干什么、遞歸搜索怎么實現和觸發、10-20 頁文檔全文讀 vs 分塊檢索的選擇標準;

成本和性能數據:GPT-4o vs Qwen 的詳細成本計算、H100 上跑 Qwen 32B 的真實性能數據、A100 部署成本和選型理由;

商業模式和團隊運作:60-70%代碼復用率怎么做到;2 人團隊如何服務 10+企業客戶、如何找客戶和合作伙伴模式、授權許可 vs 定制開發的商業模式)

以及重要的澄清和補充:元數據提取 LLM vs 規則的使用邊界、混合檢索的自動選擇挑戰、法律和工程領域從業者的跨行業驗證)。

這些帖子評論區內容我做了完整翻譯、提煉要點、補充國內場景對照,并標注實用性,放在知識星球中作為會員專屬資料,感興趣的也可以自行去看原帖。

為了直觀期間,看個例子,討論區第 6 條關于成本對比的節選:

圖片圖片

評論:

你說 Qwen 比 GPT-4o 便宜 85%。我也在做類似項目想評估成本。GPT-4o 大概每月多少錢?

作者回答:

GPT-4o 價格是輸入$2.50/百萬 tokens、輸出$10.00/百萬 tokens。典型企業 RAG 場景,假設首次處理 5 萬文檔(一次性 embedding),每月 1 萬次查詢,平均每次 1K 輸入、500 輸出。GPT-4o 成本: 初始 embedding 約$125,月度查詢約$100($75 輸入+$25 輸出),總計中等使用量每月$200-300+,規模上去后快速增長。Qwen QWQ-32B 成本: 輸入$0.15-0.50/百萬 tokens、輸出$0.45-1.50/百萬 tokens(Groq 報價$0.29 輸入/$0.39 輸出),同樣工作量:初始 embedding 約$15-25,月度查詢約$15-20,總計每月$30-50,而不是$200-300+。這就是 85%成本節省的來源。

作者直接給出了完整的公式和每個環節的費用拆解,包括具體的 token 價格、使用量假設和總成本計算,這些實際項目中可以直接拿來做預算。類似這樣有具體數字、可落地的實戰經驗,在 17 條精華問答里還有很多。

4、寫在最后

帖子作者說"企業 RAG 是 70% 工程 + 20% 領域知識 + 10% 模型",我深表認同,但想再加一個維度:企業 RAG = 70% 工程 + 20% 領域知識 + 10% 模型 + ∞ 耐心。

畢竟,企業 RAG 不是一個純技術問題,對行業的理解、對臟數據的處理能力、對工程細節的把控,都是繞不開的必修課。

責任編輯:龐桂玉 來源: 韋東東
相關推薦

2025-07-03 06:39:16

2024-04-01 08:05:27

Go開發Java

2024-06-26 10:37:05

2024-05-06 00:00:00

緩存高并發數據

2023-02-15 18:12:43

開發企業級CLI

2025-04-29 10:17:42

2017-07-17 15:46:20

Oracle并行機制

2024-12-30 09:12:17

2014-11-24 10:33:32

Windows 10

2025-04-21 04:50:00

2025-02-13 09:01:03

2018-01-10 13:40:03

數據庫MySQL表設計

2015-03-24 16:29:55

默認線程池java

2025-11-06 02:55:00

2010-11-11 09:54:31

2023-03-29 07:49:05

企業級項目研發

2013-03-28 09:35:31

企業級系統

2011-05-19 10:57:47

架構

2020-07-31 07:45:43

架構系統企業級
點贊
收藏

51CTO技術棧公眾號

久久亚洲图片| 亚洲瘦老头同性70tv| 日韩毛片一二三区| 成人在线观看网址| 免费看日韩毛片| 国产精品午夜一区二区三区| 欧美日韩国产一区| 99久久国产综合精品五月天喷水| 性高潮久久久久久久久久| 日韩高清不卡一区二区三区| 久久精品青青大伊人av| 亚洲av人人澡人人爽人人夜夜| 欧美第一视频| 一区二区在线免费观看| 欧美亚洲另类在线一区二区三区| 国产一区二区三区黄片| 中文高清一区| 精品国偷自产在线| 美国黄色一级毛片| 日韩精品中文字幕吗一区二区| 欧美性xxxx在线播放| 亚洲小说欧美另类激情| 国产三级在线看| 国产 日韩 欧美大片| 国产精品美女www爽爽爽视频| 久久中文字幕在线观看| 久久五月天小说| 日韩精品视频免费在线观看| 中文字幕第10页| 韩日精品一区| 亚洲成av人片观看| 天堂av免费看| 成人午夜影视| 91在线精品秘密一区二区| 成人性生交大片免费看小说| 在线观看你懂的网站| 99成人在线| 久久久久久久久国产| 精品视频第一页| 国产一区网站| 亚洲天堂成人在线| 香蕉视频黄色在线观看| 久久精品亚洲成在人线av网址| 欧美一区二区性放荡片| 国产精品视频黄色| 欧美最新精品| 色婷婷久久久综合中文字幕| 久久久一本二本三本| xxx.xxx欧美| 一区二区成人在线| 高清无码视频直接看| 亚洲男同gay网站| 亚洲少妇30p| 最新国产精品久久| 国产精品实拍| 日韩毛片一二三区| 视色,视色影院,视色影库,视色网 日韩精品福利片午夜免费观看 | 亚洲电影在线一区二区三区| 在线视频欧美性高潮| 日韩一区二区a片免费观看| 一区二区小说| 国产亚洲精品久久久久久777| 91久久免费视频| 一本色道久久综合亚洲精品酒店| 亚洲欧洲日产国产网站| xxxx日本免费| 日韩电影一区| 日韩中文在线观看| 小泽玛利亚一区二区免费| 在线一区免费| 国产69精品99久久久久久宅男| 激情综合网五月婷婷| 亚洲美女少妇无套啪啪呻吟| 欧美有码在线视频| 瑟瑟视频在线免费观看| 国模娜娜一区二区三区| 成人羞羞视频免费| 手机福利在线| 中文字幕精品一区二区精品绿巨人 | 日韩午夜电影网| 俺去了亚洲欧美日韩| 久久精品黄色片| 激情久久中文字幕| 日本精品久久久| 中文字字幕在线中文乱码| 激情六月婷婷久久| 国外成人免费视频| 国产在线观看免费网站| 成人欧美一区二区三区黑人麻豆| 大桥未久一区二区| jizzjizz中国精品麻豆| 在线观看亚洲精品| 亚洲一二三不卡| 欧美日韩一本| 色悠悠久久久久| 久草视频免费播放| 老牛国产精品一区的观看方式| 国产人妖伪娘一区91| 日本精品999| 国产清纯在线一区二区www| 国产树林野战在线播放| 天堂中文在线播放| 欧美精品久久天天躁| 国产艳俗歌舞表演hd| 午夜欧美在线| 日本久久久a级免费| 国产av一区二区三区| 久久久久久久久岛国免费| 强开小嫩苞一区二区三区网站| 人在线成免费视频| 91精品国产综合久久小美女| 女尊高h男高潮呻吟| 午夜电影亚洲| 国产精品久久久久久五月尺| 亚洲精品视频91| 国产精品久久久一本精品| 僵尸世界大战2 在线播放| 四虎地址8848精品| 亚洲天堂免费在线| 国产 欧美 日韩 在线| 国产盗摄精品一区二区三区在线 | 国产cdts系列另类在线观看| 欧美午夜电影在线| 理论片大全免费理伦片| 88国产精品视频一区二区三区| 国产精品扒开腿做| 理论视频在线| 欧美午夜无遮挡| 女同性恋一区二区三区| 欧美特黄视频| 亚洲最大成人网色| 黄色网页网址在线免费| 欧美日韩一区在线观看| 亚洲自拍偷拍图| 巨乳诱惑日韩免费av| 精品国产乱码久久久久| 精精国产xxxx视频在线中文版| 制服丝袜激情欧洲亚洲| 精品一区二区6| 人人狠狠综合久久亚洲| 欧美精品一区二区视频| 嗯~啊~轻一点视频日本在线观看| 欧美一卡二卡三卡| 成人无码av片在线观看| 日韩精品亚洲一区二区三区免费| 国产一区国产精品| 新版中文在线官网| 91 com成人网| 成年人网站在线观看视频| 久久国内精品视频| 日韩久久久久久久| 午夜无码国产理论在线| 日韩激情av在线播放| 日韩欧美视频在线免费观看| av中文字幕不卡| 久久久久久久午夜| 九色丨蝌蚪丨成人| 国外成人在线直播| 蜜桃av噜噜一区二区三区麻豆| 亚洲国产综合在线| 精品伦一区二区三区| 欧美日韩精品一本二本三本| 91在线|亚洲| av免费网站在线观看| 欧美亚洲国产bt| 影音先锋男人看片资源| 蜜臀a∨国产成人精品| 亚洲乱码一区二区三区三上悠亚 | 日韩欧美在线国产| 亚洲黄色免费在线观看| 久久婷婷久久| 亚洲欧美国产精品桃花| 欧洲美女精品免费观看视频| 久久精品国产成人| hs视频在线观看| 一区二区三区.www| 中文字幕 欧美 日韩| 亚洲婷婷在线| 久久久av水蜜桃| 欧美成人性网| 欧美成年人视频| 黄色av一区二区三区| 天天色综合天天| 精品少妇人妻一区二区黑料社区| 日韩高清中文字幕一区| 天天成人综合网| 97久久综合精品久久久综合| 韩日欧美一区二区| 久热av在线| 欧美色爱综合网| 亚洲女人久久久| 成人在线一区二区三区| 国模吧无码一区二区三区| 成人在线电影在线观看视频| 成人伊人精品色xxxx视频| 任你弄在线视频免费观看| 亚洲精选一区二区| 91麻豆成人精品国产| 亚洲国产色一区| 黑人巨大精品欧美| 国产美女视频91| 国产精品秘入口18禁麻豆免会员| 不卡在线一区| 国产免费一区二区三区| 性欧美18一19sex性欧美| 欧美极品欧美精品欧美视频| 国产精品影院在线| 欧美一区二区三区免费| 国产成人精品一区二三区| 国产精品人妖ts系列视频| 中文字幕在线观看视频www| 亚洲欧美日本日韩| 日韩精品一区二区三区电影| 婷婷精品视频| 亚洲一区精品电影| 国产精品第一| 亚州国产精品久久久| 午夜精品一区| 日韩精品视频在线免费观看| 国产内射老熟女aaaa∵| 欧美亚洲精品一区| 国产精品视频久久久久久久| 亚洲欧美日韩久久| 中文字幕 自拍| av中文字幕亚洲| 国产在线观看中文字幕| 视频在线观看91| 阿v天堂2018| 99re6这里只有精品| 欧美日韩高清在线一区| 66精品视频在线观看| 国产精品日韩在线播放| 中老年在线免费视频| 久久91精品国产91久久跳| 国产原创视频在线观看| 亚洲欧美制服第一页| 亚洲精品字幕在线观看| 欧美一区二区三区视频| 999视频在线| 日本大香伊一区二区三区| 男人天堂中文字幕| 一区二区在线看| 欧美偷拍第一页| 亚洲欧美激情视频在线观看一区二区三区 | 久久精品女人天堂av免费观看| 欧美精品xxx| 3d玉蒲团在线观看| 色婷婷av一区二区三区在线观看 | 欧美xxxx综合视频| 免费大片在线观看www| 亚洲性av在线| 毛片在线播放网站| 日韩中文字幕在线播放| 国产黄色片在线观看| 在线精品播放av| 久cao在线| 最好看的2019年中文视频| 国产精品视频二区三区| 亚洲网站在线看| 国产美女性感在线观看懂色av| 一区二区三区四区精品| 尤物网在线观看| 最好看的2019年中文视频| 色哟哟免费在线观看| 欧美福利视频在线| a毛片不卡免费看片| 国模精品一区二区三区色天香| 国产经典三级在线| 欧美激情亚洲激情| 在线观看网站免费入口在线观看国内| 韩剧1988免费观看全集| 成人影院av| 国产精品网址在线| 日韩成人精品| 风间由美久久久| 日韩高清电影免费| 日韩久久久久久久| 亚洲天天综合| 日本韩国欧美在线观看| 巨乳诱惑日韩免费av| 污视频网站观看| 国产美女av一区二区三区| 天天躁日日躁狠狠躁av| 91亚洲精品久久久蜜桃| 亚洲自拍偷拍图| 亚洲欧美日本韩国| 黄色在线视频网址| 欧美日韩免费观看一区二区三区| 国产偷拍一区二区| 亚洲国产精品免费| 国产视频三级在线观看播放| 色婷婷综合久久久久中文字幕1| 2024短剧网剧在线观看| 97精品欧美一区二区三区| 国产第一精品| 国产精品swag| 国产亚洲一区| 国产一区二区三区播放| 石原莉奈在线亚洲三区| 日本高清免费在线视频| 99re视频这里只有精品| 少妇高潮在线观看| 色综合色综合色综合色综合色综合| 中文字幕有码无码人妻av蜜桃| 欧美一级淫片007| 奇米影视888狠狠狠777不卡| 欧美猛交免费看| 性高爱久久久久久久久| 91九色视频在线观看| 欧美一区 二区| 成人午夜视频免费观看| 日日摸夜夜添夜夜添精品视频| 国产精品探花在线播放| 欧美国产日韩一二三区| 久一视频在线观看| 欧美三级资源在线| 亚洲av片一区二区三区| 欧美丰满少妇xxxxx| 992tv国产精品成人影院| 国产精品一区二区三区在线观| 色小子综合网| 精品日韩久久久| 99视频热这里只有精品免费| av资源在线免费观看| 疯狂做受xxxx高潮欧美日本| 亚洲国产www| 精品国产欧美成人夜夜嗨| 亚洲精品mv| 亚洲影院色无极综合| 午夜久久免费观看| www.色就是色| 99久久夜色精品国产网站| 视频这里只有精品| 欧美色图第一页| 四虎精品成人免费网站| 欧美劲爆第一页| 91精品丝袜国产高跟在线| 亚洲欧美丝袜| 石原莉奈在线亚洲二区| 精品成人av一区二区三区| 偷拍日韩校园综合在线| 朝桐光av在线一区二区三区| 日韩亚洲欧美中文高清在线| 欧美91在线|欧美| 无码免费一区二区三区免费播放| 亚洲资源av| 亚洲av无码一区二区三区观看| 午夜不卡av免费| 天天操天天操天天干| 欧美激情区在线播放| 精品中文在线| 欧美日韩一区二区三区电影| 久久99精品国产麻豆婷婷| 亚洲色图27p| 日韩欧美在线1卡| 成人福利片网站| 成人免费视频网| 欧美日韩国产亚洲一区| 日本在线视频播放| 一区二区三区丝袜| 国产精品人妻一区二区三区| 九九热这里只有在线精品视| 日本成人手机在线| 国产内射老熟女aaaa| 9l国产精品久久久久麻豆| 国偷自拍第113页| 亚洲欧美中文在线视频| 国产精品99精品一区二区三区∴| 亚洲高清资源综合久久精品| 毛片av中文字幕一区二区| www.中文字幕av| 在线播放欧美女士性生活| 国产成人午夜| 国产精品免费视频一区二区| 久久久久91| 黑人と日本人の交わりビデオ| 欧美日韩一级二级三级| 欧洲精品二区| 久久久一本精品99久久精品| 久久婷婷av| 制服丨自拍丨欧美丨动漫丨| 欧美岛国在线观看| 老司机深夜福利在线观看| 日本婷婷久久久久久久久一区二区| 激情综合五月婷婷| 久久免费视频播放| 亚洲欧美日韩网| 日韩精品亚洲专区在线观看| av在线播放亚洲| 国产欧美一区在线| www黄色网址| 日韩av快播网址| 99久久夜色精品国产亚洲狼 | 国产三级av片| 在线视频亚洲欧美| 久久成人福利| 国产区二区三区| 亚洲成人看片| 欧美肥妇毛茸茸| 性色av蜜臀av色欲av|