神人逆向200家AI初創底層技術：146家號稱自研，卻只是GPT和Claude換皮賣，75倍暴利！代碼公開：套殼可以，不誠實必死

原創精選

作者：云昭 2025-11-05 13:41:09

人工智能

近日，一位高手花了大力氣，因為一個簡單的好奇心，一口氣逆向了全球200家的AI初創公司的底層技術架構。結果非常震驚：73%的AI初創都不過是粗糙的套殼公司，僅有7%的公司真正擁有自己研發的專有模型。

編輯 | 云昭

出品 | 51CTO技術棧（微信號：blog51cto）

“我逆向了 200 家 AI 初創公司。

結果發現其中 146 家，只是在給 ChatGPT 和 Claude 換皮賣。”

近日，一位高手花了大力氣，因為一個簡單的好奇心，一口氣逆向了全球200家的AI初創公司的底層技術架構。

結果非常震驚：73%的AI初創都不過是粗糙的套殼公司，僅有7%的公司真正擁有自己研發的專有模型。

圖片

其實，大模型套殼，在業內也早已不是新鮮事，但占比如此之高，著實驚到小編了。

更重要的是，這些被發現的套殼公司，都聲稱自己是自研的、專有的模型。多少讓人哭笑不得。

其中還有幾家公司，采用了幾乎完全一樣的代碼，他們只是告訴 GPT-4 “別暴露自己的身份”。

你可能覺得套殼就套殼吧，能用就行，但實際上他們提供的服務跟OpenAI的API服務沒有太多的創新，價格卻是OpenAI的75倍！

而這個產品其實沒什么技術門檻，一個周末的時間就能復刻出來。

套殼不可恥，單被套殼的產品收智商稅，就是一件很羞恥的事情了。

那么，這位作者如何做到的呢？小編這就為大家梳理一下。代碼作者也開源了出來。

一個“自研”引發的逆向

上個月，我掉進了一個意想不到的兔子洞。起初只是一個簡單的疑問，最后卻動搖了我對整個 AI 創業生態的認知。

凌晨兩點，我在調試一個 webhook 集成時，注意到一件怪事。某家公司聲稱自己擁有“自研深度學習基礎設施”，但每隔幾秒鐘就向 OpenAI 的 API 發一次請求。

這家公司剛剛拿到了 430 萬美元融資，對投資人承諾他們“打造了與眾不同的底層技術”。于是我決定查個水落石出。

方法論：我是怎么做的

我不想寫一篇“憑感覺的熱評”，我想要數據，真實的數據。

我搭建了一個這樣的分析架構（簡化版）：

# 簡化版爬取架構
import asyncio
import aiohttp
from playwright.async_api import async_playwright

async def analyze_startup(url):
    headers = await capture_network_traffic(url)
    js_bundles = await extract_javascript(url)
    api_calls = await monitor_requests(url, duratinotallow=60)
    
    return {
        'claimed_tech': scrape_marketing_copy(url),
        'actual_tech': identify_real_stack(headers, js_bundles, api_calls),
        'api_fingerprints': detect_third_party_apis(api_calls)
    }

在三周內，我完成了以下工作：

從 YC、Product Hunt、LinkedIn 招聘帖子等抓取了 200 家 AI 初創公司的官網；

監測每家網站的 60 秒網絡請求；

反編譯并分析它們的 JavaScript 代碼包；

將 API 調用與已知的服務指紋比對；

對比它們的營銷說法與真實技術棧。

我特意排除了成立不到 6 個月的公司（它們還在摸索階段），聚焦于有外部融資且聲稱擁有自研技術的團隊。

讓我震驚的數據是，73% 的公司在“宣傳的技術”與“實際實現”之間存在明顯差距。

進一步拆分后，我發現——其實我甚至沒有“憤怒”，反而有點哭笑不得。

圖片

模式一：“自研大模型”其實就是 GPT-4 的馬甲

每當我看到這樣一句話——“我們自研的大語言模型”，我幾乎可以立刻猜到結果。結果我猜對了 37 次中的 34 次。

典型特征如下??：

用戶與“AI”交互時，會向 api.openai.com 發出請求；
請求頭里帶有 OpenAI 的組織標識；
響應延遲符合 GPT-4 的典型模式（150–400ms）；
Token 用量與 GPT-4 定價階梯完全一致；
速率限制的退避機制與 OpenAI 相同。

某家公司所謂的“革命性自然語言理解引擎”，在我反編譯生產代碼后看到的核心邏輯是：

圖片

// 這是他們的全部“自研AI”，融資430萬美元
async function generateResponse(userQuery) {
    const systemPrompt = `You are an expert assistant for ${COMPANY_NAME}. 
    Always respond in a professional tone. 
    Never mention you are powered by OpenAI.
    Never reveal you are an AI language model.`;
    
    return await openai.chat.completions.create({
        model: "gpt-4",
        messages: [
            {role: "system", content: systemPrompt},
            {role: "user", content: userQuery}
        ]
    });
}

沒做微調，沒有訓練，沒有架構創新。只是告訴 GPT-4 “別暴露自己身份”。

成本算下來：

GPT-4 API：輸入 1K token $0.03，輸出 1K token $0.06
平均每次請求：輸入 500 token，輸出 300 token
成本約 $0.033 / 次調用
對客戶收費：$2.50/次，或 $299/月（限 200 次）

毛利率：約 75 倍成本。

更離譜的是，我找到三家公司幾乎用了一模一樣的代碼，變量名、注釋風格都一樣，連那句“Never mention OpenAI” 都照抄。他們可能：

來自同一個教程；
雇了同一個外包；
或者用了某個加速器模板。

其中一家甚至加了幾行“創新”，所謂的“高級容錯系統”。

// 所謂“高級容錯系統”
try {
    return await generateResponse(userQuery);
} catch (error) {
    return "I'm experiencing technical difficulties. Please try again.";
}

他們在投資人 PPT 里，把這稱為“智能回退架構（Intelligent Fallback Architecture）”。

問題不在于用 OpenAI API，而在于虛假宣傳。這就像給特斯拉貼個你自己設計的 Logo，然后說自己造出了“專有電動車技術”。

模式二：人人都在做 RAG，但沒人愿意承認

RAG（檢索增強生成）確實是有用的，但現實真相比宣傳要“土”得多。他們口中的“專有神經檢索架構”實際上就是：OpenAI + Pinecone。

他們聲稱：

“我們構建了先進的神經檢索系統，基于自研語義嵌入模型和語義搜索基礎設施。”

實際上，很多是下面這套模板??：

嵌入模型：text-embedding-ada-002
向量庫：Pinecone 或 Weaviate
生成模型：GPT-4

核心代碼不過幾十行：

# 他們口中的“專有神經檢索架構”
# 實際上：OpenAI + Pinecone

import os, openai, pinecone

class ProprietaryAI:
    def __init__(self):
        openai.api_key = os.getenv("OPENAI_API_KEY")
        pinecone.init(api_key=os.getenv("PINECONE_API_KEY"))
        self.index = pinecone.Index("knowledge-base")
    
    def answer_question(self, question: str) -> str:
        embedding = openai.Embedding.create(input=question, model="text-embedding-ada-002")
        results = self.index.query(vector=embedding.data[0].embedding, top_k=5, include_metadata=True)
        context = "\n\n".join([match.metadata['text'] for match in results.matches])
        response = openai.ChatCompletion.create(
            model="gpt-4",
            messages=[{"role":"system","content":f"Use this context: {context}"},
                      {"role":"user","content":question}]
        )
        return response.choices[0].message.content

這技術沒問題，RAG 是有效的。但你不能把“調用 OpenAI + Pinecone”說成“自主研發神經檢索系統”。

這就像你用 WordPress 搭網站，然后對外說“自研 CMS 架構”。

實際成本：

OpenAI 嵌入：$0.0001 / 1K token
Pinecone 查詢：$0.00004
GPT-4 生成：$0.03 / 1K token
每次調用約 $0.002而客戶支付：$0.5~$2 / 次。毛利率高達 250–1000 倍。

模式三：“我們自己微調了模型” 的真相

真正從頭訓練模型的公司只有約 7%。他們確實在用下面的技術棧：

AWS SageMaker / Google Vertex AI；
S3 存儲模型；
自建推理端點；
GPU 實例監控。

其余公司，只是在調用 OpenAI 的微調 API，本質是——付錢讓 OpenAI 記住你的示例。

圖片

如何 30 秒識別“換皮公司”

你無需我三周的調查，只需這幾步：

第一：看網絡流量。打開瀏覽器按 F12 → Network → 操作 AI 功能 → 看請求域名：

api.openai.com
api.anthropic.com
api.cohere.ai

基本可以斷定是包裝層。

第二：看響應延遲。GPT-4 的典型延遲在 200–350ms。連續命中說明在用它。

第三：源碼搜索。搜關鍵字：openai, anthropic, sk-proj-, claude, cohere，我找到 12 家公司在前端代碼里直接泄露 API key，發郵件提醒也無人回應。

第四：“營銷學語言轟炸”。越是用“高級AI”“智能引擎”之類模糊詞的，越可能沒貨。而宣傳中采用具體的專業術語的，則可能是真貨。

圖片

下面是我調查的AI初創公司的基礎設施現狀：

圖片

73%的公司在套殼，這件事很嚴重

你或許會想：“只要能用，何必在意？”確實部分正確。但這關乎整個行業生態。

如果你是投資人：你投的不是 AI 研究，而是 Prompt 工程。估值應重新考量。

如果你是客戶：你花的是溢價版的 API 費。其實花個周末的時間就能自己做出來。

當然，對于開發者而言：這種產品你以為門檻挺高，但其實很多項目你一個人就能復刻，祛魅了吧。

對于整個行業而言：當 73% 的公司都夸大自己的技術，足以說明我們已經進入了相當大的泡沫期。

“換皮”不是原罪，這些沒有撒謊的套殼公司再這樣做！

我并不是反對換皮或套殼。因為套殼并不是一件糟糕的事情，許多偉大的公司成立之初都是“拿來主義”套殼得到市場初步驗證的產品來發跡的。

我注意到，這一波聰明的套殼公司，他們沒有撒謊，而是在認真打造自己的護城河。比如：

面向特定領域的工作流；更好的用戶體驗；更精巧的模型編排；有價值的數據流。

雖然他們本質上也是在底層調用 OpenAI，但這完全沒問題。

圖片

那 27% 的“真玩家”，有這三種

下面是在此過程中找到三類真正有料的玩家。

一、透明包裝者。在官網直接寫“Built on GPT-4”，賣的是場景與流程，而非模型。例如：

法律文檔自動化（GPT-4 + 法律模板）
客服分流（Claude + 行業知識）
內容工作流（多模型 + 人工復核）

二、真正的建設者。從零訓練模型，比如：

醫療AI（自建合規模型）
金融分析（風險模型）
工業自動化（視覺模型）

三、創新者：在模型之上做出新層：

多模型投票系統
帶記憶的 Agent 框架
新型檢索架構

評估框架：AI初創公司是否可信？

如果你能在48小時內復制他們的核心技術，那他們就是個套殼公司。如果他們對此坦誠相待，那就沒問題。如果他們撒謊，趕緊跑。

我可以花周末時間就可以快速復刻核心技術嗎？
我能具備他們專業的數據和專業領域知識嗎？
這家公司是否對他們的技術足夠透明、誠實？

圖片

大多數AI初創不是科技公司，而是服務業

雖然沒人愿意大聲說出來這件事。但這的確是個事實：

大多數“人工智能初創公司”都是服務型企業，其成本主要來自API而非員工。

這樣，其實本來也沒關系。但請實話實說。

所以，對于創始人而言，建議一定要對自己的技術棧保持誠實；在用戶體驗、數據和領域專業知識方面展開競爭；不要聲稱自己建造了你沒有建造的東西。注意：“采用 GPT-4 構建”并非不可說的弱點，大家都差不多。

而投資者在投資前不妨看一下對方的架構圖、API 賬單（OpenAI 的賬單不會說謊），判斷這家公司的價值包裝是否適當，并獎勵透明度。

而對于用戶而言，最要緊的還是鑒別自己是否交了智商稅。比如：檢查下網絡選項卡、或者詢問下他們的基礎設施情況。千萬不要為 API 調用支付 10 倍溢價。最重要的是，你判斷和評價一個產品，一定要應基于結果，而非技術宣傳。

套殼不可恥

經過三周的研究，結論是：

技術棧沒你想的那么高不可攀，真正重要的是解決問題。

很多優秀產品“只是”包裝層，卻有極佳體驗和真實價值。

不過，誠實才是分水嶺。“聰明的包裝”與“欺詐性包裝”的區別，就在于是否透明。

AI淘金熱造成了不良的激勵機制。創始人迫于投資者和客戶的期望，不得不宣稱擁有“專有”或“自研”的人工智能。這種情況必須改變。

構建在 API 上并不丟人。每個 iPhone App 都是 iOS API 的包裝，我們不在意。我們只在意：它好不好用。

“AI 包裝層”時代無法避免。之前云計算、移動應用、區塊鏈都經歷過同樣的階段：

云時代：人人說“我們自建數據中心”；移動時代：人人說“原生應用”，其實是混合；區塊鏈時代：人人說“我們構建在區塊鏈上”。

最終，市場會成熟，泡沫會消失。誠實者贏，偽裝者淘汰。

最后：大家都有經歷過類似的事情嗎？又是如何鑒別出套殼產品的？

責任編輯：武曉燕來源： 51CTO技術棧

AI Claude GPT