編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
“我逆向了 200 家 AI 初創公司。
結果發現其中 146 家,只是在給 ChatGPT 和 Claude 換皮賣。”
近日,一位高手花了大力氣,因為一個簡單的好奇心,一口氣逆向了全球200家的AI初創公司的底層技術架構。
結果非常震驚:73%的AI初創都不過是粗糙的套殼公司,僅有7%的公司真正擁有自己研發的專有模型。
圖片
其實,大模型套殼,在業內也早已不是新鮮事,但占比如此之高,著實驚到小編了。
更重要的是,這些被發現的套殼公司,都聲稱自己是自研的、專有的模型。多少讓人哭笑不得。
其中還有幾家公司,采用了幾乎完全一樣的代碼,他們只是告訴 GPT-4 “別暴露自己的身份”。
你可能覺得套殼就套殼吧,能用就行,但實際上他們提供的服務跟OpenAI的API服務沒有太多的創新,價格卻是OpenAI的75倍!
而這個產品其實沒什么技術門檻,一個周末的時間就能復刻出來。
套殼不可恥,單被套殼的產品收智商稅,就是一件很羞恥的事情了。
那么,這位作者如何做到的呢?小編這就為大家梳理一下。代碼作者也開源了出來。
一個“自研”引發的逆向
上個月,我掉進了一個意想不到的兔子洞。起初只是一個簡單的疑問,最后卻動搖了我對整個 AI 創業生態的認知。
凌晨兩點,我在調試一個 webhook 集成時,注意到一件怪事。某家公司聲稱自己擁有“自研深度學習基礎設施”,但每隔幾秒鐘就向 OpenAI 的 API 發一次請求。
這家公司剛剛拿到了 430 萬美元融資,對投資人承諾他們“打造了與眾不同的底層技術”。于是我決定查個水落石出。
方法論:我是怎么做的
我不想寫一篇“憑感覺的熱評”,我想要數據,真實的數據。
我搭建了一個這樣的分析架構(簡化版):
# 簡化版爬取架構
import asyncio
import aiohttp
from playwright.async_api import async_playwright
async def analyze_startup(url):
headers = await capture_network_traffic(url)
js_bundles = await extract_javascript(url)
api_calls = await monitor_requests(url, duratinotallow=60)
return {
'claimed_tech': scrape_marketing_copy(url),
'actual_tech': identify_real_stack(headers, js_bundles, api_calls),
'api_fingerprints': detect_third_party_apis(api_calls)
}在三周內,我完成了以下工作:
從 YC、Product Hunt、LinkedIn 招聘帖子等抓取了 200 家 AI 初創公司的官網;
監測每家網站的 60 秒網絡請求;
反編譯并分析它們的 JavaScript 代碼包;
將 API 調用與已知的服務指紋比對;
對比它們的營銷說法與真實技術棧。
我特意排除了成立不到 6 個月的公司(它們還在摸索階段),聚焦于有外部融資且聲稱擁有自研技術的團隊。
讓我震驚的數據是,73% 的公司在“宣傳的技術”與“實際實現”之間存在明顯差距。
進一步拆分后,我發現——其實我甚至沒有“憤怒”,反而有點哭笑不得。
圖片
模式一:“自研大模型”其實就是 GPT-4 的馬甲
每當我看到這樣一句話——“我們自研的大語言模型”,我幾乎可以立刻猜到結果。結果我猜對了 37 次中的 34 次。
典型特征如下??:
- 用戶與“AI”交互時,會向 api.openai.com 發出請求;
- 請求頭里帶有 OpenAI 的組織標識;
- 響應延遲符合 GPT-4 的典型模式(150–400ms);
- Token 用量與 GPT-4 定價階梯完全一致;
- 速率限制的退避機制與 OpenAI 相同。
某家公司所謂的“革命性自然語言理解引擎”,在我反編譯生產代碼后看到的核心邏輯是:
圖片
// 這是他們的全部“自研AI”,融資430萬美元
async function generateResponse(userQuery) {
const systemPrompt = `You are an expert assistant for ${COMPANY_NAME}.
Always respond in a professional tone.
Never mention you are powered by OpenAI.
Never reveal you are an AI language model.`;
return await openai.chat.completions.create({
model: "gpt-4",
messages: [
{role: "system", content: systemPrompt},
{role: "user", content: userQuery}
]
});
}沒做微調,沒有訓練,沒有架構創新。只是告訴 GPT-4 “別暴露自己身份”。
成本算下來:
- GPT-4 API:輸入 1K token $0.03,輸出 1K token $0.06
- 平均每次請求:輸入 500 token,輸出 300 token
- 成本約 $0.033 / 次調用
- 對客戶收費:$2.50/次,或 $299/月(限 200 次)
毛利率:約 75 倍成本。
更離譜的是,我找到三家公司幾乎用了一模一樣的代碼,變量名、注釋風格都一樣,連那句“Never mention OpenAI” 都照抄。他們可能:
- 來自同一個教程;
- 雇了同一個外包;
- 或者用了某個加速器模板。
其中一家甚至加了幾行“創新”,所謂的“高級容錯系統”。
// 所謂“高級容錯系統”
try {
return await generateResponse(userQuery);
} catch (error) {
return "I'm experiencing technical difficulties. Please try again.";
}他們在投資人 PPT 里,把這稱為“智能回退架構(Intelligent Fallback Architecture)”。
問題不在于用 OpenAI API,而在于虛假宣傳。這就像給特斯拉貼個你自己設計的 Logo,然后說自己造出了“專有電動車技術”。
模式二:人人都在做 RAG,但沒人愿意承認
RAG(檢索增強生成)確實是有用的,但現實真相比宣傳要“土”得多。他們口中的“專有神經檢索架構”實際上就是:OpenAI + Pinecone。
他們聲稱:
“我們構建了先進的神經檢索系統,基于自研語義嵌入模型和語義搜索基礎設施。”
實際上,很多是下面這套模板??:
- 嵌入模型:text-embedding-ada-002
- 向量庫:Pinecone 或 Weaviate
- 生成模型:GPT-4
核心代碼不過幾十行:
# 他們口中的“專有神經檢索架構”
# 實際上:OpenAI + Pinecone
import os, openai, pinecone
class ProprietaryAI:
def __init__(self):
openai.api_key = os.getenv("OPENAI_API_KEY")
pinecone.init(api_key=os.getenv("PINECONE_API_KEY"))
self.index = pinecone.Index("knowledge-base")
def answer_question(self, question: str) -> str:
embedding = openai.Embedding.create(input=question, model="text-embedding-ada-002")
results = self.index.query(vector=embedding.data[0].embedding, top_k=5, include_metadata=True)
context = "\n\n".join([match.metadata['text'] for match in results.matches])
response = openai.ChatCompletion.create(
model="gpt-4",
messages=[{"role":"system","content":f"Use this context: {context}"},
{"role":"user","content":question}]
)
return response.choices[0].message.content這技術沒問題,RAG 是有效的。但你不能把“調用 OpenAI + Pinecone”說成“自主研發神經檢索系統”。
這就像你用 WordPress 搭網站,然后對外說“自研 CMS 架構”。
實際成本:
- OpenAI 嵌入:$0.0001 / 1K token
- Pinecone 查詢:$0.00004
- GPT-4 生成:$0.03 / 1K token
- 每次調用約 $0.002而客戶支付:$0.5~$2 / 次。毛利率高達 250–1000 倍。
模式三:“我們自己微調了模型” 的真相
真正從頭訓練模型的公司只有約 7%。他們確實在用下面的技術棧:
- AWS SageMaker / Google Vertex AI;
- S3 存儲模型;
- 自建推理端點;
- GPU 實例監控。
其余公司,只是在調用 OpenAI 的微調 API,本質是——付錢讓 OpenAI 記住你的示例。
圖片
如何 30 秒識別“換皮公司”
你無需我三周的調查,只需這幾步:
第一:看網絡流量。打開瀏覽器按 F12 → Network → 操作 AI 功能 → 看請求域名:
- api.openai.com
- api.anthropic.com
- api.cohere.ai
基本可以斷定是包裝層。
第二:看響應延遲。GPT-4 的典型延遲在 200–350ms。連續命中說明在用它。
第三:源碼搜索。搜關鍵字:openai, anthropic, sk-proj-, claude, cohere,我找到 12 家公司在前端代碼里直接泄露 API key,發郵件提醒也無人回應。
第四:“營銷學語言轟炸”。越是用“高級AI”“智能引擎”之類模糊詞的,越可能沒貨。而宣傳中采用具體的專業術語的,則可能是真貨。
圖片
下面是我調查的AI初創公司的基礎設施現狀:
圖片
73%的公司在套殼,這件事很嚴重
你或許會想:“只要能用,何必在意?”確實部分正確。但這關乎整個行業生態。
如果你是投資人:你投的不是 AI 研究,而是 Prompt 工程。估值應重新考量。
如果你是客戶:你花的是溢價版的 API 費。其實花個周末的時間就能自己做出來。
當然,對于開發者而言:這種產品你以為門檻挺高,但其實很多項目你一個人就能復刻,祛魅了吧。
對于整個行業而言:當 73% 的公司都夸大自己的技術,足以說明我們已經進入了相當大的泡沫期。
“換皮”不是原罪,這些沒有撒謊的套殼公司再這樣做!
我并不是反對換皮或套殼。因為套殼并不是一件糟糕的事情,許多偉大的公司成立之初都是“拿來主義”套殼得到市場初步驗證的產品來發跡的。
我注意到,這一波聰明的套殼公司,他們沒有撒謊,而是在認真打造自己的護城河。比如:
面向特定領域的工作流;更好的用戶體驗;更精巧的模型編排;有價值的數據流。
雖然他們本質上也是在底層調用 OpenAI,但這完全沒問題。
圖片
那 27% 的“真玩家”,有這三種
下面是在此過程中找到三類真正有料的玩家。
一、透明包裝者。在官網直接寫“Built on GPT-4”,賣的是場景與流程,而非模型。例如:
法律文檔自動化(GPT-4 + 法律模板)
客服分流(Claude + 行業知識)
內容工作流(多模型 + 人工復核)
二、真正的建設者。從零訓練模型,比如:
醫療AI(自建合規模型)
金融分析(風險模型)
工業自動化(視覺模型)
三、創新者:在模型之上做出新層:
多模型投票系統
帶記憶的 Agent 框架
新型檢索架構
評估框架:AI初創公司是否可信?
如果你能在48小時內復制他們的核心技術,那他們就是個套殼公司。如果他們對此坦誠相待,那就沒問題。如果他們撒謊,趕緊跑。
我可以花周末時間就可以快速復刻核心技術嗎?
我能具備他們專業的數據和專業領域知識嗎?
這家公司是否對他們的技術足夠透明、誠實?
圖片
大多數AI初創不是科技公司,而是服務業
雖然沒人愿意大聲說出來這件事。但這的確是個事實:
大多數“人工智能初創公司”都是服務型企業,其成本主要來自API而非員工。
這樣,其實本來也沒關系。但請實話實說。
所以,對于創始人而言,建議一定要對自己的技術棧保持誠實;在用戶體驗、數據和領域專業知識方面展開競爭;不要聲稱自己建造了你沒有建造的東西。注意:“采用 GPT-4 構建”并非不可說的弱點,大家都差不多。
而投資者在投資前不妨看一下對方的架構圖、API 賬單(OpenAI 的賬單不會說謊),判斷這家公司的價值包裝是否適當,并獎勵透明度。
而對于用戶而言,最要緊的還是鑒別自己是否交了智商稅。比如:檢查下網絡選項卡、或者詢問下他們的基礎設施情況。千萬不要為 API 調用支付 10 倍溢價。最重要的是,你判斷和評價一個產品,一定要應基于結果,而非技術宣傳。
套殼不可恥
經過三周的研究,結論是:
技術棧沒你想的那么高不可攀,真正重要的是解決問題。
很多優秀產品“只是”包裝層,卻有極佳體驗和真實價值。
不過,誠實才是分水嶺。“聰明的包裝”與“欺詐性包裝”的區別,就在于是否透明。
AI淘金熱造成了不良的激勵機制。創始人迫于投資者和客戶的期望,不得不宣稱擁有“專有”或“自研”的人工智能。這種情況必須改變。
構建在 API 上并不丟人。每個 iPhone App 都是 iOS API 的包裝,我們不在意。我們只在意:它好不好用。
“AI 包裝層”時代無法避免。之前云計算、移動應用、區塊鏈都經歷過同樣的階段:
云時代:人人說“我們自建數據中心”;移動時代:人人說“原生應用”,其實是混合;區塊鏈時代:人人說“我們構建在區塊鏈上”。
最終,市場會成熟,泡沫會消失。誠實者贏,偽裝者淘汰。
最后:大家都有經歷過類似的事情嗎?又是如何鑒別出套殼產品的?
























