Bill Inmon:為什么你的數據湖需要的是 BLM,而不是 LLM

當你嘗試使用文本生成 AI 解決結構化數據問題時,你投資的數據湖就變成了‘污水池’ 。” —— Bill Inmon
根據 Gartner 的研究,85% 的大數據項目都失敗了。2023 年,規模達 152 億美元的數據湖市場增長了 20% 以上,但大多數企業卻無法從文本數據中提取價值。
“數據倉庫之父”Bill Inmon將這些失敗的實施稱為“污水池”和“數據沼澤”。這就是為什么你現在的方法不起作用的原因。那么,什么才是有效的呢?
一、大語言模型的陷阱正在耗盡預算
供應商一直在推銷同樣不完善的解決方案:“只需將 ChatGPT 添加到您的數據湖中!”
這個建議會讓你付出高昂的代價。
ChatGPT 每天要花費 70 萬美元才能維持運營。對于中型應用程序,企業實施每月的運行成本為 3,000 至 15,000 美元。對于處理 10 萬次以上查詢的組織來說,僅 API 成本每月就高達 3,000 至 7,000 美元。
這還不包括基礎設施開銷。
但成本并不是真正的問題,根本問題更為嚴重。
ChatGPT 生成的是文本,而不是結構化數據
當您分析 10,000 張客戶支持票時,您不希望 ChatGPT 撰寫有關客戶感受的文章。
您需要結構化數據。
情緒評分、分類問題、趨勢指標、可操作的洞察,填充儀表板并推動決策。
ChatGPT 會給你更多文本閱讀。這與你的需要恰恰相反。
95%的浪費問題
以下是 Inmon 的殺手級見解:ChatGPT 的知識中只有 5% 與您的特定業務相關。

大型語言模型涵蓋了世間萬物。軍事地圖、名人趣聞、體育統計數據、流行文化參考。您的銀行業務不需要了解達拉斯牛仔隊的統計數據。
但你卻要為這一切付出代價。
對于關鍵任務決策來說不可靠
ChatGPT 會產生幻覺。它會生成看似合理但實際上完全錯誤的信息。
87% 的數據科學項目從未投入生產。不可靠的人工智能使這一問題更加嚴重。
在企業環境中,可靠性每次都勝過創造力。
企業人工智能軍備競賽無人獲勝
Inmon 稱之為“巨大的宇宙笑話”。
美國銀行、花旗集團、富國銀行、摩根大通等主要銀行都投入了數百萬美元來打造基本相同的大型語言模型。

保險公司、醫療保健機構、制造公司也都這么做。
每個人都在構建龐大的通用模型,但實際上他們只需要其中的一小部分功能。
2024 年,人工智能市場規模達到 2350 億美元,到 2028 年將超過6310 億美元。然而,70% 的組織仍在進行試驗,而不是部署可用于生產的解決方案。
與此同時,54% 的組織在基本數據移動方面遇到困難——這是任何人工智能項目的基礎要求。
這就像購買一把帶有 500 種工具的瑞士軍刀,而您只需要一把螺絲刀。
二、BLM商業語言模型:外科手術解決方案

商業語言模型 (BLM)不是采用通用的萬能模型,而是采用精確的方法。
它們恰好包含兩個組件:
- 行業特定詞匯 (ISV):您所在行業獨有的術語
- 通用商業詞匯(GBV):通用商業語言
這種有針對性的方法與Gartner 的預測相一致,即企業將轉向特定領域的語言模型和可以微調的更輕量級模型。
微軟最近推出了針對特定行業的定制化人工智能模型。他們正在與拜耳在農業領域合作,與 Cerence 在汽車領域合作,與羅克韋爾自動化在制造業合作。
市場認識到行業特定的人工智能能夠帶來真正的價值。
現實世界的 BLM 示例

銀行業 BLM 包括:
- 貸款、信用卡、儲蓄賬戶
- 外匯兌換、出納、支票
- 法案合規、付款保證金
- 存折條目、付款到期日
餐飲業 BLM 包括:
- 服務模式、菜系(墨西哥菜、中國菜、意大利菜)
- 餐具、烹飪方法、菜單規劃
- 高級餐廳、牛排館、快餐類別
- 廚房運營、服務員管理
關鍵的見解是:這些詞匯并不重疊。
銀行術語從來不會出現在餐館的語境中。 餐館術語從來不會出現在銀行的語境中。
這種分離可以實現激光聚焦的準確性和效率。
真正有效的情境智能
BLM 不僅能識別術語,還能理解關系:
- 法律法規→ 認定為立法
- 發薪日貸款→與信用卡功能掛鉤
- 付款銀行→歸類為銀行機構
- APR(年利率) →連接到利率規范
- AFN → 被認定為阿富汗貨幣
這種情境理解確實能帶來成效。麥肯錫報告稱,如果高級文本分析部署得當,呼叫處理時間可減少40%,轉化率可提高50% 。
普通的 LLM 無法達到這種精度。
你不想構建BLM的 69 個復雜因素

想要創建自己的 BLM 嗎?不。
Inmon 的團隊確定了69 個必須解決的復雜因素。以下是一些需要解決的問題:
- 語言挑戰
鄰近分辨率:“達拉斯牛仔隊” vs. “達拉斯” vs. “牛仔隊”
地區拼寫:“colour”(英國)與“color”(美國)
否定處理:正確解釋“不”、“從不”、“無”
- 技術障礙
同形異義詞解析:“HA”可能表示心臟病發作、頭痛或甲型肝炎
詞干提取:識別“moving”與“move”相關
- 多語言支持:西班牙語、德語、法語、俄語、普通話
姓名識別:識別“Mary Levens”這個人
- 情境智能
火災可能意味著建筑物緊急狀況、武器發射或終止雇傭關系
每個上下文都需要不同的處理并產生不同的分析輸出。
大多數組織都低估了這種復雜性。
從沼澤回到湖泊:轉變

如果正確實施,BLM 會將非結構化文本轉換為結構化的可查詢數據。
這項功能解決了一個重大問題。每天會產生 3.28 億 TB 的數據。2025 年,每年將產生超過 181 ZB 的數據。
80% 到 90% 的商業數據都是非結構化的。然而,根據德勤的研究,只有 18% 的公司利用非結構化數據。
BLM 使組織能夠應用熟悉的分析工具:
- Tableau用于可視化
- Excel分析
- 用于關系映射的知識圖譜
- 自定義儀表板,提供實時洞察
- 行業應用取得成果

- 醫療保健:醫療記錄和藥物試驗分析。
- 財務:客戶情緒和合同評估。FitBit在六個月內分析了 33,000 條推文,以自動識別產品痛點。
- 保險:保修索賠和風險評估與精確匹配。
- 法律:合同分析和合規性監控。文本挖掘可識別案例先例并撰寫有影響力的法律論據。
- 制造業:用于預測見解的質量報告和維護日志。
- 模式很明顯:大多數組織缺乏資源或工具來解析企業規模的非結構化數據。BLM 系統地解決了這個問題。
預先構建的優勢改變一切!
這些特定于行業的 BLM 已經存在。
據 Inmon 稱,預先構建的模型涵蓋了大約90% 的所有業務類型:
- 保險、銀行、建筑
- 房地產、制藥、航空
- 零售、酒店、石油和天然氣
- 餐廳等等
- 只需極少的定制
雖然 BLM 涵蓋了絕大多數行業術語,但每個組織都有獨特的術語。
定制很簡單,通常占總詞匯量的不到 1%。無需從頭開始建造。
需要采取行動的數字
85% 的大數據項目失敗。87 % 的數據科學項目從未投入生產。70 % 的組織仍在試驗人工智能。同時2024年企業管理的非結構化數據將翻一番。
數據生成和數據利用之間的差距日益擴大。
商業語言模型代表著一種范式轉變:從昂貴的通用人工智能到精確的、以行業為中心的、可立即獲得投資回報的人工智能。
與 ChatGPT每天 70 萬美元的運營成本不同,BLM 提供具有成本效益、有針對性且可有效擴展的解決方案。
三、實施路線圖
前進的道路比大多數人意識到的要清晰得多:
1. 評估您當前的文本分析方法。54 %的組織在數據遷移方面舉步維艱,85% 的大數據項目以失敗告終,因此了解您當前的狀況至關重要。
2. 確定您的行業特定詞匯需求
請記住,80-90%的業務數據是非結構化的,只有18%的公司利用它。
3. 評估適合您行業的預先構建的 BLM 選項,而不是通過通用解決方案加入價值 2350 億美元的 AI 市場。
4. 計劃最低限度的定制要求,通常少于總詞匯量的 1%。
5. 利用現有的分析工具來實施,充分利用您當前的基礎設施投資。
實施策略
問題不在于您的組織是否需要更好的文本分析。
隨著非結構化數據在 2024 年翻一番,且70% 的組織仍在試驗人工智能,緊迫性顯而易見。
真正的問題是:你會選擇高效、有針對性的商業語言模型嗎?還是繼續糾結于那些消耗資源、卻提供極少價值的通用解決方案?
您的數據湖不必一直是一片沼澤。
如今,將人工智能重新轉化為戰略資產的工具已經面世。隨著人工智能市場規模到2028年將增長至6310億美元,商業語言模型就是您將數據負債轉化為競爭優勢所需要的。



























