當(dāng)大模型遇到了傳統(tǒng)機(jī)器學(xué)習(xí),是生搬硬湊? 原創(chuàng)
前面我們通過LLM+向量數(shù)據(jù)庫搭建了RAG,然后又將LLM和外部組件協(xié)作構(gòu)建了Agent。
LLM作為AI的一個細(xì)分領(lǐng)域,LLM+也和AI+一樣正在重塑各行業(yè)。
今天,我們來看看LLM和傳統(tǒng)機(jī)器學(xué)習(xí)能碰撞出什么火花。
我們都知道,機(jī)器學(xué)習(xí)模型擅長從數(shù)據(jù)中發(fā)掘潛在模式,大語言模型擅長自然語言理解與生成。
但傳統(tǒng)機(jī)器學(xué)習(xí)算法依賴人的經(jīng)驗(yàn)去做特征工程,模型選擇,調(diào)參等。那能否借助LLM的理解和生成能力去彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)的不足呢?這種融合新范式能否實(shí)現(xiàn)1+1>2?

先介紹一個工具Pecan,Pecan是一個基于LLM和機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)預(yù)測的平臺,然后通過一個用戶購買可能性的示例來展示LLM和ML融合的潛在能力。
第一步,需求分析
首先會有一個LLM助手與你溝通,目的是明確需求,根據(jù)需求確定任務(wù)類型。

目前Pecan中支持二分類、多分類和線性回歸任務(wù),Pecan會根據(jù)你的需求自動選擇分類模型還是回歸模型。
Pecan的第一個問題是:你想預(yù)測什么?
假設(shè)我是一個電商,我想預(yù)測用戶是否會再次購買我的商品。
此時,Pecan會進(jìn)一步細(xì)分需求,例如,確認(rèn)目標(biāo)群體、預(yù)測周期以及觸發(fā)機(jī)制等。
例如,我想預(yù)測一個用戶購買商品后在下一個月是否還會再次購買,如果沒有,我將會采取一些激勵措施,例如,發(fā)放優(yōu)惠券等等。
第二步,數(shù)據(jù)集成

當(dāng)Pecan明確我的需求后,會要求你上傳數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行初步分析。
當(dāng)我上傳歷史交易數(shù)據(jù)csv文件后,Pecan會識別出列的名稱和類型,并根據(jù)需求識別交易日期和客戶ID這兩個關(guān)鍵列。
第三步,數(shù)據(jù)預(yù)處理

Pecan基于前面的需求描述和數(shù)據(jù),生成一個notebook,里面是對數(shù)據(jù)進(jìn)行預(yù)處理的SQL語言,
首先會對數(shù)據(jù)進(jìn)行簡單的處理,例如,補(bǔ)全,清理,相關(guān)性分析等等。
然后,根據(jù)用戶購買時間,去搜索下個月的銷售記錄,以此判斷該用戶是否再次購買,如果購買了,則該數(shù)據(jù)的標(biāo)簽為True,否則標(biāo)簽為False。
最終將用戶特征和標(biāo)簽組織成機(jī)器學(xué)習(xí)模型可識別的訓(xùn)練數(shù)據(jù)。
在此過程中,如果對SQL代碼不理解,還可以讓AI幫你解釋一下。
第四步,模型訓(xùn)練和預(yù)測

Pecan會訓(xùn)練多個模型,然后選擇性能最好的。
這個過程中數(shù)據(jù)預(yù)處理,特征工程,模型選擇都是幾乎是通過自然語言完成的,而不需要過多的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)經(jīng)驗(yàn)。
每一次顛覆性技術(shù)的出現(xiàn),對人類社會的思想沖擊都很大,本文的目的不是介紹某個工具,而是向大家傳送一個概念,那就是AI正在重塑各行業(yè),讓我們理解當(dāng)下時代,擁抱AI,擁抱變革。
本文轉(zhuǎn)載自公眾號人工智能大講堂

















