FinTeam:面向綜合金融場景的多智能體協(xié)同智能系統(tǒng),效果優(yōu)于GPT-4o
金融行業(yè)對(duì)大型語言模型(LLMs)提出了獨(dú)特挑戰(zhàn),現(xiàn)有模型在復(fù)雜金融問題上表現(xiàn)不足。本文提出FinTeam,一個(gè)金融多智能體協(xié)作系統(tǒng),包含文檔分析師、分析師、會(huì)計(jì)師和顧問四個(gè)LLM代理。人工評(píng)估顯示,F(xiàn)inTeam生成的財(cái)務(wù)報(bào)告接受率為62.00%,優(yōu)于基線模型GPT-4o和Xuanyuan。FinTeam的代理在FinCUGE上平均提升7.43%,在FinEval上提升2.06%準(zhǔn)確率。

摘要
本文提出FinTeam,一個(gè)金融多智能體協(xié)作系統(tǒng),包含文檔分析師、分析師、會(huì)計(jì)師和顧問四個(gè)LLM代理。代理經(jīng)過特定金融專業(yè)知識(shí)的訓(xùn)練,使用構(gòu)建的數(shù)據(jù)集。在真實(shí)在線投資論壇構(gòu)建的綜合金融任務(wù)上評(píng)估FinTeam,涵蓋宏觀經(jīng)濟(jì)、行業(yè)和公司分析。人工評(píng)估顯示,F(xiàn)inTeam生成的財(cái)務(wù)報(bào)告接受率為62.00%,優(yōu)于基線模型GPT-4o和Xuanyuan。FinTeam的代理在FinCUGE上平均提升7.43%,在FinEval上提升2.06%準(zhǔn)確率。
簡介
金融行業(yè)對(duì)大型語言模型(LLMs)提出了獨(dú)特挑戰(zhàn),現(xiàn)有模型在復(fù)雜金融問題上表現(xiàn)不足。本文提出FinTeam,一個(gè)由多個(gè)協(xié)作LLM代理組成的金融智能系統(tǒng),專注于宏觀經(jīng)濟(jì)分析、行業(yè)分析和公司分析。四個(gè)專門的LLM代理分別處理金融文本、實(shí)時(shí)材料分析、財(cái)務(wù)計(jì)算和專業(yè)問答。在150個(gè)真實(shí)投資者查詢的評(píng)估中,F(xiàn)inTeam的整體評(píng)分為4.86,顯著優(yōu)于其他基線模型,且人類評(píng)估顯示62%的勝率。

相關(guān)工作
LLM在金融領(lǐng)域的應(yīng)用
大型語言模型(LLMs)在自然語言處理領(lǐng)域取得顯著進(jìn)展,尤其在金融行業(yè),能夠理解復(fù)雜文檔、生成投資見解和支持?jǐn)?shù)據(jù)驅(qū)動(dòng)決策。專門的金融LLMs如BloombergGPT、DISC-FinLLM和XuanYuan,經(jīng)過金融語料訓(xùn)練,適應(yīng)金融語境。一些金融LLMs針對(duì)特定任務(wù)進(jìn)行優(yōu)化:PIXIU專注于結(jié)構(gòu)化金融任務(wù),F(xiàn)inVis-GPT支持多模態(tài)圖表分析,InvestLM強(qiáng)調(diào)深度金融推理。當(dāng)前模型采用單一代理架構(gòu),限制了解決復(fù)雜多步驟金融任務(wù)的能力,需探索模塊化和協(xié)作的多代理系統(tǒng)。
多智能體協(xié)作
多智能體系統(tǒng)通過角色扮演、協(xié)作和任務(wù)分解提高復(fù)雜任務(wù)的解決效率。AutoGen提供了一個(gè)開放框架,支持基于LLM的代理通信;MetaGPT采用流水線模式,專門化代理執(zhí)行結(jié)構(gòu)化子任務(wù)。在金融領(lǐng)域,TradingGPT模擬不同風(fēng)險(xiǎn)偏好和策略的代理;FinMem結(jié)合個(gè)人畫像、記憶和決策模塊以提高回報(bào);FinAgent將圖像金融數(shù)據(jù)整合進(jìn)代理互動(dòng)中。
目前大多數(shù)研究集中于交易,缺乏宏觀經(jīng)濟(jì)、行業(yè)和公司層面的分析應(yīng)用。其他領(lǐng)域的研究表明,多代理協(xié)作能提升復(fù)雜任務(wù)的表現(xiàn),如SMART通過軌跡協(xié)調(diào)提高知識(shí)一致性,MASER模擬法律互動(dòng),MDAgents和AI Hospital在臨床推理和診斷中展示了適應(yīng)性合作的優(yōu)勢。這些研究強(qiáng)調(diào)了結(jié)構(gòu)化合作和角色專業(yè)化的有效性,激勵(lì)了我們在金融分析中的多代理設(shè)計(jì)。
FinTeam
FinTeam是一個(gè)多智能體協(xié)作金融智能系統(tǒng),組織虛擬金融團(tuán)隊(duì)處理復(fù)雜任務(wù)。定義四個(gè)角色:文檔分析師、分析師、會(huì)計(jì)師和顧問,專注于特定金融技能。用戶可單獨(dú)部署代理處理特定任務(wù),或在宏觀經(jīng)濟(jì)、行業(yè)和公司分析三種場景中協(xié)作應(yīng)對(duì)復(fù)雜金融挑戰(zhàn)。



智能體角色
文檔分析器:處理金融文本,執(zhí)行意圖識(shí)別、實(shí)體提取和情感分析,使用領(lǐng)域特定的NLP數(shù)據(jù)集進(jìn)行訓(xùn)練,包括標(biāo)注的開源數(shù)據(jù)集和自動(dòng)注釋的財(cái)務(wù)報(bào)告文本。
分析師:利用檢索增強(qiáng)生成(RAG)技術(shù)分析實(shí)時(shí)金融材料,采用鏈?zhǔn)綑z索(CoR)方法生成金融分析指令數(shù)據(jù)集,包括問題生成、參考文獻(xiàn)檢索和答案生成。
會(huì)計(jì)工具:針對(duì)復(fù)雜的財(cái)務(wù)文本和計(jì)算需求,使用工具增強(qiáng)代理(Accountant),結(jié)合計(jì)算工具執(zhí)行準(zhǔn)確計(jì)算,生成包含工具命令的問答對(duì)。
顧問:開發(fā)顧問代理以解答金融相關(guān)查詢,構(gòu)建中文數(shù)據(jù)集,通過翻譯FiQA數(shù)據(jù)集、生成QA對(duì)和多輪對(duì)話增強(qiáng)金融知識(shí)和咨詢能力。

場景設(shè)置
宏觀經(jīng)濟(jì)分析:通過文檔分析提取關(guān)鍵術(shù)語,顧問解釋,分析師匯總數(shù)據(jù),最終提供經(jīng)濟(jì)發(fā)展和投資決策的建議。
行業(yè)分析:識(shí)別相關(guān)行業(yè)或公司,分析競爭、供應(yīng)鏈和發(fā)展趨勢,提供行業(yè)動(dòng)態(tài)和戰(zhàn)略建議。
公司分析:使用PEST和SWOT模型評(píng)估公司,提取關(guān)鍵數(shù)據(jù),進(jìn)行財(cái)務(wù)報(bào)表分析,計(jì)算關(guān)鍵財(cái)務(wù)比率,生成可行性報(bào)告,支持投資決策。
實(shí)驗(yàn)
數(shù)據(jù)和設(shè)置
收集150個(gè)來自NGA Grand Era 7的投資者詢問,分為三個(gè)主要場景,每個(gè)場景保留50個(gè)問題。宏觀經(jīng)濟(jì)場景關(guān)注經(jīng)濟(jì)指標(biāo)變化、資產(chǎn)價(jià)格波動(dòng)、市場利率變化和全球金融政策新聞。行業(yè)場景涵蓋27個(gè)子行業(yè),涉及行業(yè)新聞評(píng)估和投資趨勢。公司場景聚焦于受關(guān)注的上市公司,涉及新聞、財(cái)報(bào)和股價(jià)波動(dòng)。
使用GPT-4o對(duì)模型輸出進(jìn)行評(píng)分,評(píng)估維度包括準(zhǔn)確性、全面性、清晰度和專業(yè)性。每個(gè)維度評(píng)分范圍為1到5,并進(jìn)行配對(duì)顯著性測試以確認(rèn)統(tǒng)計(jì)改進(jìn)。還通過金融本科生進(jìn)行人類評(píng)估,選擇最佳答案,接受率反映模型輸出被選為最佳答案的頻率。
結(jié)果
FinTeam在回答中文金融問題時(shí),相較于基線模型整體得分提高0.13,尤其在全面性和專業(yè)性上各提升0.23分。FinTeam的金融代理協(xié)作系統(tǒng)在各維度上均優(yōu)于GPT-3.5-turbo和Xuanyuan-13B,顯示出其有效性。統(tǒng)計(jì)顯著性測試結(jié)果表明,全面性、專業(yè)性和整體得分的提升具有高度顯著性,p值遠(yuǎn)低于接受閾值。FinTeam的人類評(píng)估接受率為62.00%,顯著優(yōu)于其他模型,與GPT-4o評(píng)估結(jié)果一致,驗(yàn)證了系統(tǒng)的可靠性。FinTeam能夠在真實(shí)金融場景中提供專業(yè)、全面的答案,幫助用戶深入理解多種材料。



分析
評(píng)估設(shè)置
使用FinCUGE基準(zhǔn)評(píng)估模型的NLP能力,涵蓋六個(gè)任務(wù):情感分析、事件實(shí)體、因果提取、摘要生成、關(guān)系提取和實(shí)體提取,采用少量樣本評(píng)估設(shè)置,性能通過準(zhǔn)確率、F1分?jǐn)?shù)和ROUGE分?jǐn)?shù)衡量。
利用FinEval評(píng)估模型在中文金融知識(shí)上的表現(xiàn),包含34個(gè)子類別和1,151道多選題,測量準(zhǔn)確率以評(píng)估模型的泛化能力。
手動(dòng)創(chuàng)建100道金融計(jì)算題,評(píng)估模型在公式構(gòu)建和結(jié)果計(jì)算上的準(zhǔn)確性,確保數(shù)據(jù)集質(zhì)量。
Financial NLP 任務(wù)結(jié)果
Document analyzer在六個(gè)金融NLP任務(wù)中表現(xiàn)最佳,平均得分47.20。超過強(qiáng)基線Qwen2.57B-Instruct的39.77,提升7.43分。證明了Document analyzer在金融文本理解和推理任務(wù)中的有效性和穩(wěn)健性。

金融知識(shí)測試結(jié)果
表7展示了四個(gè)LLM代理在FinEval基準(zhǔn)上的評(píng)估結(jié)果,與一般和金融LLM相比,顯示出其廣泛的金融知識(shí)和強(qiáng)大的任務(wù)表現(xiàn)。這些代理在多樣化金融場景中的適應(yīng)性強(qiáng)。FinEval作為一個(gè)與訓(xùn)練數(shù)據(jù)集不同的分布,突顯了訓(xùn)練任務(wù)和數(shù)據(jù)集的普遍性。

數(shù)據(jù)分析結(jié)果
實(shí)驗(yàn)結(jié)果顯示,添加計(jì)算插件后模型在金融計(jì)算任務(wù)中的表現(xiàn)顯著提升,超出基線模型0.09。結(jié)果證明了該方法在解決金融領(lǐng)域計(jì)算挑戰(zhàn)中的有效性。

限制
場景設(shè)計(jì)范圍有限,未涵蓋所有金融任務(wù);系統(tǒng)生成的投資建議需謹(jǐn)慎對(duì)待,金融結(jié)果不保證;系統(tǒng)主要針對(duì)中國金融環(huán)境,全球市場效果未測試。
總結(jié)
本文提出了金融智能系統(tǒng)FinTeam,通過LLM代理的互動(dòng)連接多個(gè)子任務(wù),增強(qiáng)處理復(fù)雜任務(wù)的能力。訓(xùn)練了四個(gè)LLM代理,分別使用不同子數(shù)據(jù)集,支持宏觀經(jīng)濟(jì)分析、行業(yè)分析和公司分析的協(xié)作工作流程。建立了多維基準(zhǔn),展示了FinTeam在各種金融場景中的強(qiáng)大支持能力。
本文轉(zhuǎn)載自????靈度智能????,作者:靈度智能

















