FinLoRA:在金融數據集上微調LLM的基準LoRA方法,性能提升36%
大型語言模型(LLMs)在金融、醫療、法律、教育和科學發現等領域表現出色,但在專業金融任務中仍存在性能不足。
本文提出FinLoRA基準,評估不同LoRA變體在復雜金融任務中的表現。創建19個金融數據集,包括4個新XBRL分析數據集,支持LoRA方法的評估。實施并比較五種LoRA方法,平均提高36%準確率,驗證低秩適應和量化的有效性。

摘要
FinLoRA項目基于LoRA方法,評估其在金融領域的應用,特別是CFA考試和SEC文件分析。研究中使用了19個金融數據集,包括4個基于150份SEC文件的新XBRL分析數據集。評估了5種LoRA方法和5種基礎LLM,結果顯示LoRA方法在性能上平均提升36%。提供了準確率、F1、BERTScore等實驗結果,以及在微調和推理階段的計算成本。FinLoRA旨在普及金融智能化。
簡介
大型語言模型(LLMs)在金融、醫療、法律、教育和科學發現等領域表現出色,但在專業金融任務中仍存在性能不足。完全微調計算成本高,參數高效微調(PEFT)如低秩適應(LoRA)成為可行解決方案,能提升LLMs在特定領域的表現。
FinLoRA是一個新基準,評估不同LoRA變體在復雜金融任務中的表現,特別是XBRL數據分析。本研究創建19個金融數據集,包括4個新XBRL分析數據集,支持LoRA方法的評估。實施并比較五種LoRA方法,平均提高36%準確率,驗證低秩適應和量化的有效性。進行了46輪微調和194輪評估,從多個角度分析LoRA方法的表現和資源需求。

LLMs是否需要對財務任務進行微調?
雖然通用LLMs表現出優秀的NLP能力,但它們在復雜的財務任務上的表現往往不足。
缺乏高質量金融數據:通用LLM的預訓練數據集(如The Pile)主要來自一般網絡爬蟲,缺乏專門的金融數據,需通過針對性微調以獲取復雜金融分析所需的理解。
通用LLM在專業金融任務中的不足:通用LLM在處理需要深厚領域知識的任務(如XBRL分析)時表現不佳,常因表面關鍵詞匹配而出錯,微調后可顯著改善。

成本與時間:從零開始訓練模型(如BloombergGPT)成本高達270萬美元且耗時253天,使用LoRA方法微調現有模型更具經濟性和時間效率。
FinLoRA基準
基準任務、數據集和指標

任務類型:一般金融任務、金融證書、財務報告、財務報表分析。
公共金融數據集:FinLoRA包含15個數據集。
- 情感分析:FPB、FiQA SA、TFNS、NWGI,包含金融文本和情感標簽。
- 標題分析:Headline數據集,基于問題將金融標題分類為“是”或“否”。
- 命名實體識別:NER數據集,標注地點、人物、組織。
- 金融證書:CFA和CPA相關證書。
- 財務報告:XBRL術語、FiNER、FNXL。
- 財務報表分析:Financial Math和FinanceBench。
新增四個XBRL分析數據集:基于2019-2023年道瓊斯30家公司年報,包含問題、相關XBRL文本片段和答案。數據集任務類型:
- XBRL標簽提取:根據自然語言描述提取特定XBRL標簽。
- XBRL數值提取:根據自然語言描述提取數值。
- XBRL公式構建:識別相關事實和標簽,構建標準財務公式。
- XBRL公式計算:將數值代入公式并計算結果。
數據集構建流程:將財務任務分類為九類,為每類創建訓練集,使用2019-2023年道瓊斯30家公司10-K報告生成問題,自動過濾相關XBRL文件片段。
評估指標:使用準確匹配(EM)評估LLM輸出,報告準確率和加權F1分數,XBRL術語和FinanceBench使用BERTScore F1。
基礎模型和LoRA方法
基準模型:評估了Llama 3.1 8B Instruct和Gemini 2.0 Flash Lite的LoRA微調性能,另外還評估了Llama 3.1 70B Instruct、DeepSeek V3和GPT-4o作為基模型。
LoRA方法:
- Vanilla LoRA:通過低秩分解引入可訓練權重,保持預訓練模型權重不變。
- QLoRA:使用4位量化減少內存,動態去量化權重。
- DoRA:將權重分解為幅度向量和方向矩陣,僅更新方向矩陣,保持參數數量與LoRA相同。
- rsLoRA:使用穩定的縮放因子,增強高秩任務的梯度穩定性。
- LoRA與聯邦學習:在金融領域,允許多個機構在不共享數據的情況下,通過本地數據微調模型并聚合LoRA更新。
基準的角度
LoRA方法性能評估:比較LoRA、QLoRA、rsLoRA、DoRA與Gemini 2.0 Flash Lite在金融任務中的表現,評估其相對SOTA模型的效果。
LoRA適用性研究:探討不同金融任務(如情感分析、XBRL標記與分析)對LoRA微調的響應性及數據集特性。
資源與成本比較:分析不同LoRA方法的微調成本及推理速度,評估其在實時金融應用中的延遲和吞吐量優勢。
實際部署考慮:
- 數據隱私:研究在多機構協作訓練中如何通過聯邦學習保護數據隱私,比較本地LoRA微調與集中訓練的表現。
- 災難性遺忘:評估LoRA微調對模型通用知識的影響,通過MMLU等基準測試量化性能變化。
實驗結果
實驗在四個NVIDIA A5000 GPU上進行,使用不同的推理和微調API。針對每種LoRA方法,基于任務類別合并訓練集微調了9個LoRA適配器,學習率為1e-4,批量大小為2-8。推理時溫度設置為0.0,共進行了46輪微調和194輪評估。
角度一:LoRA方法在金融數據集上的性能
Vanilla LoRA(8位,秩8)在整體平均分上表現最佳(74.74),比Llama 3.1 8B基模型(37.05)提高了37.69%。Vanilla LoRA在一般金融任務中優于其他LoRA變體,而rsLoRA在金融分析、報告和財務報表分析中表現最佳。

rsLoRA在高秩下表現更佳,設置r=8以提高內存效率,盡管在低秩下略遜于LoRA和QLoRA,但在高秩(如r=64)時能顯著降低困惑度,捕捉更多細節。
DoRA的表現不如其他LoRA方法,因更新幅度向量和方向矩陣使用相同學習率導致訓練不足,建議為幅度向量設置更高的學習率以提高性能。
LoRA調優的Llama 3.1 8B模型在大多數數據集上表現優于SOTA基線模型,盡管在NWGI和FNXL上表現不佳;與Gemini 2.0 FL模型相比,Llama 3.1在金融分析和XBRL數據分析任務上表現更強。
角度二:財務任務LoRA適用性
LoRA在不同金融任務中的效果差異明顯,XBRL分析任務的性能提升顯著,而FinanceBench的提升有限。XBRL數據的標準化語義和分類法為LLM提供了更結構化的學習環境,促進了更有效的適應。FinanceBench依賴于缺乏豐富標準化元數據的OCR處理PDF數據,導致效果不佳。XBRL在金融報告分析中對LLM集成的有效性至關重要。

角度三:LoRA方法的資源使用和性能權衡
LoRA微調模型的計算成本:使用四個NVIDIA A5000 GPU,微調時間為14.1小時(QLoRA)至15.9小時(DoRA),總GPU小時約為56.4至63.6小時,成本約為$14.66至$16.54。該成本顯著低于Google或OpenAI的微調服務。Gemini API在推理延遲上表現更優,對增加的提示長度不敏感,盡管考慮到網絡開銷。本地部署的Llama 3.1 8B Instruct推理速度可通過增大批量大小顯著提升。


角度四:LoRA在真實金融場景中的實用性
Federated LoRA: 在四節點環境中評估了Federated LoRA,使用FedAvg算法,結果顯示其性能優于基礎Llama模型,但不及集中式LoRA。

災難性遺忘: 評估了8個適配器在MMLU和GSM8K基準上的表現,結果顯示所有適配器與基礎模型在MMLU上準確率相同,GSM8K上表現更佳,表明LoRA沒有出現災難性遺忘,且可能存在跨領域知識轉移。

總結
本文提出FinLoRA基準,評估LoRA方法在一般和專業金融任務上的表現。收集了19個多樣化的數據集,涵蓋廣泛的金融應用。進行了46輪微調和194輪評估,全面分析常用LoRA方法。提供整體性能、任務特定結果、微調和推理的資源需求及實際部署考慮(如數據隱私和災難性遺忘)。結果顯示微調顯著提升LLM在金融任務上的有效性。FinLoRA提供數據集和基線結果,為未來研究奠定基礎。計劃通過納入更多LoRA方法擴展FinLoRA。
本文轉載自??靈度智能??,作者:靈度智能

















