標簽驅動的可信金融大模型訓練全流程-Agentar-Fin-R1工程思路淺嘗 原創

Agentar-Fin-R1 的開發pipline可概括為 “數據 → 訓練 → 評估 → 歸因 → 迭代” 五個閉環階段,每一階段都有明確輸入、處理邏輯和輸出。
一、數據構造
Agentar-Fin-R1 的數據構造圍繞 Label System 和 Multi-Agent 可信合成 展開的三級流水線:
1.1 Label System(任務標簽體系)
- 兩類標簽:每個樣本被打上?
?(Scene, Task)??
a. Scene:銀行、證券、保險、信托、基金等業務場景
b. Task:NER、意圖識別、槽位填充、消歧、咨詢式問答等任務類型
- 非正交稀疏性:并非所有 Task 都適用于所有 Scene,真實還原金融任務分布。
1.2 三級數據治理
層級 | 關鍵動作 | 目的 |
Source | 權威金融機構/監管文件 → NER/POS → 標準化 → 脫敏/脫毒 → 知識精煉 | 保證來源可信 |
Synthesis | 雙路線合成 : | 保證邏輯可驗證 |
Verification | 多模型一致性投票 + 人工金融專家抽樣 + Rating Model 打分 → 去重、去污、去泄露 | 保證質量可靠 |
最終輸出 Fin-R1-300K 高質量金融推理三元組,作為后續訓練的“golden data”。
二、訓練框架
2.1 加權訓練框架
訓練金融大型語言模型(LLMs)需要解決金融任務固有的異質性和復雜性,這些任務在難度和領域特定要求方面各不相同。傳統訓練方法對所有訓練樣本一視同仁,沒有考慮到某些任務明顯比其他任務更具挑戰性的事實。因此,模型可能過度擬合更簡單、更常見的任務,而在對現實金融決策和風險評估至關重要的復雜任務上表現欠佳。不同任務難度不同,用 pass@k 量化困難度,動態調整樣本權重。
- 三步:
- 對每個 Task Label 采樣一批題目 → 當前模型 & 多個參考模型分別生成 k 條答案
- 計算 pass@k,難度越高權重越大;若顯著弱于參考模型,再額外加權
- 引入指數平滑 + 下限裁剪保證訓練穩定
- 損失函數:
SFT:

2.2 Two-Stage Pipeline(兩階段遞進)
階段 | 目標 | 方法 | 數據 |
Stage 1 | 金融知識注入 | 大規模 SFT + 加權訓練 | Fin-R1-300K + 通用推理 |
Stage 2 | 難題攻堅 | GRPO(強化)+ 針對性 SFT | 困難子集 + 錯誤歸因補充數據 |
優點:Stage1 快速獲得“通才 + 金融知識”底座,Stage2 用小而精的數據做“專家提升” ,新業務場景只需 Stage2 輕量微調即可上線。
2.3 Attribution Loop(歸因-再訓練閉環)
歸因循環是一種后訓練機制,它通過將錯誤追溯到特定金融場景和任務來改進模型,并通過動 態資源分配實現有針對性的數據采樣和模型增強。Pass@1 歸因框架歸因循環采用上述二維標簽框架對預測錯誤進行分類,找出性能洼地。這一部分主要看下數據回滾與再生思路:
- 回滾:若本輪 pass@1 下降 → 直接 revert 上一輪數據
- 再生:連續 3 輪下降 → 觸發 Self-Evolution Agent,按新的復雜度模板重新生成樣本
工程側:每輪評估后自動寫 attribution.json,包含(l, pass@1, Δ, η, π, allocated_samples)訓練腳本讀取該文件 → 更新數據加載器 → 繼續訓練,整個循環跑在 32 張 A100 上,約 2 小時完成一輪。
三、評估

為了衡量真實落地能力,論文提出了 Finova(Financial Nova)評測集,覆蓋三大維度:
維度 | 子任務 | 樣本數 | 評測點 |
Agent Capabilities | 意圖識別、槽位識別、工具規劃、表達生成 | 768 | 對話系統必備能力 |
Complex Reasoning | 金融數學 + 代碼理解 + 推理 | 306 | 復雜決策鏈 |
Safety & Compliance | 安全風險識別、監管合規判斷 | 200 | 高風控場景 |
結果

Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning,https://arxiv.org/pdf/2507.16802v2
repo:代碼暫未開源
本文轉載自??大模型自然語言處理?? 作者:LLM&NLP

















