工作流代理新突破:FlowAgent的合規性與靈活性解析
在對話系統研究領域,工作流代理的設計與實現始終充滿了挑戰與機遇。傳統的任務導向對話系統(TOD)通常采用模塊化流水線架構,將自然語言理解(NLU)、對話狀態跟蹤(DST)以及自然語言生成(NLG)功能分離開來。但是這種方法由于誤差傳播問題,效率往往不高。隨著大型語言模型(LLMs)的興起,基于LLMs的端到端對話系統逐漸成為主流,通過工作流引導的互動進行整體對話管理,顯著提高了任務成功率。
對話系統從模塊化流水線到端到端LLM范式的演變過程中,傳統系統因NLU、DST和NLG模塊間的誤差傳播問題,效率受限。而現代LLM方法通過工作流引導的互動,提升了整體對話管理能力。這一轉變不僅需要新的評估指標來衡量任務成功率,還激發了對系統合規性和靈活性的雙重關注。
在實際應用中,LLMs展現出廣闊前景,但對話系統在執行任務時需遵循特定規則和程序。傳統的基于規則的方法盡管提供了較高的合規性,但往往以犧牲靈活性為代價。相對地,基于提示的方法雖能提升靈活性,但在合規性上存在不足。為了解決這一矛盾,來自騰訊優圖實驗室和復旦大學的聯合研究團隊提出了新的框架——FLOWAGENT,通過引入程序描述語言(PDL),在提升靈活性的同時,確保對話系統的合規性。
他們的論文《FLOWAGENT: Achieving Compliance and Flexibility for Workflow Agents》提供了對現有LLM基于工作流代理系統的系統分析,重點關注合規性和靈活性。基于此分析,研究團隊提出了PDL語法,將自然語言和代碼結合,靈活描述節點關系和工作流程序。研究團隊引入了FLOWAGENT框架,通過創建PDL驅動的控制器,實現動態平衡合規性和靈活性。在三個數據集上的實驗表明,FLOWAGENT在預定義工作流內外均能平衡合規性和靈活性。研究團隊還構建了一個綜合評估基準,增加現有數據集以評估工作流代理在超出工作流(OOW)場景中的性能。研發團隊開源了其代碼,該代碼地址:https://github/Lightblues/FlowAgent。
研究團隊成員來自兩個機構:騰訊優圖實驗室(Tencent YouTu Lab)和復旦大學(Fudan University)。來自騰訊優圖實驗室的成員包括Yuchen Shi、Siqi Cai、Zihan Xu、Yulei Qin、Gang Li、Hang Shao、Ke Li和Xing Sun;復旦大學的成員有Jiawei Chen和Deqing Yang。這些成員共同合作,致力于通過FLOWAGENT框架實現工作流代理的合規性和靈活性。
相關工作
隨著大型語言模型(LLM)的發展,對話系統在理解和生成自然語言方面的能力得到了顯著提升。任務導向對話系統(TOD)經歷了從模塊化流水線到端到端LLM范式的演變。傳統系統在處理用戶請求時,將自然語言理解(NLU)、對話狀態跟蹤(DST)和自然語言生成(NLG)分為不同的模塊,這些模塊之間的誤差傳播往往會影響系統的整體性能。然而現代的LLM方法通過在單一框架中處理所有這些任務,避免了模塊間的誤差傳播問題。
任務導向對話系統的早期方法主要依賴于模塊化流水線架構,將對話過程拆分為多個獨立的組件:自然語言理解(NLU)負責解析用戶輸入,對話狀態跟蹤(DST)負責記錄對話上下文,自然語言生成(NLG)負責生成系統響應。雖然這種方法具有一定的靈活性,但由于每個模塊獨立工作,誤差容易在模塊之間傳播,導致系統性能不穩定。
近年來,隨著LLMs的崛起,任務導向對話系統逐漸向端到端范式轉變。在這種新范式下,LLMs能夠在一個統一的框架內完成所有任務,從而避免了模塊間誤差傳播的問題。現代方法通過工作流引導的互動實現整體對話管理,提高了任務的成功率和系統的魯棒性。
傳統的任務導向對話系統雖然在一定程度上提高了系統的靈活性,但其模塊化結構導致了誤差在各個模塊之間傳播,影響了系統的整體性能。此外,這種方法在處理復雜任務時,往往需要大量的手動規則和預定義的模板,難以適應多變的用戶需求和場景。

圖1:不同工作流格式的比較
相比之下,現代的LLM方法通過在單一框架中處理所有任務,顯著提高了系統的性能和靈活性。LLMs利用其龐大的預訓練參數,能夠更靈活地與用戶互動,滿足多樣化的需求。同時,LLM驅動的對話系統通過工作流引導的互動實現整體對話管理,提高了任務的成功率和系統的魯棒性。
隨著LLMs的發展,基于LLM的代理在各個領域得到了廣泛應用。LLM驅動的代理通過工具使用和動態規劃增強任務執行能力,提高了系統的整體性能。代理工作流架構的研究主要集中在兩大范式:工作流生成和工作流執行。
工作流生成方法通過LLM的推理能力創建流程,這種方法靈活性較高,但在合規性上存在一定挑戰。而工作流執行方法則在預定義結構內操作,通過明確的節點和狀態轉換規則控制工作流的進展,確保系統的合規性。研究團隊主要關注工作流執行范式,將工作流視為預定義的知識,通過PDL語法靈活描述節點關系和工作流程序,以實現系統的高效管理和控制。
盡管現有的LLM驅動代理在一定程度上提高了任務執行能力,但在處理復雜的用戶需求和場景時仍然存在挑戰。基于規則的方法雖然提供了較高的合規性,但往往以犧牲靈活性為代價。而基于提示的方法雖然能夠提高靈活性,但在合規性上存在不足。因此,如何在提高系統靈活性的同時,確保其合規性,成為了一個亟待解決的問題。
研究團隊通過引入FLOWAGENT框架和程序描述語言(PDL),旨在解決這一矛盾。PDL結合了自然語言的適應性和代碼的精確性,靈活描述工作流節點關系和程序邏輯。FLOWAGENT框架通過PDL驅動的控制器,實現了系統合規性和靈活性的動態平衡。實驗結果表明,FLOWAGENT在處理超出工作流(OOW)場景時,表現出強大的合規性和靈活性,解決了現有方法在復雜場景下的不足。
方法論
在這一部分中,研究團隊詳細介紹FLOWAGENT的核心組成部分,包括程序描述語言(PDL)語法以及FLOWAGENT架構。
程序描述語言(PDL)語法
PDL是一種用于表示工作流的語言,旨在結合自然語言的靈活性和代碼的精確性,以便更好地描述復雜的任務流程。PDL主要由以下三個部分組成:
元信息:包含工作流的基本信息,如名稱和描述。這部分信息用于標識工作流,并為其提供簡要介紹,幫助用戶快速理解工作流的目的和作用。
節點定義:描述代理可以訪問的資源,這些資源包括API節點(用于外部工具調用)和ANSWER節點(用于用戶交互)。API節點用于執行特定的操作,如調用外部工具或服務;ANSWER節點則用于與用戶進行交互,獲取必要的信息。
程序描述:定義任務的程序邏輯,以自然語言和偽代碼的混合形式表達。程序描述部分詳細說明了工作流的執行步驟和邏輯關系,確保任務能夠按照預定的流程順利完成。

圖2:醫院預約工作流中FLOWAAGENT的兩個示例會話
PDL的關鍵特性在于其靈活性和準確性。首先,PDL通過先決條件屬性,定義了節點之間的依賴關系。例如,在醫院預約工作流中,科室查詢節點需要先完成醫院選擇節點,以確保流程的順序性和邏輯性。其次,PDL結合自然語言和代碼,在保證清晰易懂的同時,確保了工作流的精確性和可操作性。

圖3:PDL中的節點定義示例
FLOWAGENT架構
FLOWAGENT是一個增強工作流代理行為控制的執行框架,通過引入PDL,實現了工作流代理的高效管理和控制。FLOWAGENT的設計包含多個模塊和控制器,以確保系統的合規性和靈活性。
首先,決策前控制器和決策后控制器在FLOWAGENT架構中起到了關鍵作用。決策前控制器在代理做出決策前,通過評估當前狀態并向LLM提供反饋,主動指導代理的行為。例如,根據依賴圖識別不可達節點,防止代理執行無效操作。決策后控制器則在代理做出決策后,通過評估擬議的代理行動的有效性,提供硬約束,確保代理的行為符合預定的工作流邏輯。

圖4:PDL中的過程描述示例
算法流程描述了FLOWAGENT的整體執行過程。每輪開始時,系統會接收用戶查詢并更新會話歷史。然后系統遍歷所有決策前控制器,分析當前狀態并提供反饋。接下來,代理生成響應或工具調用,再遍歷所有決策后控制器,驗證代理的決策。如果決策通過驗證,系統將更新會話歷史并生成面向用戶的響應;否則,系統會根據控制器的反饋調整代理的行為,直到生成符合預期的響應。
評估和數據
合規性評估
為了驗證FLOWAGENT的有效性,研究團隊進行了嚴格的合規性評估。合規性評估方法包括輪次級和會話級兩種。在輪次級評估中,系統對每一個參考會話中的輪次進行評估,將該輪次的前綴提供給機器人,并預測當前的響應,然后將預測的響應與實際的響應進行比較,計算出通過率。對于涉及工具調用的輪次,還評估了代理在工具選擇和參數填充方面的性能,使用精確度、召回率和F1評分來衡量其表現。
在會話級評估中,研究團隊使用LLM模擬用戶與機器人的交互,從而盡可能降低人工評估成本。為了確保這些模擬會話準確反映現實世界的復雜性,定義了詳細的用戶資料,包括人口信息、對話風格和與工作流相關的用戶需求。在生成的每個會話中,進行二元評估以驗證用戶的主要工作流目標是否實現,得出成功率。此外,通過跟蹤啟動和完成的子任務數量,得出任務進度指標。會話的端到端評估使用了與Xiao等(2024)推薦一致的提示,同時在精確度、召回率和F1評分方面評估LLM代理在工具調用方面的性能。
實驗結果及其分析
在輪次級評估和會話級評估中,FLOWAGENT在任務完成、任務進度和工具使用性能等方面均優于其他基線方法。表3和表4中的結果表明,FLOWAGENT在處理超出工作流(OOW)場景時,表現出更高的靈活性和魯棒性。通過詳細分析這些實驗結果,可以看出,FLOWAGENT在確保系統合規性的同時,提高了代理在復雜場景中的適應能力。

靈活性評估
為了評估FLOWAGENT在實際應用中的靈活性,研究團隊針對OOW場景進行了分類和評估。OOW場景主要包括意圖切換、程序跳躍和無關回答三種類型。在意圖切換場景中,用戶可能突然改變原始意圖請求或需求,包括修改API槽/參數和取消需求。在程序跳躍場景中,用戶不按照既定工作流程順序提供信息和表達確認,包括跳過步驟或回跳。在無關回答場景中,用戶故意避免直接回復代理提出的問題,例如用話題轉換和反問答復。
基于這些分類,通過在輪次級和會話級評估中插入OOW用戶干預,評估代理在這些特定交互中的即時適應響應和整體性能。實驗結果顯示,FLOWAGENT在處理OOW場景時表現出強大的靈活性和適應能力。特別是在會話級評估中,FLOWAGENT在任務成功率、任務進度和工具使用性能等方面均優于其他基線方法,展示了其在復雜場景中的出色表現。
數據集構建
為了評估FLOWAGENT框架的性能,研究團隊基于現有數據集和業務相關數據構建了三個測試數據集:SGD、STAR和In-house。這些數據集來源于公開數據集和內部數據,通過詳細的構建過程,確保數據集的代表性和多樣性。

表1顯示了這些數據集的統計信息,包括工作流數量、會話數量、輪次數量、用戶資料數量、用戶意圖數量和OOW查詢數量等。通過詳細分析這些數據集,可以看出它們涵蓋了廣泛的任務場景和用戶需求,能夠有效評估FLOWAGENT在不同場景下的表現。
實驗
在這一部分,研究團隊將詳細解析FLOWAGENT的實驗設置和結果分析,深入了解其性能和效果。
實驗設置
基線方法的選擇 為了評估FLOWAGENT的性能,研究團隊選擇了ReAct作為基線方法進行對比。ReAct是一種利用思維和行動結合來做出決策的方法,將環境的反饋視為觀察,這屬于基于提示的方法類別。為了表示工作流,研究團隊選擇了三種格式:自然語言(NL)、代碼和流程圖,分別表示為ReActNL、ReActcode和ReActFC。為了確保公平比較,實驗中重用了FlowBench推薦的提示。
實現細節 在會話級評估中,研究團隊使用GPT-4o-mini進行用戶模擬。對于機器人,初步測試了兩個代表性模型系列:GPT系列和Qwen系列。研究表明,小模型不適合復雜工作流任務,因此選擇了GPT-4o和Qwen2-72B進行演示。在評估過程中,使用GPT-4-Turbo進行判斷,以確保評估的準確性和公正性。更多實現細節見附錄C.1。

圖5:不同模型指標比較的可視化
實驗結果
會話級實驗結果分析 實驗結果表明,FLOWAGENT在任務合規性方面優于其他三個基線方法。在會話級評估中,FLOWAGENT在任務完成、任務進度和工具使用性能等方面均表現出色,顯著優于ReActNL、ReActcode和ReActFC。尤其是在處理超出工作流(OOW)場景時,FLOWAGENT表現出了更高的靈活性和魯棒性。在圖5(a)中,可以清晰地看到FLOWAGENT在不同設置下的任務進度指標,突出了其在OOW場景中的優勢。
輪次級實驗結果分析 在輪次級評估中,FLOWAGENT同樣表現出卓越的合規性和靈活性。Qwen2-72B的輪次級實驗結果顯示,FLOWAGENT框架在任務成功率、任務進度和工具使用性能等方面均取得了最佳成績。不僅在預定義工作流內表現出色,在處理OOW場景時也展示了強大的適應能力和靈活性。圖5(b)中,成功率指標的對比結果進一步驗證了FLOWAGENT的卓越性能。
消融實驗分析 為了驗證控制器在FLOWAGENT框架中的重要性,研究團隊進行了消融實驗。在OOW設置中,實驗結果表明,移除決策后控制器Cpost或決策前控制器Cpre均會對模型性能產生負面影響,驗證了控制器在確保工作流合規性方面的關鍵作用。表5中的實驗結果顯示,控制器的存在顯著增強了模型的合規性和穩定性,確保代理在復雜場景中的穩步進展。
結論
研究團隊詳細探討基于大型語言模型(LLM)的工作流代理系統FLOWAGENT,通過引入程序描述語言(PDL)和一套控制器,FLOWAGENT在確保合規性的同時提高了系統的靈活性。PDL結合了自然語言的適應性和代碼的精確性,使得工作流的表示更加靈活和精確。FLOWAGENT框架通過PDL驅動的控制器,有效地管理工作流代理的行為,確保了系統的合規性和靈活性。
實驗結果表明,FLOWAGENT在多個數據集上均表現出色,顯著優于其他基線方法。在會話級和輪次級評估中,FLOWAGENT在任務成功率、任務進度和工具使用性能等方面均取得了最佳成績。特別是在處理超出工作流(OOW)場景時,FLOWAGENT展示了強大的適應能力和靈活性。
此外,消融實驗驗證了控制器在確保工作流合規性方面的關鍵作用。無論是決策前控制器還是決策后控制器,其存在都顯著增強了模型的合規性和穩定性,確保代理在復雜場景中的穩步進展。
盡管FLOWAGENT在合規性和靈活性方面取得了顯著進展,但仍存在一些局限性。首先,目前的研究主要集中在手動構建的工作流上,評估也僅限于這些人工定義的設置。未來的研究應探索動態工作流合成,以適應多變和復雜的用戶需求,而無需人工干預。
其次,盡管本研究使用模擬用戶交互評估了代理在OOW場景下的性能,但其現實世界的適用性仍需在更廣泛的真實用戶需求譜系中進行測試。未來的研究應進一步豐富對話多樣性,并在真實用戶環境中驗證FLOWAGENT的性能和適應能力。(END)
參考資料:https://arxiv.org/pdf/2502.14345
本文轉載自??獨角噬元獸??,作者: FlerkenS

















