為什么AI總猜不中你的心意?4K+場景實驗揭開AI協作的"三宗罪" 精華
圖片
在人工智能快速發展的今天,我們經常驚嘆于大型語言模型(LLMs)在推理和工具使用方面的驚人能力。然而,你是否曾有過這樣的經歷:與AI助手交流時,感覺它雖然能回答問題,卻似乎并不真正理解你的需求和偏好?這種"技術能力強大但用戶理解不足"的現象。
研究背景:當AI遇上"難以捉摸"的用戶
大型語言模型(LLMs)在復雜推理、代碼生成和解決高級數學問題方面已經展現出令人印象深刻的能力。通過工具使用和工具創建,這些模型甚至能夠檢索信息并與外部環境(包括數據庫、網頁和游戲)進行交互,獲得了自主執行任務的代理能力。
然而,現有代理環境往往忽視了一個關鍵維度:用戶的作用。盡管在任務執行方面表現出色,但代理由于無法理解、適應并與任務發起者協作,常常無法滿足真實用戶需求。當前的評估主要關注工具使用和任務執行,很少考慮代理是否有效解釋并符合用戶潛在且不斷變化的意圖。
這引出了研究的核心問題:我們如何從用戶中心的角度評估代理?
為了回答這個問題,研究人員首先考察了用戶通常如何傳達目標。人類溝通本質上是一種聯合活動,意義是通過互動共同構建的。此外,語言本質上具有模糊性,使用戶難以在單次互動中完全清晰地傳達其意圖。因此,用戶指令往往具有三個核心特征:
- 未指定性:用戶經常在完全制定目標之前就發起請求
- 增量性:意圖在互動過程中逐漸出現和演變
- 間接性:由于社會或戰略原因,用戶可能掩蓋或軟化其真實意圖
圍繞這些特征,研究團隊提出了UserBench,這是一個以用戶為中心的環境,旨在促進代理與展示這些特征的用戶進行有意義的多輪互動。
UserBench:模擬真實用戶交互的評測環境
UserBench建立在標準Gymnasium框架之上,專注于旅行規劃任務,其中用戶以隱含方式逐漸揭示其偏好。與先前工作相比,UserBench具有顯著更多樣化和更基礎的用戶偏好集合,每個偏好都與精心策劃的隱含表達配對,并支持帶有注入噪聲和成本意識的工具增強搜索。
數據收集與構建

圖1:UserBench構建流程圖
UserBench的構建流程如圖1所示,研究團隊首先確定了旅行規劃的五個核心方面:航班、酒店、公寓、租車和餐廳。數據收集遵循三個關鍵原則:真實性、多樣性和隱含性。
首先,通過策劃反映真實世界用戶需求的偏好來確保真實性,例如偏好直飛航班(航班)或特大號床(酒店)。其次,通過收集約100種跨越旅行方面的不同偏好來實現多樣性。第三,通過將每個偏好與多個自然表述的陳述配對來強調隱含性,這些陳述間接表達了意圖。例如,對直飛航班的偏好可能表述為:"我總是把日程安排得很緊湊,所以我喜歡最小化中轉時間的旅行路線。"
這些精心策劃的偏好及其相關的隱含表達構成了生成旅行場景的基礎。研究團隊隨機抽樣并組合五個方面的偏好,根據涉及的偏好數量將結果數據分為三個難度等級。對于每個組合,他們使用GPT-4o生成一個包含所有相關偏好的理想旅行安排聲明,最終形成環境中的一個數據點。
工具增強與環境構建
對于每個旅行規劃方面,研究團隊開發了一個模擬數據庫搜索的相應工具。例如,航班搜索工具接受出發地、目的地和日期,返回模擬選項列表。他們依賴預生成的選項來確保穩定和受控的工具輸出,而不是查詢實時數據。
每個數據點都與所有相關旅行規劃方面的定制選項數據庫相關聯。具體來說,對于每個方面,他們生成三種類型的選項:正確(滿足所有偏好)、錯誤(違反至少一個偏好)和噪聲(不完整或與查詢無關,例如目的地與用戶搜索不同的航班選項)。這些選項混合形成完整的搜索空間,每個數據點包含超過100個選項。
環境中的每個數據點包含一個旅行場景、一組隱含用戶偏好和相關選項數據庫。環境模擬了一個具有訪問這些內部狀態的預言用戶,同時與被測代理模型進行多輪互動。重置時,環境僅提供基本的旅行信息和高級要求(例如酒店或航班),不披露任何特定偏好。然后,偏好會隨著時間被引出,要么(i)當被測模型明確詢問相關方面時,要么(ii)在沒有進展的固定輪次后,此時會隨機主動揭示一個偏好。所有引出的偏好都以隱含方式呈現,與相關數據一致。
代理交互界面
UserBench為代理提供了標準化的交互界面,支持三種類型的操作:行動、搜索和回答。通過搜索,代理發出指定旅行規劃方面和參數的查詢(例如特定日期的酒店),這些查詢與真實情況進行匹配。如果參數匹配,環境返回相關選項的混合集;否則,它不返回任何內容。
通過行動,代理與用戶交流,通常通過提出澄清問題。環境解釋意圖并自然回應,可能以隱含形式揭示偏好。最后,通過回答,代理選擇其推薦的選項ID,這些選項針對真實正確選項進行評估。由于理想的行程通常跨越多個方面,正確答案可能包括幾個選項。
評測變體、可擴展性和統計信息
UserBench支持幾種擴展。首先,它可以模擬一個噪聲搜索環境,其中查詢結果以可配置頻率被破壞,模擬真實世界的網頁或工具錯誤。其次,它通過獎勵不僅找到正確選項而且選擇最具成本效益選項(最佳選項)的模型來實現預算感知決策。超參數可以控制此獎勵的強度,鼓勵代理優化實用效用。
如圖1所示,隨機偏好組合策略增強了數據構建的多樣性和可擴展性,實現了超過10,000個不同場景。為了在基準測試期間管理計算成本,研究團隊使用417個數據點進行測試,并保留2651個用于訓練(這些不用于基準測試,但可能支持未來的模型訓練)。

UserBench的詳細統計信息如表2所示。例如,"Travel-223"表示一個包含三個旅行方面的場景:兩個方面各包含兩個隱含偏好,一個方面包含三個。有關數據和環境構建的更多細節在附錄B中提供。
實驗結果:AI在理解用戶需求方面的表現如何?
實驗設置
研究團隊采用了兩種變體(損壞搜索、預算約束)來增加測試難度。GPT-4o(溫度為0.0)用作所有對話的用戶模擬器。在標準設置中,他們將最大對話輪次限制為20。他們在兩種設置下評估模型:(1)單選設置(主要評估),模型只允許為每個旅行方面輸出一個選項;(2)多選設置,模型可以輸出多個選項,我們根據獲得最高獎勵的選項對其進行評估。
評估包括閉源和開源模型。閉源模型包括GPT、Claude、Deepseek和Gemini系列,而開源模型包括Qwen3和Llama3系列,模型大小從8B到70B不等。所有模型都使用0.0的溫度生成響應,以確保確定性行為。
主要評估指標是基于旅行場景每個方面所選選項質量的歸一化分數。對于每個方面,如果模型選擇了最佳選項(根據獎勵判斷),它獲得1.0的分數。如果選項正確但不是最佳,則獲得0.8。所有其他選項獲得0.0。我們計算為每個方面選擇的選項中的最高獎勵分數(在多選設置中),并在場景中的所有方面上取平均值。
此外,研究團隊還報告了幾個輔助指標以更好地理解模型行為(全部微平均):
- 最佳存在率:模型在其選擇中包含最佳選項的方面比例
- 正確存在率:模型包含一個正確(不一定是最佳)選項的方面比例
- 有效搜索嘗試率(%):模型搜索查詢語法有效的比率
- 有效行動嘗試率(%):模型行動成功探測用戶真實偏好的比率
- 偏好引出率(%):對話期間揭示的所有真實偏好的百分比。它包括主動引出(偏好作為對被測模型有效行動嘗試的響應而披露)和被動引出(當模型過于偏離主題時,UserBench釋放偏好以引導對話)
主要實驗結果

單選設置和多選設置的結果分別如表3和表4所示,研究團隊總結了以下關鍵發現:
單選設置顯著更具挑戰性。從多選設置切換到單選設置時,分數平均下降約40%。這突顯了模型在只有一次回答嘗試的情況下選擇最佳甚至三個正確選項之一的困難。當允許提出多個答案時,觀察到性能普遍提高,表明有更多機會增加了擊中正確答案的可能性。
偏好引出率在所有模型中仍然較低。人們可能期望多選設置中的性能提升源于更好的用戶理解。然而,研究發現偏好引出率沒有顯著改善,在某些情況下,如GPT-4o和Deepseek-V3,甚至下降。這表明更高的分數更常源于隨機猜測或蠻力覆蓋,而不是主動推理。此外,整體用戶偏好引出率在所有模型中仍然較低,特別是通過主動查詢揭示的偏好。這表明當前模型在交互設置中仍然難以主動有效地發現用戶需求。
理解用戶比執行工具使用更難。表現最好的模型在有效搜索嘗試中保持超過80%的成功率,但有效行動嘗試率要低得多。這與UserBench將難度從工具使用轉移到用戶理解的目標一致。請注意,有效行動嘗試率僅在行動步驟上計算(不包括搜索和回答),因此較高的速率不一定反映整體上有效查詢的絕對數量更高。盡管如此,它表明模型的問題更精確且與偏好相關,而不是模糊或偏離主題,這些被歸類為無效嘗試。
其他有趣發現。一些模型,如Gemini-2.5-Flash,實現了高行動嘗試有效率但相對較低的主動偏好引出率。這表明它們可以提出有效的澄清問題,但往往不能重復或全面地這樣做,限制了它們捕捉用戶偏好全部范圍的能力。相比之下,Claude-4-Sonnet在這兩個指標上都表現良好,表明在意圖澄清方面具有強大能力。然而,其整體得分不是最高的。這突顯了理解用戶偏好與有效將其整合到決策中的差距。換句話說,即使模型擅長引出偏好,它們仍可能難以在推理中利用這些信息以提供最佳建議。
深入分析
所有分析都在單選設置下進行,這是主要的評估設置,并專注于分數作為主要指標。基于輪次的pass-k采樣和選擇消融分析專門針對Travel-22、33和44場景的數據點進行。

圖2:測試模型在三個難度等級上的分數分布
難度等級劃分有效反映了UserBench的挑戰。研究團隊首先分析了場景難度如何影響模型性能,如圖2所示。按照表2的分層,他們根據偏好復雜性將測試場景分為簡單、中等和困難。結果顯示,隨著難度的增加,分數普遍呈下降趨勢。這證實了他們的難度分層捕捉了模型的實際推理挑戰。此外,每個模型在各層級內的性能下降揭示了在處理復雜用戶交互方面缺乏魯棒性,而這正是人類通常擅長的。
主要挑戰在于每個方面的偏好數量。為了確定UserBench中困難的主要來源,研究團隊調查了性能是受旅行方面數量還是每個方面的偏好數量影響更大。他們首先固定方面數量并變化每個方面的偏好數量。

圖3:當方面數量固定時,更多用戶偏好通常導致更低分數
如圖3所示,隨著偏好數量的增加,模型分數持續下降。這表明處理更豐富的用戶偏好信號是當前模型的主要挑戰。

圖4:當總用戶偏好固定時,每個方面更少的偏好通常導致更高分數
接下來,他們固定場景中的偏好總數并變化它們在方面的分布。如圖4所示,當偏好更均勻地分布在多個方面而不是集中在少數幾個方面時,性能提高。這意味著當每個方面涉及更少、更簡單的偏好時,模型推理更有效。將多個偏好集中在單個方面似乎會使模型的局部推理過程過載。總之,這些結果表明每個方面的偏好數量是UserBench中困難的主要驅動因素。

表5:加權時間分析
模型難以提供既正確又及時的答案。為了評估模型是否不僅找到正確或最佳答案,還評估何時找到,研究團隊在表5中進行了加權時間分析。使用權重函數w(i) = 1/(i + 1),他們懲罰延遲發現,其中i是有效答案(獎勵> 0)首次出現的輪次。值得注意的是,開源Qwen模型在時間上優于Deepseek,盡管Deepseek在表3中的整體準確度排名更高。這表明雖然Deepseek最終找到了好答案,但效率較低。相比之下,GPT-4o和Gemini-2.5-Pro更好地平衡了覆蓋率和時間,實現了更高的正確存在率和整體加權分數。
研究團隊還報告了有效答案首次出現的平均輪次索引。較小的模型,如Llama-3.1-8B和Gemini-2.5-Flash,顯示出較低的平均索引,表明它們早期猜測的成功嘗試。然而,這些猜測經常失敗,導致加權分數較低且正確存在率有限。這揭示了一個常見的失敗模式:較小的模型依賴于淺層啟發式或早期猜測,而不是深入參與用戶意圖。雖然這可能偶爾產生快速的正確答案,但更常導致與用戶需求不符的低質量答案。

圖5:增加交互中允許的輪次并不一定導致所有模型性能更好
更多交互輪次不保證更好的性能。研究團隊還檢查了增加交互輪次是否會提高性能,如圖5所示。令人驚訝的是,簡單地允許更多輪次并不會帶來一致的收益,在某些情況下,性能甚至會下降。這表明許多模型未能利用擴展的交互窗口來引出偏好或完善理解。相反,較長的對話往往導致重復或偏離主題的對話。沒有強大的對話規劃和目標跟蹤,僅靠更多輪次不足以提高性能。

圖6:增加采樣次數提高了最高分數但平均分數顯示變化不大甚至略有下降
采樣頻率的影響揭示了不穩定性。研究團隊使用pass-k評估分析了采樣頻率的影響,如圖6所示。雖然k個樣本中的最高分數穩步增加,但平均分數保持不變甚至下降。這表明更多樣本增加了偶然發現良好響應的機會,但大多數輸出仍然較差。結果突顯了一個關鍵限制:當前模型嚴重依賴采樣運氣而不是魯棒推理來與用戶偏好對齊。考慮到pass-k采樣的高成本,這種不穩定性對部署可靠的用戶交互系統構成了挑戰。

表6:選擇分布對模型分數的影響
更少選項減少了干擾但不降低核心挑戰。研究團隊最后進行了消融研究,以評估錯誤和噪聲選項的數量如何影響模型性能。如表6所示,減少這些干擾項通常會提高分數。然而,即使是像Deepseek-V3和GPT-4o這樣的強大模型,移除五個錯誤或噪聲選項(約占總數的30%)也只會帶來適度的收益。有趣的是,一些較小的模型,如Qwen-14B,甚至顯示出輕微的性能下降。這些結果表明(1)減少選項不會從根本上降低任務難度:完全理解用戶偏好仍然是必要的,因為只有一個最佳選項滿足所有約束(包括預算約束);(2)許多模型仍然依賴淺層猜測而不是真正的偏好理解,這限制了它們從減少干擾中受益的能力。這些結果也間接突顯了他們為每個數據場景設計的選項集的故意復雜性。
討論與結論
UserBench的廣泛適用性
UserBench作為標準Gym環境實現,提供了幾個優勢:(1)它暴露了熟悉的API(例如reset、step),允許與其他Gym兼容系統無縫集成;(2)它將用戶行為抽象為黑盒環境,使代理能夠直接交互而無需了解用戶邏輯的內部知識。這種設置反映了現實世界的場景,其中代理必須在沒有完全透明的情況下推斷用戶意圖,減少模型的認知負擔并鼓勵可泛化行為。
這些特性也使UserBench對評估和訓練都友好:(1)作為基準,它支持靈活的測試配置,包括可定制的選項集、獎勵函數(例如答案正確性、搜索和行動有效性、懲罰等)和用戶反饋機制(例如基于規則、用戶模擬等)。這允許在不同用戶配置文件下進行細粒度的代理行為分析。(2)作為訓練環境,任何具有工具使用能力的模型都可以通過他們提供的標準化交互界面使用UserBench。它支持監督微調和強化學習,特別是多輪RL,通過提供輪次獎勵和部分信用信號,這對于提高用戶對齊交互的魯棒性至關重要。這也使UserBench特別適合將RL應用于代理LLM的新興趨勢。
用戶交互中平衡效率與有效性
加權時間分析揭示了許多模型,包括GPT-4o,通常通過早期猜測答案而不是徹底探測用戶偏好來優先考慮效率。因此,雖然代理可能通過提供快速響應而顯得有幫助,但它們經常忽略更深層次的用戶意圖。這反映了現實世界的體驗,用戶收到看似有幫助的答案但仍然感到被誤解,導致重復的提示修改和不滿。
相反,研究團隊很少觀察到相反的失敗模式,即模型無限猶豫和過度請求信息。然而,這兩種極端都突顯了平衡效率(及時響應)和有效性(滿足用戶需求)的必要性。這種權衡也反映了圍繞工具使用效率的更廣泛關注,這在最近的工作中受到了越來越多的關注。雖然UserBench沒有明確量化這種平衡,但它揭示了有針對性的訓練可以有效解決的模型行為。未來的工作,特別是使用RL,可以將代理行為塑造為朝向這種平衡。
為了促進效率,獎勵函數可以通過根據給出正確答案的輪次衰減獎勵來懲罰延遲的偏好發現。為了促進有效性,可以為每個成功引出的用戶偏好授予部分獎勵,并對缺乏足夠支持交互的正確答案應用懲罰。這些策略阻止猜測并鼓勵深思熟慮、用戶感知的交互。UserBench支持這種獎勵定制,為訓練不僅能夠而且真正用戶對齊的代理提供了靈活平臺。
paper
??https://arxiv.org/abs/2507.22034??
UserBench: An Interactive Gym Environment for User-Centric Agents
本文轉載自??AIGC深一度??,作者:一度

















