多模態(tài)大模型理解物理工具嗎?PhysToolBench提出了衡量多模態(tài)大模型對物理工具理解的基準
人類之所以能與復(fù)雜的物理世界高效互動,很大程度上源于對「工具」的使用、理解與創(chuàng)造能力。對任何通用型智能體而言,這同樣是不可或缺的基本技能,對物理工具的使用會大大影響任務(wù)的成功率與效率。
盡管當下的多模態(tài)大模型在具身智能的高層任務(wù)規(guī)劃以及低層動作執(zhí)行方面都展現(xiàn)出很大的潛力,但它們是否真正「懂」物理工具、理解其運作原理,仍缺乏統(tǒng)一的量化評估。
為此,來自香港科技大學(xué)(廣州)、香港科技大學(xué)等研究機構(gòu)的團隊提出了 PhysToolBench,一個衡量多模態(tài)大模型對物理工具的理解的基準。PhysToolBench 把對物理工具的理解分為了三個等級,分別為「認識」工具、「理解」工具、「創(chuàng)造」工具。

- GitHub 鏈接:https://github.com/EnVision-Research/PhysToolBench
- 論文鏈接:https://arxiv.org/abs/2510.09507
- Hugging Face 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/zhangzixin02/PhysToolBench
PhysToolBench 系統(tǒng)性地測試了 32 個最新的多模態(tài)大模型,包含閉源商用模型、開源模型、具身智能專用模型以及 VLA 模型的 VLM 主干四大類,測試出了他們對于物理工具的理解的不足。

PhysToolBench 介紹
機器人執(zhí)行任務(wù)的一般邏輯是,機器人會收到任務(wù)指令,并進行環(huán)境觀察,隨后再做出任務(wù)規(guī)劃或者一級動作執(zhí)行。因此,PhysToolBench 以視覺問答 (VQA) 的形式,設(shè)計了包含 1000+ 圖文配對的數(shù)據(jù)集,其中文字部分是任務(wù)描述,圖片是一個包含了各種工具的圖片,代表了機器人觀察到的環(huán)境,模型被要求觀察圖片,回答應(yīng)該使用的工具 (當判斷沒有工具可用時可以回答 None)。
三層能力評估:
- Easy-工具識別 (Tool Recognition): 判斷模型是否認識工具以及知道它的主要功能;給定一個任務(wù),圖片中會包含一個最常用的能完成這個任務(wù)的工具。例如任務(wù)是切菜,圖片中會包含一把菜刀。
- Medium-工具理解 (Tool Understanding): 判斷模型是否理解工具運作的基本原理;為了更細致地考驗多模態(tài)大模型的真實理解,這一難度又分為了三個子類別:
- M1-工具屬性理解: 不僅僅需要知道物理工具的用途,還得知道它的物理、化學(xué)等屬性,從而選擇合適的工具。例如任務(wù)是高溫煎牛排,圖片中包含不粘鍋和鐵鍋,模型需要選擇鐵鍋因為其高溫耐受性。
- M2-組合工具理解: 需要組合多種工具實現(xiàn)目標,以此來判斷模型是否明白組合不同工具解鎖新的 affordance。例如,需要組合遙控器和電池才能完成開電視機的任務(wù)。
- M3-工具可用性理解: 給出的工具有損壞,模型需要識別出它不可用,以此來判斷模型是否真正理解物理工具「為什么可用」。例如,有一把沒有刀片的美工刀,模型需要理解它沒法完成切割的任務(wù)。
- Hard-工具創(chuàng)造 (Tool Creation): 判斷模型是否能根據(jù)任務(wù)需求反推所需要的工具的能力。給定一個任務(wù),圖片中將不包含常規(guī)工具,模型需要利用環(huán)境物體「造工具」來完成任務(wù)。例如,當沒有螺絲刀可用時,可以用一元硬幣來擰一字螺絲。
評測范圍: 覆蓋 32 個最新的多模態(tài)大模型 (專有、開源、具身智能專用與 VLA 主干)。

實驗結(jié)果:
大模型在 PhysToolBench 上的答卷


各個多模態(tài)大模型在PhysToolBench上的總準確率(%)
頂級大模型表現(xiàn)仍然不理想
整體來看,閉源商用模型領(lǐng)跑,開源模型緊隨其后。且模型越「大」,模型越「強」。然而,即使是當前的頂級的大模型,在 PhysToolBench 上表現(xiàn)欠佳,總得分最高的模型為閉源商用模型 GPT-5,得分為 62.15%,在 M3 難度和 Hard 難度下,得分普遍低于 50%,和人類表現(xiàn)相去甚遠。
專用于 Embodied 場景的 MLLM 表現(xiàn)如何?
Robobrain2、Embodied-R1 等模型以 MLLM 為基模,并在 Embodied 相關(guān)數(shù)據(jù)集上進行了 finetune。然而,對比 Robobrain2、Embodied-R1 以及他們的基模 Qwen-2.5-VL,在同等參數(shù)量的情況下他們并沒有展現(xiàn)出領(lǐng)先優(yōu)勢,說明當今的 Embodied Reasoning 的數(shù)據(jù)集中關(guān)于工具使用的內(nèi)容仍然比較欠缺。

被用在 VLA 當中的 backbone 模型是否具備了足夠的物理工具理解能力?
研究團隊還測試了幾個用在 Vision-Language-Action (VLA) 模型中的 VLM backbone,結(jié)果顯示,他們的表現(xiàn)比較糟糕,總得分普遍低于 20%。這說明它們盡管具備了一定的知識,但要完成更高階更復(fù)雜的任務(wù)或許還不夠。
深入分析
對工具的識別與理解存在長尾效應(yīng)。 即使是頂級的模型,在對一些工具的識別和理解上仍然存在長尾效應(yīng)。例如,模型對一些電子設(shè)備的識別與理解欠佳。
模型對工具「是否可用」理解很差。 在 M3 難度,PhysToolBench 特意設(shè)置了「陷阱」,但絕大多數(shù)模型都沒有識別出這個陷阱,仍然選擇了損壞的工具。在 M3 難度的總得分甚至比 Hard 難度還低,說明大模型對工具的理解較為膚淺,僅僅是淺層的死記硬背工具與其功能的對應(yīng)關(guān)系,而并沒有對其為什么可用的深刻理解。這不僅僅會導(dǎo)致任務(wù)失敗,還會帶來一些安全隱患。
推理能力非常重要,但還遠遠不夠。 研究團隊對比了一些模型在使用/不使用思維鏈下的性能,發(fā)現(xiàn)使用思維鏈會帶來性能的提升,但對于一些難度較大的 case,例如 M3 難度和 Hard 難度,純文本層面的推理仍然會有瓶頸,模型無法抓取到存在于視覺模態(tài)當中的關(guān)鍵信息,導(dǎo)致推理仍然帶來不了正確的結(jié)果。研究團隊認為,以視覺為中心的推理 (Vision Centric Reasoning) 對于正確使用物理工具非常關(guān)鍵,并提出了一個初步的以視覺為中心的推理的 Agent 框架,鼓勵推理過程中利用目標識別等工具放大觀察一些關(guān)鍵的工具,并進行額外推理。在 M3 難度上的實驗表明,這種推理方式能顯著提升模型的準確率,但仍然達不到令人滿意的水平。

不同模型使用不同推理方式的表現(xiàn)

對比:(a)文本層面推理 與 (b)視覺為中心的推理
總結(jié)
論文提出了測試多模態(tài)大模型對物理工具的理解的基準 PhysToolBench。通過系統(tǒng)性地設(shè)置不同層級以及廣泛的測試,PhysToolBench 揭示了當今多模態(tài)大模型對物理工具的理解的短板,也為未來的發(fā)展指明了方向:理解、運用和創(chuàng)造復(fù)雜的物理工具的能力,是邁向通用智能體不可或缺的一步,也是下一代多模態(tài)大模型需要提升的一步。
相關(guān)論文、代碼、數(shù)據(jù)集等均已公開公布。 感興趣的小伙伴可以進一步體驗和探索。



































