多模態(tài)大模型理解物理工具嗎？PhysToolBench提出了衡量多模態(tài)大模型對物理工具理解的基準

2025-11-05 08:51:33

論文提出了測試多模態(tài)大模型對物理工具的理解的基準 PhysToolBench。

人類之所以能與復(fù)雜的物理世界高效互動，很大程度上源于對「工具」的使用、理解與創(chuàng)造能力。對任何通用型智能體而言，這同樣是不可或缺的基本技能，對物理工具的使用會大大影響任務(wù)的成功率與效率。

盡管當下的多模態(tài)大模型在具身智能的高層任務(wù)規(guī)劃以及低層動作執(zhí)行方面都展現(xiàn)出很大的潛力，但它們是否真正「懂」物理工具、理解其運作原理，仍缺乏統(tǒng)一的量化評估。

為此，來自香港科技大學(xué)（廣州）、香港科技大學(xué)等研究機構(gòu)的團隊提出了 PhysToolBench，一個衡量多模態(tài)大模型對物理工具的理解的基準。PhysToolBench 把對物理工具的理解分為了三個等級，分別為「認識」工具、「理解」工具、「創(chuàng)造」工具。

GitHub 鏈接：https://github.com/EnVision-Research/PhysToolBench
論文鏈接：https://arxiv.org/abs/2510.09507
Hugging Face 數(shù)據(jù)集鏈接：https://huggingface.co/datasets/zhangzixin02/PhysToolBench

PhysToolBench 系統(tǒng)性地測試了 32 個最新的多模態(tài)大模型，包含閉源商用模型、開源模型、具身智能專用模型以及 VLA 模型的 VLM 主干四大類，測試出了他們對于物理工具的理解的不足。

PhysToolBench 介紹

機器人執(zhí)行任務(wù)的一般邏輯是，機器人會收到任務(wù)指令，并進行環(huán)境觀察，隨后再做出任務(wù)規(guī)劃或者一級動作執(zhí)行。因此，PhysToolBench 以視覺問答 (VQA) 的形式，設(shè)計了包含 1000+ 圖文配對的數(shù)據(jù)集，其中文字部分是任務(wù)描述，圖片是一個包含了各種工具的圖片，代表了機器人觀察到的環(huán)境，模型被要求觀察圖片，回答應(yīng)該使用的工具 (當判斷沒有工具可用時可以回答 None)。

三層能力評估：

Easy-工具識別 (Tool Recognition)： 判斷模型是否認識工具以及知道它的主要功能；給定一個任務(wù)，圖片中會包含一個最常用的能完成這個任務(wù)的工具。例如任務(wù)是切菜，圖片中會包含一把菜刀。
Medium-工具理解 (Tool Understanding)： 判斷模型是否理解工具運作的基本原理；為了更細致地考驗多模態(tài)大模型的真實理解，這一難度又分為了三個子類別：

M1-工具屬性理解： 不僅僅需要知道物理工具的用途，還得知道它的物理、化學(xué)等屬性，從而選擇合適的工具。例如任務(wù)是高溫煎牛排，圖片中包含不粘鍋和鐵鍋，模型需要選擇鐵鍋因為其高溫耐受性。
M2-組合工具理解： 需要組合多種工具實現(xiàn)目標，以此來判斷模型是否明白組合不同工具解鎖新的 affordance。例如，需要組合遙控器和電池才能完成開電視機的任務(wù)。
M3-工具可用性理解： 給出的工具有損壞，模型需要識別出它不可用，以此來判斷模型是否真正理解物理工具「為什么可用」。例如，有一把沒有刀片的美工刀，模型需要理解它沒法完成切割的任務(wù)。

Hard-工具創(chuàng)造 (Tool Creation)： 判斷模型是否能根據(jù)任務(wù)需求反推所需要的工具的能力。給定一個任務(wù)，圖片中將不包含常規(guī)工具，模型需要利用環(huán)境物體「造工具」來完成任務(wù)。例如，當沒有螺絲刀可用時，可以用一元硬幣來擰一字螺絲。

評測范圍： 覆蓋 32 個最新的多模態(tài)大模型 (專有、開源、具身智能專用與 VLA 主干)。

實驗結(jié)果：

大模型在 PhysToolBench 上的答卷

各個多模態(tài)大模型在PhysToolBench上的總準確率(%)

頂級大模型表現(xiàn)仍然不理想

整體來看，閉源商用模型領(lǐng)跑，開源模型緊隨其后。且模型越「大」，模型越「強」。然而，即使是當前的頂級的大模型，在 PhysToolBench 上表現(xiàn)欠佳，總得分最高的模型為閉源商用模型 GPT-5，得分為 62.15%，在 M3 難度和 Hard 難度下，得分普遍低于 50%，和人類表現(xiàn)相去甚遠。

專用于 Embodied 場景的 MLLM 表現(xiàn)如何？

Robobrain2、Embodied-R1 等模型以 MLLM 為基模，并在 Embodied 相關(guān)數(shù)據(jù)集上進行了 finetune。然而，對比 Robobrain2、Embodied-R1 以及他們的基模 Qwen-2.5-VL，在同等參數(shù)量的情況下他們并沒有展現(xiàn)出領(lǐng)先優(yōu)勢，說明當今的 Embodied Reasoning 的數(shù)據(jù)集中關(guān)于工具使用的內(nèi)容仍然比較欠缺。

被用在 VLA 當中的 backbone 模型是否具備了足夠的物理工具理解能力？

研究團隊還測試了幾個用在 Vision-Language-Action (VLA) 模型中的 VLM backbone，結(jié)果顯示，他們的表現(xiàn)比較糟糕，總得分普遍低于 20%。這說明它們盡管具備了一定的知識，但要完成更高階更復(fù)雜的任務(wù)或許還不夠。

深入分析

對工具的識別與理解存在長尾效應(yīng)。 即使是頂級的模型，在對一些工具的識別和理解上仍然存在長尾效應(yīng)。例如，模型對一些電子設(shè)備的識別與理解欠佳。

模型對工具「是否可用」理解很差。 在 M3 難度，PhysToolBench 特意設(shè)置了「陷阱」，但絕大多數(shù)模型都沒有識別出這個陷阱，仍然選擇了損壞的工具。在 M3 難度的總得分甚至比 Hard 難度還低，說明大模型對工具的理解較為膚淺，僅僅是淺層的死記硬背工具與其功能的對應(yīng)關(guān)系，而并沒有對其為什么可用的深刻理解。這不僅僅會導(dǎo)致任務(wù)失敗，還會帶來一些安全隱患。

推理能力非常重要，但還遠遠不夠。 研究團隊對比了一些模型在使用/不使用思維鏈下的性能，發(fā)現(xiàn)使用思維鏈會帶來性能的提升，但對于一些難度較大的 case，例如 M3 難度和 Hard 難度，純文本層面的推理仍然會有瓶頸，模型無法抓取到存在于視覺模態(tài)當中的關(guān)鍵信息，導(dǎo)致推理仍然帶來不了正確的結(jié)果。研究團隊認為，以視覺為中心的推理 (Vision Centric Reasoning) 對于正確使用物理工具非常關(guān)鍵，并提出了一個初步的以視覺為中心的推理的 Agent 框架，鼓勵推理過程中利用目標識別等工具放大觀察一些關(guān)鍵的工具，并進行額外推理。在 M3 難度上的實驗表明，這種推理方式能顯著提升模型的準確率，但仍然達不到令人滿意的水平。

不同模型使用不同推理方式的表現(xiàn)

對比：(a)文本層面推理與 (b)視覺為中心的推理

總結(jié)

論文提出了測試多模態(tài)大模型對物理工具的理解的基準 PhysToolBench。通過系統(tǒng)性地設(shè)置不同層級以及廣泛的測試，PhysToolBench 揭示了當今多模態(tài)大模型對物理工具的理解的短板，也為未來的發(fā)展指明了方向：理解、運用和創(chuàng)造復(fù)雜的物理工具的能力，是邁向通用智能體不可或缺的一步，也是下一代多模態(tài)大模型需要提升的一步。

相關(guān)論文、代碼、數(shù)據(jù)集等均已公開公布。感興趣的小伙伴可以進一步體驗和探索。

責任編輯：張燕妮來源：機器之心

論文模型工具