又是浙大校友!AI眼鏡“隔空取物”,戴上即可隨心選中現實世界任意物體
只靠說話和AI眼鏡互動,確實有點不方便。
現在新玩法來了!數字替身幫你“隔空抓物”,混合現實即時選擇現實世界的物體作為上下文。
書籍檢索,輕松get~

建筑導航?手拿把掐。

多無人機協作?也是毫不遜色。

該技術被稱為Reality Proxy——一種直接操控界面,讓你可以瞬間選中現實世界中的物體。
研究者Xiaoan Liu甚至表示,這使我們離賈維斯又進了一步。

Reality Proxy打破物理條件限制
混合現實(XR)正在重塑人機交互的邊界。通過頭戴設備,它有望將物理世界與數字世界融合,讓用戶能同時操控現實與虛擬中的對象。
然而,傳統的XR設備通常通過光線投射來選擇物體,但由于目標在視野中尺寸較小、視線不穩定以及手部顫抖等原因,這一過程往往容易出錯。
因此,研究團隊提出Reality Proxy(現實代理)——現實物體的抽象數字表示。

他們將交互目標從物體無縫轉移到其代理上,選擇代理等同于選擇實際物體,便于用戶擺脫距離或大小等限制,實現輕松選擇物體。

如上所示,Reality Proxy流程包括三個主要步驟:
激活代理:捕獲層級和語義場景結構
當用戶捏合確認選擇時,它會自動檢測用戶視線范圍內的真實世界物體,并將其抽象為手部的交互代理。
如果用戶成功選中目標物體(用戶視線默認瞄準的物體),他們可以繼續執行預期操作;否則,他們可以使用手邊的代理優化選擇。

生成代理:保留空間關系
在這一步驟中,系統可以將上一步驟中場景的層級、語義表示轉換為代理 —— 用戶可操作的對象。
默認情況下,系統僅為用戶擴展視線范圍內的1級物體生成代理。這些代理保留彼此的相對空間關系。
每個代理可通過長按和雙手縮放等標準手勢操作,即使在用戶釋放捏合后也保持在原位。
由于代理僅作為交互的抽象表示,所以其物理大小并不關鍵。因此,在實現過程中,每個代理表示為固定大小的矩形3D對象。

與代理交互:保持對現實世界的關注
為使用戶能主要關注現實物體, Reality Proxy在與代理交互時,將關鍵視覺反饋直接顯示在物理物體上。
例如,當一個物體被選中時,它會以亮色高亮顯示,相應的代理也會高亮,提供雙重反饋。
為確保代理易于訪問且無需持續視覺關注,研究應用 “延遲跟隨”機制,將代理放在用戶手部附近。

當手保持在特定閾值內時,代理保持靜止;如果手移動超出該范圍,代理會平滑跟隨 —— 使其保持在可達范圍內,而不會對輕微的手部抖動做出反應。
這種設計減少了用戶低頭查找代理的需求,并實現在關注現實世界與快速查看代理信息之間的平滑切換。
此外,Reality Proxy還支持多種交互功能,使用戶與現實物體的互動更加靈活。
1、瀏覽預覽物體:用戶手指在多個代理上滑動,就能快速瀏覽物體的信息,比如快速查看多本書的內容。

2、多對象刷選:用雙手捏合的手勢劃定一個區域,就能選中多個代理對應的現實物體。

3、按屬性過濾物體:長按一個物體的代理,調出屬性面板,滑動手指到某個屬性的代理上,就能選中所有有相同屬性的物體,比如篩選出所有紅色的杯子。

4、借助物理特征的交互:代理可結合真實世界的物理功能促進直觀交互。
例如,放在物理表面(如桌子)上的代理可以將這些表面轉換為自然的觸摸板。
用戶可以使用熟悉的觸摸設備手勢與真實世界物體交互,如在表面上拖動手指選擇多個物體、分開手指擴大選擇范圍,或回溯路徑調整選擇等。

5、語義分組:雙擊一個代理,就能把有相同屬性的物體歸為一組。

6、空間縮放分組:用雙手縮放的手勢,在層級結構中導航,比如從查看整棟樓縮小到查看某一層的房間。

7、自定義分組:在空處用刷選的手勢畫一個立方體容器,把選中的代理放進里面,就能創建自定義分組,方便進行整體操作,比如計算一組書的總價。

除此之外,研究者還通過幾個場景展示了此技術的實用性。
日常信息檢索
在辦公室里,老師可以用它快速找到特定的書,計算書的總價。

在廚房里也能實現與不同粒度級別的物體交互,比如選中微波爐的不同部件。

建筑導航
Reality Proxy讓在大型建筑中高效導航和交互成為可能。

無人機控制
Reality Proxy還允許控制動態真實世界物體。
為展示這一點,研究者開發了一個基于混合現實的無人機控制應用,該應用用無人機中嵌入的跟蹤器代替AI場景理解組件。

此研究招募了12名經驗豐富的XR開發者和研究人員(7名男性,5名女性,年齡在18歲到38歲之間)。
由于兩名參與者參與了完善研究方案的預試驗環節,因此被排除在以下報告的評分中。
評估結果顯示,這個系統在實用性、易學性和易用性方面評價普遍積極。

參與者認為Reality Proxy在實用性上表現突出,能有效解決與遙遠、密集或難觸及物體的交互問題。
相比傳統方式更快捷,可減少身體疲勞、擴展交互能力(如批量選擇、按屬性篩選),對行動不便或視線不穩定用戶也更友好。
不過參與者也指出了一些問題,比如新手可能需要一定的學習時間,代理的定位精度還有待提高等。
團隊介紹

Xiaoan Liu,本科畢業于江南大學,碩士畢業于紐約大學。
他于2019年3月創立了Fusion Reality。2023在清華大學擔任研究助理。2024年11月至2025年5月期間在谷歌工作。

他最近的一項比較有意思的研究還包括RealiTips(稿件準備中)——一款可以指導你一步步煮咖啡的助手。

值得一提的是,他本科時期就設計出很多XR設備和游戲。

Mar Gonzalez-Franco,2014年,她在英國創建了沉浸式技術實驗室,研究航空背景下的AR、VR和混合現實。
2015年,她以高級研究科學家的身份加入初創公司Traity,該公司完成了470萬美元的A輪融資,擁有超過450萬用戶,是硅谷500 Startups和Seedcamp(全球知名的風險投資基金和創業加速器)的校友企業。2016年,她還曾擔任微軟EPIC團隊的首席研究員。

Xianhao Carton Liu,本科就讀于浙江大學竺可楨學院,曾獲圖靈班的人工智能榮譽學士。博士就讀于明尼蘇達大學計算機科學專業,研究方向為人機交互。曾在斯坦福大學和哈佛大學任研究實習生。

Chen Zhu-Tian,本科畢業于華南理工大學,博士畢業于香港科技大學,現任明尼蘇達大學雙城分校CSE系(計算機科學與工程系)助理教授。

































