鼠標的未來是手環?解碼肌肉信號,Meta黑科技登上Nature
手腕表面肌電圖(sEMG)能以侵入式手腕設備感知和解釋肌肉激活,并以人機界面的形式作為計算機輸入。
這項技術被Meta認為是下一代人機交互的革命性技術。
Meta在2024年已經分享了一系列的肌電信號研究和開源的肌電信號數據集,并發表了技術白皮書,如今這項技術登上了7月24日的Nature。

圖1 手腕肌信號識別手勢和打字的高通量記錄和實時解碼的硬件和軟件平臺
在這項研究中,受試者只需要帶上如同智能手環的設備,就能讀取肌肉電信號,之后通過手勢與機器互動,或進行打字。
改變人機交互的革命性技術sEMG
不同于腦機接口,表面肌電圖(sEMG)不會和大腦相連,而是記錄并放大肌肉中的神經信號,提供高信噪比,進而實現實時單次試驗手勢解碼。
這類實驗中若是采取少數受試者,那么模型很容易學到了這個人的肌肉運動的特異性。
而這次Meta的實驗,收集了數百名參與者的數據,訓練模型之后研究者分別在連續手勢控制,離散手勢控制和打字三個任務進行了評測。
在第一項連續手勢任務中,被試者會通過手腕運動控制一個小球進入格子里頭,被試者需要精細的控制手部動作的幅度,而sEMG則能夠記錄這樣微小的運動,并實時將至呈現到屏幕上。
大多數參與者主觀報告說光標在>80%的時間內移動到了預期方向。
平均來看,受試者每秒能夠互動的次數是0.66次每秒,相當于不到2秒操作一次。
這雖然與職業電子競技選手每分鐘200-300次的手速沒法比,但也能進行許多有實用價值的操作,例如遠程控制機器手。

在第二項離散手勢控制中,參與者通過使用滑動手勢進行導航,并在需要時執行指令時激活手勢(拇指點擊、食指捏合保持、中指捏合保持)來操作一款類似吃豆豆的游戲。
這些手勢涉及多個手指的協作。
被試者在做出手勢到屏幕顯示對應動作的延遲只有500毫秒,幾個手勢在識別準確度上在89-95%(見圖2),每秒平均能識別0.88個手勢,這個操作流暢度,也是很絲滑的。

相比之下, Nintendo Joy-Con游戲控制器顯示出每秒1.45次手勢完成,而現有攝像頭或搖桿控制通常無法這么絲滑地觀測手勢。

圖2 不同手勢錯誤識別的混淆矩陣
打字任務中,參與者會按輸入提示寫出,打字速度能達到每分鐘平均20.9個單詞,高于手寫的輸入速度,但低于手機上的打字速度,更比不過使用鍵盤打字的每分鐘40到60詞。

上述只是使用通用模型的效果,而這樣的模型還可以根據個人的使用習慣進行優化,結果如圖3所示。
圖中的黑線是原始情況下,使用不同大小的模型訓練出的結果,而僅僅經過20分鐘個人使用記錄對模型微調,就能夠使識別性能的中位數性能提升16%。

圖3 通過使用個性化數據,在打字任務上的識別性能提升
sEMG是如何實現的
要評估sEMG能否成為下一代人機交互的攪局者,不僅需要看sEMG當下的性能,還需要看sEMG是如何實現的,包括硬件和軟件層面。
sEMG設備由兩個主要子組件構成:一個數字計算膠囊和一個模擬手腕帶(圖4)。
數字計算膠囊包括電池、藍牙通信天線以及包含微控制器、模數轉換器和慣性測量單元的印刷電路板。
模擬手腕帶由多個獨立鏈接組成,每個鏈接內含一個多層剛性印刷電路板,該電路板包含低噪聲模擬前端電路和鍍金電極。

圖4 sEMG研究設備的原理圖和解剖學接口
不考慮這些技術細節,雖然當前sEMG設備穿戴方便,只需要幾秒鐘就可戴上,使用起來也還算舒服。
不過它畢竟還沒有如同智能手環那樣輕便,而是包含了眾多設備。
未來需要解決的是采集設備小型化的問題,當設備包含更少的零件時,其也會更加可靠。
而在模型架構上,則是通過卷積層提取特征,之后通過兩個循環神經網絡LSTM處理時序數據的,最終得到對輸入手勢或字母的概率預測的。
這樣的傳統架構使得模型訓練和推理的成本足夠小,可以在本地端側完成推理甚至模型的基于個人使用數據的微調。
從當前sEMG的表現來看,靠手腕運動進行人機交互走出實驗室,成為主流的人機交互方式,還存在不少的改進空間,無論是交互的流暢性,效率還是準確性,都還有不少提升空間。
不過由于該方案中只需要檢測手腕的局部肌肉,僅需極小肌肉活動而非特定動作執行能力的交互方式,將使那些行動能力受限、肌肉無力或完全缺失效應器的人群能夠實現可行的交互方案。
因此當下sEMG適合諸如漸凍癥(在手腕還能動時)或肌無力患者進行交互,同時也有助于開發有效的閉環神經康復范式。
此外,由于sEMG采集的是電信號,因此其采用的算法,采集的數據集,可以用來彌補腦機接口訓練數據缺少的問題。
可先用sEMG的海量數據訓練腦機接口的模型,再利用訓練好模型的遷移和特征提取能力,去使用真正的腦電數據去微調模型。
未來或許可以看到帶著腦電識別頭套,再結合智能手環的人機交互手段。




























