游戲玩得好的AI,已經(jīng)在看病救人了
一個(gè)游戲AI,怎么干起醫(yī)生的活了?
而且這本事還是從打游戲的經(jīng)驗(yàn)里總結(jié)來的。
喏,拿一張病理全片掃描圖像,不用遍歷所有高倍鏡視野,也能找到病灶所在。
在它看來,這個(gè)過程和《我的世界》里伐木居然是類似的。
都是三步走:
- 先觀察大環(huán)境
- 鎖定小范圍
- 最終確定目標(biāo)。

而且這種方法效率還賊高,是傳統(tǒng)方法的400%。
不愧是拿過NeurIPS MineRL競賽冠軍的游戲AI……
所以,它到底是怎么做到的?
游戲AI怎么懸壺濟(jì)世?
在介紹這只游戲AI前,讓我們先來了解一下處理病理切片的難點(diǎn)究竟在哪。
與想象中只需掃一眼不同,臨床科室首先會將組織切片進(jìn)行全片掃描數(shù)字化處理。
在這之后,交到醫(yī)生手里的往往是一張幾萬乘幾萬像素、甚至更高的高分辨率圖像,能達(dá)到每個(gè)像素0.25微米。
醫(yī)生要做的就是在這幅布滿密集細(xì)胞和組織的超大尺寸圖像中,肉眼找到風(fēng)險(xiǎn)的病灶位置并進(jìn)行判斷,可謂是“大海撈針”了。

近些年也不是沒有人嘗試過用深度學(xué)習(xí)方法來解決這一問題,但遇到的挑戰(zhàn)是:
第一個(gè),盡管病理圖像(WSI)具有十億像素大小的高分辨率,卻往往只有一個(gè)圖像級標(biāo)簽。
目前絕大部分的方法都依賴于在高倍鏡下對全切片進(jìn)行密集采樣的方式進(jìn)行特征提取,并對所有采集特征進(jìn)行信息整合進(jìn)而實(shí)現(xiàn)全片診斷,工作量可想而知。
第二呢,這些圖像的病變區(qū)域往往很稀疏。現(xiàn)有的方法大多依賴于多實(shí)例學(xué)習(xí)框架,需要在高倍率下密集采樣局部的圖像塊(patch)。
這不僅增加了計(jì)算成本,還導(dǎo)致了診斷相關(guān)性弱、數(shù)據(jù)效率低下,一張切片往往需要幾十分鐘才能完成計(jì)算。
不過,這次來自騰訊的“絕悟”團(tuán)隊(duì)就發(fā)現(xiàn)了盲點(diǎn)——
傳統(tǒng)模式下盡管醫(yī)生需要肉眼去看,但他們往往會先用顯微鏡在低倍鏡下掃片,憑借經(jīng)驗(yàn)發(fā)現(xiàn)疑點(diǎn)后再用高倍鏡復(fù)核。

而這種操作,如果放到AI的世界里,不就是最優(yōu)路徑?jīng)Q策問題嗎?這不正是強(qiáng)化學(xué)習(xí)能搞定的事?
再聯(lián)系到強(qiáng)化學(xué)習(xí)又常用在游戲AI里,游戲AI又是絕悟AI的長處所在,嗯優(yōu)勢閉環(huán)了。
此前,絕悟AI就憑借最優(yōu)路徑?jīng)Q策策略在MOBA、RTS、我的世界(Minecraft)等多類型游戲中戰(zhàn)績斐然,還拿過AI頂會NeurIPS MineRL競賽冠軍。
當(dāng)時(shí),CMU、微軟、DeepMind和OpenAI聯(lián)手在頂會NeurIPS上舉辦了一個(gè)名叫MineRL的競賽,要求參賽隊(duì)伍在4天時(shí)間內(nèi),訓(xùn)練出一個(gè)能在15分鐘內(nèi)挖出鉆石的AI“礦工”。
來自騰訊的絕悟AI以76.97分的絕對優(yōu)勢一舉奪魁,成功成為挑戰(zhàn)賽歷史上“挖礦最迅速”的AI。

而在《我的世界》里找木頭的動作,和在病理切片里找病灶,其實(shí)思路差不多。
同樣是環(huán)顧四周搜集全局信息(病理醫(yī)生在低倍鏡下掃片),然后鎖定視角(高倍鏡確認(rèn)),找到木頭后執(zhí)行采集動作(確認(rèn)病灶),如此往復(fù)。

于是,就在這只游戲AI的基礎(chǔ)上,騰訊的研究人員推出了最新的研究成果“絕悟RLogist”,寓意正是RL(reinforcement learning)+ Pathologist(病理學(xué)家)。
那么絕悟RLogist具體是怎么實(shí)現(xiàn)的呢?
決策提效400%
就像上文提到的人類醫(yī)生的解決思路一樣,“絕悟RLogist”采用的正是基于深度強(qiáng)化學(xué)習(xí)的,找尋最優(yōu)看片路徑的方法。
這一新方法的好處很明顯:避免了用傳統(tǒng)的窮舉方式去分析局部圖像切塊,而是先決策找到有觀察價(jià)值的區(qū)域,并通過跨多個(gè)分辨率級別獲得代表性特征,以加速完成全片判讀。
通過模仿人類的思維方式,不僅提高了看片效率,還做到了節(jié)約成本。
具體而言,研究人員通過條件特征超分辨率實(shí)現(xiàn)了交叉分辨率信息融合。
受益于條件建模,未觀測區(qū)域的高分辨率特征,可以根據(jù)已經(jīng)被觀測過的低分辨率和高分辨率的特征配對,而被更新。

其中一個(gè)關(guān)鍵步驟,是為病理圖像分析領(lǐng)域定義一個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境。該方法使用離散化的動作空間、設(shè)計(jì)合理的圖像分塊和完成狀態(tài)獎(jiǎng)勵(lì)函數(shù),去提升模型的收斂表現(xiàn),以避免局部最優(yōu)。
相應(yīng)的訓(xùn)練pipeline如下述算法所示:

從結(jié)果上看,絕悟RLogist的優(yōu)勢非常明顯。研究人員選擇“淋巴結(jié)切片轉(zhuǎn)移檢測”及“肺癌分型”兩個(gè)全片掃描圖像的分類任務(wù)進(jìn)行了基準(zhǔn)測試。

結(jié)果表明,與典型的多實(shí)例學(xué)習(xí)算法相比,“絕悟RLogist”在觀察路徑顯著變短情況下,能夠?qū)崿F(xiàn)接近的分類表現(xiàn),平均用時(shí)縮短至四分之一,決策效率提升400%。

不僅如此,該方法同時(shí)還具有可解釋性。研究人員將決策過程可視化后,發(fā)現(xiàn)未來不管是醫(yī)療教育還是實(shí)際場景,絕悟RLogist都能很好地發(fā)揮作用。

目前,該論文已被AAAI 2023接收,代碼已開源。
值得一提的是,研究人員還強(qiáng)調(diào),未來將沿著絕悟RLogist的方向繼續(xù)優(yōu)化,包括通過引入更強(qiáng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)RLogist的表征學(xué)習(xí)能力,以及使用更高階的RL訓(xùn)練方法避免學(xué)習(xí)到錯(cuò)誤的觀測路徑等。
“絕悟RLogist”從何而來?
提到AI“絕悟”,想必很多人都不會陌生。
畢竟《王者榮耀》里的AI玩法,就是“絕悟挑戰(zhàn)”。

△紅方 AI 鎧大局觀出色,繞后蹲草叢扭轉(zhuǎn)戰(zhàn)局
還有《我的世界》、3D-FPS品類游戲等,可以說“絕悟”游戲老玩家了。
其背后團(tuán)隊(duì)騰訊AI Lab也是讓AI學(xué)會玩游戲的老玩家了,從2016至今已經(jīng)開發(fā)出了AI“絕藝”、AI“絕悟”,并形成了“開悟”平臺。
AI“絕藝”,是棋牌類游戲玩家。
它的開發(fā)始于2016年,最早從圍棋起步。
2017年,“絕藝”在UEC世界電腦圍棋大會上奪得冠軍,現(xiàn)在是國家隊(duì)的專業(yè)陪練。
除此以外,它還會下國際象棋、打麻將。在四人麻將上,“絕藝”是業(yè)界首個(gè)在國際標(biāo)準(zhǔn)時(shí)達(dá)到職業(yè)水準(zhǔn)的麻將,拿下過IJCAI麻將AI比賽的冠軍。
緊隨“絕藝”身后,2017年“絕悟”研發(fā)啟動。
它強(qiáng)調(diào)的不再是簡單博弈,而是多智能體AI在面臨更復(fù)雜環(huán)境下的策略問題。
2018年“絕藝”達(dá)到《王者榮耀》業(yè)余玩家水平,2019年達(dá)到職業(yè)電競水平。
后面“王者絕悟”也為王者榮耀玩家?guī)砹恕疤魬?zhàn)絕悟”、“英雄練習(xí)場”等玩法,成為玩家訓(xùn)練上分的好幫手。
此外,“絕悟”玩《我的世界》,拿下了NeurIPS MineRL競賽的冠軍,成功成為挑戰(zhàn)賽歷史上“挖礦最迅速”的AI。

AI
“足球版”絕悟也曾獲得過谷歌舉辦的線上世界足球賽冠軍。

而在做游戲AI的過程中,騰訊AI Lab還順道與王者榮耀一同沉淀出了一個(gè)平臺“開悟”。
也就是將騰訊的平臺、算法、場景給學(xué)生、學(xué)術(shù)界做一定的開放,讓他們進(jìn)行相關(guān)的博弈研究。2020年8月,“開悟”平臺組織了第一場開悟的高校比賽,今年還發(fā)布了王者榮耀1v1開放研究環(huán)境。
實(shí)際上,游戲領(lǐng)域,一直被視為AI最好的試驗(yàn)田。
從“絕悟”這幾年的戰(zhàn)績中,不難看出它在強(qiáng)化學(xué)習(xí)等方面已經(jīng)積累了一定能力。
那么將最擅長的能力向外遷移,落在實(shí)際應(yīng)用層面,也是行業(yè)內(nèi)的大勢所趨。
這一回,可真就不能說游戲AI“不學(xué)無術(shù)”了。
論文地址:http://arxiv.org/abs/2212.01737
開源地址:https://github.com/tencent-ailab/RLogist


























