Google人工智能技術(shù)“Transframer”可根據(jù)一張圖片創(chuàng)建短視頻
隨著技術(shù)的發(fā)展,研究人員繼續(xù)尋找新的方法來利用人工智能和機(jī)器學(xué)習(xí)能力。本周早些時(shí)候,Google科學(xué)家宣布創(chuàng)建了Transframer,這是一個(gè)新的框架,它能根據(jù)單一的圖像輸入來生成短視頻。這項(xiàng)新技術(shù)有朝一日可以增強(qiáng)傳統(tǒng)的渲染解決方案并使開發(fā)者能夠基于機(jī)器學(xué)習(xí)能力創(chuàng)建虛擬環(huán)境。
這個(gè)新框架的名稱(及在某些方面的概念)是對(duì)另一個(gè)基于人工智能的模型Transformer的點(diǎn)贊。Transformer最初于2017年推出,是一個(gè)新穎的神經(jīng)網(wǎng)絡(luò)架構(gòu),它有能力通過建模和比較句子中的其他詞來生成文本。此后,該模型被納入了標(biāo)準(zhǔn)的深度學(xué)習(xí)框架如TensorFlow和PyTorch。
據(jù)悉,Transframer使用具有類似屬性的背景圖像,結(jié)合查詢注釋來創(chuàng)建短視頻。盡管在原始圖像輸入中沒有提供任何幾何數(shù)據(jù),但產(chǎn)生的視頻在目標(biāo)圖像周圍移動(dòng)并將準(zhǔn)確的視角可視化。

????
這項(xiàng)新技術(shù)使用Google的DeepMind人工智能平臺(tái)進(jìn)行了演示,其功能是分析單一的照片背景圖像以此來獲得關(guān)鍵的圖像數(shù)據(jù)并生成額外的圖像。在這一分析過程中,系統(tǒng)確定了圖片的框架,這反過來又幫助系統(tǒng)預(yù)測(cè)圖片的周圍環(huán)境。
然后,語境圖像被用來進(jìn)一步預(yù)測(cè)圖片從不同角度會(huì)出現(xiàn)的情況。預(yù)測(cè)根據(jù)數(shù)據(jù)、注釋及語境框架中的任何其他信息對(duì)額外圖像框架的概率進(jìn)行建模。

該框架通過提供基于非常有限的數(shù)據(jù)集生成合理準(zhǔn)確的視頻的能力,這標(biāo)志著視頻技術(shù)的巨大進(jìn)步。Transframer任務(wù)在其他跟視頻有關(guān)的任務(wù)和基準(zhǔn)上也顯示出極有前景的結(jié)果,如語義分割、圖像分類和光流預(yù)測(cè)。
對(duì)基于視頻的行業(yè)如游戲開發(fā)可能具有潛在的巨大影響。目前的游戲開發(fā)環(huán)境依賴于核心渲染技術(shù),如著色、紋理映射、景深和光線追蹤。像Transframer這樣的技術(shù)有可能通過使用人工智能和機(jī)器學(xué)習(xí)來構(gòu)建他們的環(huán)境并與此同時(shí)來減少創(chuàng)建環(huán)境所需的時(shí)間、資源和精力以為開發(fā)者提供一個(gè)全新的開發(fā)路徑。






















