
譯者 | 陳峻
審校 | 重樓
如你所知,人工智能(AI)正在改變我們處理圖像的方式。那些曾經需要Photoshop幾個小時處理的任務,現在可以通過AI驅動的工具在幾秒鐘內完成。那些拍攝模糊的照片,可以被AI工具通過簡單點擊,在不丟失照片清晰度的情況下修復照明度,消除不必要的噪點,甚至為黑白照片添置色彩。各種由算法驅動的工具使用經過訓練的AI模型,先理解圖像的樣子,再對其開展相應的重建。在訓練過程中,AI模型已能通過研究數百萬個示例,來“學習”圖案、紋理和細節,進而可以“預測”缺失的內容并“自然地”予以填補。當然,對于開發人員、攝影師、以及內容創作者而言,了解AI算法的基礎知識,可以幫助其為自己的工作流選擇合適的工具。也就是說,即使你從未計劃自己親自編寫AI模型,這些知識也將幫助你為圖像處理、網絡應用或創意項目做出更好的選擇。下面,讓我們來討論當前AI圖像增強領域最常被使用的五種重要算法,以及我們該如何在現實場景與需求中使用它們。
1.圖像著色(Image Colorization)
自動化圖像著色可能是所有視覺效果上最具戲劇性的AI增強功能。它會根據黑白圖像預測原來應該的顏色,進而產生看起來像是全彩色照片拍攝的結果。其背后的AI技術用到的是:在巨大的彩色圖像數據集中經過訓練的卷積神經網絡(CNN)。AI模型在訓練期間通過學習灰度和彩色版本,來還原對象本來的顯示。例如,模型會了解到草地通常是綠色的,天空通常是藍色的,而人類的皮膚屬于一定的色調范圍。
作為該領域最著名的模型之一,DeOldify結合了CNN和GAN。其中,GAN的設置有助于完善輸出結果,使得顏色更自然,進而避免了奇怪或過亮的色調。
其實,除了恢復舊的家庭照片,圖像著色也有著諸如:電影與歷史項目修復、故事數字化,以及藝術概念化等實際用途。你可以通過鏈接,了解自動圖像著色的相關概念。
2.基于GAN的圖像增強(Image Enhancement)
作為另一種圖像增強AI技術,生成對抗網絡(Generative Adversarial Networks,GAN)由兩個神經網絡組成:試圖創建逼真圖像的生成器(generator)和評估它們的判別器(discriminator)。經過多次迭代,生成器會變得非常擅長生成真實的圖像。

在圖像修飾過程中,GAN可以同時處理多項任務,例如:固定照明、提高清晰度、增強紋理,甚至巧妙地更改元素,以使圖片更具吸引力。由于GAN是從現實世界的圖像中學習,所以其輸出通常會讓人感覺比傳統的編輯濾鏡更加自然。
而基于GAN的修圖(retouching)可用于專業肖像編輯、電商產品照片、房地產列表,甚至游戲資產創建等應用場景中。用戶的直觀感受就是在各種應用中常見的“一鍵增強”按鈕。你可以通過鏈接,了解GAN賦能的圖像增強相關概念。
3.自動降噪編碼(Denoising Autoencoders)
圖像中的噪點往往是那些看起來像是不應該存在的顏色或亮度的隨機斑點。它經常出現在低光(low-light)照片或使用高ISO設置拍攝的圖像中。它們會使得照片看起來有顆粒狀、且不那么專業。
對此,傳統的降噪方法只是通過模糊圖像來隱藏噪點,但這也會破壞圖像上的細節部分。而AI降噪的工作方式則不同。它使用自動降噪編碼器,從大量成對的圖像中學習到哪個是清楚的、哪個是帶有噪點的。據此,AI會研究噪點是如何扭曲細節的,進而學習如何逆轉該過程。也就是說,自動降噪編碼器會在一張混雜的照片中消除噪點,同時保留邊緣、紋理和重要的小細節。

降噪模型不僅適用于攝影,也可被用于文檔掃描,使得文本更易于閱讀,醫療掃描成像更清晰,屏幕截圖更精細,以及PPT用戶界面的優化。你可以通過鏈接,了解降噪功能的相關概念。
4.使用超分辨率以升階圖像(Image Upscaling)
超分辨率是提高圖像分辨率,使其更清晰、更精細,而不僅僅是拉伸像素的過程。過去,放大一張小圖像只會使它變得模糊。如今,AI超分辨率的工作方式則是通過研究圖像,檢測模式,然后生成新的像素。這些新的像素能夠與更高質量的原件相匹配。
作為該領域的首個重大突破之一,超分辨率卷積神經網絡(Super-Resolution Convolutional Neural Network,SRCNN)的工作原理是將圖像分解成多個色斑(patches),通過對其進行分析,以預測高分辨率的色斑本該有的樣子。作為早期方法,其效果十分明顯,不過有時也會產生過度平滑(over-smoothing)的圖像。
在此基礎上,增強型超級分辨率生成對抗網絡(Enhanced Super-Resolution Generative Adversarial Network,ESRGAN)應運而生。ESRGAN使用了GAN架構的生成器來創建增強的圖像,并由其判別器來判斷生成圖像的真實度。通過這種來回的訓練,生成器逐漸學會了產生出精細的紋理,如:發絲、織物組織、以及建筑細節等。這些細節在人眼中會看起來更為逼真。

目前超分辨率被廣泛應用于電商(如:產生更清晰的產品照片)、打印(如:將網絡圖像變成高分辨率的海報)、以及網絡應用(如:讓用戶上傳的圖像看起來更專業)。你可以通過鏈接,了解超分辨率升階圖像的相關概念。
5.偽影清除(Artifact Removal)
當JPEG圖像被嚴重壓縮時,會出現塊狀色斑、模糊的邊緣、以及線條周圍奇怪的光環。該現象被稱為壓縮偽影,其出現源于JPEG通過刪除細節來換取文件體積的減小。傳統的修復方法是通過模糊圖像以隱藏這些缺陷,但同時也“軟化”了重要的邊緣和紋理。

柔性盲卷積神經網絡(Flexible Blind Convolutional Neural Network,FBCNN)則采取了一種更聰明的方法。它既無需事先知曉確切的壓縮水平,又無需額外的輸入,而是經過訓練來處理各種偽影的嚴重程度。這便是它“盲目”的特點所在,即:不需要關于JPEG的任何壓縮元數據,便可即時調整模型的恢復過程。
通常,FBCNN主要分兩個步驟:首先,它會從圖像中提取特征,分析邊緣、紋理、以及平面區域的圖案,以識別偽影最有可能存在哪里。然后,它通過已學到的映射關系,在不造成損害的基礎上,重建目標區域的原始樣貌。
同時,由于能夠估計壓縮質量本身,因此FBCNN避免了過度平滑那些被輕度壓縮的圖像,或是欠恢復(under-restoring)那些被重度壓縮的圖像等常見問題。這種靈活性使得FBCNN在諸如:從社交媒體上清理低質量的圖像,恢復屏幕截圖中的圖形和文本,以及打印舊的網絡壓縮圖像等多種情況下都非常實用。
其實,在使用超分辨率或一般性增強之前,現代化AI工具通常都會調用FBCNN作為處理的第一步。可以說,在無法手動調整的情況下,FBCNN適應的能力已經成為目前現實世界恢復JPEG的最實用、且對開發人員最友好的模型之一。你可以通過鏈接,了解偽影清除的相關概念。
對開發的重要性
上文提到的多數模型都提供了對應的API。據此,開發人員可以將它們構建到自己的應用或網站中。如果你運營著社交平臺,則可以在用戶上傳的圖像出現在反饋頁面之前,自動增強其效果;如果你在構建電商平臺,也可以清理和提升產品的圖像,以獲得更好的銷售轉化率;如果你從事媒體歸檔工作,還可以輕松地恢復和保存圖像,而無需花費數小時地手動編輯時間。
當然,即使你從未訓練過自己的AI模型,上述討論也可以幫助你了解哪種算法適合你需要解決的實際問題。例如:將超分辨率用于圖像放大,將自動降噪用于清理,將著色用于修復,將偽影清除用于壓縮,將GAN修圖用于整體美化等。
小結
目前,依托上述模型與算法的AI圖像增強已走出研究實驗室,成為了日常使用工具。小白用戶都可以將低質量的圖像轉化為清晰、生動和專業的產品。無論你是希望將圖像處理集成到應用中的開發人員,還是需要改進視覺效果的創作者,上述由AI加持的模型工作原理都將能幫助你更快、更精確地完成任務,進一步釋放由AI驅動的創造力。
譯者介紹
陳峻(Julian Chen),51CTO社區編輯,具有十多年的IT項目實施經驗,善于對內外部資源與風險實施管控,專注傳播網絡與信息安全知識與經驗。
原文標題:How to Enhance Images with Neural Networks,作者:Manish Shivanandhan































