從「對(duì)口型」到「會(huì)表演」，剛進(jìn)化的可靈AI數(shù)字人，技術(shù)公開了

2025-09-16 09:06:00

近日，快手可靈團(tuán)隊(duì)把這一構(gòu)想帶到了現(xiàn)實(shí)。全新數(shù)字人功能已在可靈平臺(tái)開啟公測，目前逐步放量中。

讓數(shù)字人的口型隨著聲音一開一合早已不是新鮮事。更令人期待的，是當(dāng)明快的旋律響起，它會(huì)自然揚(yáng)起嘴角，眼神含笑；當(dāng)進(jìn)入說唱段落，它會(huì)隨著鼓點(diǎn)起伏，肩膀與手臂有節(jié)奏地帶動(dòng)氣氛。觀眾看到的不再只是嘴在動(dòng)，而是整個(gè)人在表演。這種表現(xiàn)不僅限于幾個(gè)片段，而是能夠穩(wěn)定地延續(xù)到分鐘級(jí)長視頻中，在整段時(shí)間里保持動(dòng)作自然、鏡頭流暢。

近日，快手可靈團(tuán)隊(duì)把這一構(gòu)想帶到了現(xiàn)實(shí)。全新數(shù)字人功能已在可靈平臺(tái)開啟公測，目前逐步放量中。技術(shù)報(bào)告 Kling-Avatar 與項(xiàng)目主頁也已同步發(fā)布。報(bào)告系統(tǒng)解析了可靈數(shù)字人背后的技術(shù)路徑，闡明如何讓一個(gè)只能跟著聲音對(duì)口型的模型，進(jìn)化為能夠按照用戶意圖進(jìn)行生動(dòng)表達(dá)的解決方案。

null

可靈數(shù)字人產(chǎn)品界面。網(wǎng)址：https://app.klingai.com/cn/ai-human/image/new

null

論文地址：https://arxiv.org/abs/2509.09595
項(xiàng)目主頁：https://klingavatar.github.io/

首先看一些效果：

實(shí)現(xiàn)這些驚艷效果的背后，是快手可靈團(tuán)隊(duì)精心設(shè)計(jì)的一套多模態(tài)大語言模型賦能的兩階段生成框架。

多模態(tài)理解，讓指令變成可執(zhí)行的故事線

借助多模態(tài)大語言模型在生成與理解一體化上的能力，Kling-Avatar 設(shè)計(jì)了一個(gè)多模態(tài)導(dǎo)演模塊（MLLM Director），把三類輸入組織成一條清晰的故事線：從音頻中提取語音內(nèi)容與情感軌跡；從圖像中識(shí)別人像特征與場景元素；將用戶的文字提示融入動(dòng)作方式、鏡頭語言、情緒變化等要素。導(dǎo)演模塊產(chǎn)出的結(jié)構(gòu)化劇情描述，通過文本跨注意力層注入到視頻擴(kuò)散模型中，生成一段全局一致的藍(lán)圖視頻，明確整段內(nèi)容的節(jié)奏、風(fēng)格與關(guān)鍵表達(dá)節(jié)點(diǎn)。

null

Kling-Avatar 方案框架。由多模態(tài)大語言模型 (MLLMs) 賦能的 MLLM Director 首先將多模態(tài)指令解釋為全局語義和連貫的故事線，基于該全局規(guī)劃生成一個(gè)藍(lán)圖視頻，然后從藍(lán)圖視頻中提取首尾幀作為條件控制，并行生成子段視頻。

兩階段級(jí)聯(lián)生成的長視頻生成框架

藍(lán)圖視頻生成后，系統(tǒng)在視頻流中根據(jù)身份一致性、動(dòng)作多樣性、避免遮擋、表情清晰等條件，自動(dòng)挑選若干高質(zhì)量關(guān)鍵幀。每相鄰兩幀作為首尾幀條件，用于生成一個(gè)子段落。所有子段落根據(jù)各自的首尾幀并行合成，最后拼接得到完整視頻。為避免首尾幀處畫面與實(shí)際音頻節(jié)拍的錯(cuò)位，方法還引入音頻對(duì)齊插幀策略，保證口型與聲學(xué)節(jié)奏的幀級(jí)同步。

此外，團(tuán)隊(duì)還精心設(shè)計(jì)了一系列訓(xùn)練和推理策略，保證視頻生成過程中音頻與口型的對(duì)齊和身份一致性：

口型對(duì)齊：將音頻切分成與幀片段對(duì)齊的子段，通過滑窗方式注入音頻特征；自動(dòng)檢測嘴部區(qū)域加權(quán)去噪損失；通過對(duì)視頻幀做手動(dòng)擴(kuò)展，增強(qiáng)畫面中人臉占比較小情況下的對(duì)齊效果，進(jìn)一步提升口型對(duì)齊任務(wù)在遠(yuǎn)景場景下的適應(yīng)能力。
文本可控性：凍結(jié)文本跨注意力層參數(shù)，避免基座視頻生成模型在專門數(shù)據(jù)上過擬合而弱化文本控制。
身份一致性：在推理階段對(duì)參考圖像構(gòu)造 “退化負(fù)樣本”，作為負(fù)向 CFG，抑制紋理拉花、飽和度漂移等身份漂移模式。

訓(xùn)練與測評(píng)數(shù)據(jù)管線

為了獲得多樣高質(zhì)量的訓(xùn)練數(shù)據(jù)，團(tuán)隊(duì)從演講、對(duì)話、歌唱等高質(zhì)量語料庫中收集數(shù)千小時(shí)視頻，并訓(xùn)練多種專家模型用于從嘴部清晰度、鏡頭切換、音畫同步與美學(xué)質(zhì)量等多個(gè)維度檢測數(shù)據(jù)的可靠性。對(duì)專家模型篩選出的視頻，再進(jìn)行一遍人工復(fù)核，得到數(shù)百小時(shí)高質(zhì)量訓(xùn)練數(shù)據(jù)集。

為了驗(yàn)證方法的有效性，團(tuán)隊(duì)制作了一個(gè)包含 375 個(gè) “參考圖–音頻–文本提示” 的測評(píng)基準(zhǔn)，該測評(píng)基準(zhǔn)包含了豐富的輸入樣例，圖片涵蓋真人 / AI 生成圖像、不同人種、以及開放情境中的非真人數(shù)據(jù)；音頻涵蓋中 / 英 / 日 / 韓等多種語言，包含不同語速和情感的臺(tái)詞；文本提示包含多種多樣的鏡頭、人物動(dòng)作、表達(dá)情緒控制。該測評(píng)基準(zhǔn)為現(xiàn)有方法提供了極具挑戰(zhàn)性的測試場景，能夠充分評(píng)估數(shù)字人像視頻生成方法在多模態(tài)指令跟隨方面的能力，將在未來開源。

實(shí)驗(yàn)結(jié)果對(duì)比

在定量驗(yàn)證方面，團(tuán)隊(duì)精心設(shè)計(jì)了一套基于用戶偏好的 GSB（Good/Same/Bad）測評(píng)體系。對(duì)每個(gè)樣本，由三名評(píng)測者將 Kling-Avatar 與對(duì)比方法逐一比較，給出 “更好”（G)，“一樣”(S)，“更差”(B) 的判斷。最終匯報(bào) (G+S)/(B+S) 作為指標(biāo)，用以衡量 “更好或不差” 的占比。同時(shí)在四個(gè)維度給出分項(xiàng)結(jié)果：總體效果、口型同步、畫面質(zhì)量、指令響應(yīng)、身份一致。對(duì)比方法選擇最先進(jìn)的 OmniHuman-1、HeyGen 等產(chǎn)品。

null

在構(gòu)建的測評(píng)基準(zhǔn)上與 OmniHuman-1 和 HeyGen 的 GSB 可視化對(duì)比。Kling-Avatar 在絕大多數(shù)維度上取得領(lǐng)先。

null

在全部 Benchmark 和各個(gè)子測評(píng)集的 GSB 指標(biāo)對(duì)比。Kling-Avatar 全面超過 OmniHuman-1，并在絕大部分指標(biāo)上超過 HeyGen。

在多種場景的對(duì)比測試中，Kling-Avatar 所生成的唇形不僅在時(shí)序和形態(tài)上與音頻高度一致，面部表情也隨著語音的起伏變化而更顯自然。即使在發(fā)音難度較高的音節(jié)（如 “truth”，其標(biāo)準(zhǔn)發(fā)音為 [tru?θ]，[u:] 要求雙唇前突、口型小而緊）或高頻語音中的短暫靜音段落，Kling-Avatar 均能夠準(zhǔn)確還原相應(yīng)的口型狀態(tài)。

null

在 “情緒、動(dòng)作、鏡頭” 三類控制上，Kling-Avatar 能夠更準(zhǔn)確地體現(xiàn)文本提示中的意圖，在歌唱、演講等復(fù)雜場景下的動(dòng)作與鏡頭調(diào)度更加貼合語義。下圖展示了 Kling-Avatar 生成的一些視頻示例，其中包含了人物的情緒控制如 “興奮”，鏡頭控制如 “鏡頭緩慢上移”，生成結(jié)果均有良好的響應(yīng)。

null

Kling-Avatar 的另一大優(yōu)勢是長時(shí)視頻生成。因?yàn)椴捎脙呻A段生成 + 級(jí)聯(lián)并行生成的框架，因此在首先獲得藍(lán)圖視頻后，可以從藍(lán)圖視頻中選擇任意多數(shù)量的首尾幀，并行生成每個(gè)子段視頻，最后再完整拼接在一起，總生成時(shí)間理論上與一段生成時(shí)間相當(dāng)，因此可以快速穩(wěn)定的生成長視頻。下圖展示了 1 分鐘長視頻生成的例子，生成結(jié)果在動(dòng)態(tài)性，身份一致性保持，口型等各方面都獲得了令人滿意的結(jié)果。

null

總結(jié)

從 “對(duì)口型” 邁向 “會(huì)表演”，快手可靈團(tuán)隊(duì)探索出一條全新的數(shù)字人生成范式，實(shí)現(xiàn)了在分鐘級(jí)長視頻中生動(dòng)細(xì)膩、情緒飽滿、身份一致的影視級(jí)演繹。Kling-Avatar 現(xiàn)已集成到可靈平臺(tái)，歡迎移步可靈平臺(tái)體驗(yàn)新版數(shù)字人應(yīng)用，看看你的聲音和想法如何被一鏡到底地演繹出來。

近年來，快手可靈團(tuán)隊(duì)持續(xù)深耕多模態(tài)指令控制與理解的數(shù)字人視頻生成解決方案。除了 Kling-Avatar，團(tuán)隊(duì)前不久還提出實(shí)時(shí)多模態(tài)交互控制的數(shù)字人生成框架 MIDAS，二者分別在 “表達(dá)深度” 與 “響應(yīng)速度” 上實(shí)現(xiàn)了重要突破。未來，團(tuán)隊(duì)將持續(xù)推進(jìn)高分辨率、精細(xì)動(dòng)作控制、復(fù)雜多輪指令理解等方向的前沿探索，致力于讓數(shù)字人的每一次表達(dá)，都擁有真實(shí)而動(dòng)人的靈魂。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 數(shù)字人技術(shù)