阿里最新圖生視頻模型效果好得可比肩Sora,但0代碼“假”開源讓國內外網友罵翻了天?
整理 | 凌敏、核子可樂
近日,阿里巴巴集團智能計算研究院上線了一款 AI 圖生視頻模型 EMO(Emote Portrait Alive)。據悉,EMO 是一種富有表現力的音頻驅動型肖像視頻生成框架,用戶用戶只需要提供一張照片和一段任意音頻文件,EMO 即可生成具有豐富面部表情和多種頭部姿態的語音頭像視頻。此外,EMO 還可以根據輸入音頻的長度生成任意長度的視頻。
在阿里給出的示例中,奧黛麗·赫本深情吟唱:
小李子演唱超“燙嘴”Rap《哥斯拉》:
蒙娜麗莎聲情並茂地演講:
高啟強化身羅翔普法:
據瞭解,為了訓練這套模型,阿里建立起一套龐大且多樣化的音頻視頻數據集,共收集了超過 250 小時的視頻與超過 1.5 億張圖像。這套龐大的數據集涵蓋廣泛內容,包括演講、影視片段、歌唱表演,並涵蓋漢語、英語等多種語言。豐富多樣的語音和歌唱視頻確保訓練素材能夠涵蓋廣泛的人類表情與聲樂風格,為 EMO 模型的開發提供堅實基礎。
論文:https://arxiv.org/abs/2402.17485
目前,EMO 相關論文已發表於 arXiv,同時在 GitHub 上出現了同名疑似開源的repo,該項目 GitHub Star 數已達到 3.6 k,但仍然是空倉。這也引起了一部分開發者的不滿,質疑其是“假開源”。
GitHub:https://github.com/HumanAIGC/EMO
![](https://img1.headline01.com/images/32/8d/328d23631ad64953c6219d929a83be3c433152b6.jpg?wx_fmt=png&from=appmsg)
![](https://img1.headline01.com/images/54/0d/540d57f9af453c0d5f1ea8f1ab45c71f2cf9c2ad.jpg?wx_fmt=jpeg&from=appmsg)
![](https://img1.headline01.com/images/e2/e4/e2e47a1c1a0ec64c59d6b5960aa3397bd72d60ed.jpg?wx_fmt=png&from=appmsg)
目前,EMO 的 issues 中充滿了抱怨,有開發者認為,如果該模型效果不好,也不會引來這麼多“罵聲”,大家對 EMO GitHub 空倉事件反應越大,越說明大家對 EMO 源碼感興趣,也側面認可了 EMO 的效果。
也有開發者表示可以接受 EMO 不開源,開放 API 接口就行,並表示願意為其付費。
有專家指出,如果沒有開源計劃,請不要放空的 GitHub repo;如果有開源計劃,最好整理完再開源。
![](https://img1.headline01.com/images/7c/06/7c069e047e2d039af720be1ecdb318fa68371242.jpg?wx_fmt=jpeg)
![](https://img1.headline01.com/images/8e/09/8e09329b66d75716d283698a132e2123990a7691.jpg?wx_fmt=png&from=appmsg)
阿里在論文中詳細介紹了 EMO 的訓練過程。
據介紹,阿里希望建立一套創新型語音頭像框架,旨在捕捉廣泛且真實的面部表情,包括各種細緻的微表情,同時配合自然的頭部運動,保證生成的頭像視頻獲得無與倫比的表現力。為了實現這個目標,阿里提出一種新的擴散模型生成能力應用方法,可以直接根據給定的圖像和音頻片段合成角色頭像視頻。
這種方法擺脫了對中間表示或複雜預處理的高度依賴,簡化了語音頭像視頻的創建過程,其成果表現出極高的視覺和情感保真度,能夠與音頻中存在的細微動態緊密匹配。音頻信號實際已經包含與面部表情相關的信息,理論上足以支持模型生成各種富有表現力的面部動作。
此外,阿里還在模型中添加了穩定的控制機制,即速度控制器與面部區域控制器,旨在增強生成過程中的穩定性。這兩個控制器將充當超參數,以微妙的方式控制信號,保證不致損害最終生成視頻的多樣性與表現力。為了確保生成視頻中的角色與輸入參考圖像保持一致,阿里還設計並採用了類似的 FrameEncoding 模塊以增強 ReferenceNet 方法,藉此讓角色在整段視頻中始終保持穩定。
擴散模型在各個領域都展現出卓越的功能,包括圖像合成、圖像編輯、視頻生成乃至 3D 內容生成等。其中的 Stable Diffusion(穩定擴散,簡稱 SD)更是堪稱典型案例,在利用大型文本圖像數據集進行廣泛訓練之後,採用 UNet 架構迭代生成的模型獲得了強大的文本到圖像生成能力。這些預訓練模型目前已被廣泛應用於各類圖像與視頻生成任務當中。
此外,近期一些工作還採用了 DiT(Diffusion-in-Transformer),這種方法使用包含時間模塊和 3D 卷積的 Transformer 對 UNet 進行增強,從而支持更大規模的數據與模型參數。通過從零開始訓練整個文本到視頻模型,其實現了卓越的視頻生成結果。此外,也有研究深入探索瞭如何應用擴散模型生成語音頭像視頻並獲得了不錯的效果,這再次凸顯出此類模型在創建逼真頭像視頻方面的強大能力。
音頻驅動的頭像生成技術大致可以分為兩種具體方法——基於視頻的方法與基於單圖像的方法。基於視頻的語音頭像生成允許對輸入的視頻片段進行直接編輯。例如,Wav2Lip 就使用音頻 - 唇形同步鑑別器,可根據音頻重新生成視頻中的唇部運動。但它的侷限性在於嚴重依賴基礎視頻,導致頭部無法自由運動而僅改變嘴部活動,這自然會限制觀感的真實性。
至於單圖像頭像生成,則是利用參考照用來生成與之相符的動態視頻。其基本原理是通過學習混合形狀與頭部姿態來分別生成頭部運動和麵部表情,然後藉此創建 3D 面部網格,以此作為指導最終視頻幀生成的中間表示。同樣的,3D Morphable Model(3DMM)則作為生成語音頭部視頻的中間表示。這種方法的常見問題,就是 3D 網格的表現力有限,同樣會限制生成視頻的整體表現力與真實感。
此外,這兩種方法均基於非擴散模型,這進一步限制了生成結果的實際表現。儘管過程中也嘗試使用擴散模型來生成語音頭像,但結果並未被直接應用於圖像幀,而是藉此生成 3DMM 的係數。與前兩種方法相比,Dreamtalk 在結果上有所改進,但仍無法實現高度自然的面部視頻生成。
EMO 框架主要由兩個階段組成。在稱為幀編碼的初始階段,ReferenceNet 用於從參考圖像和運動幀中提取特徵。在隨後的擴散過程階段,預訓練的音頻編碼器負責處理音頻嵌入。面部區域掩模與多幀噪聲集成則控制面部圖像的生成。接下來是使用 Backbone Network 主幹網絡來促進去噪操作。在主幹網絡中應用到兩種形式的注意力機制:參考注意力和音頻注意力。這些機制分別對應維持角色身份和調節角色動作。此外,Temporal Modules 時間模塊用於操縱時間維度並調整運動速度。
![](https://img1.headline01.com/images/47/81/4781c7edb375818dc66582f6ff990d1f1b27cd8b.jpg?wx_fmt=png&from=appmsg)
具體來說,EMO 採用 Stable Diffusion(SD)作為基礎框架。SD 是一種被廣泛使用的文本到圖像(T2I)模型,由 Latent Diffusion Model(LDM)發展而來。其利用自動編碼器 Variational Autoencoder(VAE)將原始圖像的特徵分佈 x0 映射至潛在空間 z0,將圖像編碼為 z0=E(x0),並將潛在特徵重建為 x0=D(z0)。這種架構能夠降低計算成本,同時保持更高的視覺保真度。
基於 Denoising Diffusion Probabilistic Model (去噪擴散概率模型,簡稱 DDPM) 或 Denoising Diffusion Implicit Model (去噪擴散隱式模型,簡稱 DDIM) 方法,SD 能夠將高斯噪聲ε引入至潛在 z0,從而在特定時步上產生帶噪聲的潛在 zt。在推理過程中,SD 會消除潛在 zt 中的噪聲ε,並結合文本控制以通過集成文本特徵來達成預期結果。整個去噪過程的訓練目標表示為:
![](https://img1.headline01.com/images/5f/07/5f07e0ce7744ced720fb880c8809d9f2cda6c88e.jpg?wx_fmt=png&from=appmsg)
整個訓練過程分為三個階段。第一階段為圖像預訓練,其中主幹網絡、ReferenceNet 和麵部定位器被標記在訓練當中。在此階段,主幹將單個幀作為輸入,而 ReferenceNet 則處理隨機選取自一視頻片段中的另一不同幀。主幹與 ReferenceNet 都以原始 SD 為基礎初始化權重。在第二階段,阿里引入了視頻訓練,在其中將時間模塊與音頻層相結合,從視頻片段中採樣 n+f 個連續幀,其中開始的 n 幀為運動幀。
時間模塊從 AnimateDiff 初始化權重。在最後一個階段,速度層被整合進來,阿里在此階段只訓練時間模塊與速度層。作為一項重要決策,團隊決定故意在訓練過程中省略掉音頻層。這是因為說話人的表情、嘴部動作和頭部運動的頻率主要受音頻影響。因此,這些元素之間似乎具有相關性,可能會提示模型根據速度信號、而非音頻來驅動角色的運行。最終的實驗結果也表明,在訓練中同時引入速度層和音頻層會破壞音頻對角色運動的驅動效果。
與幾款領先頭像生成模型間的量化比較結果:
測試結果表明,EMO 在視頻質量方面具有顯著優勢,其中 FVD 得分越低則表明質量越好。此外,阿里的方法在單個幀質量上同樣優於其他方法,其中 FID 得分越高則表明質量越好。儘管在 SyncNet 指標上未能獲得最高分,但阿里的方法在面部表情生動度方面仍表現出色,對應表中的 E-FID 得分(越低越好)。
配合長時間、高音質音頻片段,EMO 方法生成的結果。在每個片段中,角色均由高音質音頻驅動創建,例如歌唱音頻。每個片段的時長約為 1 分鐘。
與 Diffused Heads 的比較,生成的片段時長為 6 秒。Diffused Heads 的生成結果分辨率較低,且生成幀會受到錯誤累積的影響。
不過,該方法仍有一定侷限性。首先,與不依賴擴散模型的方法相比,EMO 更為耗時。其次,由於阿里未使用任何明確的控制信號來引導角色運行,因此可能會無意中生成其他身體部位(例如手部),從而導致視頻結果中出現偽影。此問題的一個潛在解決方案,就是採用專門針對身體部位的控制信號。
參考鏈接:
https://humanaigc.github.io/emote-portrait-alive/
https://arxiv.org/abs/2402.17485
為了提供更豐富多元的交流平臺,QCon 全球軟件開發大會將不再侷限於傳統的分享與研討模式,而是全面整合為集技術分享、深度研討和前沿展覽於一體的綜合性會展活動,並正式更名為【QCon 全球軟件開發大會暨智能軟件開發生態展】。
同時,會議正式改期為:2024 年 4 月 11-13 日,地點:北京·國測國際會議會展中心。
![](https://img1.headline01.com/images/bf/79/bf7977dc9fc7e3b4cee3481998cb221d98c9e382.jpg?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1)
目前會議已進入 8 折早鳥購票階段,聯繫票務經理 17310043226 。同時,3 月 1 日(本週五)關於「會展」新模式的首場直播也將閃亮登場,點擊下方卡片進行預約。
點擊閱讀原文可瞭解大會更多詳情,期待與各位開發者現場交流。
今日薦文
![](https://img1.headline01.com/images/7b/a3/7ba34b733df990fe75b47f5a2b14f5683b208d01.jpg?wx_fmt=gif&wxfrom=5&wx_lazy=1)
你也「在看」嗎? 👇