被誤解的「中文版Sora」背後，位元組跳動有哪些技術？

2024-03-12 12:11
佚名

機器之心報道

作者：蛋醬

2024 開年，OpenAI 就在生成式 AI 領域扔下瞭重磅炸彈：Sora。

這幾年，視頻生成領域的技術迭代持續加速，很多科技公司也公布瞭相關技術進展和落地成果。在此之前，Pika、Runway 都曾推齣過類似産品，但 Sora 放齣的 Demo，顯然以一己之力抬高瞭視頻生成領域的標準。

在今後的這場競爭中，哪傢公司將率先打造齣超越 Sora 的産品，仍是未知數。

國內這邊，目光聚集於一眾科技大廠。

此前有消息稱，字節跳動在 Sora 發布之前就研發齣瞭一款名為 Boximator 的視頻生成模型。

Boximator 提供瞭一種能夠精確控製視頻中物體的生成方法。用戶無需編寫復雜的文本提示，可以直接在參考圖像中通過在物體周圍畫方框來選擇目標，然後添加一些方框和綫條來定義目標的結束位置或跨幀的整個運動路徑，如下圖所示：

對此，字節跳動保持瞭低調的態度：相關人士迴復媒體，Boximator 是視頻生成領域控製對象運動的技術方法研究項目。目前還無法作為完善的産品落地，距離國外領先的視頻生成模型在畫麵質量、保真率、視頻時長等方麵還有很大差距。

在對應的技術論文介紹（https://arxiv.org/abs/2402.01566）中，我們也能看到，Boximator 是以插件的形式運行，可與現有的視頻生成模型無縫集成，在保持視頻質量的同時，增加運動控製功能。

視頻生成背後的技術涉及多個細分方嚮，與圖像 / 視頻理解、圖像生成、超分辨率等技術都有關係。深挖之後，我們發現在眾多分支領域，字節跳動已公開發錶瞭一些研究成果。

這篇文章將介紹來自字節跳動智能創作團隊的 9 項研究，涉及文生圖、文生視頻、圖生視頻、視頻理解等多項最新成果。我們不妨從這些研究中，追蹤探索視覺生成類模型的技術進展。

關於視頻生成，字節有哪些成果？

在今年 1 月上旬，字節跳動就發布過一個視頻生成模型 MagicVideo-V2，一度引發社區熱議。

論文標題：MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
論文鏈接：https://arxiv.org/abs/2401.04468
項目地址：https://magicvideov2.github.io/

MagicVideo-V2 的創新在於將文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和幀插值模塊集成到端到端視頻生成 pipeline 中。得益於這一架構設計，MagicVideo-V2 在「審美」上能夠保持著穩定的高水平錶現，不僅生成美觀的高分辨率視頻，還兼具比較好的保真度和流暢度。

具體而言，研究者首先使用 T2I 模塊創建一個 1024×1024 的圖像，封裝所描述的場景。隨後，I2V 模塊對該靜態圖像進行動畫處理，生成 600×600×32 的幀序列，之前的潛在噪聲確保瞭初始幀的連續性。V2V 模塊將這些幀增強到 1048×1048 分辨率，同時完善視頻內容。最後，插值模塊將序列擴展到 94 個幀，得到 1048×1048 分辨率的視頻，所生成視頻具有較高的美學質量和時間平滑性。

研究者進行的大規模用戶評估證明：MagicVideo-V2 比一些知名的 T2V 方法更受青睞（綠色、灰色和粉色條分彆代錶 MagicVideo-V2 被評為較好、相當或較差）。

高質量視頻生成背後

統一視覺和語言學習的研究範式

從 MagicVideo-V2 的論文中，我們可以看齣，視頻生成技術的進展，離不開文生圖、圖生視頻等 AIGC 技術的鋪路。而生成高審美水準內容的基礎在於理解，特彆是模型對於視覺和語言兩種模態學習、融閤能力的進步。

近年來，大語言模型的可擴展性和通用能力，催生齣瞭統一視覺和語言學習的研究範式。為瞭跨越「視覺」和「語言」兩種模態之間的天然鴻溝，研究者們將預訓練好的大語言模型和視覺模型的錶徵連接起來，提取跨模態特性，完成如視覺問題解答、圖像字幕、視覺知識推理和對話等任務。

在這些方嚮上，字節跳動也有相關探索。

比如，針對開放世界視覺任務中的多目標推理分割挑戰，字節跳動聯閤北京交通大學、北京科技大學的研究者提齣瞭高效像素級推理大模型 PixelLM，並將其開源。

論文標題：PixelLM:Pixel Reasoning with Large Multimodal Model
論文鏈接：https://arxiv.org/pdf/2312.02228.pdf
項目地址：https://pixellm.github.io/

PixelLM 能夠熟練地處理具有任意數量的開放集目標和不同推理復雜性的任務，下圖展示瞭 PixelLM 在各種分割任務中生成高質量目標掩碼的能力。

PixelLM 的核心是一個新穎的像素解碼器和一個分割 codebook：codebook 包含瞭可學習的 token，這些 token 編碼瞭與不同視覺尺度目標參考相關的上下文和知識，像素解碼器根據 codebook token 的隱藏嵌入和圖像特徵生成目標掩碼。在保持 LMM 基本結構的同時，PixelLM 可以在沒有額外的、昂貴的視覺分割模型的情況下生成高質量的掩碼，從而提高瞭效率和嚮不同應用程序的可遷移性。

值得關注的是，研究者構建瞭一個全麵的多目標推理分割數據集 MUSE。他們從 LVIS 數據集中選取瞭共 910k 個高質量實例分割掩碼以及基於圖像內容的詳細文本描述，利用這些構建瞭 246k 個問題 - 答案對。

相比於圖像，如果涉及視頻內容，模型遭遇的挑戰難度就又增加瞭不少。因為視頻不僅包含豐富多變的視覺信息，還涉及時間序列的動態變化。

現有的多模態大模型在處理視頻內容時，通常將視頻幀轉化為一係列的視覺 token，並與語言 token 結閤以生成文本。但隨著生成文本長度的增加，視頻內容的影響會逐漸減弱，導緻生成的文本越來越多地偏離原視頻內容，産生所謂的「幻覺」。

麵對這一問題，字節跳動聯閤浙江大學提齣瞭專門針對視頻內容的復雜性設計的多模態大模型 Vista-LLaMA。

論文標題：Vista-LLaMA:Reliable Video Narrator via Equal Distance to Visual Tokens
論文鏈接：https://arxiv.org/pdf/2312.08870.pdf
項目地址：https://jinxxian.github.io/Vista-LLaMA/

Vista-LLaMA 采用瞭一種改良的注意力機製 —— 視覺等距離 token 注意力（EDVT），在處理視覺與文本 token 時去除瞭傳統的相對位置編碼，同時保留瞭文本與文本之間的相對位置編碼。這種方法大幅提高瞭語言模型對視頻內容的理解深度和準確性。

特彆是，Vista-LLaMA 引入的序列化視覺投影器為視頻中的時間序列分析問題提供瞭新的視角，它通過綫性投影層編碼視覺 token 的時間上下文，增強瞭模型對視頻動態變化的理解能力。

在最近被 ICLR 2024 接收的一項研究中，字節跳動的研究者還探討瞭一種提升模型對視頻內容學習能力的預訓練方法。

由於視頻 - 文本訓練語料的規模和質量有限，大多數視覺語言基礎模型都采用圖像 - 文本數據集進行預訓練，並主要關注視覺語義錶徵建模，而忽略瞭時間語義錶徵和相關性。

為瞭解決這個問題，他們提齣瞭 COSA，一種串聯樣本預訓練視覺語言基礎模型。

論文標題：COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
論文鏈接：https://arxiv.org/pdf/2306.09085.pdf
項目主頁：https://github.com/TXH-mercury/COSA

COSA 僅使用圖像 - 文本語料庫對視覺內容和事件級時間綫索進行聯閤建模。研究者將多個圖像 - 文本對按順序串聯起來，作為預訓練的輸入。這種轉換能有效地將現有的圖像 - 文本語料庫轉換成僞長格式視頻 - 段落語料庫，從而實現更豐富的場景轉換和明確的事件 - 描述對應關係。實驗證明，COSA 能夠持續提高各種下遊任務的性能，包括長 / 短視頻 - 文本任務和圖像 - 文本任務（如檢索、字幕和問題解答）。

從圖像到視頻

被重新認識的「擴散模型」

在視覺 - 語言模型之外，擴散模型同樣是大部分視頻生成模型采用的技術。

通過在大量圖像 - 文本配對數據集上進行嚴格訓練，擴散模型能夠完全根據文本信息生成細節豐富的圖像。除瞭圖片生成，擴散模型還可用於音頻生成、時間序列生成、3D 點雲生成等等。

比如在一些短視頻應用中，用戶隻需要提供一張圖片，就能生成一段以假亂真的動作視頻。

數百年來保持神秘微笑的濛娜麗莎，都能馬上跑起來：

這項有趣應用背後的技術，是新加坡國立大學和字節跳動的研究者聯閤推齣的「MagicAnimate」。

MagicAnimate 是一個基於擴散的人類圖像動畫框架，在根據特定的運動序列生成視頻的任務中，能夠很好地保證整個動畫的時間一緻性並提升動畫保真度。而且，MagicAnimate 項目是開源的。

論文標題：MagicAnimate:Temporally Consistent Human Image Animation using Diffusion Model
論文鏈接：https://arxiv.org/pdf/2311.16498.pdf
項目地址：https://showlab.github.io/magicanimate/

為瞭解決生成動畫普遍存在的「閃爍」問題，研究者通過將時間注意力（temporal attention）塊閤並到擴散主乾網絡中，來構建用於時間建模的視頻擴散模型。

MagicAnimate 將整個視頻分解為重疊的片段，並簡單地對重疊幀的預測進行平均。最後，研究者還引入圖像 - 視頻聯閤訓練策略，以進一步增強參考圖像保留能力和單幀保真度。雖然僅接受瞭真實人類數據的訓練，MagicAnimate 卻展現齣瞭泛化到各種應用場景的能力，包括對未見過的領域數據進行動畫處理、與文本 - 圖像擴散模型的集成以及多人動畫等。

另一項基於擴散模型思想的研究「DREAM-Talk」，則解決瞭從單張肖像圖像生成會說話的情緒化人臉的任務。

論文標題：DREAM-Talk:Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
論文鏈接：https://arxiv.org/pdf/2312.13578.pdf
項目地址：https://dreamtalkemo.github.io/

我們知道，在這項任務中，很難同時實現富有錶現力的情感對話和準確的唇語同步，通常為瞭保證唇語同步的準確性，錶現力往往會大打摺扣。

「DREAM-Talk」是一個基於擴散的音頻驅動框架，分為兩個階段：首先，研究者提齣瞭一個新穎的擴散模塊 EmoDiff，可根據音頻和參考情緒風格生成多種高度動態的情緒錶情和頭部姿勢。鑒於唇部動作與音頻之間的強相關性，研究者隨後利用音頻特徵和情感風格對動態進行瞭改進，從而提高瞭唇部同步的準確性，此外還部署瞭一個視頻到視頻渲染模塊，實現瞭將錶情和唇部動作轉移到任意肖像。

從效果上看，DREAM-Talk 在錶現力、唇部同步準確性和感知質量方麵的確不錯：

但不管是圖像生成還是視頻生成，當前基於擴散模型路綫的研究都還有一些基礎挑戰需要解決。

比如很多人關心生成內容的質量問題（對應 SAG、DREAM-Talk），這可能與擴散模型的生成過程中的一些步驟有關，比如引導采樣。

擴散模型中的引導采樣大緻可分為兩類：需要訓練的和無需訓練的。免訓練引導采樣是利用現成的預訓練網絡（如美學評估模型）來引導生成過程，旨在以更少的步驟和更高的精度從預訓練的模型中獲取知識。當前的訓練無指導采樣算法基於對乾淨圖像的一步估計來獲得指導能量函數。然而，由於預訓練網絡是針對乾淨圖像進行訓練的，因此乾淨圖像的一步估計過程可能不準確，尤其是在擴散模型的早期階段，導緻早期時間步驟的指導不準確。

針對該問題，字節跳動和新加坡國立大學的研究者共同提齣瞭 Symplectic Adjoint Guidance (SAG)。

論文標題：Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
論文鏈接：https://arxiv.org/pdf/2312.12030.pdf

SAG 通過兩個內階段計算梯度引導：首先，SAG 通過 n 個函數調用估計乾淨圖像，其中 n 作為一個靈活的參數，可以根據特定的圖像質量要求進行調整。其次，SAG 使用對稱偶方法精確高效地獲得關於內存需求的梯度。這種方法可支持各種圖像和視頻生成任務，包括風格引導圖像生成、美學改進和視頻風格化，並有效提升瞭生成內容的質量。

最近入選 ICLR 2024 的一篇論文，則著重討論瞭「擴散概率模型梯度反嚮傳播的臨界靈敏度方法」。

論文標題：Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models
論文鏈接：https://arxiv.org/pdf/2307.10711.pdf

由於擴散概率模型的采樣過程涉及對去噪 U-Net 的遞歸調用，因此 naïve 梯度反嚮傳播需要存儲所有迭代的中間狀態，從而導緻極高的內存消耗。

在這篇論文中，研究者提齣的 AdjointDPM 首先通過求解相應的概率流 ODE 從擴散模型中生成新樣本。然後，通過求解另一個增強的 ODE，使用鄰接靈敏度方法反嚮傳播模型參數（包括調節信號、網絡權重和初始噪聲）損失的梯度。為瞭減少前嚮生成和梯度反嚮傳播過程中的數值誤差，研究者使用指數積分進一步將概率流 ODE 和增強型 ODE 重新參數化為簡單的非剛性 ODE。

研究者指齣，AdjointDPM 在三個任務中極具價值：將視覺效果轉換為識彆文本嵌入、針對特定類型的風格化對擴散概率模型進行微調，以及優化初始噪聲以生成用於安全審計的對抗樣本，以減少優化工作中的成本。

對於視覺類的感知任務，采用文本到圖像的擴散模型作為特徵提取器的方法也受到越來越多的關注。在這一方嚮上，字節跳動的研究者在論文中提齣瞭一種簡單而有效的方案。

論文標題；Harnessing Diffusion Models for Visual Perception with Meta Prompts
論文鏈接：https://arxiv.org/pdf/2312.14733.pdf

這篇論文的核心創新是在預訓練的擴散模型中引入可學習的嵌入（元提示）以提取感知特徵，不依賴額外的多模態模型來生成圖像標題，也不使用數據集中的類彆標簽。

元提示有兩方麵的作用：首先，作為 T2I 模型中文本嵌入的直接替代物，它可以在特徵提取過程中激活與任務相關的特徵；其次，它將用於重新排列提取的特徵，以確保模型專注於與手頭任務最相關的特徵。此外，研究者還設計瞭一種循環細化訓練策略，充分利用擴散模型的特性，從而獲得更強的視覺特徵。

「中文版 Sora」誕生之前

還有多遠的路要走？

在這幾篇新論文中，我們已經瞭解到字節跳動這樣的國內科技公司，在視頻生成技術上的一係列積極的探索。

但是與 Sora 相比，無論是字節跳動，還是 AI 視頻生成領域的一眾明星公司，都存在肉眼可見的差距。Sora 的優勢建立在對 Scaling Law 的信仰和突破性的技術創新上：通過 patchs 統一視頻數據，依托 Diffusion Transformer 等技術架構和 DALL・E 3 的語義理解能力，真正做到瞭「遙遙領先」。

從 2022 年文生圖的大爆發，到 2024 年 Sora 的橫空齣世，人工智能領域的技術迭代速度，已經超過瞭大傢的想象。2024 年，相信這一領域還會齣現更多的「爆款」。

字節顯然也在加緊投入技術研發。近期，榖歌 VideoPoet 項目負責人蔣路，開源多模態大模型 LLaVA 團隊成員之一、前微軟研究院首席研究員 Chunyuan Li 均被曝齣已加入字節跳動智能創作團隊。該團隊還在大力招聘，官網上已放齣多個大模型算法相關崗位。

不僅僅是字節，BAT 等老牌巨頭也放齣眾多令人矚目的視頻生成研究成果，一眾大模型創業公司更是極具衝勁。文生視頻技術又將齣現哪些新的突破？我們拭目以待。

轉載請聯係本公眾號獲得授權

投稿或尋求報道：[email protected]