CVPR 2024｜讓圖像擴散模型生成高質量360度場景，只需要一個語言模型

2024-06-11 06:18
機器之心

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯繫報道。投稿郵箱：[email protected]；[email protected]

蔡志鵬博士（https://zhipengcai.github.io/）是美國英特爾研究院的研究員，博士畢業於澳大利亞阿德萊德大學。他的研究興趣包括魯棒視覺感知，持續學習和生成模型等。他的工作已在領域頂級會議雜誌上發表超過15篇。其中5篇文章被選爲頂級會議（ECCV18*2，ICCV19，ICLR24，CVPR24）口頭或特邀報告，對魯棒估計計算複雜度的理論證明工作被選爲ECCV18 12篇最佳論文之一。

360 度場景生成是計算機視覺的重要任務，主流方法主要可分爲兩類，一類利用圖像擴散模型分別生成 360 度場景的多個視角。由於圖像擴散模型缺乏場景全局結構的先驗知識，這類方法無法有效生成多樣的 360 度視角，導致場景內主要的目標被多次重複生成，如圖 1 的牀和雕塑。

圖 1. 缺乏場景全局結構的先驗知識導致一個臥室出現多張牀，一個公園出現多個雕塑。

另一類方法將 360 度場景用一張 Equirectangular Image 來表示，並用 GAN 或擴散模型直接生成。由於該表徵的侷限性，這類方法通常無法有效完成 360 度閉環（如圖 2 每張圖片的中間部分），導致 360 度的連接處出現明顯的分界線。同時由於缺少大規模訓練數據，這類方法有時無法生成複合輸入條件的場景。最後，這類方法通常只能接受文字作爲輸入。

圖 2. 現有方法的閉環問題.

爲了解決這些問題，來自美國英特爾研究院的 Zhipeng Cai 等人提出了 L-MAGIC（Language Model Assisted Generation of Images with Coherence），通過使用語言模型控制圖像擴散模型有效實現高質量、多模態、零樣本泛化的 360 度場景生成。L-MAGIC 的 live demo 已被選爲英特爾公司 2024 年的 5 個技術突破之一，在 ISC HPC 2024 上展示。該論文已被 CVPR 2024 接收。

項目主頁：https://zhipengcai.github.io/MMPano
代碼：https://github.com/IntelLabs/MMPano
論文地址：https://arxiv.org/pdf/2406.01843
Youtube 視頻介紹：https://youtu.be/XDMNEzH4-Ec
Intel ISC HPC 2024 live demo：https://www.intel.com/content/www/us/en/events/supercomputing.html

方法概覽

如圖 3 所示，L-MAGIC 是一個結合了語言模型及擴散模型的場景生成框架。L-MAGIC 通過自然圖像連接各類不同模態的輸入。當輸入不是一張自然圖像時，L-MAGIC 使用成熟的條件擴散模型如 ControlNet 從各種模態的輸入（文字，手繪草圖，深度圖等等）生成一張自然圖像。

圖 3.L-MAGIC 流程圖。

在獲得自然圖像之後，L-MAGIC 通過 iterative warping and inpainting 來生成 360 度場景的多個視角。在每一個 iteration 中，warping step 將已生成的多視角 warp 到一個新的視角，實例中的黑色部分代表新視角中的缺失像素。Inpainting step 使用基於擴散的圖像 inpainting 模型（Stable Diffusion v2）生成缺失像素。爲了使圖像擴散模型能夠生成多樣的全局場景結構，L-MAGIC 使用語言模型控制擴散模型在每個視角需要生成的場景內容。

除了生成 360 度場景的全景圖，利用深度估計模型，L-MAGIC 還能夠生成包含相機旋轉及平移的沉浸式視頻，以及場景的三維點雲。由於無需微調，L-MAGIC 能夠有效地保持語言及擴散模型的泛化性，實現多樣化場景的高質量生成。

L-MAGIC 的核心是使用語言模型全自動地控制擴散模型。如圖 4 所示若用戶未提供場景的文字描述，L-MAGIC 使用視覺語言模型（如 BLIP-2）基於輸入圖像獲得場景的整體描述（line 2）。

獲得場景描述後，L-MAGIC 使用如 ChatGPT 的語言模型（開源代碼已支持 ChatGPT-3.5、ChatGPT-4、Llama3），使其根據整體場景描述生成各個視角的描述（line 3），並決定對該場景是否需要防止重複物體的生成（line 5，如樹林裏各個視角都是樹是合理的，但臥室有 5 張牀就比較少見，L-MAGIC 利用大語言模型的泛化性能自適應地規避不合理的重複目標）。

由於擴散模型訓練數據的 bias，有時擴散模型的輸出無法完全符合語言模型的 prompt 要求。爲了解決該問題，L-MAGIC 再次使用視覺語言模型監督擴散模型的輸出（line 14-18），如果擴散模型的輸出不符合語言模型的要求，L-MAGIC 會重新進行當前視角的生成。