CVPR 2024|讓圖像擴散模型生成高質量360度場景,只需要一個語言模型
蔡志鵬博士(https://zhipengcai.github.io/)是美國英特爾研究院的研究員,博士畢業於澳大利亞阿德萊德大學。他的研究興趣包括魯棒視覺感知,持續學習和生成模型等。他的工作已在領域頂級會議雜誌上發表超過15篇。其中5篇文章被選爲頂級會議(ECCV18*2,ICCV19,ICLR24,CVPR24)口頭或特邀報告,對魯棒估計計算複雜度的理論證明工作被選爲ECCV18 12篇最佳論文之一。360 度場景生成是計算機視覺的重要任務,主流方法主要可分爲兩類,一類利用圖像擴散模型分別生成 360 度場景的多個視角。由於圖像擴散模型缺乏場景全局結構的先驗知識,這類方法無法有效生成多樣的 360 度視角,導致場景內主要的目標被多次重複生成,如圖 1 的牀和雕塑。![](https://img1.headline01.com/images/61/7b/617b31ca1f6fa559f3a72d75f216338a1371cddb.jpg?wx_fmt=png&from=appmsg)
圖 1. 缺乏場景全局結構的先驗知識導致一個臥室出現多張牀,一個公園出現多個雕塑。另一類方法將 360 度場景用一張 Equirectangular Image 來表示,並用 GAN 或擴散模型直接生成。由於該表徵的侷限性,這類方法通常無法有效完成 360 度閉環(如圖 2 每張圖片的中間部分),導致 360 度的連接處出現明顯的分界線。同時由於缺少大規模訓練數據,這類方法有時無法生成複合輸入條件的場景。最後,這類方法通常只能接受文字作爲輸入。![](https://img1.headline01.com/images/c6/f0/c6f01cec807d12d620d24d2d5ed3bdbc2d400cad.jpg?wx_fmt=png&from=appmsg)
爲了解決這些問題,來自美國英特爾研究院的 Zhipeng Cai 等人提出了 L-MAGIC(Language Model Assisted Generation of Images with Coherence),通過使用語言模型控制圖像擴散模型有效實現高質量、多模態、零樣本泛化的 360 度場景生成。L-MAGIC 的 live demo 已被選爲英特爾公司 2024 年的 5 個技術突破之一,在 ISC HPC 2024 上展示。該論文已被 CVPR 2024 接收。![](https://img1.headline01.com/images/e5/ad/e5adba26cbf09a867e6354ea1b2dafd0e35e7d0d.jpg?wx_fmt=png&from=appmsg)
- 項目主頁:https://zhipengcai.github.io/MMPano
- 代碼:https://github.com/IntelLabs/MMPano
- 論文地址:https://arxiv.org/pdf/2406.01843
- Youtube 視頻介紹:https://youtu.be/XDMNEzH4-Ec
- Intel ISC HPC 2024 live demo:https://www.intel.com/content/www/us/en/events/supercomputing.html
如圖 3 所示,L-MAGIC 是一個結合了語言模型及擴散模型的場景生成框架。L-MAGIC 通過自然圖像連接各類不同模態的輸入。當輸入不是一張自然圖像時,L-MAGIC 使用成熟的條件擴散模型如 ControlNet 從各種模態的輸入(文字,手繪草圖,深度圖等等)生成一張自然圖像。![](https://img1.headline01.com/images/4c/10/4c100dec2917e132105c77dc2952bacccfa8f206.jpg?wx_fmt=png&from=appmsg)
在獲得自然圖像之後,L-MAGIC 通過 iterative warping and inpainting 來生成 360 度場景的多個視角。在每一個 iteration 中,warping step 將已生成的多視角 warp 到一個新的視角,實例中的黑色部分代表新視角中的缺失像素。Inpainting step 使用基於擴散的圖像 inpainting 模型(Stable Diffusion v2)生成缺失像素。爲了使圖像擴散模型能夠生成多樣的全局場景結構,L-MAGIC 使用語言模型控制擴散模型在每個視角需要生成的場景內容。除了生成 360 度場景的全景圖,利用深度估計模型,L-MAGIC 還能夠生成包含相機旋轉及平移的沉浸式視頻,以及場景的三維點雲。由於無需微調,L-MAGIC 能夠有效地保持語言及擴散模型的泛化性,實現多樣化場景的高質量生成。L-MAGIC 的核心是使用語言模型全自動地控制擴散模型。如圖 4 所示若用戶未提供場景的文字描述,L-MAGIC 使用視覺語言模型(如 BLIP-2)基於輸入圖像獲得場景的整體描述(line 2)。
獲得場景描述後,L-MAGIC 使用如 ChatGPT 的語言模型(開源代碼已支持 ChatGPT-3.5、ChatGPT-4、Llama3),使其根據整體場景描述生成各個視角的描述(line 3),並決定對該場景是否需要防止重複物體的生成(line 5,如樹林裏各個視角都是樹是合理的,但臥室有 5 張牀就比較少見,L-MAGIC 利用大語言模型的泛化性能自適應地規避不合理的重複目標)。由於擴散模型訓練數據的 bias,有時擴散模型的輸出無法完全符合語言模型的 prompt 要求。爲了解決該問題,L-MAGIC 再次使用視覺語言模型監督擴散模型的輸出(line 14-18),如果擴散模型的輸出不符合語言模型的要求,L-MAGIC 會重新進行當前視角的生成。![](https://img1.headline01.com/images/9f/0c/9f0c54c560bd4d27bf24ff616a564e8938382e85.jpg?wx_fmt=png&from=appmsg)
如圖 5 所示,L-MAGIC 在圖像到 360 度場景生成及文字到 360 度場景生成任務中均達到了 SOTA。![](https://img1.headline01.com/images/67/2f/672fd7f4ef2920f2d528a3fcc88e03b4eb5dd633.jpg?wx_fmt=png&from=appmsg)
如圖 6 及圖 7 所示,L-MAGIC 在多樣的輸入及場景下均能夠生成具有多樣化 360 度場景結構的全景圖,並且能夠平滑地完成 360 度閉環。![](https://img1.headline01.com/images/bd/84/bd84321dff171619de012ebf3f3aba8c03e03617.jpg?wx_fmt=png&from=appmsg)
![](https://img1.headline01.com/images/eb/a4/eba4b79c20199725b7352673ae9d108d8300e72a.jpg?wx_fmt=png&from=appmsg)
如圖 8 所示,除了文字及自然圖像之外,L-MAGIC 還能夠使用 ControlNet 接受多樣化的輸入,例如深度圖、設計草圖等。![](https://img1.headline01.com/images/53/36/53365eff423fa9a539b4d52da52a57da2d165ef2.jpg?wx_fmt=png&from=appmsg)
通過利用成熟的計算機視覺算法例如深度估計,L-MAGIC 還能夠生成場景的沉浸式視頻 (見 presentation video)以及三維點雲(圖 9)。有趣的是,我們能夠清晰地分辨海底場景點雲中魚以及珊瑚的幾何結構。![](https://img1.headline01.com/images/63/f6/63f6085be712490b5f844e1c08ad121fd61a8a61.jpg?wx_fmt=png&from=appmsg)
© THE END
轉載請聯繫本公衆號獲得授權
投稿或尋求報道:[email protected]