AI/CV重磅乾貨,第一時間送達
點擊進入—>【頂會/頂刊】投稿交流群
AI/CV重磅乾貨,第一時間送達
點擊進入—>【頂會/頂刊】投稿交流群
添加微信號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
添加微信號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!


主頁:https://star-uu-wang.github.io/HOP/
論文鏈接:https://arxiv.org/abs/2503.01175
1. 研究背景與挑戰
在具身智能(Embodied Intelligence)的框架下,智能體通過多模態感知與物理環境的動態交互實現複雜任務。這種交互不僅依賴於單一模態,更需要多模態信號的深度協同。在人類交流中,手勢與語音緊密配合,能夠增強表達的清晰度和情感傳遞(如強調語義時的揮臂動作或跟隨節奏的點頭)。然而,在協同手勢生成任務中,生成與語音同步且自然的協同手勢(co-speech gesture)面臨兩大核心挑戰:
· 多模態異質性:文本(語義)、音頻(節奏)、動作(骨骼運動)的數據結構和特徵差異顯著,傳統方法難以有效融合。
· 依賴性與多樣性矛盾:手勢需與語音節奏嚴格同步,同時需保持動作的自然性和多樣性。現有方法(如簡單融合或注意力機制)常假設模態獨立,導致生成手勢生硬或與語義脫節。
2. HOP的核心創新:異質拓撲糾纏與跨模態對齊

圖1:HOP框架示意圖
HOP提出一種全新的多模態學習框架,通過拓撲建模和跨模態對齊,顯式捕捉文本、音頻、動作間的複雜依賴關係。其技術亮點如下:
2.1 異質拓撲多模態糾纏(Topological Multimodal Entanglement, TME)


圖2 多模態數據的異質糾纏可視化
2.2 音頻-文本跨模態重新編程
傳統語言模型無法直接處理音頻信號,HOP創新性地引入重新編程模塊(Reprogramming Module):

圖3 重新編程模塊示意圖
2. 語義-節奏綁定:對齊後的特徵輸入語言模型(如BERT),提取與音頻節奏深度綁定的語義信息。
2.3 音頻-動作時空圖建模
為解決傳統方法對音頻的節奏特徵和手勢動作的動態特質學習不足的問題,HOP採用時空圖神經網:


3. 實驗與結果
3.1 數據集與評價指標

3.2 定量試驗
我們將基於異構多模態學習拓撲融合的方法與最新的方法和真實值進行了比較。FGD越低越好,BC和多樣性越高越好。
從試驗結果的可視化圖中可以看出我們的方法生成的手勢能更有效地捕捉文本中的語義信息,在突出顯示的部分表現出更大範圍的動作節奏。我們分別用紅色和黃色陰影突出顯示文本及其相應的手勢動作
3.3 消融試驗


總結
在這項工作中,我們通過明確建模手勢動作、音頻節奏和文本語義之間的相互依存關係,提出了一種新穎的協同語音手勢生成方法(textbf{HOP})。 與將多模態輸入視為獨立輸入的傳統方法不同,我們的框架利用了音頻和手勢之間的自然同步,音頻節奏是使手勢與語音的時間和語義方面保持一致的重要橋樑。 通過使用梅爾頻譜圖特徵和時空圖神經網絡,我們提高了生成手勢的一致性和多樣性,在關鍵性能指標上超越了現有方法。 我們的方法結合了用於跨模態適應的重編程技術,在協同語音手勢生成領域邁出了重要一步。 通過捕捉文本、音頻和動作之間錯綜複雜的糾葛,這項工作為更加流暢、自然和引人入勝的人機交互提供了一個新的視角。
未來工作總結:模態糾纏需探索獨特性與設計精密性
在具身智能(Embodied Intelligence)領域,智能體需通過多模態感知與物理環境的動態交互實現複雜任務(如機器人操作或人機協作),其核心挑戰在於多模態複雜關係的協調。多模態交互的本質並非簡單的特徵拼接,而是異構數據間獨特的糾纏關係。例如,音頻與動作通過節奏耦合,文本與動作通過語義綁定,而視覺與動作可能依賴空間-時間聯合建模。若各模態間的依賴關係建模不足,可能導致動作延遲、語義失配或環境適應性下降。
何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!
CVPR 2025 論文和代碼下載
在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和代碼開源的論文合集
ECCV 2024 論文和代碼下載
在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和代碼開源的論文合集 CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者添加微信號:CVer2233,即可添加CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超分辨率、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被通過且邀請進群
▲掃碼或加微信號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰項目、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點擊上方卡片,關注CVer公眾號
整理不易,請點贊和在看