基於雙目視覺的目標檢測與追蹤方案詳解

作者 | Aimme

齣品 | 焉知

知圈 進“域控製器群”請加微13636581676,備注域

 

一直想通過計算機視覺的角度好好地把其在自動駕駛視覺檢測、追蹤及融閤上的原理進行詳細闡述,對於下一代自動駕駛係統來說,會采用集中式方案進行攝像頭的原始感知信息輸入和原始雷達目標的輸入。對於純攝像頭的感知方案通常采用針孔相機模型進行相機標定,在本文中,將研究相機配準和雷達傳感器融閤的整體過程。瞭解其對於掌握後續關於測量提取和傳感器校準的討論是必要的。



單/雙目相機標定基本原理

將相機信息與物理世界相關聯,需要描述 3D 世界坐標和圖像坐標之間數學關係的模型,計算機視覺中最簡單的此類模型是針孔相機模型(如下圖)。

圖1  相機模型模型的投影

針孔模型中的圖像形成是通過假設一個無限小的孔徑來解釋的,因此用瞭針孔這個術語。考慮上圖中所有光綫會聚在光學中心上,該中心與相機參考係的原點重閤,光心到像麵上主點c的距離等於焦距f,來自點 p = [x,y,z] T的光綫穿過光學中心,從而投影到位於圖像平麵上的點 p’ = [x ,y ,z’] T 。相似三角形的原理規定,點 [x,y,z] T   被映射到圖像平麵上的點 p’ = [fx/z, fy/z, f]  。忽略深度,該投影由 R3 (三維)到 R2(二維)映射給齣,即

          (1)

引入齊次坐標,如上圖像點信息可以改寫為矩陣形式,其中K錶示相機校準矩陣。

               (2)

方程 (2) 提供瞭將 3D 空間中的點轉換為圖像坐標的框架。通常,圖像平麵上的點 p’ 將根據像素坐標來尋找。可以適當縮放相機校準矩陣中的焦距條目,以將 R3 (三維)度量轉換為 R2 (二維)像素。在實踐中,相機校準矩陣默認為以像素為單位的焦距,並且它包括考慮非理想情況的參數,例如偏移主點或各個維度中每單位長度的像素數量不相等。

相機標定方法旨在估計構成相機標定矩陣的參數,這些量被稱為內在參數,校準一般采用張正友的九宮格標定技術,校準過程主要是通過采集不同的九宮格點構造如上方程的多個子式並進行6參數求解。本文討論將不會深入研究關於相機校準的細節,而是重點討論關於雙目攝像頭的感知過程。

當多個攝像機查看同一場景時,可以從圖像中提取深度信息。要使用單個攝像機實現相同的目標,需要瞭解正在記錄的場景。考慮下圖所示的理想化水平立體聲配置,在這種情況下,各個相機的光學中心和圖像平麵共麵。

圖2  簡單的相機視差模型

光學中心也相距一定距離 b,這被稱為立體基綫,則視差計算方法如下:

      (4)

計算水平和垂直坐標 x 和 y 依賴於與以前相同的原則。然而,深度信息具有唯一確定性,其過程就是求解環境檢測點 p 的 z 坐標。其中 uL uR 是點 p 投影到相應圖像平麵上的左右水平坐標。假設坐標係的原點與左相機中心重閤,則

          (5)

等式 (5) 給齣瞭理想水平立體配置中校準相機的視差和範圍之間的關係,深度計算所需的關鍵量是視差,確定視差依賴於找到相應的像素在相應的圖像中的位置點,對應的方法一般是依靠紋理信息進行幀間匹配。

實際上,通過物理排列來實現完美的相機對準是不可能的。兩個相機之間的一般對齊方式如下圖所示。點 p 投影到左側相機圖像平麵上的點 p’。這個點在右圖像平麵上的對應關係被限製在平麵上繪製的水平基綫上。事實上,任何投影到左相機平麵繪製綫上的點都被限製為與右圖像平麵上的相應綫重閤。這些綫被稱為共軛極綫,兩幅圖像中各自的圖像點在該極綫上應該滿足對極約束條件,它們用於指導立體圖像點對應的搜索過程範圍。
圖3 立體視覺測量提取算法示意圖

對極約束的數學形式簡單明瞭,我們可以看齣,隻要我們能夠找齣兩幅圖像之間的多組特徵點關係,就可以根據對極約束求齣兩幅圖像之間的運動關係。


接下來從數學角度描述一下對極約束。

根據針孔相機模型,我們知道空間位置點P 在相機中的像素位置為p1,p2 。這裏 K 為相機內參矩陣,R, t 為兩個坐標係的相機運動(如果我們願意,也可以寫成代數形式)。如果使用齊次坐標,我們也可以把上式寫成在乘以非零常數下成立的等式:

現在,取:

這裏的 x1 , x2 是兩個像素點的歸一化平麵上的坐標。代入上式,得:

兩邊同時乘以t的轉置矩陣t^,相當於兩側同時對t做外積:

然後,兩側同時乘以,那麼

如上等式左側,t^x2是一個與t和x2都垂直的嚮量(相當於對t和x2形成的平麵做一條法綫),把它再和x2做內積時,將得到0,因此,我們得到一個簡潔的對極約束式子:
       
重新帶入p1,p2,得到另外一種錶示形式            

我們把對極約束數學錶達式中的中間部分記為兩個矩陣:基礎矩陣(Fun-damental Matrix)F 本質矩陣(Essential Matrix)E,可以進一步簡化對極約束:

這裏需要說明一下,對於多目攝像頭對環境信息的探測來說,一般需要考慮兩個攝像頭必須保持一緻的內參信息。其中包括焦距、主點、畸變量等。自動駕駛係統感知過程中,經常會遇到一個比較經典的問題,那就是如果采用兩顆單目攝像頭,且該兩顆攝像頭並不是完全相同的,甚至該兩顆攝像頭一個近焦廣角,一個遠郊窄角,是否可能在保證單目探測性能的同時實現更多的雙目深度探測功能?

這裏我們需要注意如果依賴對極約束,實際上是將兩個相機的投影矩陣相對於圖像點進行瞭相應的位置約束,而投影矩陣是內參與外參的乘積歸一化,所以從理論上講,無論兩個相機內參和外參如何變化都應該滿足對極約束。也就是說在其中一個相機中投影點一定能夠在另一個相機中找到相應的投影位置,這就使得兩個點加上環境點所確定的三角形可以約束整個相機平麵點的搜索範圍,從而通過三維重建可以完全確定環境點坐標位置。

然而,事實是在自動駕駛動態場景和高精度場景下,該方案無法實現很好的探測能力,因為同步性和一緻性不太好。比如曝光起止時間無法做到很好的同步,同時曝光區域也無法做到很好的同步,這就會造成成像尺寸、清晰度、時間不一緻。在後期,可以通過微調來大緻同步起始曝光時間,但針對多種場景無法保證都可用。比如在通過對極約束解方程時,對大目標(如大貨車、大巴車、大卡車等)可以有一定量的深度測量,而對小目標的精細測量卻是不可行的。


傳感器外參標定

傳感器融閤的第一步是將來自各個子係統的測量值注冊到一個共同的參考框架,傳感器之間幾何偏移的不準確估計將導緻錯誤配準,從而影響感知性能。一般的,描述傳感器之間的對齊參數稱為外部參數。本節將描述用於確定傳感器外部參數的標定方法。

理想的幾何形狀意味著獨特的對極綫對是平行的,並且共軛對不會做垂直偏移,這使得能夠在立體圖像對的適用行上簡單地執行對應搜索。具有這些理想特性的立體圖像稱為校正。立體校正的過程涉及通過圖像處理程序對兩個圖像進行變換,校正還需要瞭解兩個相機之間的物理排列,即外在參數。與內在相機校準一樣,用於計算立體視覺設置的外在參數的標準方法可以參照當前一些文獻獲得。

首先關鍵的問題是估計兩個攝像頭傳感器參考係之間的剛體變換,獲取描述這種變換的外在參數的最簡單方法是通過物理測量幾何排列。然而,由於難以準確地確定各個傳感器的實際起源,這樣的過程可能會導緻較差的估計。改進的估計應該來自自動校準方法,其中傳感器需要測量相同的目標。然後可以將校準轉化為參數優化問題,以求解外部參數。優化過程可通過將攝像頭結閤雷達探測目標的參數融閤校準過程進行。

假設相機對攝像頭參考幀CRF中的點pC 進行瞭測量。同樣在攝像頭參考幀中的測量值由給此外,結閤使用雷達的相位單脈衝,雷達參考幀RRF中相同對象的測量結果錶示如下:

       (7)

其中 α 是與視軸的逆時針角度,即方位角。符號用於描述雷達參考幀中的測量深度信息。而攝像頭參考幀中相同測量的坐標由下式給齣:

          (8)

其中RCRtCR分彆錶示是雷達參考幀相對於攝像頭參考幀的鏇轉矩陣及平移坐標嚮量。方程 (8) 描述的三維鏇轉和平移遵循約定,其中鏇轉被分解為圍繞攝像頭參考幀的 z、y 和 x 軸的鏇轉序列,相應的鏇轉角分彆由角度ψ、θ和φ給齣。三維變換的歐拉參數化完全由這些角度和平移嚮量tCR = [tx, ty, tz]T的元素定義。因此,外部參數的確定簡化為ψ、θ、φ、tx、tytz 的求解。

上麵的討論假設影響相應測量值和形成的內在參數是已知的。無需調整現有的用於立體相機內部和外部參數的校準方法。因此,演示將繼續假設立體視覺相機經過校準以産生校正圖像。對於雷達,天綫基綫可以被視為一個內在參數。如果基綫指定不正確,優化産生的外部雷達到相機參數將是不正確的。因為當不作為測量基綫時,而是作為額外的自由參數包括在校準程序中進行估計。


目標參數測量、匹配及提取

對於攝像頭和雷達融閤的校準過程需要一個對兩個傳感器子係統都可見的校準目標。為此,通過在麵嚮傳感器的三個反射麵上應用棋盤格紙圖案來增強簡單的角反射器。由此産生的校準目標既具有高反射性(高 RCS),又包含尖角,可以在立體圖像對中找到精確的對應關係。

圖(a)立體圖像對中的引導角選擇 
圖(b)雷達範圍頻譜中的引導局部峰值

確保參數估計所考慮的任何測量都源自校準目標是至關重要的。齣於這個原因,原始傳感器數據被手動標記。標記雷達數據就像識彆距離譜中與校準目標相對應的峰值一樣簡單。隻需要對目標範圍的粗略估計,選擇加上角反射器極高的雷達截麵。提取的數據包括到目標的距離以及兩個接收器的信號相位,這些相位用於隨後的角度計算。為瞭提高精度,需要進行24 次掃描,並取得平均距離和角度構成單個雷達校準樣本,其結果可以描述在各個脈衝範圍譜中發現的局部峰值。

圖像測量提取是利用棋盤圖案的強梯度來計算視差,角檢測算法是被手動引導到其中一幅圖像中,並校準目標上的任何角,同時,對另一幅圖像中的相同角來重復此操作。上圖a中顯示瞭一對角的示例,該信息隨後被投影到公製相機框架中。

對於測量的過程中,前麵提到校準問題被轉換為優化問題,優化程序的任務是通過改變構成外部校準的參數來最小化誤差函數。從稀疏特徵跟蹤框架中獲取的時空信息用於識彆運動圖像區域。外觀信息被完全忽略,因此不會産生特定於對象的結果。如下圖顯示瞭測量提取算法的基本工作流程,可以概括如下:稀疏特徵檢測器識彆隨後跟蹤的強候選特徵。跟蹤器的過濾需要引入平滑策略,實現基本的異常值去除,並為軌跡存儲和分析提供框架。可用信息最終在聚類例程中進行處理,該例程需要對相似的特徵軌跡進行分組。

立體視覺測量提取算法示意圖

1)特徵提取

特徵檢測通常是使用加速段測試 (FAST) 算法中的特徵檢測進行的,該檢測器在計算復雜性方麵明顯優於其他替代方案,並且專為一緻性高的多視圖特徵提取而量身定製,這些屬性有利於將 FAST 角點檢測器用於在實時立體視覺中的應用。

使用稀疏特徵檢測有一些固有的缺點,其中最值得注意的是無法從低紋理圖像區域收集信息,這可能會阻礙最終準確估計目標範圍的能力。範圍信息應主要從視覺子係統中提取,因為它提供比雷達更高的分辨率。為瞭減輕可能的負麵影響,設置特徵檢測閾值以産生半密集信息,即分布在視野中的數韆個特徵被識彆為跟蹤候選。通過這種方法,可以獲得相當準確的範圍信息,而計算需求仍然比密集檢測方法低得多。

2)特徵追蹤

算法運行所需的時間數據可通過狀態估計器獲得,該估計器隨時間跟蹤檢測到相應的特徵,由此産生的運動信息對於運動物體分割具有重要價值。本文將詳細介紹實現的特徵跟蹤框架。

①卡爾曼濾波器

檢測目標的半密集性要求對後續處理進行仔細考慮,可能數以韆計的跟蹤特徵需要非常有效的狀態估計器。為此,引入瞭卡爾曼濾波器。卡爾曼濾波器是貝葉斯濾波器遞歸方程的可實現公式,要素不是傳播完整的目標狀態密度,而是采用高斯分布進行近似,即

      (9)

其中 N (x; m, P) 錶示在具有均值 m 和協方差 P 的嚮量 x 上定義的高斯分布。卡爾曼濾波器遞歸方程的一個重要約束是它必須保留狀態分布的高斯結構。這意味著動態和測量模型必須是綫性高斯變換。請注意,在傳統控製係統中發現的控製輸入不包括在預測更新中,因為該數量在目標跟蹤中是未知的。對於綫性模型,以下方程定義瞭卡爾曼濾波器的預測正確遞歸:


其中 Fk 是狀態轉移矩陣,Qk 是過程噪聲協方差,Hk 是觀測矩陣,Rk 是測量噪聲協方差。等式(11)和(12)定義瞭預測更新,而等式(13)到(15)使用相關聯的測量zk定義瞭測量更新日期。預測更新本質上是通過 Fk 和 Qk 描述的綫性動態模型對狀態分布的變換。轉移矩陣描述瞭 k -1 時刻的狀態均值與 k 時刻的先驗之間的確定性關係,而過程噪聲協方差矩陣則對轉移中的不確定性進行建模。在目標跟蹤中,這些矩陣來源於目標的運動模型,測量更新結閤瞭觀察來改進狀態估計,這裏的關鍵量是測量預期測量更新值Hkmk|k-1與實際測量值Zk的差值,更新協方差由矩陣 Sk|k−1 給齣。該創新及其協方差通過卡爾曼增益 Kk|k-1 影響方程(15)中的結果更新。

對於小狀態嚮量維數,卡爾曼濾波器為貝葉斯狀態估計提供瞭一個非常有效的框架,因為它的遞歸方程僅依賴於簡單的矩陣乘法。非綫性動態和測量模型可以通過將非綫性變換近似為高斯來閤並。泰勒級數展開和無跡變換分彆錶徵擴展卡爾曼濾波器和無跡卡爾曼濾波器,其中兩個是卡爾曼濾波器最常見的非綫性擴展。

②狀態空間模型

圖像特徵的測量在圖像坐標中可用,但在慣性坐標中需要 DATMO 上下文中的目標軌跡。使用圖像平麵測量在慣性空間中進行跟蹤將需要非綫性近似技術,然而,非綫性估計方法的實現將顯著增加跟蹤器的計算需求。在最優性和速度之間的權衡中,後者被選擇用於稀疏特徵跟蹤,即在圖像坐標中跟蹤特徵,這使得能夠使用標準綫性卡爾曼濾波器。由於加速坐標係,實際上圖像坐標不是慣性坐標可能會導緻奇怪的非綫性效應,因此綫性卡爾曼濾波器是一個近似值。

接下來,布局特徵跟蹤器的動態和測量模型。每個特徵點的運動是根據恒速模型使用綫性動力學和高斯噪聲建模的
  (16)

其中 u 是特徵的水平圖像坐標,vu 是其速度,σw 是加速度噪聲標準偏差,ΔT 是時間步長。對於構成圖像坐標的其餘軸,即垂直坐標 v 和視差 d,實現瞭精確解耦跟蹤器。因此假設各個圖像平麵尺寸是完全獨立的,由於必須反轉的矩陣的維數較小,因此解耦的低階卡爾曼濾波器更有效,可以通過使用 OpenCV 的立體塊匹配密集立體對應算法來閤並視差信息。盡管每個特徵的差異搜索有望提高效率,但額外的研究工作是不必要的。在這裏,差異僅需要作為概念證明。因此,僅從左側圖像中提取特徵,並且可以從密集對應算法中獲得相應的視差。

特徵跟蹤測量模型也是綫性的,形式為
           (17)

其中 σu 是水平維度中測量噪聲的標準偏差,相同的更新矩陣適用於其他維度,基於創新的異常值拒絕策略被納入特徵跟蹤框架,如果創新大於創新協方差平方根的常數因子標準偏差,即
    (18)

其中 c 是一個常數,然後刪除軌道。此規則在所有三個跟蹤維度中都實施,如果有任何未通過測試,則刪除該跟蹤。請注意,如上方程中的數量減少為長度為 1 的嚮量和 1 × 1 矩陣,即它們是標量。在除瞭基於異常值的軌道刪除,M/N 邏輯規則也可用於軌道管理。

選擇綫性圖像平麵狀態空間模型的結果是,由於底層特徵的框架和跟蹤框架不同,可能會導緻加速效應。雖然並不理想,但跟蹤器會産生軌道平滑效果並允許簡單的異常值去除,同時將計算開銷降至最低。

③數據關聯

考慮到測量與跟蹤的關聯性,由於要跟蹤的特徵數量龐大,實施復雜的數據關聯方法(例如多假設跟蹤)肯定是不可行的,需要采用不同於傳統跟蹤方法的跟蹤策略。新檢測不是將特徵檢測器的輸齣視為與現有跟蹤實體相關聯的測量值,而是簡單地將特徵標記為跟蹤候選。通過使用光流原理主動搜索其對應關係,可以找到任何現有特徵軌跡的適當測量。

④聚類

為瞭從視覺子係統中提取最終測量值,在特徵軌跡數據上實施瞭一個聚類程序。聚類的目的是識彆源自同一環境監測對象的特徵軌跡。理想情況下,要成功地對特徵軌跡進行分組,應該需要有關數據的最少先驗知識。例如,任何給定掃描中存在的目標數量是一個未知參數,應由 DATMO 算法使用各車載傳感器數據確定。許多流行的聚類算法(例如 k-means 和期望最大化)不適閤這種特定應用,因為它們對聚類的確切數量的依賴性和敏感性。在這個項目中,可以選擇具有最少先驗知識的特徵軌跡聚類解決方案是基於密度的噪聲應用空間聚類(DBSCAN)算法。DBSCAN 識彆和分組空間數據集中的密集區域,同時還提供異常值標記。DBSCAN 隻需要兩個參數,即一個集群可能適用的最小樣本數和一個特殊的距離閾值。

⑤匹配庫數據掃描

在 DBSCAN 算法中構成集群的形式化依賴於一些定義。首先,點 p 的鄰域 N(p) 是距離 p 小於或等於 p 的所有點的集閤。如果點的鄰域包含至少最少數量的點,則點被標記為核心點。核心點 q 的鄰域中的任何點 p 都被稱為從核心點直接密度可達。如果存在一係列點 p1,則任何點 p 都是從核心點 q 密度可達的. . , pn, p1 = q, pn = p 使得 pi+1 可直接從 pi 密度可達。密度可達條件的對稱變體是密度連通的,兩個點 p 和 q 是密度連通的,如果它們存在一個點 o,那麼這兩個點都是密度可達的。一個簇被定義為所有密度連接的點,從集群內的任何點密度可達的點也包括在內,而無法到達的點被標記為異常值。

下圖以圖形方式顯示瞭不同的可達性定義:


最小樣本參數等於 4 點的 DBSCAN 可達性說明:上圖中藍色圓圈是核心點,因為它們的鄰域至少包含最少數量的點。圖(a)中點 p1 是從 q 密度可達的,圖(b) 中 p1 和 p2 通過核心點 q 彼此密度連接,黑點被標記為異常值。

DBSCAN 聚類呈現齣有利的特徵,因為它幾乎不需要對數據集進行假設。不必指定簇的數量,可以找到任意形狀的簇。此外,異常值是固有地檢測到的。該算法的一個缺點是它無法對密度不同的數據集進行聚類。

為瞭在跟蹤點上應用 DBSCAN 聚類算法,數據被組織成一個聚類矩陣 C,其中 Nf,k 是在時間 k 跟蹤的特徵點的數量,d是包含在聚類中的維數。預計源自單個物體的軌跡將錶現齣類似的時間行為,同時以歐幾裏德距離緊密間隔。鑒於此,聚類矩陣的每一行都是一個形式為的錶達式。其中 pWi 錶示世界參考係中跟蹤點 pi 的平均值,vi 是該點在過去有限數量的時間步長內的平均速度。常數 c 是衡量速度分量貢獻的加權因子。該實現有利於速度維度的比例為 3:1,即 c = 3。在聚類過程中,普通歐幾裏得距離用作相異度量。由如上方程的特徵嚮量産生的集群預測會包含錶象中的相似空間和時間行為的點。

一個標簽,錶明 DBSCAN 程序産生的集群和異常值的組成,離群點被立即丟棄。為瞭從視覺係統獲得最終的測量結果,內部集群對其平均速度進行瞭閾值處理。

每個輸齣集群都應包含源自同一移動對象的點。在數學方麵,集群測量可以寫成一組點,即,其中 Nc 是特定點的數量簇。可以在任何給定的時間步長提取大量集群,建議從視覺係統中提取的測量值的一組錶示,即,其中 Ncam,k 是數字在時間 k 的集群測量。請注意,如上方程的聚類特徵嚮量的形式導緻世界坐標係下參考幀的輸齣測量。

特彆是,使用瞭特徵跟蹤器的金字塔式實現,其輸齣被視為特徵的“測量”。隨後使用卡爾曼濾波器的測量更新方程處理該測量,視差是通過查詢密集深度圖像獲得的,生成的特徵軌跡為具有足夠紋理的圖像區域並提供瞭相應的速度信息,而這些速度的術語是一種場景流,它是具有深度信息的二維光流的擴展。