西工大SWARM-X課題組:基於微分對策的空間Target-Attacker-Defender博弈問題納什均衡解


成果簡介

     20246月10日,由西北工業大學黨朝輝副教授指導的碩士研究生李一峯以第一作者身份在航天領域中科院SCI一區頂刊《Chinese Journal of Aeronautics》上在線發表了論文Nash-equilibrium strategies of orbital Target-Attacker-Defender game with a non-maneuvering target。該論文采用微分對策理論系統研究了軌道動力學Clohessy-Witshire方程約束下的Target-Attacker-Defender目標-攻擊者-防禦者,簡稱TAD)博弈問題。TAD問題是博弈論中的經典難題,已廣泛出現在無人機對抗、空戰對抗、導彈突防等場景中,而本文則從航天動力學約束下探討了發生於太空中的TAD問題。作爲太空TAD問題,攻擊者和防禦者爭奪一個由於任務限制而無法機動的目標航天器。本文根據推力輸出能力建立了三種TAD博弈模型:無推力約束TAD問題推力上限約束TAD問題固定推力大小TAD問題。然後利用微分對策對這些問題進行求解,得到了博弈策略的納什均衡解,並通過仿真驗證了求解方法的正確性和有效性。此外,還對博弈的獲勝機制進行了分析,確定了影響博弈結果的關鍵因素,包括收益中的權重係數、最大推力加速度極限和初始博弈狀態。考慮到空間任務的特點,重點分析了防禦者採用懸停和繞飛這兩種防禦方式,並分別揭示了制勝的條件。這一研究爲航天器TAD問題的控制策略和制勝機理提供了有價值的見解,加深了我們對這些博弈的理解,併爲在現實場景中提高防禦成功率提供了參考。論文下載鏈接:https://www.sciencedirect.com/science/article/pii/S1000936124002140)

論文標題Nash-equilibrium strategies of orbital Target-Attacker-Defender game with a non-maneuvering target

論文作者李一峯、梁曦黨朝輝*

發表期刊Chinese Journal of Aeronautics

在線時間| 2024年6月10日

01

航天器TAD問題的起源與發展

目標-攻擊者-防禦者(TAD)問題,也稱航天器護衛博弈問題,是指涉及三個參與者的博弈問題,其中攻擊者試圖捕獲目標而不被防禦者攔截,而防禦者試圖阻止攻擊者並保護目標。TAD問題的研究可以追溯到20世紀70年代Boyell[1]研究了潛艇發射魚雷阻礙追擊導彈的問題。至此以後,TAD問題在多個領域被廣泛研究,尤其集中在空戰和導彈攻防領域[2-24]。學者們在研究該問題時,通常採用以下幾種方式:①固定一方或兩方策略而研究第三方的最優控制律;②對攻擊者的目的進行解耦,分解爲TAAD問題研究;③採用微分對策進行博弈意圖的數學描述。

航天器TAD問題的場景如圖1所示:

圖 1 航天器TAD博弈場景

航天器TAD問題是一種受到軌道動力學嚴格約束,同時航天器機動能力又非常受限的特殊護衛博弈問題,目前研究成果相對較少。Liu[25]研究了多航天器的追逃防問題,採用分佈式在線規劃方法進行任務分配、軌跡和相應機動方案的協同優化。Liu究了目標固定時的航天器護衛問題,將過程分爲進攻和防禦兩個先後階段,都採用一次脈衝的蘭伯特轉移,分析得到了追擊航天器的最優追擊時間和脈衝矢量以及防禦航天器能夠攔截成功的條件。Zhou[26]研究了三個航天器在TH方程約束下的護衛博弈問題,使用了採用加權型性能指標作爲代價函數的微分對策方法,用零控脫靶量降維後使用龐特里亞金極小值原理進行了最優控制律的求解,將追逃防問題轉化爲了七維兩點邊值問題,最終得到了固定博弈時間內的三方最優控制律。趙琳等基於微分對策對--三方對抗場景下追蹤器的突防機動策略進行了研究,然而研究結果似乎存在部分矛盾的地方。Liang[28]研究了四個參與者的航天器護衛問題,即追擊者和目標各有一個協助者,分別基於範數微分對策策略和線性二次微分對策策略提出了兩類制導律。

02

基於微分對策的航天器TAD問題建模

爲建立航天器TAD博弈問題模型,首先分析各博弈參與者的目的。追擊者的博弈意圖,即儘可能抵近捕獲目標的同時避免被防禦者靠近攔截甚至摧毀。因此,在本節的代價函數設計中,與狀態量有關的項將根據該意圖進行建立,即追擊者儘可能減小自己與目標之間的相對距離,同時儘可能增大自己與防禦者之間的相對距離。從另一方面來說,防禦者的意圖與之相反,因此認爲防禦者試圖儘可能使自己與追擊者之間的相對距離減小,同時儘可能使追擊者與目標之間的相對距離變大。需結合博弈五要素模型(局中人、狀態集、控制集、代價函數和控制約束),考慮三種不同機動能力約束(無機動能力約束、推力大小有上限約束和固定推力大小約束),本文建立了三種不同的TAD博弈模型,如下所示

圖 2 模型1:無機動能力約束

圖 3 模型2:推力大小有上限約束

圖 4 模型3:固定推力大小約束

其中,代價函數中的兩項分別代表與狀態量有關的項和與控制量有關的項,如下所示:

03

不同機動能力約束下的納什均衡策略

3.1 均衡條件

根據納什均衡的必要條件,可以分別求解三個模型的鞍點解,如下所示:

最終,三個模型都可以轉化爲兩點邊值問題進行數值求解。求解完成後,可以發現模型2(推力大小有上限)和模型3(固定推力大小)的鞍點解相同,也就意味着在推力有上限時,納什均衡策略出現在始終採用最大上限推力的情形下

3.2 仿真結果

爲了驗證本文方法的有效性,在一定初始條件下對求解結果進行了仿真(Set1和Set2爲兩組不同的初始條件)。模型1的仿真結果如下:

圖5 無機動能力約束情形的仿真結果
圖 6 推力大小有上限約束情形的仿真結果

由於模型3與模型2的求解結果相同,因此不必再展示。

通過仿真結果可以發現,本文的方法能夠有效實現不同機動能力約束下的航天器TAD問題,且博弈結果和不同的初始狀態條件有關,有可能追擊者在被攔截之前就抵近了目標,也有可能防禦者提前攔截了追擊者。

3.3 典型結果

對仿真中的部分典型結果繪製動圖,形成如下結果:

圖 7 模型1-防禦成功情形
圖 8 模型1-追擊成功情形
圖 9 模型2-防禦成功情形
圖 10 模型2-追擊成功情形

3.4 制勝機理

根據仿真出現的不同博弈結果,本文繼續研究了不同博弈要素(代價函數中的權重係數、各航天器初始狀態和機動能力)對博弈結果的影響。

對於模型1,研究了權重係數和防禦者初始時刻懸停位置對博弈結果的影響,部分結果如下所示:

圖 11 權重係數對博弈結果的影響

圖 12 防禦者初始懸停位置研究示意圖

圖 13 防禦者初始懸停位置與防禦成功率的關係(模型1)

  對於模型2,研究了防禦者初始時刻懸停位置和初始時刻繞飛軌道半長軸以及推力上限對博弈結果的影響,結果如下所示:

圖 14 防禦者初始懸停位置與防禦成功率的關係(模型2)

圖 15 防禦者初始繞飛研究示意圖

圖 16 防禦者初始繞飛半長軸與防禦成功率的關係

圖 17 防禦者機動能力大小的影響

  通過制勝機理的研究,我們可以瞭解到在一定條件下,防禦者和目標這一方可以如何調整自身的博弈要素以獲得更好的博弈結果。

  3.5主要結論

  本文討論了空間軌道背景下的航天器TAD問題。在追擊者和防禦者之間建立了一個基於零和微分對策的博弈模型,重點關注它們對目標位置的競爭。考慮了航天器的相對運動動力學約束三種不同的控制約束。應用納什-龐特里亞金極小值原理,推導出了納什均衡策略控制律,在仿真中取得了良好的結果,追擊者和防禦者都能夠有效地做出對自身目標有利的機動。此外,還分析了微分博弈模型中權重係數對博弈結果的影響。揭示了權重係數與終端時刻相對距離之間的關係,顯示出近似線性的關係。還探討了防禦者初始狀態的影響包括初始懸停位置和初始橢圓軌道的半長軸,確定了防禦者的最佳懸停位置以及橢圓軌道的最佳半長軸範圍,最大限度地提高了防禦成功概率。最後,還研究了雙方的最大推力加速度與博弈結果之間的關係,揭示贏得博弈的潛在機制。研究發現,提高防禦者的推力加速度大小可以一定程度上提高防禦成功率。未來該問題的研究還可以進一步深入,如構建帶有攝動二體動力學模型的航天器TAD問題模型、羣對羣的航天器TAD問題以及制勝機理的進一步細化研究。

04

作者簡介




李一峯(第一作者):西北工業大學航天學院碩士研究生,江西南昌人,2000年出生。2021年9月-2024年3月,師從西北工業大學黨朝輝副教授開展學術研究,主要研究方向爲空間軌道博弈技術。發表SCI論文1篇,發表會議論文1篇,申請發明專利7項。

黨朝輝(通訊作者):西北工業大學航天學院長聘副教授,博士生導師,陝西合陽人,中國指控學會空天安全與平行系統專委會常務委員,Space: Science and Technology期刊青年編委、Astrodynamics期刊青年編委,國際航天期刊青年編委,Mathematics國際數學期刊客座編輯,全國優博論文獲得者。從事的研究領域有:(1)航天飛行動力學;(2)智能控制;(3)博弈論;(4)人工智能;(5)空間機器人。截至2024年5月,已在Journal of Guidance, Control and Dynamics等國際著名航天期刊上發表第一作者/通信作者SCI論文40餘篇,申請發明專利110餘項,出版學術專著2部。獲陝西省自然科學一等獎(排名第三)等省部級獎項2項。作爲項目負責人主持國家自然科學基金面上項目等課題近20項。



SWARM-X課題組該課題組由黨朝輝副教授於2019年創立,主要研究自然集羣現象(蜂羣、魚羣、羊羣、鳥羣、狼羣、蟻羣等)的數學原理,並將其應用於空天無人系統集羣任務(在軌服務、編隊飛行、集羣飛行、博弈對抗等)。課題組綜合運用博弈論、人工智能、航天動力學、機器人學、認知學、仿生學等多學科知識,開展廣泛的理論研究、仿真研究及實驗研究。課題組現有學生12名,其中博士生4名,碩士生8名。課題組當前主要研究方向爲通過認知學、人工智能和博弈論,結合航天器軌道動力學開展面向空間軌道博弈的目標行爲意圖識別與多航天器集羣博弈控制決策。

參考文獻

1. Boyell RL. Defending a moving Target against missile or torpedo attack. IEEE Transactions on Aerospace and Electronic Systems 1976;3:522-6.

2. Shneydor NA. Comments on” Defending a Moving Target Against Missile or Topedo Attack. IEEE Transactions on Aerospace and Electronic Systems 1977;3:321-1.

3. Boyell RL. Counterweapon aiming for defense of a moving Target. IEEE Transactions on Aerospace and Electronic Systems 1980;3:402- 8.

4. Rusnak I. The lady, the bandits and the body guards–a two team dynamic game. IFAC Proceedings Volumes 2005;38(1):441-6.

5. Rusnak I. Games based guidance in anti missile defence for high order participants. Melecon 2010-2010 15th IEEE mediterranean electrotechnical conference. Piscataway: IEEE Press; 2010. p. 812-7.

6. Rusnak I. Guidance laws in defense against missile attack with acceleration constrained players. Reston: AIAA; 2010. Report No.: AIAA- 2010-8057.

7. Garcia E, Casbeer DW, Pachter M. Design and analysis of statefeedback optimal strategies for the differential game of active defense. IEEE Transactions on Automatic Control 2018;64(2):553-68.

8. Garcia E, Casbeer DW, Pachter M. Optimal target capture strategies in the target-attacker-defender differential game. 2018 annual american control conference (ACC). IEEE. Piscataway: IEEE Press; 2018. p. 68-73.

9. Pachter M, Garcia E, Casbeer DW. Toward a solution of the active Target defense differential game. Dynamic Games and Applications 2019;9(1):165-216.

10. Garcia E. Cooperative Target protection from a superior Attacker. Automatica 2021;131:109696.

11. Garcia E, Casbeer DW, Pachter M. The Complete differential game of active Target defense. Journal of Optimization Theory and Applications 2010;195(2):675-99.

12. Shaferman V, Shima T. Cooperative multiple-model adaptive guidance for an aircraft defending missile. Journal of Guidance, Control, and Dynamics 2010;33(6):1801-13.

13. Perelman A, Shima T, Rusnak I. Cooperative differential games strategies for active aircraft protection from a homing missile. Journal of Guidance, Control, and Dynamics 2011;34(3):761-73.

14. Rusnak I, Weiss H, Hexner G. Guidance laws in Target—Missile—Defender scenario with an aggressive Defender. IFAC Proceedings Volumes 2011;44(1):9349-54.

15. Huang H, Ding J, Zhang W. Automation-assisted capture-the-flag: A differential game approach. IEEE Transactions on Control Systems Technology 2014;23(3):1014-28.

16. Li D, Cruz JB. Defending an asset: A linear quadratic game approach. IEEE Transactions on Aerospace and Electronic Systems 2011;34(2):1026-44.

17. Shima T. Optimal cooperative pursuit and evasion strategies against a homing missile. Journal of Guidance, Control, and Dynamics 2011;34(2):414-25.

18. Ratnoo A, Shima T. Guidance strategies against defended aerial Targets. Journal of Guidance, Control, and Dynamics 2012;35(4):1059-68.

19. Garcia E, Casbeer DW, Pachter M. Cooperative strategies for optimal aircraft defense from an attacking missile. Journal of Guidance, Control, and Dynamics 2015;38(8):1510-20.

20. Qi N, Sun Q, Jun Z. Evasion and pursuit guidance law against defended Target. Chinese Journal of Aeronautics 2017;30(6):1958-73.

21. Sun Q, Qi N, Xiao L. Differential game strategy in three-player evasion and pursuit scenarios. Journal of Systems Engineering and Electronics 2018;29(2):352-66.

22. Sun Q, Qi N, Xu Z. An optimal one-way cooperative strategy for two Defenders against an attacking missile. Chinese Journal of Aeronautics 2017;30(4):1506-18.

23. English JT, Wilhelm JP. Defender-Aware Attacking Guidance Policy for the Target–Attacker–Defender Differential Game,. Journal of Aerospace Information Systems 2021;18(6):366-76.

24. Luo Y, Gang T, Chen L. Research on Target Defense Strategy Based on Deep Reinforcement Learning. IEEE Access 2022;10:82329-35.

25. Liu Y, Li R, Hu L, et al. Optimal solution to orbital three-player defense problems using impulsive transfer. Soft Computing 2018;22(9):2921- 34.

26. Zhou J, Zhao L, Cheng J, et al. Pursuer’s Control Strategy for Orbital

Pursuit-Evasion-Defense Game with Continuous Low Thrust Propulsion. Applied Sciences 2019;9(15):3190.

27. Zhao L, Zhou J, Liu Y. Three-body differencial game approach of pursuit-evasion-defense in three dimensional space(in Chinese). Systems Engineering and Electronics 2019;41(2):322-35.

28. Liang J H ahd Wang, Liu J. Guidance strategies for interceptor against active defense spacecraft in two-on-two engagement. Aerospace Science and Technology 2020;96:105529.

29. Tang X, Ye D, KS L. Multi-spacecraft pursuit-evasion-defense strategy based on game theory for on-orbit spacecraft servicing. 2023 IEEE Aerospace Conference. Piscataway: IEEE Press; 2023. p. 1-9.

30. Zhao L, Zhang Y, Dang Z. PRD-MADDPG: An efficient learning-based algorithm for orbital pursuit-evasion game with impulsive maneuvers. Advances in Space Research 2023;72(2):211-30.

31. Han H, Dang Z. Optimal delta-V-based strategies in orbital pursuitevasion games. Advances in Space Research 2023;72(2):243-56.

32. Han H, Dang Z. Models and Strategies for J2-Perturbed Orbital PursuitEvasion Games. Space: Science and Technology 2023;3:0063.

33. Zhao L, Dang Z, Zhang Y. Orbital Game: Concepts, Principles and Methods. Journal of Command and Control 2021;7(3):215-24 [Chinese].

34. Dang Z. Solutions of Tschauner–Hempel equations. Journal of Guidance, Control, and Dynamics 2017;40(11):2956-60.

35. Laub AJ. Chur method for solving algebraic RiccatiI Equations. Proceedings of the IEEE conference on decision and control. Piscataway: IEEE Press; 1978. p. 60-5.

36. Morgan DR. A parametric error analysis of the backward integration method for reverberation time estimation. J Acoust Soc Am 1997;101(5):2686-93.

37. Liu P, Dang Z. Design method of polygon formation for space-based gravitational-wave detection. Acta Aeronautica et Astronautica Sinica 2022;43(S1):726907 [Chinese].