基于合作博弈的多無人機任務研究
摘要:針對多無人機合作博弈問題,對多無人機任務策略進行研究。通過考慮合作聯盟的目標價值指標函數和代價指標函數,建立多無人機合作聯盟博弈模型,給出一種合作博弈的求解方法,最終得到多無人機最優聯盟策略。仿真結果表明,該方法具有很好的可行性和有效性。
本文引用地址:http://www.j9360.com/article/201606/293260.htm引言
隨著當今軍事技術的發展與需求,將博弈論應用到軍事領域中己受到國內外學者的廣泛關注與研究[1-2]。文獻[3]通過分析實際環境中信息的不確定性,提出了不確定信息情況下解決多無人機任務分配的問題。文獻[4]提出一種分布式通信決策模型,利用卡爾曼濾波算法對無人機局部觀測信息進行濾波處理,當局部任務分配結果與當前執行的跟蹤任務產生沖突時,無人機發出通信信息,實現局部信息共享,從而達到信息的一致;在不確定條件的環境中,實時有效的動態任務分配是多無人機順利完成對地攻擊任務的關鍵點。文獻[5]基于拍賣機制原理提出了多無人機的動態任務分配算法,同時也有文獻[6]基于動態博弈理論提出了攻防雙方目標武器分配方法。而以無人機攻防為背景,建立基于不完全信息的無人機攻防對抗動態博弈模型,利用免疫進化算法[7]求解出貝葉斯納什均衡,得到了無人機的最優策略序列。文獻[8]建立了基于Agent協商的多無人機任務分配模型,構建了無人機編隊中資源管理和任務管理等兩種Agent角色,并建立了兩種角色之間任務分配協商協議,既有效地保證了個體Agent的自主性,又最大限度地發揮了多Agent之間的合作性。文獻[9]針對異構多無人機協同任務分配問題,提出了一種基于改進的遺傳算法的多UAV任務分配方法。
需要指出的是,雖然國內外在多無人機作戰博弈中已經取得了一些很有價值和意義的研究成果,但目前已有的博弈方法大部分的研究集中于非合作博弈問題,沒有考慮到多無人機合作博弈問題。而在實際網絡環境中,為了提高作戰效能,尤其是進攻重要目標的時候,需要考慮多無人機如何進行聯盟合作問題,以提高整體的作戰效益[10]。因此,如何在實際作戰中考慮我方多無人機合作博弈問題,求解合作博弈的納什均衡值問題,這是一個新的重要研究課題。
基于此,本文將多無人機合作聯盟考慮為合作博弈問題,實現整體聯盟收益最大化,提高多無人機整體執行任務的收益。在實際情況中,無人機之間的通信常會受到傳輸速度、網絡擁塞等因素的影響而存在通信延遲。因此,本文將考慮存在通信延遲時,根據多無人機信息傳輸的過程,建立多無人機合作聯盟博弈模型,給出合作博弈的求解方法,并動態分析聯盟結構的變化情況。
1 無人機合作博弈模型的建立
1.1 合作聯盟的基本概念
無線通信網絡中,聯盟中的無人機集合表示為N={1,2,...,n},對任意,稱S為N的一個聯盟。
為聯盟集合,其中聯盟集合
元素的個數為2n,特殊情況,允許取
和
,后一種情況稱為一個大聯盟。對于無人機系統,自主無人機之間能以通信的方式傳遞狀態信息,偵察無人機檢測到關于任務的信息后,選擇傳遞信息至周圍的無人機,形成聯盟,共同完成特定的任務。具體的多無人機合作聯盟模型如圖1所示。
1.2 合作聯盟作戰收益函數
收益是指無人機在合作聯盟中最終所得或損失。考慮合作聯盟收益指標為目標價值和代價指標,建立多無人機合作聯盟的作戰收益函數。
1)目標價值指標函數
在多無人機作戰過程中,目標價值是首先考慮的一個重要指標。重點考慮偵察無人機的目標價值,定義如下:
(1)
其中,di(s)為偵查無人機的數據包傳送延時,
,為偵查無人機i單獨行動時的數據包傳送延時,
為數據包的生存時間值,
為聯盟s中無人機的數目。
2)代價指標函數
代價指標是指偵查無人機給執行無人機的平均支付。偵查無人機i傳送數據包到同-聯盟中的執行無人機j的平均成本Ci(S),定義如下:
(2)
其中,為偵察無人機i傳送數據包到同-聯盟中執行無人機j的平均成本,Pij為偵察無人機i與執行無人機j的相遇概率。
3)聯盟合作收益函數
綜合上述模型,可以得到偵察無人機i的收益函數Ui(S):
(3)
其中,a、β分別為目標價值和代價的非負權重系數。
2 無人機合作聯盟求解
在這里,我們首先介紹聯盟形成算法:
聯盟形成算法通過比較聯盟內無人機的收益,根據Merge-Split-Rule形成聯盟。若無人機形成聯盟后收益提高,則自組織形成聯盟;反之無人機不參與聯盟形成。Merge-Split-Rule定義如下[11]:
Merge Rule-聯盟集合,當無人機收益滿足時
,小聯盟合并為大聯盟,即:
(4)
Split Rule-大聯盟,當無人機收益滿足時
,大聯盟分裂為若干不相交小聯盟,即:
(5)
無人機的通信距離為do,執行無人機在偵察無人機的通信范圍內,稱偵察無人機遇見執行無人機,任務在偵察無人機的通信范圍內,稱偵察無人機發現任務。偵察無人機與執行無人機形成聯盟來完成任務。
假設仿真區域為2km×2km,任務均勻分布在區域內,水平間距和垂直間距均為400m,有4架無人機,其中第1架偵察任務,另3架執行任務,偵察無人機具有傳感器,執行無人機具有相同的火力能力,以相同的10km高度和最大50km/h速度飛行。設定無人機的通信距離分別為50m、100m和200m,得出三種情況下偵察無人機發現任務和偵察無人機與執行無人機的相遇概率,如表1所示。
4架無人機,其中,無人機1為偵察無人機,無人機2、3和4為執行無人機,那么在網絡中可能存在7種聯盟結構:{1,2},{1,3},{1,4},{1,2,3},{1,2,4},{1,3,4},{1,2,3,4}。依據Merge-Split-Rule算法,無人機之間形成合作的聯盟。根據以上概率,分別計算在各種聯盟結構下的收益,如表2所示。從中可以看到,大聯盟結構收益最大,即在這種情況下,所有的無人機選擇形成{1,2,3,4}這種結構來共同完成任務并且在這種結構下獲得的收益最大。
3 系統性能分析
當變化偵察無人機傳送數據包到同-聯盟中執行無人機的平均成本系數為時,聯盟結構進行動態調整,如圖2所示。當代價在0~9范圍內時,大聯盟結構一直是最佳聯盟結構,當超過9時,形成{1,3,4}這種結構較好,也就是說,無人機綜合考慮合作的成本及獲得收益,會形成這種聯盟結構。
4 總結
本文通過聯盟形成算法,分析多無人機執行任務,考慮偵察無人機傳遞信息到執行無人機的代價,以及無人機執行任務的通信延時,建立多無人機合作博弈模型,得出最佳聯盟結構,獲得最小通信延時,并在代價變化的情況下分析了系統性能。
參考文獻:
[1]Poropudas J, Virtanen K. Game-theoretic validation and analysis of air combat simulation models[J]. Systems, Man and Cybernetics, Part A: Systems and Humans, IEEE Transactions on, 2010, 40(5): 1057-1070.
[2]McGrew J S, How J P, Williams B, et al. Air-combat strategy using approximate dynamic programming[J]. Journal of guidance, control, and dynamics, 2010, 33(5): 1641-1654.
[3]陳俠, 唐婷. 不確定環境下多無人機動態任務分配方法[J]. 火力與指揮控制, 2013, 38(1): 45-49.
[4]崔亞妮, 任佳, 杜文才. 多目標跟蹤下的無人機分布式通信決策模型[J]. 計算機仿真, 2014, 31(7): 68-72.
[5]周小程, 嚴建鋼, 謝宇鵬, 等. 多無人機對地攻擊任務分配算法[J]. 海軍航空工程學院學報, 2012, 27(3): 308-312.
[6]馬飛,曹澤陽,劉暉.基于納什均衡的動態目標分配策略研究[J].現代防御技術,2010,38(6):81-84.
[7]惠一楠, 朱華勇, 沈林成. 無人機攻防對抗不完全信息動態博弈方法研究[J]. 兵工自動化, 2009, 28(1): 4-7.
[8]羅賀, 王國強, 胡笑旋, 等. 基于 Agent 的多無人機任務分配模型[J]. 火力與指揮控制, 2014, 39(7): 22-26.
[9]王婷, 符小衛, 高曉光. 基于改進遺傳算法的異構多無人機任務分配[J]. 火力與指揮控制, 2013, 38(5): 37-41.
[10]Virtanen K, Karelahti J, Raivio T. Modeling air combat by a moving horizon influence diagram game[J]. Journal of guidance, control, and dynamics, 2006, 29(5): 1080-1091.
[11]Zhang R, Song L, Han Z, et al. Distributed resource allocation for device-to-device communications underlaying cellular networks[C]//Communications (ICC), 2013 IEEE International Conference on. IEEE, 2013: 1889-1893.
本文來源于中國科技期刊《電子產品世界》2016年第6期第46頁,歡迎您寫論文時引用,并注明出處。
評論