首页 / 一种基于强化学习的电磁干扰仿真演练系统

一种基于强化学习的电磁干扰仿真演练系统实质审查 发明

技术领域

[0001] 本发明涉及仿真演练技术领域,尤其涉及一种基于强化学习的电磁干扰仿真演练系统。

相关背景技术

[0002] 随着电磁行动朝着综合化、自动化和智能化的不断发展,对电磁干扰仿真演练也提出了新的要求,传统的电磁行动管理平台上的电磁干扰仿真平台存在很多问题。
[0003] 目前,传统电磁行动管理平台上的仿真平台中能仿真的装备模型参数较少,场景应用也较少,导致只能根据现有的场景进行简单的仿真演练,很多演练场景都无法达到仿真效果;若需要进行复杂的仿真演练时,则需要大量的数据支撑,集成比较困难;总之,现有的电磁干扰仿真演练平台无法支持无法满足日益先进和复杂的演练任务环境要求,无法根据电磁行动方案实时调整仿真演练效果,导致现有仿真演练平台的可重用性、灵活性和仿真效率都较低。

具体实施方式

[0033] 为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图以及实施例,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
[0034] 需要说明的是,在本发明实施例的描述中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法、步骤或系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种方法、步骤或系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的方法、步骤或系统还存在另外的相同要素。
[0035] 本发明提供一种基于强化学习的电磁干扰仿真演练系统,通过将现有电磁行动管理平台中已有的仿真平台与控制展示模块进行集成,调用对应的算法决策模块,优化雷达工作方案、通信链路方案等方案,从而输出最优的电磁行动方案;并将获取的仿真运行数据和电磁行动方案数据进行集成,构建红蓝行动仿真,进行仿真推演试验,比较不同决策模型的性能,从而输出更好的电磁行动方案并实时呈现仿真效果。
[0036] 系统与电磁行动管理平台进行数据交互,电磁行动管理平台用于编辑仿真想定数据,在电磁行动管理平台中已有的仿真平台上对装备模型和环境模型进行仿真推演,生成仿真运行数据。
[0037] 通过控制展示模块将仿真推演所产生的仿真运行数据与智能算法模块进行数据的实时交互,实现仿真数据的智能训练学习,实时展现仿真过程。
[0038] 需要说明的是,现有的电磁行动管理平台中包括仿真平台,可以对装备模型和环境模型进行仿真推演。仿真运行数据包括态势数据和装备状态数据。
[0039] 更具体的,态势数据可以包括雷达工作方案、通信链路方案、电子侦察方案和电子干扰任务方案等信息;装备状态数据为红蓝行动仿真中所用到的仿真装备信息,可以包括阵营,实体类型,名称,雷达、通信状态,探测频率,探测范围,干扰样式等装备状态数据信息。
[0040] 该系统还可以通过DDS/TCP的方式在现有的电磁行动管理平台中获取仿真想定数据信息,包括状态参数和模型参数。状态参数可以包括:开关状态、损毁状态、误码率(丢包率)、干扰时长和干扰范围等。模型参数可以包括:模型参数,如通信频率、干扰样式、干扰功率和干扰占空比等。
[0041] 作为本发明的一个实施例,如图1所示,仿真演练系统的应用层依次包括:
[0042] 控制展示模块,用于接收用户请求,从电磁行动管理平台中获取仿真运行数据;对仿真运行数据进行处理,根据仿真运行数据的数据类型从智能算法模块中选择决策模型,生成对应的电磁行动方案数据;
[0043] 智能算法模块,用于根据基于仿真运行数据、干扰决策类型生成对应的决策模型;
[0044] 仿真集成模块,用于将控制展示模块与电磁行动管理平台进行集成交互;将获取的仿真运行数据和电磁行动方案数据进行集成,构建红蓝行动仿真,实时更新仿真演练。
[0045] 该系统可以采用B/S架构(Browser/Server,浏览器/服务器模式),也可以采用C/S架构(Client/Server,客户端/服务器模式)。
[0046] 作为一个优选实施例,采用B/S架构;B/S架构可以使用终端远程访问方式,在服务器网路覆盖范围内,用户使用PC、移动端等各种设备均可进行访问,不仅对设备性能需求较低;而且B/S架构模式可以使已有的仿真平台与控制展示模块的集成效果更好;此外,采用服务器+工作站的方式进行部署,可以支持多用户多场景同时进行系统访问,实现多屏异步操作、多屏画面共享、多人异屏联动等操作设置,适应不同场景的应用需求,可扩展性更强。
[0047] 接收用户请求,从电磁行动管理平台中获取仿真运行数据,如图2所示,也即是,控制展示模块从现有的电磁行动管理平台上获取强化学习所需要的态势数据信息和装备状态数据信息。
[0048] 态势数据信息显示可以为:将界面整体分为左侧对象实例区域,右侧态势地图区域。对象实例区域又分为上半部分对象树,下方对象参数信息表,系统中对象实例树上的对象,在参数信息表中显示对应的参数信息,并在地图上聚焦到此对象,对象图标高亮,并显示对象详细信息;右侧态势区域显示三维卫星影像地图,在地图上标绘出对象实例树上所有对象的位置图标与简要信息。另外,还可通过工具栏对地图进行任务区域、点标和线标等多类型标绘。
[0049] 装备状态数据信息显示可以为:在系统内设置一个装备模型库,包括多种类型装备的二维和/或三维模型展示图,装备模型库可以对模型姿态进行移动部署、全方位旋转展示、模型属性编辑等操作。
[0050] 需要说明的是,仿真运行数据的数据类型的得到可以是对数据格式、内容等进行相应的简单处理。数据类型可以包括雷达数据、通信数据等。例如,先将获取数据的格式进行统一,然后对数据内容进行python算法分析,得到数据类型,从而选择对应的决策模型。
[0051] 如图3所示,根据仿真运行数据的数据类型从智能算法模块中选择决策模型,生成对应的电磁行动方案数据。
[0052] 优选的,控制展示模块还可以对获取的仿真运行数据进行二次编辑。例如,二次编辑包括方案名称、创建人、系统模式、仿真模式、回放模式、运行时间、方案部署详细描述等内容。当数据过多时,可以使用列表上方的过滤搜索进一步进行过滤筛选。
[0053] 需要说明的是,需要根据不同的数据类型建立智能算法模块的实体库中对应类型的决策模型,通过调用强化学习算法优化决策模型,对电磁行动方案信息不断迭代,输出更优的电磁行动方案信息。
[0054] 优选的,决策模型的生成包括:获取并处理与仿真运行数据相关的态势数据和装备状态数据,调用强化学习算法,通过强化学习算法分析生成对应的决策模型。
[0055] 例如,雷达干扰决策模型的生成包括:获取并处理雷达相关的态势数据和装备状态数据,调用雷达干扰模型算法,通过强化学习算法分析生成雷达干扰决策模型。
[0056] 通信干扰决策模型的生成包括:获取并处理通信相关的态势数据和装备状态数据,调用通信干扰模型算法,通过强化学习算法分析生成通信干扰决策模型。
[0057] 作为一个实施例,智能算法模块包括一个模型实体库和一个算法实体库,一个模型实体库中包括至少一个决策模型;一个算法实体库中包括至少一个强化学习算法。
[0058] 智能算法模块还可以对电磁行动方案信息进行并入库处理,对决策模型的属性进行相关的编辑设定功能。
[0059] 优选的,电磁行动方案信息至少包括:雷达工作方案信息、通信链路方案信息;则实体库中的决策模型也至少包括一种或多种雷达干扰决策模型、一种或多种通信干扰决策模型。
[0060] 当优化雷达工作方案信息时,选择对应的雷达干扰决策模型,从而输出优化后的雷达工作方案信息;同样的,当优化通信链路方案信息时,选择对应的通信干扰决策模型,从而输出优化后的通信链路方案信息;依次方式,还可以得到优化后的电子侦察方案和电子干扰任务方案。最后将多个优化后的方案组合起来,得到最终优化后的电磁行动方案信息。
[0061] 作为本发明的一个实施例,当仿真运行数据根据数据类型分为雷达数据和通信数据,如图4所示,则决策模型包括雷达干扰决策模型和通信干扰决策模型。
[0062] 作为另一个实施例,智能算法模块包括多个模型实体库,一个模型实体库对应一个决策模型,每个模型实体库包括至少一个强化学习算法。也即是说,每种决策模型对应一种或多种强化学习算法。
[0063] 若一种决策模型只对应一种干扰强化学习算法。例如,如果仿真运行数据的数据类型是雷达数据,则在实体库中选择任一种雷达干扰决策模型,调用对应的强化学习算法优化决策模型,从而生成优化后的雷达工作方案信息。如果仿真运行数据的数据类型是通信数据,则在实体库中选择任一种通信干扰决策模型,并调用对应的强化学习算法优化决策模型,从而生成优化后的通信链路方案信息。根据优化后的雷达工作方案信息和通信链路方案信息共同得到优化后电磁行动方案信息。
[0064] 若一种决策模型对应多种干扰强化学习算法。例如,如果仿真运行数据的数据类型是雷达数据,则在实体库中选择任一种雷达干扰决策模型,并调用任一干扰强化学习算法优化决策模型,从而生成优化后的雷达工作方案信息。
[0065] 需要说明的是,当调整仿真运行数据、决策模型、强化学习算法中的任一一个或同时调整多个时,最终输出的电磁行动方案信也会相应更新,而仿真集成模块所构建的仿真演练也会实时更新。
[0066] 例如,当仿真运行数据的数据类型是雷达数据,第一次选择的是雷达干扰决策A模型,调用的是强化学习算法a,当需要调整时,可以重新选择雷达干扰决策B模型,调用的仍是强化学习算法a;也可以仍然选择雷达干扰决策A模型,重新调用强化学习算法b。但无论如何调整,电磁行动方案信息和对应的仿真演练都会相应更新。
[0067] 需要说明的是,控制展示模块具备多个接口,每个接口同时与智能算法模块中的一个或多个实体库进行连接。
[0068] 例如,当智能算法模块包括一个模型实体库和一个算法实体库,一个模型实体库中包括至少一个决策模型;一个算法实体库中包括至少一个强化学习算法时。则控制展示模块的每个接口都可以同时与模型实体库和算法实体库连接。
[0069] 当智能算法模块包括多个模型实体库,一个模型实体库对应一个决策模型,每个模型实体库包括至少一个强化学习算法。则控制展示模块的每个接口都与每个模型实体库连接。
[0070] 从而可以实现多种不同的数据类型通过多个接口同时选择不同的决策模型和调用相同或不同的强化学习算法以优化决策模型。
[0071] 也即是说,仿真运行数据中包括多种不同的数据类型时,可以同时选择不同的决策模型,也可以同时调用相同或不同的强化学习算法,从而进行同步优化,高效率的输出电磁行动方案数据和实时更新仿真演练状态。
[0072] 需要说明的是,智能算法模块还可以用于将电磁行动方案数据进行筛选、过滤后存储在本地,得到训练数据;基于训练数据不断对决策模型进行训练,通过当前调用的强化学习算法对电磁行动方案数据不断迭代,实时更新决策模型。
[0073] 智能算法模块还可以与仿真集成模块连接,用于将利用不同决策模型得到的电磁行动方案数据进行仿真,并比较不同决策模型的性能,优化决策模型。
[0074] 需要说明的是,当更新决策模型时,对应的电磁行动方案数据、以及呈现的仿真场景也会相应更新。
[0075] 作为本发明的一个具体实施例,仿真集成模块包括方案读取单元、想定同步单元、想定加载单元、仿真呈现单元、仿真保存单元、控制台展示单元、演练情况分析单元和效能分析单元。
[0076] 方案读取单元,用于在电磁行动管理平台上集成控制展示模块,获取电磁行动方案数据。
[0077] 想定同步单元,用于同步仿真想定数据,并进行筛选和过滤处理,发送给仿真呈现单元。
[0078] 想定加载单元,用于将处理后的仿真想定数据进行态势加载,并生成仿真运行数据。
[0079] 仿真呈现单元,用于对获取的电磁行动方案数据、仿真想定数据和仿真运行数据进行集成、编辑和调整,并呈现对应的仿真内容。
[0080] 仿真保存单元,用于存储所述仿真内容。
[0081] 控制台展示单元,与仿真呈现单元连接,用于展示仿真过程中所涉及到的相关数据。
[0082] 演练情况分析单元,与仿真呈现单元连接,对实时演练情况、原始方案结果、训练过程方案结果和训练完成方案结果进行可视化分析。
[0083] 效能分析单元,与仿真呈现单元连接,对装备和环境进行可视化分析。
[0084] 需要可视化分析是以折线图、表格等更为直观的方式进行展示。
[0085] 强化学习是通过与仿真战场环境的交互学习,预测电磁对抗中参数的最优值,以实现最佳的得分情况。相比于其他机器学习方法,强化学习能够更好地处理动态环境下的决策问题,并且在不确定性信息的情况下,能够利用试错来逐步优化电磁行动方案,通过强化学习的特点,让训练完成的算法决策模型替代指战员,在面对对手决策时,能够更快更智能地提供最优决策,实现更大的分差,达到优化电磁行动方案的目的。
[0086] 强化学习算法优选为Q‑Learning算法,Q‑learning是一种基于值的强化学习方法,用于解决有限马尔可夫决策过程(Markov Decision Process,MDP)。Q‑learning的基本原理是学习一个称为Q值(Q‑function)的函数,用于估计在给定状态下采取特定行动后可以获得的未来总回报。Q值可以表示为Q(s,a),其中s表示状态,a表示行动。通过学习和更新这些Q值,智能体(agent)可以选择在给定状态下执行最佳行动。优选的,在Q‑learning算法中,可以使用固定目标值来减少不必要的迭代次数。
[0087] 强化学习算法还可以为DQN(Deep Q‑Learning)算法,DQN算法是将深度学习deep learning与强化学习reinforcement learning相结合的一种算法。
[0088] 总之,与以往的对抗场景不同,基于强化学习的电磁干扰仿真演练系统通过人工智能的方式,帮助甚至替代人员做电磁干扰对抗决策。由于演练场上情况瞬息之间千变万化,再优秀再有经验的人员也很难在第一时间做出最正确的决策,而通过大量数据投喂的强化学习算法的决策模型能达到这一要求,针对突发情况或者在多决策面前,强化学习算法决策模型能根据训练和学习所得到的经验,快速输出最佳的电磁行动方案,并呈现仿真演练效果。
[0089] 需要说明的是,对于前述的各个实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
[0090] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0091] 在本申请所提供的几个实施例中,应该理解到,所揭露的方法或系统,可通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0092] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0093] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0094] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
[0095] 本领域普通技术人员可以理解上述实施例的各个电路中的全部或部分可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read‑Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
[0096] 以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
[0097] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0098] 本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页