<div id="5pdmo"></div>
    <center id="5pdmo"></center>
      <wbr id="5pdmo"><legend id="5pdmo"></legend></wbr><dd id="5pdmo"><address id="5pdmo"></address></dd>
          <dd id="5pdmo"><address id="5pdmo"><div id="5pdmo"></div></address></dd>
              <nav id="5pdmo"><table id="5pdmo"></table></nav>
              <nav id="5pdmo"><optgroup id="5pdmo"></optgroup></nav>

              一种基于强化学习的雷达压制式干扰决策方法

              文档序号:29869964发布日期:2022-04-30 18:20来源:国知局
              一种基于强化学习的雷达压制式干扰决策方法

              1.本发明涉及人工智能技术领域,特别涉及一种基于强化学习的雷达压制式干扰决策方法。


              背景技术:

              2.随着人工智能技术的快速发展和广泛应用,认知雷达的研究得到了各国的高度重视。认知雷达是一类具有感知环境、理解环境、学习、推理并判断决策能力的雷达系统。认知雷达能够实时感知目标和环境的动态变化,并基于此自适应地决定雷达的工作模式和发射波形,以此提高雷达在复杂多变环境下的作战效能,因此认知雷达的工作模式和发射波形在动态环境下通常是捷变的。
              3.数字波束形成技术、数字发射/接收组件技术、高性能处理??榈热碛布某墒齑偈沽硕喙δ芾状锏某鱿?。多功能雷达能根据作战使命按需选择相应的功能,极大地增强了雷达的作战效能和抗干扰能力。多功能雷达通常具有多种工作模式和发射波形,并且根据功能需求动态切换,因此多功能雷达的工作模式和发射波形也具有捷变特性。
              4.传统雷达干扰决策方法主要包括基于模板匹配的干扰决策方法、基于博弈论的干扰决策方法和基于推理的干扰决策方法三大类,这些干扰决策方法通常需要大量的先验知识作为决策的支撑,在面对具有工作模式和发射波形捷变特性的认知雷达或多功能雷达时往往存在效率低、实时性弱、准确率低等缺点。为了克服干扰决策算法对先验知识的依赖性,基于强化学习的干扰决策方法应运而生。然而,基于强化学习的干扰决策方法还处于起步阶段,现有的基于强化学习的干扰决策方法存在以下问题:一是对雷达状态的表征没有统一的标准;二是干扰动作通常只考虑了干扰样式,没有考虑干扰参数。


              技术实现要素:

              5.针对现有技术存在的问题,本发明的目的在于提供一种基于强化学习的雷达压制式干扰决策方法,能够有效提高干扰效能,提高干扰决策的有效性,并且具有高效、实时性强、准确率高的技术优势。
              6.为实现上述目的,本发明提供一种基于强化学习的雷达压制式干扰决策方法,所述方法包括以下步骤:s1.确定雷达状态集合和干扰动作集合;s2.根据雷达状态集合和干扰动作集合计算收益;s3.基于q学习进行干扰决策,并通过干扰机对雷达实施干扰动作。
              7.进一步,步骤s1中,雷达状态集合包括雷达的工作模式和波形参数,其中工作模式包括搜索、跟踪、识别和/或制导;波形参数包括载频和带宽。
              8.进一步,步骤s1中,干扰动作集合包括干扰样式和干扰参数,其中干扰样式包括瞄准式干扰、阻塞式干扰和扫频式干扰。
              9.进一步,瞄准式干扰和阻塞式干扰的干扰参数采用干扰信号的带宽,扫频式干扰
              的干扰参数采用扫频周期和扫频干扰的带宽。
              10.进一步,步骤s2中,从观测到的雷达工作模式出发,雷达不同的工作模式对应不同的威胁等级,威胁等级由高到低的顺序为:制导》识别》跟踪》搜索;根据相邻两个时刻观测到的雷达工作模式,定义相关的收益如下:若雷达的威胁等级不变,收益;若雷达的威胁等级升高,收益,若雷达的威胁等级降低,收益;并且,在威胁等级降低的情况中,若雷达的工作模式转换至搜索,收益。
              11.进一步,从观测到的雷达波形参数中的频率和带宽两个波形参数出发,定义相关的收益如下:其中干扰机的工作频率范围为,雷达在时刻和时刻的工作频率范围分别为和;总收益采用线性加权的方式计算得到,,其中w1和 w2为加权系数。
              12.进一步,步骤s3中,基于q学习的干扰决策算法步骤如下:步骤301:对所有可能的雷达状态s和干扰动作a,根据先验知识初始化,若没有先验知识,则,然后执行以下循环:步骤302:对于当前观测到的雷达状态,采用贪心策略在处选择干扰动作;步骤303:执行干扰动作a,观测到下一时刻的雷达状态;步骤304:基于雷达状态的变化和干扰动作计算总收益r;步骤305:更新动作价值函数步骤306:;执行循环直到q值收敛为止;进一步,所述动作价值函数如下其中,学习因子,折扣因子,贪心策略系数。
              13.进一步,q学习的算法中,在每一种雷达状态下都以的概率选择对应于该雷达状态所有动作价值函数最高的干扰动作作为下一步的干扰动作,以的概率随机选择对应于该雷达状态的任意一个可能的干扰动作,收敛到最优干扰策略。通过给定雷达型号和给定干扰机型号确定强化学习中干扰的动作集合,确定干扰决策后,通过干扰机对雷达实施干扰动作。
              14.该方法首先提供了一种面向强化学习的雷达状态和压制式干扰动作的表征方法,其中雷达状态由雷达工作模式和载频、带宽两个波形参数联合表征,该状态表征方式不仅能有效地刻画雷达工作模式和波形参数捷变的特点,而且能很好地评估干扰的效能,有利于提高干扰决策的有效性。压制式干扰动作由干扰样式和干扰参数联合表征,该干扰动作表征方式能有效地提高干扰决策的自由度,有利于干扰决策的灵活性。在此基础上,该方法通过基于贪心策略的q学习算法同时对干扰样式和干扰参数进行干扰决策,克服了现有干扰决策方法只考虑干扰样式的问题。
              附图说明
              15.图1为根据本发明基于强化学习干扰决策方法的示意图;图2为基于强化学习雷达压制式干扰决策的流程图。
              具体实施方式
              16.下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明?;さ姆段?。
              17.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
              18.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
              19.以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
              20.如图1和2所示,根据本发明的基于强化学习的雷达压制式干扰决策方法,包括雷达100和干扰机200,干扰机100用于确定雷达状态集合和干扰的动作集合,根据雷达状态和干扰动作计算收益,并基于q学习进行干扰决策,并根据干扰决策对雷达实施干扰动作,使得对方雷达无法完成目标任务,实现对己方的?;?。其中,干扰动作集合是所有干扰动作的
              集合,雷达状态集合是所有雷达状态的集合;q学习为一种强化学习方式,强化学习通过“试错”不断地与环境进行交互,从环境中获得反馈来修正决策模型,进而得到最优的行动策略,因此基于强化学习的干扰决策方法能有效地对抗认知雷达或多功能雷达。
              21.本发明一种基于强化学习的雷达压制式干扰决策方法,包括以下步骤:s1.确定雷达状态集合和干扰的动作集合。
              22.雷达状态包括雷达工作模式和波形参数,其中工作模式主要包括搜索、跟踪、识别等,不同的工作模式通常对干扰?;ざ韵蟮耐驳燃恫煌?,因此工作模式的变化可以反映干扰的效能。雷达波形参数通常包括脉宽、脉冲重复频率、载频、带宽、脉内调制方式等,由于压制式干扰在时域上通常持续时间较长,能反映干扰效能的雷达波形参数主要是载频和带宽。因此,选取雷达工作模式和载频、带宽两个波形参数的组合来表征强化学习中观测到的雷达状态,该雷达状态表征方式不仅能有效地刻画雷达工作模式和波形参数捷变的特点,而且能很好地评估干扰的效能,有利于提高干扰决策的有效性。对于给定型号的雷达,雷达的工作模式通常是有限且已知的,每种工作模式下的波形参数通常也是固定且有限的,因此根据雷达型号就可以确定强化学习中观测到的雷达状态集合。
              23.干扰的动作包括干扰样式和干扰参数,其中干扰样式主要包括瞄准式干扰、阻塞式干扰和扫频式干扰三大类。瞄准式干扰和阻塞式干扰的参数主要是干扰信号的带宽,扫频式干扰的参数主要是扫频周期和扫频干扰的带宽。对于给定型号的干扰机,其具备的干扰样式和每种干扰样式对应的干扰参数通常是有限且已知的,因此给定干扰机型号就可以确定强化学习中干扰的动作集合。通过干扰样式和干扰参数的组合表征干扰动作和传统的只利用干扰样式表征干扰动作相比扩大了干扰动作的自由度,有利于灵活的干扰决策。
              24.s2.根据雷达状态和干扰动作计算收益强化学习的目标是学习一个最优策略使得累计收益达到最大,因此如何合理地设置收益引导智能体去学习最优策略是强化学习中的一个重要问题。雷达干扰的目的主要是降低雷达的工作效能,从而?;ぜ悍降淖髡侥勘昝庥诒环⑾?、跟踪、识别甚至打击,因此雷达干扰效果可以用来评估收益。
              25.从观测到的雷达工作模式出发,雷达不同的工作模式通常对应不同的威胁等级,以掩护突防作战为例,不同工作模式的威胁等级通常满足以下规律:制导》识别》跟踪》搜索,因此根据相邻两个时刻观测到的雷达工作模式,定义相关的收益如下:如果雷达的威胁等级降低,收益;如果雷达的威胁等级不变,收益;如果雷达的威胁等级升高,收益。此外,搜索模式威胁等级通常最低,因此定义如果雷达的工作模式转换至搜索,收益。
              26.从观测到的雷达波形参数出发,即使雷达的工作模式没有改变,雷达的波形参数发生改变也可以在一定程度上反映干扰效能。以雷达的频率发生变化为例,如果受到干扰以后雷达的频率发生了变化,使得干扰效能降低甚至不再有效,可以在一定程度上说明干扰有效,而如果受到干扰以后雷达的频率没有发生变化,很有可能干扰没有效果,即雷达在干扰环境下依然能完成作战目标,此外,干扰和雷达在频率上的重合度越高,通常干扰的效
              果越好。因此,从雷达频率和带宽两个波形参数出发,定义相关的收益如下:其中干扰机的工作频率范围为,雷达在时刻和时刻的工作频率范围分别为和。
              27.总收益采用线性加权的方式计算得到,,其中加权系数根据专家知识或者试验分析确定。
              28.s3.基于q学习进行干扰决策采用基于贪心策略的q学习算法进行干扰决策。其中贪心策略系数为使用者给定的一个代表概率的数值,该算法在每一种雷达状态下都以的概率进行“利用”,即选择对应于该状态所有动作价值函数最高的动作作为下一步的动作,以的概率进行“探索”,即随机选择对应于该状态的任意一个可能的动作。通过探索和利用的平衡,该算法通常能收敛到最优的策略。
              29.基于q学习的干扰决策算法步骤如下:算法参数:学习因子,折扣因子,贪心策略系数步骤301:对所有可能的雷达状态s和干扰动作a,根据先验知识初始化(如果没有先验知识,则),然后执行以下循环:步骤302:对于当前观测到的雷达状态,采用贪心策略在处选择干扰动作;步骤303:执行干扰动作a,观测到下一时刻的雷达状态;步骤304:基于雷达状态的变化和干扰动作计算总收益r;步骤305:更新动作价值函数步骤306:;执行循环直到q值收敛为止。
              30.其中,初始化是对每个可能的雷达状态和干扰动作对应的q值进行赋值,若没有先验知识,赋值为0,若有先验知识,则按照先验知识对q值进行赋值。由于后续的计算是对上
              一步的q值进行迭代求解,所以需要赋予。在s处选择表示当观测到雷达状态为s时选取某个干扰动作。
              31.q值收敛的含义是相邻两次计算得到的q值之差小于一个给定的门限,收敛后的q值是一个二维的表格,表格中第一维对应的是雷达状态,第二维对应的是干扰动作,表格中的数值是某个特定的雷达状态和干扰动作对应的q值,q值收敛以后,每次对于一个给定的雷达状态,以的概率从所有可能的干扰动作中选出q值最大(即价值函数最高)的干扰动作,以的概率从所有可能的干扰动作中随机选择一个干扰动作。其中,贪心策略是一种方法,该方法中使用贪心策略系数,是恒定值,是减法公式。
              32.对于给定型号的雷达,雷达的工作模式通常是有限且已知的,每种工作模式下的波形参数通常也是固定且有限的,因此根据雷达型号就可以确定雷达状态集合。对于给定型号的干扰机,其具备的干扰样式和每种干扰样式对应的干扰参数通常是有限且已知的,因此给定干扰机型号就可以确定强化学习中干扰的动作集合。
              33.雷达工作模式的变化和波形参数的变化都能反映干扰的效能,因此都可以用来评估干扰动作的收益。雷达工作模式的变化通常对应雷达对干扰?;ざ韵笸驳燃兜谋浠?,基于此设计了针对雷达工作模式变化的收益计算方法。由于压制式干扰在时域的持续时间较长,雷达在频域上波形参数的变化结合干扰的频域波形通常能反映干扰的效果,基于此设计了针对雷达波形参数变化的收益计算方法。两者经过线性加权组合即可得到最终的收益。
              34.q学习是一种与模型无关的强化学习方法,直接优化一个可迭代计算的q函数。q学习是一种高效的强化学习方法,该算法在每一种雷达状态下都以的概率选择对应于该雷达状态所有动作价值函数最高的动作作为下一步的干扰动作(称为“利用”),以的概率随机选择对应于该状态的任意一个可能的干扰动作(称为“探索”)。通过探索和利用的平衡,该算法能收敛到最优的干扰策略,从而确定最优的干扰动作。
              35.基于贪心策略的q学习算法能有效地平衡“探索”和“利用”,使算法收敛到最优干扰决策策略。
              36.本发明提出的基于强化学习的雷达压制式干扰决策方法能有效地应对具有工作模式和发射波形捷变特性的认知雷达或多功能雷达,而且对先验知识的依赖性较低。
              37.在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,本领域的技术人员可以在不产生矛盾的情况下,将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。
              38.上述内容虽然已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。
              当前第1页1 2 
              彩票快三