admin 管理员组文章数量: 1086019
2024年3月25日发(作者:sql语句创建唯一索引)
第41卷摇第3期
2023年5月
吉林大学学报(信息科学版)
JournalofJilinUniversity(InformationScienceEdition)
Vol.41摇No.3
May2023
:1671鄄5896(2023)03鄄0437鄄07文章编号
基于相关熵诱导度量的近端策略优化算法
张会珍,王摇强
(东北石油大学电气信息工程学院,黑龙江大庆163318)
摘要:在深度强化学习算法中,近端策略优化算法PPO(ProximalPolicyOptimization)在许多实验任务中表现
优异,但具有自适应KL(Kullback鄄Leibler)散度的KL鄄PPO由于其不对称性而影响了KL鄄PPO策略更新效率,
为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM鄄PPO(CorrentropyInducedMetric鄄PPO)。该
算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响。通过
OpenAIgym实验测试表明,相比于主流近端策略优化算法Clip鄄PPO和KL鄄PPO算法均能获得高于50%以上的
奖励,收敛速度在不同环境均有500~1100回合左右的加快,同时也具有良好的鲁棒性。
中图分类号:TP273文献标志码:A
关键词:KL散度;近端策略优化(PPO);相关熵诱导度量(CIM);替代目标;深度强化学习
ProximalPolicyOptimizationAlgorithmBasedonCorrentropyInducedMetric
(SchoolofElectricalandInformatioinEngineering,NortheastPertroleumUniversity,Daqing163318,China)
ZHANGHuizhen,WANGQiang
Abstract:InthedeepReinforcementLearning,thePPO(ProximalPolicyOptimization)performsverywell
r,KL(Kullback鄄Leibler)鄄PPOwithadaptiveKLdivergenceaffectsthe
asymmetry,ProximalPolicyOptimizationalgorithmbasedonCIM(CorrentropyInducedMetric)isproposed
characterizethedifferencebetweentheoldandnewstrategies,updatethepoliciesmoreaccurately,and
optimizationalgorithmsclipPPOandKLPPO,theproposedalgorithmcanobtainmorethan50%reward,
alsohasgoodrobustness.
updateefficiencyofKL鄄rtosolvethenegativeimpactofthis
thentheexperimentaltestofOpenAIgymshowsthatcomparedwiththemainstreamnearendstrategy
andtheconvergencespeedisacceleratedbyabout500~
Keywords:kullback鄄leibler(KL)divergence;proximalpolicyoptimization(PPO);correntropyinducedmetric
(CIM);alternativetarget;deepreinforcementlearning
0摇引摇言
近端策略优化是一种无模型的深度强化学习
[1]
算法,由于其适应能力强,现已成为OpenAI
[2]
测试
深度强化学习性能的默认基础算法,并因其在OpenAIgym测试平台良好表现,成为近年来最流行的强化
学习(RL:ReinforcementLearning)算法之一。同时吸引了众多学者对其进行研究
[3]
。
PPO(ProximalPolicyOptimization)算法有两种形式:一种是使用Clip剪辑函数,即Clip鄄PPO算法,
该方法首次由Vanvuchelen等
[4]
在近端策略优化(PPO与剪辑)中使用;另一种是具有自适应惩罚系数的
收稿日期:2022鄄05鄄14
基金项目:黑龙江省自然科学基金资助项目(F2018004)
作者简介:张会珍(1979—摇),女,天津人,东北石油大学副教授,硕士生导师,主要从事复杂系统的鲁棒控制研究,(Tel)86鄄454鄄
6504062(E鄄mail)zhuizhen2002@。
Copyright©博看网. All Rights Reserved.
438
吉林大学学报(信息科学版)第41卷
KL(Kullback鄄Leibler)散度的PPO,即KL鄄PPO
[5]
。具有自适应散度的KL鄄PPO存在策略更新不稳定和收
敛速度慢及随着输入状态维数增加而导致鲁棒性变差的问题。为加快收敛速率,别桐等
[6]
在KL鄄PPO算
法中加入了一种新设计的奖励函数,其对智能体的每步动作都给予一个立即的奖励,其目的是使智能体
在这种立即的奖励下能迅速学习更可靠的动作,提升算法训练时的收敛速度。申怡等
[7]
在算法中添加了
同步更新的经验池,保存采样的优秀样本经验,并利用该经验池
[8]
学习到的动作策略网络对动作进行快
速选择,这不仅提高了样本利用率,还保证在训练网络模型时智能体能快速有效地学习。目前对KL鄄
PPO算法的研究在其收敛速率方面均有显著提高,但该算法还存在KL散度不对称、不满足度量属性等
问题,从而导致策略更新不稳定以及高维状态鲁棒性差的问题。关于描述两数据特征之间的相似性问
题,Chen等
[9]
提出了一种称为相关熵(Correntropy)的相似度量。李辉等
[10]
利用相关熵研究齿轮故障特
征取得了一定进展,这表明相关熵和数据特征间研究是有意义的。为了将相关熵扩展到度量的指标,Liu
等
[11]
进一步提出了相关熵诱导度量,其优势在于CIM(CorrentropyInducedMetric)可以满足度量的属性,
并且更适合描述不同概率分布之间的相似性。
笔者将相关熵诱导度量引入KL鄄PPO算法中,解决散度不对称所带来的缺陷。其将原有的KL鄄PPO
中的KL散度用相关熵诱导度量替代,用以表征新旧策略的差异,从根本上解决KL散度不对称性导致的
收敛速度慢和鲁棒性差的问题;相关熵诱导度量设置相对容易计算的核函数,改善原算法存在大量散度
复杂运算的问题。
1摇近端策略优化算法
良好的性能(尤其是对连续控制问题),同时相较于前置的强化学习方法更加易于实现。笔者针对Actor
改进。
近端策略优化算法PPO是一种基于演员鄄评论家(Actor鄄Critic)架构的强化学习算法
[12]
,其不仅有
网络的策略更新中,KL散度限制更新步长会产生不稳定问题,对策略更新的优化目标函数进行一定的
1.1摇近端策略优化算法框架
如图1所示,近端策略优化算法在前置框架中加入了重要性采样
[13]
机制复用历史数据,提高了样本
利用率,同时限制了Actor网络中采样
[14]
和训练网络的分布差异,并采用自适应散度形式的KL鄄PPO,
通过KL散度限制了更新策略中的步长,以确保其更新稳定性。
近端策略优化算法中的网络结构分为演员(Actor)和评论家(Critic)模块。演员模块Actor网络的更
新采用策略梯度(PolicyGradient)方式,同时Actor
网络在每次进行策略更新时,需要将其参数拷贝到旧
Actor网络中进行存储。KL鄄PPO的核心是在Actor
网络更新目标函数中,用KL散度表征新旧策略的
差异并且作为更新目标中的惩罚项。Actor网络输出
动作策略与环境交互,得到奖励R和状态S,并将
这些信息存储于经验池中;评论家模块Critic网络
主要采用时序差分误差(TD鄄error:TemporalDifference
策略的价值。
error)的方式更新,其主要目的是评估Actor网络中
Fig.1摇Proximalpolicyoptimization
图1摇近端策略优化算法
仔
兹
(a
t
s
t
)
^
t
é
^
-茁K
L
[仔
兹
(a
t
s
),仔
兹old
(a
t
s
)]
ù
êú
L
KL
(兹)=maximize
E
,(1)
A
êú
tt
兹
ë
仔
兹old
(a
t
s
t
)
û
仔
兹
(a
t
s
t
)
^
为优势价值函数,E
^
t
为t时刻采样求均值,茁为自适应其中仔
兹
为随机策略,为重要性权重,
A
仔
兹old
(a
t
s
t
)
系数,K
L
[仔
兹
(a
t
s
t
),仔
兹old
(a
t
s
t
)]为新旧策略之间的散度。散度大标志着新旧策略差距比较大,即更新
的步长较大,式(1)中表示减去的这项作为较大的惩罚,最后的期望奖励会变小;反之,散度小新旧策略
自适应散度KL鄄PPO算法中Actor网络策略更新的优化目标函数为
Copyright©博看网. All Rights Reserved.
第3期张会珍,等:基于相关熵诱导度量的近端策略优化算法
439
差别小,更新步长较小,减去的这项作为较小的惩罚。
KL散度变小,则系数茁将在下一次迭代中加大。从而使惩罚在迭代中趋于平稳,每轮更新的步长将会得
为更加平稳地更新,加入自适应系数茁,如果KL散度变大,则系数茁将在下一次迭代中减小;如果
1.2摇KL鄄PPO算法的缺陷
到很好的控制。
折扣奖励最后可以趋于最大值。然而,该算法也存在一些问题,在自适应散度KL鄄PPO中引入自适应惩
罚因子茁将导致更新效率较低。同时为避免每次策略更新时的波动,引入KL散度作为约束,使其更新
相对平稳。
从统计学的角度看,KL散度
[15]
是在新空间定义的两个数据之间相似性的函数。然而,KL散度其
本质上不是一个度量,因其是一个非对称函数,不满足度量的对称性。同时,KL散度的不对称,也不
服从度量的三角形不等式性,在正态分布的情况下,这种不对称性会随着均值滋和方差滓的不同
而增加。
综上分析,自适应KL散度形式的KL鄄PPO算法在近端策略优化中的具体缺陷总结如下。
^
仔
]的最优策略,1)KL散度具有不对称性,其容易将策略更新到其他策略而不是拥有较大奖励E[
A
2)KL鄄PPO算法内部网络更新存在计算复杂度过高的问题。因为KL散度计算形式本身较为复杂,
近端策略优化是对代理目标的优化,目的是使代理目标L
仔
(含有仔策略的奖励函数)最大化,以确保
降低了更新效率,特别是在离散的作用空间,这种不良影响会更大。同时当维数增加时,不对称的影响
也会愈发增大,即具有高维空间的不稳定性。
这表明在更新的每步中,都必须重新计算KL散度。求解过程中散度的复杂计算,严重影响算法的收敛
速度。
自适应KL散度KL鄄PPO中引入了新的惩罚因子茁,实际训练时很难确定茁值,这都会影响训练
的稳定性。
2摇基于相关熵诱导度量的近端策略优化算法
差的问题。
笔者对度量定理进行分析,并引入对概率分布计算的相关熵理论,同时引入相关熵诱导度量,然后
将其应用于近端策略优化算法中进行改善,解决KL散度由于不对称导致的策略更新不稳定以及鲁棒性
2.1摇相关熵及相关熵诱导度量
对两个随机变量x和y之间的相关熵(广义相关函数)定义为
其中E为期望,资(·)为满足Mercer条件的核函数,滓为核函数的核长。
相关熵的性质随核函数的变化而变化,一个好的核函数会得到很好的结果。
V
滓
(x,y)=E[资
滓
(x-y)],(2)
将相关熵扩展到度量指标,Liu等
[17]
提出了相关熵诱导度量(CIM,d
CIM
),如下:
d
CIM
(x,y)=(V
滓
(0)-V
滓
(x,y))
1/2
。
相关熵
[16]
本质也不是一个合理的度量指标,因为当x=y时,V
滓
(x,y)屹0,不满足正定性。为
(3)
摇摇显然,相关熵诱导度量具有如下特性:1)相关熵诱导度量是正定的,可以有界。而KL散度是无界
的。2)相关熵诱导度量满足对称性。对任何种类的核函数,相关熵诱导度量都满足三角不等式,即
2.2摇基于相关熵诱导度量的近端策略优化算法
更加平稳。
d
CIM
滓
(x,y)臆d
CIM
滓
(x,z)+d
CIM
滓
(z,y)。
笔者将讨论如何通过引入广义相关熵改进KL鄄PPO算法,以解决其KL散度不对称带来的缺陷。
相关熵诱导度量是一个度量,与无界的KL散度相比,相关熵诱导度量总是有界的,而且比KL散度
相关熵诱导度量具有优异的鲁棒性,特别是在两个概率分布距离的评估中。其不仅可以处理高斯
Copyright©博看网. All Rights Reserved.
440
吉林大学学报(信息科学版)第41卷
噪声的分布,还可以处理非高斯噪声的分布。近端策略优化中的策略是一个概率分布,而KL散度是对
不同分布度量,相关熵诱导度量也是如此。然而,KL散度的不对称性和重计算使策略优化方法的性能
较差。因此,笔者在自适应散度KL鄄PPO中使用相关熵机制代替自适应散度参数调整机制,将相关熵
诱导度量代替自适应KL散度,以此作为衡量新策略与旧策略之间距离的指标。
为消除不对称惩罚的影响,避免KL鄄PPO中对散度进行大量的复杂计算,在相关熵内部选择了相对
容易计算的核函数三角核函数min
1-
{
椰x-y椰
,0
。
滓
}
对KL鄄PPO中自适应参数茁,因为相关熵诱导度量具有足够的鲁棒性,不用引入每次迭代都需要自
我调整的自适应参数茁,将其改为一个基于任务的常数琢并默认设置为1。如果当前任务不希望在每次
更新中新策略和旧策略之间的差异太大,则将琢设置较大的数如2以上,加大惩罚项的影响。如果当前
任务允许两个策略在一定范围内有差异,则将琢设置较小的数如0.5以下,减少惩罚项的影响。然后
利用随机梯度下降(SGD:StochasticGradientDescent)
[18]
优化策略。
综上所述,笔者在描述新旧策略差异的KL散度部分进行了改进,并提出了基于相关熵诱导度量的
近端策略优化算法(CIM鄄PPO):
仔
兹
(a
t
s
t
)
^
t
é
^
-琢d
CIM
[仔
兹
(a
t
s
),仔
兹old
(a
t
s
)]
ù
êú
L
CIM
(兹)=maximize
E
A
êú
。
tt
滓
兹
ë
仔
兹old
(a
t
s
t
)
û
(4)
摇摇与自适应散度的KL鄄PPO相比,CIM鄄PPO在优化目标函数中使用相关熵诱导度量作为替代目标函数
的惩罚。相关熵诱导度量的引入,解决了自适应KL散度形式的KL鄄PPO算法在近端策略优化中的的
几个缺陷:
1)相关熵诱导度量选择对称核函数后,可以是一个度量,从本质上解决了KL散度不对称性在
2)相关熵诱导度量可以选择相对容易计算的核函数,避免了KL形式计算复杂度过高的问题,从而
由于相关熵诱导度量具有对称性和足够的鲁棒性,不需要在CIM鄄PPO中加入自适应调整机制,解决
了KL鄄PPO中在训练时难以找到自适应惩罚因子茁的问题。
1)初始化仔
0
KL鄄PPO中策略更新时容易波动及鲁棒性差的缺陷;
大大地弥补了KL鄄PPO训练速度过慢的问题。
CIM鄄PPO算法伪代码如下:
2)根据任务,选择惩罚控制参数琢
4)fori=0,1,2,…直到收敛
3)选择其是估计滓还是设置默认为1
5)摇通过小批量随机梯度下降SGD优化后续的估计:
^
6)摇设置滓=1或通过Mercer定律估计
滓
7)摇计算d
CIM
^
(仔
i
,仔)=(V
滓
(0)-V
滓
(仔
i
,仔))
1/2
滓
8)摇仔
i+1
=argmax
E
仔
仔
i
9)摇仔=仔
i+1
10)endfor
仔
^
A-琢d
[
仔
i
CIM
滓
^
(仔
i
,仔)
]
3摇仿摇真
通过设计实验比较笔者改进的算法CIM鄄PPO与主流PPO算法Clip鄄PPO和KL鄄PPO之间的效率。
采用OpenAI开发的gym作为基本实验环境,并且从中选择4个基本的连续任务Pendulum鄄v0(倒立摆)
(见图2)、LunarLanderContinuous鄄v2(月球着陆器连续版)(见图3)、BipedalWalker鄄v3(双足机器人)
PPO的相关参数设置如表2所示。
(见图4)和BipedalWalkerHardcore鄄v3(双足机器人硬核版)(见图5)。其中CIM鄄PPO、KL鄄PPO和Clip鄄
Copyright©博看网. All Rights Reserved.
第3期张会珍,等:基于相关熵诱导度量的近端策略优化算法
441
摇摇摇摇摇摇摇摇图2摇倒立摆环境图摇摇摇摇摇摇摇摇图3摇月球着陆器连续版环境图
摇摇摇摇摇摇Fig.2摇Pendulum鄄v0摇摇摇摇摇摇摇摇Fig.3摇Lunarlandercontinuous鄄v2
摇摇摇摇摇摇摇图4摇双足机器人环境图摇摇摇摇摇摇摇图5摇双足机器人硬核版环境图
摇摇摇摇摇摇摇Fig.4摇Bipedalwalker鄄v3摇摇摇摇摇摇
以上4个任务中,动作空间的维度从1增加到4,相应的状态空间从3增加到24,每个任务环境的
Fig.5摇Bipedalwalkerhardcore鄄v3
具体动作和状态空间维度如表1所示。这些任务在构建策略过程中的正态分布方差在0.1~1之间,这
使KL散度的不对称性变得明显。从而证实了笔者上述分析得出的随着维数的增加,KL散度的不对称性
就会更加明显,自适应散度KL鄄PPO算法的性能就会下降的结论。
Tab.1摇Experimentaltaskrelatedinformation
1
2
4
4
表1摇实验任务相关信息
LunarLanderContinuous鄄v2(月球着陆器连续版)
BipedalWalkerHardcore鄄v3(双足机器人硬核版)
BipedalWalker鄄v3(双足机器人)
Pendulum鄄v0(倒立摆)
任务名称动作空间维度状态空间维度
3
8
24
24
摇摇为评估CIM鄄PPO的性能,笔者分析了4个任务在训练过程中回合数与获得的回合奖励回报之间的
学习曲线如图6a~图6d所示。
Tab.2摇Experimentalparametersetting
Clip鄄PPO
无
无
无
CIM鄄PPO
无
无
无
1
无
Critic网络的学习率
Actor的更新步长
Critic的更新步长
批量大小
Actor网络的学习率
算法名称
关系,给出了CIM鄄PPO、Clip鄄PPO、KL鄄PPO3种算法的学习曲线。3种算法的实验参数设置如表2所示,
表2摇实验参数设置
算法名称
d
targ
初始化茁
琢
酌
着
KL鄄PPO
0.1
0.5
无
无
无
0.0001
0.0002
32
10
10
KL鄄PPOClip鄄PPO
0.0001
0.0002
32
10
10
CIM鄄PPO
0.0001
0.0002
32
10
10
0.2
0.9
摇摇图6是算法在不同任务实验中累计奖励回报与训练回合数的实验结果。横坐标为该算法的训练
回合数,纵坐标为累计奖励回报值。累计奖励回报值越高表示强化学习任务完成的效果越好,反之
表示学习效果越差。学习曲线趋于平稳且不再有剧烈波动,表示智能体最终学习到了执行该任务的能
力,到达平稳状态训练的回合数为收敛时间,回合数越少,则训练的越快,算法收敛越快,反之则收
敛越慢。
Copyright©博看网. All Rights Reserved.
442
吉林大学学报(信息科学版)第41卷
图6摇算法在不同任务实验中累计奖励回报与训练回合数的实验结果
Fig.6摇Experimentalresultsofcumulativerewardandtrainingroundsof
thealgorithmindifferenttaskexperiments
Clip鄄PPO,但总会优于KL鄄PPO。在倒立摆任务中,最初,所有3种算法都可以达到几乎相同的效果,但
KL鄄PPO在大约1200回合左右时崩溃,Clip鄄PPO趋于稳定,尽管CIM鄄PPO波动在一个范围内,但其最终
奖励回报值仍然高于Clip鄄PPO。在连续任务中,Clip鄄PPO和KL鄄PPO都经历了奖励回报值迅速飙升然后
又骤降到原始奖励回报值的过程,但CIM鄄PPO的奖励回报值增加后仍能保持在一个较高的水平,这表明
CIM鄄PPO具有良好的鲁棒性。改进算法在后两个任务中表现相对更好。从图6c和图6d可看到,改进
算法的奖励回报值随着训练次数的增加而稳步上升,最后达到其稳定极限。
图6a~图6d表明,在学习速率方面,CIM鄄PPO至少可以达到与Clip鄄PPO相同的效果,有时优于
4摇结摇语
笔者基于KL鄄PPO算法,研究了KL鄄PPO中KL散度的不对称性及其对鲁棒性和学习效率的影响。
随着策略维度的增加,KL散度不对称性带来的影响会增大。笔者在KL鄄PPO中引入了相关熵,并使用相
关熵诱导度量CIM替代衡量旧策略与新策略之间差异的KL散度。实验结果表明,改进后的CIM鄄PPO算
法在训练过程中的学习速率以及训练后的奖励回报值和鲁棒性均有显著提高。
参考文献:
[1]秦智慧,李宁,刘晓彤,等.无模型强化学习研究综述[J].计算机科学,2021,48(3):180鄄187.
180鄄187.
QINZH,LIN,LIUXT,wofModelFreeReinforcementLearning[J].ComputerScience,2021,48(3):
onIntroductoryProgramming[C]椅k,USA:Associationfor
ComputingMachinery,2022:10鄄19.
BEISZ,YANJY,gModelofTravelingSalesmanProblemBasedonPPOAlgorithm[J].Journalof
BeijingInstituteofElectronicScienceandTechnology,2021,29(4):88鄄95.
[2]FINNIE鄄ANSLEYJ,DENNYP,BECKERBA,otsAreComing:ExploringtheImplicationsofOpenAICodex
[3]贝世之,严嘉钰,章乐.基于PPO算法的旅行商问题求解模型[J].北京电子科技学院学报,2021,29(4):88鄄95.
[4]VANVUCHELENN,GIJSBRECHTSJ,roximalPolicyOptimizationfortheJointReplenishmentProblem
Copyright©博看网. All Rights Reserved.
第3期张会珍,等:基于相关熵诱导度量的近端策略优化算法
443
[5]CHENGY,HUANGL,ticBoundaryProximalPolicyOptimization[J].IEEETransactionsonCybernetics,
[6]别桐,朱晓庆,付煜,等.基于Safe鄄PPO算法的安全优先路径规划方法[J/OL].北京航空航天大学学报:1鄄15,2022
[2022鄄06鄄07].https:椅/10.13700/.1001鄄5965.2021.0580.
BIET,ZHUXQ,FUY,FirstPathPlanningMethodBasedonSafePPOAlgorithm[J/OL].JournalofBeijing
[7]申怡,刘全.基于自指导动作选择的近端策略优化算法[J].计算机科学,2021,48(12):297鄄303.
2021,48(12):297鄄303.
2021,48(10):37鄄43.
2021.0580.
UniversityofAeronauticsandAstronautics:1鄄15,2022[2022鄄06鄄07].https:椅/10.13700/.1001鄄5965.
2021,52(9):9428鄄9438.
[J].ComputersinIndustry,2020,119:103239.
SHENY,alPolicyOptimizationAlgorithmBasedonSelfGuidedActionSelection[J].ComputerScience,
ZHANGJH,terministicPolicyGradientMethodBasedonPlotExperiencePlayback[J].ComputerScience,
[8]张建行,刘全.基于情节经验回放的深度确定性策略梯度方法[J].计算机科学,2021,48(10):37鄄43.
[9]CHENB,LIUX,ZHAOH,mCorrentropyKalmanFilter[J].Automatica,2017,76:70鄄77.
[10]李辉,郝如江.相关熵和双谱分析齿轮故障诊断研究[J].振动工程学报,2021,34(5):1076鄄1084.
VibrationEngineering,2021,34(5):1076鄄1084.
LIH,chonGearFaultDiagnosisBasedonCorrelationEntropyandBispectrumAnalysis[J].Journalof
IEEETransactionsonSignalProcessing,2007,55(11):5286鄄5298.
[11]LIUW,POKHARELPP,tropy:PropertiesandApplicationsinNon鄄GaussianSignalProcessing[J].
[12]杜嘻嘻,程华,房一泉.基于优势演员鄄评论家算法的强化自动摘要模型[J].计算机应用,2021,41(3):699鄄705.
ComputerApplication,2021,41(3):699鄄705.
DUXX,CHENGH,edAutomaticSummarizationModelBasedonDominantActor鄄CriticAlgorithm[J].
FANLT,ZHANGS,PUJX,edDDRQNNetworkBasedonHeterogeneousEnvironmentImportanceSampling
[J].FireControlandCommand,2020,45(1):47鄄52.
Xi蒺anUniversityofTechnology,2021,41(3):345鄄351.
Informatization,2021(5):103鄄105.
ZHOUJW,GUANYB,BAIWM,orcementLearningMethodBasedonSecondarySampling[J].Journalof
SUNFX,rmAlignmentAlgorithmBasedonKLDivergence[J].InformationTechnologyand
[13]樊龙涛,张森,普杰信,等.基于异环境重要性采样的增强DDRQN网络[J].火力与指挥控制,2020,45(1):47鄄52.
[14]周江卫,关亚兵,白万民,等.一种二次采样的强化学习方法[J].西安工业大学学报,2021,41(3):345鄄351.
[15]孙凤霄,孙仁诚.基于KL散度的波形对齐算法[J].信息技术与信息化,2021(5):103鄄105.
[16]余沁茹,卢桂馥.一种基于最大相关熵和局部约束的协同表示分类器[J].智能科学与技术学报,2021,3(3):
334鄄341.
YUQR,rativeRepresentationClassifierBasedonMaximumCorrelationEntropyandLocalConstraints[J].
JournalofIntelligentScienceandTechnology,2021,3(3):334鄄341.
IEEETransactionsonSignalProcessing,2007,55(11):5286鄄5298.
[17]LIUW,POKHARELPP,tropy:PropertiesandApplicationsinNon鄄GaussianSignalProcessing[J].
[18]朱志广,王永.基于高斯噪声扰动的随机梯度法的设计与应用[J].电子技术,2021,50(8):4鄄7.
ElectronicTechnique,2021,50(8):4鄄7.
ZHUZG,andApplicationofRandomGradientMethodBasedonGaussianNoiseDisturbance[J].
(责任编辑:张洁)
Copyright©博看网. All Rights Reserved.
版权声明:本文标题:基于相关熵诱导度量的近端策略优化算法 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1711353794a589988.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论