基于相关熵诱导度量的近端策略优化算法-Linux大棚

admin 管理员组

文章数量: 1087139

2024年3月25日发(作者：sql语句创建唯一索引)

第41卷摇第3期

2023年5月

吉林大学学报(信息科学版)

JournalofJilinUniversity(InformationScienceEdition)

Vol.41摇No.3

May2023

:1671鄄5896(2023)03鄄0437鄄07文章编号

基于相关熵诱导度量的近端策略优化算法

张会珍,王摇强

(东北石油大学电气信息工程学院,黑龙江大庆163318)

摘要:在深度强化学习算法中,近端策略优化算法PPO(ProximalPolicyOptimization)在许多实验任务中表现

优异,但具有自适应KL(Kullback鄄Leibler)散度的KL鄄PPO由于其不对称性而影响了KL鄄PPO策略更新效率,

为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM鄄PPO(CorrentropyInducedMetric鄄PPO)。该

算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响。通过

OpenAIgym实验测试表明,相比于主流近端策略优化算法Clip鄄PPO和KL鄄PPO算法均能获得高于50%以上的

奖励,收敛速度在不同环境均有500~1100回合左右的加快,同时也具有良好的鲁棒性。

中图分类号:TP273文献标志码:A

关键词:KL散度;近端策略优化(PPO);相关熵诱导度量(CIM);替代目标;深度强化学习

ProximalPolicyOptimizationAlgorithmBasedonCorrentropyInducedMetric

(SchoolofElectricalandInformatioinEngineering,NortheastPertroleumUniversity,Daqing163318,China)

ZHANGHuizhen,WANGQiang

Abstract:InthedeepReinforcementLearning,thePPO(ProximalPolicyOptimization)performsverywell

r,KL(Kullback鄄Leibler)鄄PPOwithadaptiveKLdivergenceaffectsthe

asymmetry,ProximalPolicyOptimizationalgorithmbasedonCIM(CorrentropyInducedMetric)isproposed

characterizethedifferencebetweentheoldandnewstrategies,updatethepoliciesmoreaccurately,and

optimizationalgorithmsclipPPOandKLPPO,theproposedalgorithmcanobtainmorethan50%reward,

alsohasgoodrobustness.

updateefficiencyofKL鄄rtosolvethenegativeimpactofthis

thentheexperimentaltestofOpenAIgymshowsthatcomparedwiththemainstreamnearendstrategy

andtheconvergencespeedisacceleratedbyabout500~

Keywords:kullback鄄leibler(KL)divergence;proximalpolicyoptimization(PPO);correntropyinducedmetric

(CIM);alternativetarget;deepreinforcementlearning

0摇引摇言

近端策略优化是一种无模型的深度强化学习

[1]

算法,由于其适应能力强,现已成为OpenAI

[2]

测试

深度强化学习性能的默认基础算法,并因其在OpenAIgym测试平台良好表现,成为近年来最流行的强化

学习(RL:ReinforcementLearning)算法之一。同时吸引了众多学者对其进行研究

[3]

。

PPO(ProximalPolicyOptimization)算法有两种形式:一种是使用Clip剪辑函数,即Clip鄄PPO算法,

该方法首次由Vanvuchelen等

[4]

在近端策略优化(PPO与剪辑)中使用;另一种是具有自适应惩罚系数的

收稿日期:2022鄄05鄄14

基金项目:黑龙江省自然科学基金资助项目(F2018004)

作者简介:张会珍(1979—摇),女,天津人,东北石油大学副教授,硕士生导师,主要从事复杂系统的鲁棒控制研究,(Tel)86鄄454鄄

6504062(E鄄mail)zhuizhen2002@。

438

吉林大学学报(信息科学版)第41卷

KL(Kullback鄄Leibler)散度的PPO,即KL鄄PPO

[5]

。具有自适应散度的KL鄄PPO存在策略更新不稳定和收

敛速度慢及随着输入状态维数增加而导致鲁棒性变差的问题。为加快收敛速率,别桐等

[6]

在KL鄄PPO算

法中加入了一种新设计的奖励函数,其对智能体的每步动作都给予一个立即的奖励,其目的是使智能体

在这种立即的奖励下能迅速学习更可靠的动作,提升算法训练时的收敛速度。申怡等

[7]

在算法中添加了

同步更新的经验池,保存采样的优秀样本经验,并利用该经验池

[8]

学习到的动作策略网络对动作进行快

速选择,这不仅提高了样本利用率,还保证在训练网络模型时智能体能快速有效地学习。目前对KL鄄

PPO算法的研究在其收敛速率方面均有显著提高,但该算法还存在KL散度不对称、不满足度量属性等

问题,从而导致策略更新不稳定以及高维状态鲁棒性差的问题。关于描述两数据特征之间的相似性问

题,Chen等

[9]

提出了一种称为相关熵(Correntropy)的相似度量。李辉等

[10]

利用相关熵研究齿轮故障特

征取得了一定进展,这表明相关熵和数据特征间研究是有意义的。为了将相关熵扩展到度量的指标,Liu

等

[11]

进一步提出了相关熵诱导度量,其优势在于CIM(CorrentropyInducedMetric)可以满足度量的属性,

并且更适合描述不同概率分布之间的相似性。

笔者将相关熵诱导度量引入KL鄄PPO算法中,解决散度不对称所带来的缺陷。其将原有的KL鄄PPO

中的KL散度用相关熵诱导度量替代,用以表征新旧策略的差异,从根本上解决KL散度不对称性导致的

收敛速度慢和鲁棒性差的问题;相关熵诱导度量设置相对容易计算的核函数,改善原算法存在大量散度

复杂运算的问题。

1摇近端策略优化算法

良好的性能(尤其是对连续控制问题),同时相较于前置的强化学习方法更加易于实现。笔者针对Actor

改进。

近端策略优化算法PPO是一种基于演员鄄评论家(Actor鄄Critic)架构的强化学习算法

[12]

,其不仅有

网络的策略更新中,KL散度限制更新步长会产生不稳定问题,对策略更新的优化目标函数进行一定的

1.1摇近端策略优化算法框架

如图1所示,近端策略优化算法在前置框架中加入了重要性采样

[13]

机制复用历史数据,提高了样本

利用率,同时限制了Actor网络中采样

[14]

和训练网络的分布差异,并采用自适应散度形式的KL鄄PPO,

通过KL散度限制了更新策略中的步长,以确保其更新稳定性。

近端策略优化算法中的网络结构分为演员(Actor)和评论家(Critic)模块。演员模块Actor网络的更

新采用策略梯度(PolicyGradient)方式,同时Actor

网络在每次进行策略更新时,需要将其参数拷贝到旧

Actor网络中进行存储。KL鄄PPO的核心是在Actor

网络更新目标函数中,用KL散度表征新旧策略的

差异并且作为更新目标中的惩罚项。Actor网络输出

动作策略与环境交互,得到奖励R和状态S,并将

这些信息存储于经验池中;评论家模块Critic网络

主要采用时序差分误差(TD鄄error:TemporalDifference

策略的价值。

error)的方式更新,其主要目的是评估Actor网络中

Fig.1摇Proximalpolicyoptimization

图1摇近端策略优化算法

仔

兹

)

-茁K

[仔

兹

),仔

兹old

)]

êú

(兹)=maximize

,(1)

êú

兹

仔

兹old

)

仔

兹

)

为优势价值函数,E

为t时刻采样求均值,茁为自适应其中仔

兹

为随机策略,为重要性权重,

仔

兹old

)

系数,K

[仔

兹

),仔

兹old

)]为新旧策略之间的散度。散度大标志着新旧策略差距比较大,即更新

的步长较大,式(1)中表示减去的这项作为较大的惩罚,最后的期望奖励会变小;反之,散度小新旧策略

自适应散度KL鄄PPO算法中Actor网络策略更新的优化目标函数为

第3期张会珍,等:基于相关熵诱导度量的近端策略优化算法

439

差别小,更新步长较小,减去的这项作为较小的惩罚。

KL散度变小,则系数茁将在下一次迭代中加大。从而使惩罚在迭代中趋于平稳,每轮更新的步长将会得

为更加平稳地更新,加入自适应系数茁,如果KL散度变大,则系数茁将在下一次迭代中减小;如果

1.2摇KL鄄PPO算法的缺陷

到很好的控制。

折扣奖励最后可以趋于最大值。然而,该算法也存在一些问题,在自适应散度KL鄄PPO中引入自适应惩

罚因子茁将导致更新效率较低。同时为避免每次策略更新时的波动,引入KL散度作为约束,使其更新

相对平稳。

从统计学的角度看,KL散度

[15]

是在新空间定义的两个数据之间相似性的函数。然而,KL散度其

本质上不是一个度量,因其是一个非对称函数,不满足度量的对称性。同时,KL散度的不对称,也不

服从度量的三角形不等式性,在正态分布的情况下,这种不对称性会随着均值滋和方差滓的不同

而增加。

综上分析,自适应KL散度形式的KL鄄PPO算法在近端策略优化中的具体缺陷总结如下。

仔

]的最优策略,1)KL散度具有不对称性,其容易将策略更新到其他策略而不是拥有较大奖励E[

2)KL鄄PPO算法内部网络更新存在计算复杂度过高的问题。因为KL散度计算形式本身较为复杂,

近端策略优化是对代理目标的优化,目的是使代理目标L

仔

(含有仔策略的奖励函数)最大化,以确保

降低了更新效率,特别是在离散的作用空间,这种不良影响会更大。同时当维数增加时,不对称的影响

也会愈发增大,即具有高维空间的不稳定性。

这表明在更新的每步中,都必须重新计算KL散度。求解过程中散度的复杂计算,严重影响算法的收敛

速度。

自适应KL散度KL鄄PPO中引入了新的惩罚因子茁,实际训练时很难确定茁值,这都会影响训练

的稳定性。

2摇基于相关熵诱导度量的近端策略优化算法

差的问题。

笔者对度量定理进行分析,并引入对概率分布计算的相关熵理论,同时引入相关熵诱导度量,然后

将其应用于近端策略优化算法中进行改善,解决KL散度由于不对称导致的策略更新不稳定以及鲁棒性

2.1摇相关熵及相关熵诱导度量

对两个随机变量x和y之间的相关熵(广义相关函数)定义为

其中E为期望,资(·)为满足Mercer条件的核函数,滓为核函数的核长。

相关熵的性质随核函数的变化而变化,一个好的核函数会得到很好的结果。

滓

(x,y)=E[资

滓

(x-y)],(2)

将相关熵扩展到度量指标,Liu等

[17]

提出了相关熵诱导度量(CIM,d

CIM

),如下:

CIM

(x,y)=(V

滓

(0)-V

滓

(x,y))

1/2

。

相关熵

[16]

本质也不是一个合理的度量指标,因为当x=y时,V

滓

(x,y)屹0,不满足正定性。为

(3)

摇摇显然,相关熵诱导度量具有如下特性:1)相关熵诱导度量是正定的,可以有界。而KL散度是无界

的。2)相关熵诱导度量满足对称性。对任何种类的核函数,相关熵诱导度量都满足三角不等式,即

2.2摇基于相关熵诱导度量的近端策略优化算法

更加平稳。

CIM

滓

(x,y)臆d

CIM

滓

(x,z)+d

CIM

滓

(z,y)。

笔者将讨论如何通过引入广义相关熵改进KL鄄PPO算法,以解决其KL散度不对称带来的缺陷。

相关熵诱导度量是一个度量,与无界的KL散度相比,相关熵诱导度量总是有界的,而且比KL散度

相关熵诱导度量具有优异的鲁棒性,特别是在两个概率分布距离的评估中。其不仅可以处理高斯

440

吉林大学学报(信息科学版)第41卷

噪声的分布,还可以处理非高斯噪声的分布。近端策略优化中的策略是一个概率分布,而KL散度是对

不同分布度量,相关熵诱导度量也是如此。然而,KL散度的不对称性和重计算使策略优化方法的性能

较差。因此,笔者在自适应散度KL鄄PPO中使用相关熵机制代替自适应散度参数调整机制,将相关熵

诱导度量代替自适应KL散度,以此作为衡量新策略与旧策略之间距离的指标。

为消除不对称惩罚的影响,避免KL鄄PPO中对散度进行大量的复杂计算,在相关熵内部选择了相对

容易计算的核函数三角核函数min

{

椰x-y椰

。

滓

}

对KL鄄PPO中自适应参数茁,因为相关熵诱导度量具有足够的鲁棒性,不用引入每次迭代都需要自

我调整的自适应参数茁,将其改为一个基于任务的常数琢并默认设置为1。如果当前任务不希望在每次

更新中新策略和旧策略之间的差异太大,则将琢设置较大的数如2以上,加大惩罚项的影响。如果当前

任务允许两个策略在一定范围内有差异,则将琢设置较小的数如0.5以下,减少惩罚项的影响。然后

利用随机梯度下降(SGD:StochasticGradientDescent)

[18]

优化策略。

综上所述,笔者在描述新旧策略差异的KL散度部分进行了改进,并提出了基于相关熵诱导度量的

近端策略优化算法(CIM鄄PPO):

仔

兹

)

-琢d

CIM

[仔

兹

),仔

兹old

)]

êú

CIM

(兹)=maximize

êú

。

滓

兹

仔

兹old

)

(4)

摇摇与自适应散度的KL鄄PPO相比,CIM鄄PPO在优化目标函数中使用相关熵诱导度量作为替代目标函数

的惩罚。相关熵诱导度量的引入,解决了自适应KL散度形式的KL鄄PPO算法在近端策略优化中的的

几个缺陷:

1)相关熵诱导度量选择对称核函数后,可以是一个度量,从本质上解决了KL散度不对称性在

2)相关熵诱导度量可以选择相对容易计算的核函数,避免了KL形式计算复杂度过高的问题,从而

由于相关熵诱导度量具有对称性和足够的鲁棒性,不需要在CIM鄄PPO中加入自适应调整机制,解决

了KL鄄PPO中在训练时难以找到自适应惩罚因子茁的问题。

1)初始化仔

KL鄄PPO中策略更新时容易波动及鲁棒性差的缺陷;

大大地弥补了KL鄄PPO训练速度过慢的问题。

CIM鄄PPO算法伪代码如下:

2)根据任务,选择惩罚控制参数琢

4)fori=0,1,2,…直到收敛

3)选择其是估计滓还是设置默认为1

5)摇通过小批量随机梯度下降SGD优化后续的估计:

6)摇设置滓=1或通过Mercer定律估计

滓

7)摇计算d

CIM

(仔

,仔)=(V

滓

(0)-V

滓

(仔

,仔))

1/2

滓

8)摇仔

i+1

=argmax

仔

9)摇仔=仔

i+1

10)endfor

仔

A-琢d

[

仔

CIM

滓

(仔

,仔)

]

3摇仿摇真

通过设计实验比较笔者改进的算法CIM鄄PPO与主流PPO算法Clip鄄PPO和KL鄄PPO之间的效率。

采用OpenAI开发的gym作为基本实验环境,并且从中选择4个基本的连续任务Pendulum鄄v0(倒立摆)

(见图2)、LunarLanderContinuous鄄v2(月球着陆器连续版)(见图3)、BipedalWalker鄄v3(双足机器人)

PPO的相关参数设置如表2所示。

(见图4)和BipedalWalkerHardcore鄄v3(双足机器人硬核版)(见图5)。其中CIM鄄PPO、KL鄄PPO和Clip鄄

第3期张会珍,等:基于相关熵诱导度量的近端策略优化算法

441

摇摇摇摇摇摇摇摇图2摇倒立摆环境图摇摇摇摇摇摇摇摇图3摇月球着陆器连续版环境图

摇摇摇摇摇摇Fig.2摇Pendulum鄄v0摇摇摇摇摇摇摇摇Fig.3摇Lunarlandercontinuous鄄v2

摇摇摇摇摇摇摇图4摇双足机器人环境图摇摇摇摇摇摇摇图5摇双足机器人硬核版环境图

摇摇摇摇摇摇摇Fig.4摇Bipedalwalker鄄v3摇摇摇摇摇摇

以上4个任务中,动作空间的维度从1增加到4,相应的状态空间从3增加到24,每个任务环境的

Fig.5摇Bipedalwalkerhardcore鄄v3

具体动作和状态空间维度如表1所示。这些任务在构建策略过程中的正态分布方差在0.1~1之间,这

使KL散度的不对称性变得明显。从而证实了笔者上述分析得出的随着维数的增加,KL散度的不对称性

就会更加明显,自适应散度KL鄄PPO算法的性能就会下降的结论。

Tab.1摇Experimentaltaskrelatedinformation

表1摇实验任务相关信息

LunarLanderContinuous鄄v2(月球着陆器连续版)

BipedalWalkerHardcore鄄v3(双足机器人硬核版)

BipedalWalker鄄v3(双足机器人)

Pendulum鄄v0(倒立摆)

任务名称动作空间维度状态空间维度

摇摇为评估CIM鄄PPO的性能,笔者分析了4个任务在训练过程中回合数与获得的回合奖励回报之间的

学习曲线如图6a~图6d所示。

Tab.2摇Experimentalparametersetting

Clip鄄PPO

无

CIM鄄PPO

无

Critic网络的学习率

Actor的更新步长

Critic的更新步长

批量大小

Actor网络的学习率

算法名称

关系,给出了CIM鄄PPO、Clip鄄PPO、KL鄄PPO3种算法的学习曲线。3种算法的实验参数设置如表2所示,

表2摇实验参数设置

算法名称

targ

初始化茁

琢

酌

着

KL鄄PPO

0.1

0.5

无

0.0001

0.0002

KL鄄PPOClip鄄PPO

0.0001

0.0002

CIM鄄PPO

0.0001

0.0002

0.2

0.9

摇摇图6是算法在不同任务实验中累计奖励回报与训练回合数的实验结果。横坐标为该算法的训练

回合数,纵坐标为累计奖励回报值。累计奖励回报值越高表示强化学习任务完成的效果越好,反之

表示学习效果越差。学习曲线趋于平稳且不再有剧烈波动,表示智能体最终学习到了执行该任务的能

力,到达平稳状态训练的回合数为收敛时间,回合数越少,则训练的越快,算法收敛越快,反之则收

敛越慢。

442

吉林大学学报(信息科学版)第41卷

图6摇算法在不同任务实验中累计奖励回报与训练回合数的实验结果

Fig.6摇Experimentalresultsofcumulativerewardandtrainingroundsof

thealgorithmindifferenttaskexperiments

Clip鄄PPO,但总会优于KL鄄PPO。在倒立摆任务中,最初,所有3种算法都可以达到几乎相同的效果,但

KL鄄PPO在大约1200回合左右时崩溃,Clip鄄PPO趋于稳定,尽管CIM鄄PPO波动在一个范围内,但其最终

奖励回报值仍然高于Clip鄄PPO。在连续任务中,Clip鄄PPO和KL鄄PPO都经历了奖励回报值迅速飙升然后

又骤降到原始奖励回报值的过程,但CIM鄄PPO的奖励回报值增加后仍能保持在一个较高的水平,这表明

CIM鄄PPO具有良好的鲁棒性。改进算法在后两个任务中表现相对更好。从图6c和图6d可看到,改进

算法的奖励回报值随着训练次数的增加而稳步上升,最后达到其稳定极限。

图6a~图6d表明,在学习速率方面,CIM鄄PPO至少可以达到与Clip鄄PPO相同的效果,有时优于

4摇结摇语

笔者基于KL鄄PPO算法,研究了KL鄄PPO中KL散度的不对称性及其对鲁棒性和学习效率的影响。

随着策略维度的增加,KL散度不对称性带来的影响会增大。笔者在KL鄄PPO中引入了相关熵,并使用相

关熵诱导度量CIM替代衡量旧策略与新策略之间差异的KL散度。实验结果表明,改进后的CIM鄄PPO算

法在训练过程中的学习速率以及训练后的奖励回报值和鲁棒性均有显著提高。

参考文献:

[1]秦智慧,李宁,刘晓彤,等.无模型强化学习研究综述[J].计算机科学,2021,48(3):180鄄187.

180鄄187.

QINZH,LIN,LIUXT,wofModelFreeReinforcementLearning[J].ComputerScience,2021,48(3):

onIntroductoryProgramming[C]椅k,USA:Associationfor

ComputingMachinery,2022:10鄄19.

BEISZ,YANJY,gModelofTravelingSalesmanProblemBasedonPPOAlgorithm[J].Journalof

BeijingInstituteofElectronicScienceandTechnology,2021,29(4):88鄄95.

[2]FINNIE鄄ANSLEYJ,DENNYP,BECKERBA,otsAreComing:ExploringtheImplicationsofOpenAICodex

[3]贝世之,严嘉钰,章乐.基于PPO算法的旅行商问题求解模型[J].北京电子科技学院学报,2021,29(4):88鄄95.

[4]VANVUCHELENN,GIJSBRECHTSJ,roximalPolicyOptimizationfortheJointReplenishmentProblem

第3期张会珍,等:基于相关熵诱导度量的近端策略优化算法

443

[5]CHENGY,HUANGL,ticBoundaryProximalPolicyOptimization[J].IEEETransactionsonCybernetics,

[6]别桐,朱晓庆,付煜,等.基于Safe鄄PPO算法的安全优先路径规划方法[J/OL].北京航空航天大学学报:1鄄15,2022

[2022鄄06鄄07].https:椅/10.13700/.1001鄄5965.2021.0580.

BIET,ZHUXQ,FUY,FirstPathPlanningMethodBasedonSafePPOAlgorithm[J/OL].JournalofBeijing

[7]申怡,刘全.基于自指导动作选择的近端策略优化算法[J].计算机科学,2021,48(12):297鄄303.

2021,48(12):297鄄303.

2021,48(10):37鄄43.

2021.0580.

UniversityofAeronauticsandAstronautics:1鄄15,2022[2022鄄06鄄07].https:椅/10.13700/.1001鄄5965.

2021,52(9):9428鄄9438.

[J].ComputersinIndustry,2020,119:103239.

SHENY,alPolicyOptimizationAlgorithmBasedonSelfGuidedActionSelection[J].ComputerScience,

ZHANGJH,terministicPolicyGradientMethodBasedonPlotExperiencePlayback[J].ComputerScience,

[8]张建行,刘全.基于情节经验回放的深度确定性策略梯度方法[J].计算机科学,2021,48(10):37鄄43.

[9]CHENB,LIUX,ZHAOH,mCorrentropyKalmanFilter[J].Automatica,2017,76:70鄄77.

[10]李辉,郝如江.相关熵和双谱分析齿轮故障诊断研究[J].振动工程学报,2021,34(5):1076鄄1084.

VibrationEngineering,2021,34(5):1076鄄1084.

LIH,chonGearFaultDiagnosisBasedonCorrelationEntropyandBispectrumAnalysis[J].Journalof

IEEETransactionsonSignalProcessing,2007,55(11):5286鄄5298.

[11]LIUW,POKHARELPP,tropy:PropertiesandApplicationsinNon鄄GaussianSignalProcessing[J].

[12]杜嘻嘻,程华,房一泉.基于优势演员鄄评论家算法的强化自动摘要模型[J].计算机应用,2021,41(3):699鄄705.

ComputerApplication,2021,41(3):699鄄705.

DUXX,CHENGH,edAutomaticSummarizationModelBasedonDominantActor鄄CriticAlgorithm[J].

FANLT,ZHANGS,PUJX,edDDRQNNetworkBasedonHeterogeneousEnvironmentImportanceSampling

[J].FireControlandCommand,2020,45(1):47鄄52.

Xi蒺anUniversityofTechnology,2021,41(3):345鄄351.

Informatization,2021(5):103鄄105.

ZHOUJW,GUANYB,BAIWM,orcementLearningMethodBasedonSecondarySampling[J].Journalof

SUNFX,rmAlignmentAlgorithmBasedonKLDivergence[J].InformationTechnologyand

[13]樊龙涛,张森,普杰信,等.基于异环境重要性采样的增强DDRQN网络[J].火力与指挥控制,2020,45(1):47鄄52.

[14]周江卫,关亚兵,白万民,等.一种二次采样的强化学习方法[J].西安工业大学学报,2021,41(3):345鄄351.

[15]孙凤霄,孙仁诚.基于KL散度的波形对齐算法[J].信息技术与信息化,2021(5):103鄄105.

[16]余沁茹,卢桂馥.一种基于最大相关熵和局部约束的协同表示分类器[J].智能科学与技术学报,2021,3(3):

334鄄341.

YUQR,rativeRepresentationClassifierBasedonMaximumCorrelationEntropyandLocalConstraints[J].

JournalofIntelligentScienceandTechnology,2021,3(3):334鄄341.

IEEETransactionsonSignalProcessing,2007,55(11):5286鄄5298.

[17]LIUW,POKHARELPP,tropy:PropertiesandApplicationsinNon鄄GaussianSignalProcessing[J].

[18]朱志广,王永.基于高斯噪声扰动的随机梯度法的设计与应用[J].电子技术,2021,50(8):4鄄7.

ElectronicTechnique,2021,50(8):4鄄7.

ZHUZG,andApplicationofRandomGradientMethodBasedonGaussianNoiseDisturbance[J].

(责任编辑:张洁)

本文标签：策略算法度量相关散度

版权声明：本文标题：基于相关熵诱导度量的近端策略优化算法内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1711353794a589988.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于相关熵诱导度量的近端策略优化算法

更多相关文章

U盘非安全退出后的格式化危机与高效恢复策略

[PPT双屏版电脑抽奖系统下载]多进程现场抽奖展示系统V2-双屏PPT版-专业抽奖展示工具-强劲算法引擎[PPT+Excel双屏技术深度应用,国内唯一,Office集成技术的典型应用]

Python+Django+Mysql网上书店推荐系统 图书商城推荐系统 基于用户、项目、内容的协同过滤推荐算法 WebShopCFRSPython python实现协同过滤推荐算法实现源代码下载

Python+Django+Mysql实现简单在线电影、音乐、图书等推荐系统python实现基于用户的协同过滤推荐算法实现 源代码下载 算法实现

Fiddler抓包工具手机添加代理后连不上无线网的解决办法、Fidder添加显示serverIP项，以及关于跨域策略文件crossdomain.xml

A星遗传算法rrt算法fuzzy算法prm算法potential算法路径规划集合

Potential算法

使用 Python 实现无人机避障的人工势场算法

Navigation中A*算法源码解释

速石短评：Novartis新世代HPC系统的十大策略

程序员必备算法-最考验逻辑思维能力的十大基础算法

真正统治世界的十大算法

【算法】十大经典算法

统治世界的十大算法

操作系统实验之银行家算法（Java版）

死锁的处理策略_预防死锁_避免死锁（银行家算法）_检测和解除（有例题！！！）

【开源】基于协同过滤算法的宠物用品商城的设计与实现（计算机毕业设计）Java Spring 衍生为任何商城系统 毕业论文

Win10 如何设置密码策略bat脚本

【任务协同】合同网算法无人机任务重规划【含Matlab源码 MMB001期】

推荐系统之基于用户的协同过滤算法（UserCF）

发表评论

推荐文章

javascript - Trigger a function in a child directive from it&#39;s parent [angularJS] - Stack Overflow

javascript - How to convert JSON value to string in angular 4? - Stack Overflow

javascript - How to arrange object properties to parameters in function? - Stack Overflow

How can I troubleshoot requests to an Azure Container App? - Stack Overflow

window 开发知识

热门文章

javascript - Open Material UI Dialogs from Parent Component? - Stack Overflow

assembly - Why these ascii characters in this string in asm code will automatically subtract 1? - Stack Overflow

asp.net mvc - How to call a server-side function from javascript in MVC? - Stack Overflow

javascript - How to change the display text of md-select box while maintaining the model? - Stack Overflow

javascript - Check if form date is older than 4 months - Stack Overflow

Is JavaScript&#39;s broadcast channel limited to one received message per second? - Stack Overflow

python - Using explicit mocks for Typer CLI tests - Stack Overflow

powershell - PowerCLI Get VM Tag Assignment with the results broken into custom columns - Stack Overflow

Windows 7 旗舰版简体中文 ISO 镜像下载

winhex搜索16进制_WinHex软件使用方法与磁盘分析方法

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

Windows 安装和连接使用 PgSql数据库

cmd打开计算机D盘,Win7利用cmd命令进入d盘文件夹的操作方法

如何在VMare中制作Windows Embedded Standard 7 (WES 7)

开机、注销后自动登录Windows

【教程】Python Flask快速学习

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

Python+Django+Mysql网上书店推荐系统图书商城推荐系统基于用户、项目、内容的协同过滤推荐算法 WebShopCFRSPython python实现协同过滤推荐算法实现源代码下载

Python+Django+Mysql实现简单在线电影、音乐、图书等推荐系统python实现基于用户的协同过滤推荐算法实现源代码下载算法实现

【开源】基于协同过滤算法的宠物用品商城的设计与实现（计算机毕业设计）Java Spring 衍生为任何商城系统毕业论文

javascript - Trigger a function in a child directive from it's parent [angularJS] - Stack Overflow

Is JavaScript's broadcast channel limited to one received message per second? - Stack Overflow