神经网络模型中灾难性遗忘研究的综述-Linux大棚

admin 管理员组

文章数量: 1087833

2024年4月18日发(作者：linux空间满了进不去系统)

2021年5月

第47卷第5期

JOURNALOFBEIJINGUNIVERSITYOFTECHNOLOGY

北京工业大学学报

Vol.47No.5

May2021

神经网络模型中灾难性遗忘研究的综述

(1.北京工业大学信息学部,北京摇100124;2.桂林电子科技大学人工智能学院,广西桂林摇541004)

摘摇要:近年来,神经网络模型在图像分割、目标识别、自然语言处理等诸多领域都取得了巨大的成功.但是,神经

网络模型仍有很多关键性的问题尚未得到解决,其中就包括灾难性遗忘问题.人类在学习新知识后不会对旧知识

发生灾难性遗忘,神经网络模型则与之相反.神经网络模型在适应新任务之后,几乎完全忘记之前学习过的任务.

为了解决这一问题,很多相应的减缓神经网络模型灾难性遗忘的方法被提出.对这些方法进行了归纳总结,以促进

对该问题的进一步研究.主要贡献包括3个方面:对现有的减缓神经网络模型灾难性遗忘的方法进行了详细的介

绍,并将不同方法分为4类,即基于样本的方法、基于模型参数的方法、基于知识蒸馏的方法和其他方法.介绍了不

同的评估方案,以评估不同方法对减缓神经网络模型灾难性遗忘的效果.对神经网络模型中的灾难性遗忘问题进

行了开放性的讨论,并给出了一些研究建议.

关键词:神经网络模型;灾难性遗忘;样例;模型参数;知识蒸馏;增量学习

中图分类号:TP389郾1

doi:10.11936/bjutxb2020120014

文献标志码:A文章编号:0254-0037(2021)05-0551-14

韩纪东

,李玉鑑

1,2

SurveyofCatastrophicForgettingResearchinNeuralNetworkModels

(yofInformationTechnology,BeijingUniversityofTechnology,Beijing100124,China;

HANJidong

,LIYujian

1,2

ofArtificialIntelligence,GuilinUniversityofElectronicTechnology,Guilin541004,Guangxi,China)

Abstract:Inrecentyears,neuralnetworkmodelshaveachievedgreatsuccessinsomefields,suchas

imagesegmentation,objectdetection,naturallanguageprocessing(NLP),r,many

keyproblemsofneuralnetworkmodelshavenotbeensolved,forexample,catastrophicforgetting.

Humanbeingshavetheabilityofcontinuouslearningwithoutcatastrophicforgetting,butneuralnetwork

stingmethodsofmitigating

networkmodelsalmostcompletelyforgetthepreviouslylearnedtaskswhenit

ethisproblem,per

catastrophicforgettingofneuralnetworkmodelswereintroducedindetail,andallmethodsweredivided

intofourcategories,namelyexemplar鄄basedmethods,parameter鄄basedmethods,distillation鄄based

differentdiscussionon

thecatastrophicforgettingprobleminneuralnetworkmodelswascarriedout,andsomeresearch

suggestionsweregiven.

收稿日期:2020鄄12鄄21

基金项目:国家自然科学基金资助项目(61876010)

作者简介:韩纪东(1992—),男,博士研究生,主要从事深度学习和计算机视觉方面的研究,E鄄mail:hanjd@.

通信作者:李玉鑑(1968—),男,教授,博士生导师,主要从事模式识别与图像处理、机器学习与数据挖掘、人工智能与自然

语言处理方面的研究,E鄄mail:liyujian@

entevaluationschemeswereintroducedtoevaluatetheeffectof

552

北摇京摇工摇业摇大摇学摇学摇报2021年

Keywords:neuralnetworkmodels;catastrophicforgetting;exemplar;modelparameters;knowledge

distillation;incrementallearning

摇摇近年来,神经网络模型在很多方面已经远远超

对抗网络(generativeadversarialnetwork,GAN)

[34鄄35]

等.这是由于同20世纪相比,神经网络模型的思想

变化并不大,变化最大的是训练神经网络模型所使用

的硬件设备及所使用的数据量.目前,神经网络模型

依然使用反向传播算法进行反复迭代优化,直到损失

函数的值收敛,具体的优化策略可能更丰富了,如自

[37][38]

适应梯度法(adaptivegradient,AdaGrad)

[36]

、

过人类大脑,如在围棋领域AlphaGo战胜人类顶尖

高手

[1鄄2]

,在大规模视觉比赛ImageNet中表现出更

游戏玩家

[5鄄6]

.注意,本文中的神经网络泛指所有的

神经网络.这不仅使得神经网络模型受到广泛的关

注,还极大地促进了神经网络模型的进一步发展,使

强的图像识别能力

[3鄄4]

,在电子游戏中战胜专业顶级

得神经网络模型在更多领域取得了更加不凡的成

就,如图像分割

[7鄄10]

理

[14鄄17]

、姿态估计

[18鄄21]

、目

等

标

.神经网络模型的快速发

检测

[11鄄13]

、自然语言处

展,并没有使其克服所有缺陷.神经网络模型依然

有很多不足,如灾难性遗忘、广受争议的黑箱子操作

等,但是瑕不掩瑜,神经网络在很多方面的惊艳表现

使它依然备受学者们的青睐.

一个显而易见的事实是,人类在学习新知识后

不会对旧知识发生灾难性遗忘,而这既是神经网络

模型的一个重大缺陷,也是它的一个遗憾.该问题

在很久之前就已经引起了学者们的注意.20世纪

八九十年代,连接网络时期,Carpenter等

[22]

已经提

到了神经网络模型中的灾难性遗忘问题,并且用了

一个形象的比喻来说明,一个出生在波士顿的人搬

到洛杉矶,他再回到波士顿时,仍然不会忘记他在波

士顿的一切;也即他在洛杉矶学会新知识后,仍然会

记得之前在波士顿的旧知识,而不会发生灾难性遗

忘;McCloskey等

[23]

描述了神经网络在序列学习中

遇到的灾难性遗忘问题,在文中称该问题为灾难性

干扰(catastrophicinterference).注意:当时,神经网

络常被称为连接网络.当时,有很多学者提出了相

关的方案试图解决该问题,如有学者认为灾难性遗

忘是由于存储在神经网络内部表征重叠造成的,因

此使用稀疏向量、输入正交编码等方法来避免神经

网络模型中的灾难性遗忘

[24鄄25]

来解决神经网络模型中的灾难性遗忘

;有学者使用双网络

[26鄄27]

者使用伪训练数据预演的方法来减少神经网络模型

;也有学

中的灾难性遗忘

[28]

现在

亿

[16]

、几百亿

,神经网络模型的参数量已经达到十几

[29]

,甚至一千多亿

[17,30]

模型中的灾难性遗忘问题依然广泛存在

;但是神经网络

,如卷积神经

网络(convolutionalneuralnetworks,CNN)

[31鄄32]

期记忆网络(longshort鄄termmemory,LSTM)

[33]

、

长短

生成

AdaDelta

momentestimation,Adam)

、RMSprop、

[39]

自

等

适

应

为了克服神经网络

矩估计(adaptive

模型中的灾难性遗忘问题,最近,很多学者提出了他

们的解决方案.如Rebuffi等

[40]

提出iCaRL方法,该

方法选择性地存储之前任务的样本;Sarwar等

[41]

提

出基于部分网络共享的方法,该方法使用“克隆-分

支冶技术;Li等

[42]

提出LwF方法,该方法主要以知识

蒸馏的方式保留之前任务的知识;Zeng等

[43]

提出使

用

Oswald

正交

等

权重修改结合情景模块依赖的方法;von

[44]

提出任务条件超网络,该网络表现出了

保留之前任务记忆的能力;Li等

[45]

结合神经结构优

化和参数微调提出一种高效简单的架构.也有学者

研究了神经网络中的训练方法、激活函数及序列学习

任务之间的关系怎样影响神经网络中的灾难性遗忘

的问题,如Goodfellow等

[46]

就发现dropout方法在适

应新任务和记住旧任务中表现最好,激活函数的选择

受两任务之间关系的影响比较大.

目前对神经网络模型中灾难性遗忘的研究主要

是增量学习(incrementallearning),在很多情况下,

也被称为持续学习

(lifelong

(continous

为增量学习

learning)

,但是有时为与原论文保持一致也可能

等.这里如没有特别说明统一称

learning)或终身学习

使用持续学习或终身学习.还有一些其他神经网络

模型方法对灾难性遗忘问题的研究非常有意义且与

增量学习有一定的交叉

learning)、

是同时学习多个任务

迁移学习(transfer

,如多任务学习(multi鄄task

,利用不同任务的互补

learning).多任务学习

,相互促

进对方的学习

[47]

识迁移到新任务上

;迁移学习主要是将之前学习的知

[48]

习到新知识后是否发生灾难性遗忘

,但是这种学习方式不关心学

,也即该方法主

要的关注点是怎样将之前任务上的知识迁移到新任

务上.多任务学习、迁移学习和增量学习如图1所

示.图1(a)表示多任务学习的一个实例,model

和

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

553

model

分别针对task

、task

,涵盖2个模型的蓝色

背景代表model

和model

在同时训练2个任务时

的某种联系,如共享神经网络的前几层等;图1(b)

表示迁移学习,model

表示已经使用任务task

的

数据训练好的模型,model

表示针对任务task

的模

型且尚未被训练,迁移学习就是将model

的知识迁

model

学习任务task

,在t+1时刻model

学习任

务task

,增量学习要求model

在学习过task

后不

能忘记task

移到model

;图1(c)表示增量学习,在t时刻,

摇摇显然,神经网络模型中的灾难性遗忘问题已经

成为阻碍人工智能发展的绊脚石,该问题的解决无

疑将是人工智能发展史上的一个重要里程碑.为促

进该问题的早日解决,本文对神经网络模型中灾难

性遗忘问题的相关研究做了一个综述.该综述的主

要目的是为了总结之前在这方面的研究和对该问题

提出一些研究建议.

Fig.1摇Multi鄄tasklearning,transferlearningandincrementallearning

图1摇多任务学习、迁移学习和增量学习

则化的方法和基于参数隔离的方法;其次,为了公正

地对比不同持续学习方法的效果,还提出了一种对

比性研究持续学习性能的框架.Lesort等

[51]

综合性

地研究了机器人中的增量学习.Parisi等

[52]

对基于

神经网络的持续性终身学习做了一个综述,首先对

生物的终身学习做了详细的介绍,如人类怎样解决

弹性-稳定性困境、赫布弹性稳定性、大脑互补的学

习系统,这是该综述与其他类似综述最大的不同;然

后,分析了神经网络模型中的终身学习方法,并将其

分为:正则化方法、动态架构方法和互补学习系统及

记忆回放.Belouadah等

[53]

对视觉任务的类增量学

习做了一个综合性研究,提出了增量学习的6个通

用属性,即复杂度、内存、准确率、及时性、弹性和

伸缩性,并将增量学习的方法分为基于微调的方

法和基于固定表征的增量学习方法.Masana等

[54]

提出了类增量学习所面临的挑战,即权重偏移、激

活值偏移、任务间混淆和新旧任务失衡,并将类增

量学习分为3类,基于正则化的方法、基于预演的

方法和基于偏置-校正的方法.文献[50鄄54]虽然

都对神经网络中的克服灾难性遗忘的方法做了综

述性研究,但是它们均有一定的局限性,如文献

且用来对比不同持续学习方法性能的框架也是针

对图像分类任务的,文献[51]仅研究了针对机器

人的增量学习.另外,文献[50鄄54]都没有涉及生

成对抗模型或强化学习克服灾难性遗忘方法的

介绍.

[50]仅介绍了持续学习中关于图像分类的方法,

1摇相关工作

之前的连接网络模型中,French

[49]

对连接网络

的灾难性遗忘的问题做了一个综述.该文献不仅详

细地分析了造成连接神经网络灾难性遗忘的原因,

而且介绍了多种解决连接神经网络灾难性遗忘问题

的方案.该作者最后指出解决神经网络的灾难性遗

忘问题需要2个单独的相互作用的单元,一个用于

处理新信息,另一个用于存储先前学习的信息.但

是该文献作者分析的是早期的神经网络模型,随着

神经网络技术的快速发展,现在的神经网络模型与

连接神经网络模型在神经网络的结构、深度以及优

化策略,甚至是训练神经网络模型的数据量等方面

都有很大不同.

最近,为了总结对神经网络模型中灾难性遗忘

的研究,也有部分学者做了一些综述性研究.de

Lange等

[50]

对持续学习中的图像分类任务做了一个

对比性研究,首先对持续学习的方法进行了综合的

介绍,如介绍很多持续学习的方法,将各种持续学习

的方法进行了总结并归为基于回放的方法、基于正

554

北摇京摇工摇业摇大摇学摇学摇报2021年

2摇减缓灾难性遗忘问题的方法

针对神经网络模型中的灾难性遗忘问题,相关

学者提出了很多解决方法.尽管相关文献大都声称

提出的方法可以克服灾难性遗忘的问题,但实际上

仅是不同程度地减缓神经网络模型中的灾难性遗忘

问题,为了表述的严谨,本章的标题为减缓灾难性遗

忘问题的方法.由第1节的内容可以看出,不同的

综述文献依据不同的规则,对减缓灾难性遗忘问题

方法的分类并不相同,本节将减缓灾难性遗忘问题

的方法分为4类,即基于样本的方法、基于模型参数

的方法、基于知识蒸馏的方法和其他方法.

为方便下文的叙述,这里对下文中的符号进行

统一,符号及其含义具体如表1所示.

表1摇符号及其含义

Table1摇Symbolsanddefinition

符号

Task

pre

Tdata

pre

Task

new

含义

已经被神经网络模型学习过的任务的集合,等价于{T

pre

,…,T

pre

}

Task

pre

相对应的各任务样本的集合,等价于{T

pre

,…,T

pre

}

Tdata

select

Tdata

new

Class

pre

Cdata

pre

Class

new

专

由Tdata

pre

中抽取的部分样本的集合,等价于{T

select

,…,T

select

}

将要被神经网络模型学习的新任务的集合,等价于{T

new

,…,T

new

}

Task

new

相对应的各新任务样本的集合,等价于{T

new

,…,T

new

}

已经被神经网络模型学习过的类的集合,等价于{C

pre

,…,C

pre

}

Class

pre

相对应的各类的样本的集合,等价于{C

pre

,…,C

pre

}

由Cdata

pre

中抽取的部分样本,等价于{C

select

,…,C

select

}

Cdata

select

Cdata

new

专

Model

pre

Model

target

将要被神经网络模型学习的新类的集合,等价于{C

new

,…,C

new

}

Class

new

相对应的各新类的样本的集合,等价于{C

new

,…,C

new

}

神经网络模型的共享参数

神经网络模型针对任务T

的特定参数

神经网络模型的全部参数

添加新任务或新类之前的神经网络模型

添加新任务或新类之后的神经网络模型

摇摇考虑到很多被提出的减缓灾难性遗忘的方法将

共享参数专

模块与特定任务参数专

模块分开,这

里有必要进行提前说明.以卷积神经网络的图像分

类任务为例,如图2所示,淡红色方框的参数共享模

块是指卷积神经网络中的前几层,这几层被认为提

取图像的通用特征;浅绿色方框的特定任务模块是

网络的分支,每个网络分支分别对应一个固定的任

务T

pre

,且仅用于任务T

pre

的图像分类;浅蓝色方框

的特定任务模块是为新任务添加的新网络分支,该

模块用于新任务的图像分类.这样划分是由于文献

[55]已经指出卷积神经网络的前面几层学习的是

不同任务所共享的通用知识,而之后的几层学习每

个任务所专有的知识.

注意,由于增加新任务与增加新类非常相似,

在下文中不做特别区分,均使用增加新任务表示;

Fig.2摇Parametersharingmoduleandtask鄄specific

module

图2摇参数共享模块和特定任务模块

有些时候为与原论文表述一致,也会使用增加新

类表示.

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

555

2郾1摇基于样本的方法

据的方法称为基于样本的方法.直接使用即为使用

额外的内存存储Tdata

pre

样本集中的部分数据

Tdata

select

,在学习新任务时,将Tdata

select

与Tdata

new

混

合,最后使用混合后的数据训练Model

target

.间接使

用主要指生成伪数据或保存Tdata

pre

的特征,然后使

用它们与Tdata

new

或Tdata

new

的特征混合训练

Model

target

.在文献[50,52]中也将该方法称为回放.

本文将直接或间接地用到Tdata

pre

样本集中数

计量.存储之前任务Task

pre

部分样本Tdata

select

的目

然后作为更新网络的训练数据;存储每类样本初次

学习时的统计量,是由于初次训练时,该类样本的数

据最全,相应地统计量也最准确;该统计量的作用是

为了矫正更新网络时由于数据失衡(新任务Task

new

偏差.

的数据多,而之前任务Task

pre

的数据少)所造成的

Isele等

[59]

提出了一种选择性存储所有任务样

的非常简单,是为了与新任务Task

new

的数据混合,

注意:有些方法中虽然用到了Tdata

pre

中的部分样本

本的方法,避免强化学习的灾难性遗忘.该方法包

数据,考虑到论文作者在克服灾难性遗忘中的主要

思想是使用其他方法,因此这部分方法并没有被认

2郾

为是基于样本的方法

1郾1摇

Guo

直接使用样本的方法

题

等

[56]

为解决增量学习中的灾难性遗忘问

supported

,提出了支持样本表征的增量学习(exemplar鄄

ESRIL)

触(memory

方法

representation

aware

.ESRIL

synapses,MAS)

包括

for

3个部分

incremental

模块

:1)

,该模块使用

记忆感知突

learning,

ImageNet

convolutional

数据集预训练的深度卷积神经网络(deep

之前任务Task

neuralnetwork,DCNN),

;2)

是为了维持用

pre

数据集训练的特征基于样例的

字

ESC)

空间

)多

模块

聚

质

类

心

该模块是为了提取每个任务中的样本

(exemplar鄄basedsubspaceclustering,

最近类(thenearestclassmultiple

;

centroids,NCMC)

器,当增加的新类数据与

模块,该模块作为一个辅助分类

ImageNet数据很相似时,

使用该分类器替代MAS中全连接层,减少训练时

间

Guo

.ESRIL

过迭代的方式不断优化

等采用文献

的关键是每类数据中代表样本的选择

[57]中的方法进行样本的选择,通

浊

new

min

沂R

(

椰h

椰

浊

沂

移

new

)

式中:z

表示样本x

沂Cd

被DCNN提取的特征

(1)

;

new

是X

为C

new

样本集的特征集合

new

;浊为一个超参数;N

保持的稀疏形式

new

样本的数量;h

[57]

=[h

,…,h

]

,为子空间

学习方法

Belouadah

,称为

等

[58]

提出了一种基于双内存的增量

IL2M.与普通基于样本的方法不

同,该方法使用2个记忆模块:1)第1个记忆模块

存储之前任务Task

模块存储之前任务

pre

的部分样本Tdata

Task

select

;2)记忆

pre

每类样本初次学习时的统

括长时存储模块和短时存储模块.长时存储模块称

为情景记忆,存储的样本基于样本的等级(使用排

序函数对样本排序).短时记忆模块是一个先进先

出(first鄄in鄄first鄄out,FIFO)区,该部分不断刷新,以确

2郾

保网络能接触到所有的输入数据

1郾2摇间接使用样本的方法

型

Hayes

memory

,该模型称为使用记忆索引的回放

等

[60]

提出了一种别样的基于样本的模

储之前任务

indexing,

Task

征.REMIND模型将样本的特征经过量化后给予索

pre

REMIND).

的原始样本

REMIND

(replayusing

,而是存储样本的特

模型并不存

引号并存储,增加新任务Task

new

时,将随机抽取r个

存储的特征进行回放

Atkinson等

[61]

Pseudo鄄Rehearsal)

提出了RePR(reinforcement鄄

演的方式避免神经网络中的灾难性遗忘

模型.RePR模型使用伪数据

.RePR

-预

包

括短时记忆(short鄄termmemory,STM)和长时记忆模

块(long鄄termmemory,LTM).STM模块使用当前任

务Task

new

的数据Tdata

new

训练针对当前任务的深度

强化网络(deepQ鄄networks,DQNs);LTM模块包括

拥有之前所有任务Task

任务伪数据的GAN.结合迁移学习

pre

的知识和能生成之前所有

,将DQNs的知

识迁移到Model

pre

中;在知识迁移的过程中,真实的

数据使得Model

target

学习到新知识,GAN生成的伪数

据维持

成相应的伪数据

Atkinson

Model

pre

等

中之前任务的知识.

[62]

和Shin等

[63]

均使用中GAN生

.Atkinson等

[62]

使用GAN生成伪

图像代替随机生成的伪图像,因为随机生成的伪图

像明显不同于自然的图像,这将导致网络能学习到

很少的之前任务的知识.当训练第T

任务时,GAN

被训练T

的数据集D

,增加了T

任务后,GAN被

训练使用T

的数据集

;增加了T

任务后,该方

法显然就出现了问题

,意味着GAN生成的伪数据也是

,前一步中,GAN仅使用数据

集D

的伪数

556

北摇京摇工摇业摇大摇学摇学摇报2021年

据.为了不增加内存的消耗,作者将GAN也使用伪

标签进行训练,这样GAN生成的数据就代表之前所

有任务的数据.Shin等

[63]

提出的模型具有双架构

掖G,S业,G是深度生成器模型用来生成伪样本,S是

2郾2摇基于模型参数的方法

基于模型参数的方法根据是否直接使用模型参

数进行分类:1)选择性参数共享,该方法直接使用

模型的参数;2)参数正则化,该方法约束模型的重

要参数进行小幅度变动,以保证对之前已学习知识

解算器用来处理每个任务.

2郾

的记忆

2郾1摇

该方法在预训练神经网络模型

选择性共享参数

Model

新任务Task

pre

后,增加

.虽然神经网络模型的参数没有发生改变

new

时选择性地使用神经网络模型的参

数,由于

针对不同任务所选择性激活神经网络中参数的不

同,导致不同任务使用的神经网络的模型参数不同,

进而使同一个神经网络模型的参数适应不同的任

务.可以看出,这种方式换一个角度解决神经网络

中的灾难性遗忘问题.这种方式的优点:1)不需要

使用之前任务Task

pre

的数据Tdata

网络模型进行较大的改进.这种方式也有一个显著

pre

;2)没有对神经

的缺点,虽然不需要使用先前任务的数据进行训练,

但是需要针对不同任务存储一个激活参数,即使在

相关文献中,作者一再强调存储的激活参数很小,但

当任务量非常多时,即使逐渐小幅度定量的增加也

是非常可怕的

Mallya等

[64]

提出了一种共享参数的方法,该方

法不改变预训练骨干网络的参数专,而仅对每个任

务训练掩模m,具体如图3所示.以第k个任务为

例进行说明:首先训练得到掩模mask忆

;然后通过将

掩模

中mask

mask忆

二值化处理得到二值化掩模mask

,如图

所示(红色实方框为表示1,深灰色实方

框表示0);最后将二值化掩模mask

与预训练骨干

网络的参数专

的参数集专

,如图

backbone

逐元素运算得到适用于任务

中专

backbone

和专

所示(专

中绿色实方框表示具体的参数,专中绿色实方框表

backbone

示激活的参数,深灰色实方框表示未被激活的

参数)

习(calibrating

Singh

等

[65]

提出了校准卷积神经网络的终身学

CNNsforlifelonglearning,CCLL),该

模型是一个与众不同的网络.该网络重复使用训练

的参数,不同之处在于该网络在每层卷积神经网络

的输出位置添加一个校准模块,通过校准模块使该

图3摇共享参数的方法

[64]

摇

Fig.3摇Methodofsharingparameters

[64]

网络避免灾难性遗忘问题,同时适应新的任务.该

网络在神经网络的每层后面加一个任务适应校准模

块CM

络),该模块包括由针对网络中的单个参数的空间

(t表示第t个任务,i表示第i层卷积神经网

校准模块和针对网络参数通道的通道校准模块.空

间校准模块计算式为

=GCONV

琢

式中:M

表示第t个任务中第i

)茌

层神经网络空间校

(2)

准模块的输出;GCONV

琢

表示组卷积,每个组卷积有

琢个通道;M

表示表示第t个任务中第i层神经网

络的输出;茌表示逐元素相乘.空间校准模块的输

出M

作为通道校准模块的输入,通道校准模块计

算式为

=滓(BN(GCONV

茁

(GAP(M

))))茚M

式中:M

(3)

表示第t个任务中第i层神经网络通道

校准模块的输出;BN表示批归一化;GCONV

琢

表示

组卷积,每个组卷积有茁个通道;GAP表示全局均

2郾

值池化

2郾2摇

;茚

使用该方法时

参数正则化

表示逐通道相乘.

,Model

对神经网络进行重新训练;

pre

在添加新任务后,需要

但是,由于添加了参数正

则项,神经网络在训练的过程中会保证对重要参数

进行小幅度的改变,以保证对之前任务Task

pre

的

效果

Kirkpatrick等

[66]

参考生物对特定任务的突触

巩固原理,提出了类似于该原理的人工智能算法,即

可塑权重巩固(elasticweightconsolidation,EWC).

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

557

小鼠在学习新任务后,一定比例的突触会增强,并且

能保持一段时间;相应地,神经网络模型的参数并非

全是等价的,有些参数可能是有用的,有些参数可能

作用非常低甚至是没有作用.因此,作者提出缓慢

改变神经网络模型中的重要参数,以使得模型不忘

记之前学习的知识.EWC使用损失函数来实现该

目的,即

L(兹)=L

(兹)+

式中:N为样本x的数量;i、j、k三个索引分别为样

本x的3个维度,D是样本x三个维度数的乘积;x

ijk

为重建后图为图像在索引(i,j,k)处的灰度值;

2郾3摇基于知识蒸馏的方法

像在索引(i,j,k)处的灰度值.

Hinton等

[68]

于2015年提出了一种模型压缩的

式中:L

(兹)表示针对task

的分类损失函数;姿表示

移

姿

(兹

-兹

A,i

)

方法,即知识蒸馏.该方法使用软目标辅助硬目标

(4)

进行训练小模型model

small

,软目标即将样本x

输入

到预训练的大模型model

big

中得到的输出q

,硬目标

即为样本的真实标签y

.之所以这样做,是因为软

之前学习的task

的重要性;F表示费雪矩阵;i是参

数的索引;兹表示模型的参数;兹

的参数

A,i

表示之前任务A

Chang

等

[35]

为了使GAN避免灾难性遗忘,提出

了记忆保护生成对抗模型

MPGAN)

(memoryprotection

derivative

则化方法使用输出函数的一阶导数不能准确地评估

preserver,SDP).

并设计了一种参数正则化方法

考虑到已存在的参数正

(second

GAN,

参数的重要性,SDP使用输出函数的二阶导数.使

用F表示输出函数,兹表示模型的参数,则SDP表

示为

SDP

(兹)=

啄兹+

由于汉森矩阵计算较为复杂

(

鄣

兹

)

啄兹

(

鄣

,在实际操作中使

鄣

兹

)

啄兹(5)

用费雪信息E[(

(

鄣

兹)

]近似汉森矩阵

鄣

.SDP使用

SDP

El等

(兹

[67]

鄣

兹

)

啄兹+

借用参数正则化的思想

啄兹

[(

,提出了一种方

鄣

兹

)

]

啄兹(6)

式约束增加新任务后模型参数的改变.作者将卷积

神经网络的特征提取模块称为编码器,在编码器后

由有2个分支网络,一个分支网络为了图像分类,另

一个分支网络称为解码器,使用反卷积进行样本的

重建.为了训练该网络,作者在损失函数中添加了

一个非监督重建损失,该损失的作用等同于参数正

则化.优化网络中的损失函数

L=L

,y)+姿L

式中:L

rec

的真实标签

cls

(

,y)是图像分类的交叉熵损失

cls

(

,x)(7)

,y为图像

网络输出的预测标签;姿是超参数;

,x)是重建损失,x

表示为

rec

(

x为重建样本,x为样本.L

rec

(

,x)=-

移

n=1

移

ijk

log

ijk

+(1-x

ijk

)(1-log

ijk

)]

(8)

目标中包含的信息量巨大;而硬目标包含的信息量

较低.如果model

big

中真实类的输出结果远远大于

其他类的结果,那就不能很好地使用软目标中的信

息了,因此需要平滑softmax的输出结果,即

移

exp

(

/T)

(9)

/T)

式中:z

为softmax前一层(该层的神经元个数已被

映射为训练任务的类别数)的输出;T为温度,T越

大model

big

输出的结果越软.知识蒸馏的方法被广

泛应用于模型压缩

[69鄄71]

被广泛应用于解决神经网络模型的灾难性遗忘问题

、迁移学习

[72鄄74]

等领域,也

中

[75鄄79]

data

的方式将

同时输入到

.图4为知

model

big

model

识蒸馏的示意图,将训练样本

的知识迁移到

big

和model

model

small

,通过知识蒸馏

small

图4摇知识蒸馏

Fig.4摇Knowledgedistillation

(learning

Li等

[42]

结合知识蒸馏设计了学而不忘模型

类Class

new

without

时,仅需要使用新类

forgetting,LwF),

Class

该模型在增加新

且能避免对之前学习知识的遗忘

new

的数据训练

模型,.LwF模型

使用前几层作为特征提取模块,为所有任务共享;之

后几层作为特定任务模块

LwF使用的损失函数

,为不同任务的单独所有.

L=姿

old

(

兹

)

兹

+L(Y

兹

new

)(10)

558

北摇京摇工摇业摇大摇学摇学摇报2021年

式中:姿

为一个超参数,值越大,相应地对蒸馏损失

)为软标签的损失,Y

为的权重就越大;L

(Y,

增加新类增加新类Class

new

前模型的软标签,

为训练过程中模型的输出;R(

兹

)

实标签,

nson

为正则项,

兹

为共享参数,

兹

之前任务的特定任务

为新任务的特定任务参数.参数,

兹

old000

(棕)=-

Class

new

后训练过程中模型输出的软标签;L

new

)增加新类别的标准损失,Y

为新类别数据的真

式中:N和C分别表示样本的数目和样本的类别数;

表示样本真实标签,q

为模型的输出;pdist

与

qdist

类比于p

和q

Lee等

[79]

结合未标记的大规模野生动物数据设

pdist

log

qdist

移移

i=1j=1

移移

log

i=1j=1

(13)

(14)

损失函数,将知识蒸馏的方法用到目标检测的灾难

Shmelkov等

[75]

和Chen等

[76]

分别提出了新的

计了一个蒸馏损失,称为全局蒸馏(global

distillation,GD)

[79]

.用M

表示增加第t个任务时所

性遗

Shmelkov

忘中,这里以文献[75]为例进行说

在增加新的任务时

等

明.

[75]

提出的损失函数使FastRCNN网络

,不用使用之前任务的数据,且表

现出对之前任务知识的不遗忘.将当前的网络称为

增加新任务后需要增加新的分类分支和使用

新任务的数据进行重新训练,此时的网络称为C

由于目标检测任务中需要进行分类与回归训练,因

此作者结合分类与回归提出蒸馏损失函数

移

dist

[(

-y

)

+(t

-t

)

](11)

式中:N表示感兴趣区域

(regionofinterest,RoI)的

个数,|C

与y

和

分别是

|表示增加新任务前目标的种类个数

和C

的分类输出,t

与t

分别是

,作者从每幅图像中的

的回归输出.

128

、y

、

个具有最小背景分数

、t

参数计算稍复

杂

的RoI中随机抽取64个;对于C

类输出的均值不妨记为y忆

y忆

,令每个

此

RoI

的输出减去

个RoI的分

既得y

、t

结合知识蒸馏与样本回放的方式提

、t

的计算同理.

出了适应蒸馏的方法

Hou等

[77]

,该方法首先针对新任务t

new

训

练一个模型CNN

新任务的知识迁移到目标模型

expert

,然后通过知识蒸馏的方式将

CNN

同的是,该方法在知识蒸馏时用到少量的之前任务

target

,与LwF不

的样本

前任务的数据设计了一个端到端的增量学习模型

Castro

等

[78]

使用之前任务的小部分数据和当

由任务共享模块特征提取和特定任务模块组成.针

对该架构,作者提出了交叉-蒸馏损失公式

L(棕)=L

(棕)+

式中:L

(棕

移

f=1

(棕)(12)

)为新旧任务所有数据的交叉熵损失;

(棕)表示每个特定任务层的蒸馏损失.L

(棕)和

(棕)表示为

需要训练的最终模型,兹和准

务的共享参数和特定任务参数

1:t

分别表示M

中各任

,准

准

1:t

={准

,准

,…,

务的数据的混合

},D

trn

表示第t个任务的数据集和小部分之前任

;则训练M

的标准损失为L

准

cls

(兹,

据

;

直接使用该数据集训练

trn

).考虑到D

trn

仅包括小部分之前任务的数

可能导致灾难性遗

忘,因此需要在损失函数中加入蒸馏损失.使用之

前的M

t-1

模型生成软标签,为了避免数据偏置,生

成软标签的数据集为D

trn

生动物数据集抽样得到,

胰

则该部分损失为

ext

由未标记的野

准

dst

(兹,

1:t-1

t-1

trn

胰D

ext

).仅使用M

t-1

进行知识蒸馏

未考虑第t个任务的知识,添加了C

t个任务数据集训练的模型,该部分的损失为

为仅使用第

准

1:t

trn

胰D

ext

).由于M

t-1

与C

分别独立地包

dst

(兹,

含t之前任务和第t个任务的知识,可能有知识遗

漏,因此结合M

t-1

与C

(兹,准

构建了模型Q

为L

,该部分损失

dst1:

Loss

ext

).最终,全局蒸馏损失为

cls

(兹,准

1:t

trn

dst

(兹,准

1:(

准

t-1)

trn

ext

胰D

)

dst

(兹

trn

胰D

ext

2郾4摇其他方法

dst

(兹,准

1:t

ext

)(15)

除了上面所述的3类方法外,一些学者还提出

了

Mu觡oz鄄Mart侏n

其他方法为

等

避免神经网络中的灾难性遗忘.

[80]

将有监督的卷积神经网络与受

生物启发的无监督学习相结合,提出一种神经网络

概念;不同于参数正则化方法,Titsias等

[81]

提出一

种函数正则化的方法;Cao在将学习系统视为一个

纤维丛(表示一种特殊的映射),提出了一个学习模

型

[82]

.该学习模型的架构如图5所示,该图根据文

献[82]所画,与动态地选择模型的参数不同,该模

型动态地选择解释器.图5(a)表示了一个普通的

神经网络,即输入x通过神经网络得到输出y;图5

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

559

(b)表示作者所提出的学习模型的架构,该架构主

要有以下几步:1)输入x通过生成器Generator被编

码为潜在空间L中的x

,这里相似的样本会得到

;2)基于x

选择神经网络中被激活的神经元,得

到解释器Interpretor:f

;3)将样本x输入到解释器

得到输出y.为了使该学习模型能有对时间的感

知,作者又在模型中引入了一个生物钟,

T=T

min

+滓[鬃(x)](T

max

-T

min

)(16)

(17)

问题:如何确定哪种方法最优?如何确定某种解决

方案所适应的环境?如何评价不同方法的优劣?

针对如何评价不同方法这个问题,也有一些学

者进行了相应的研究.Kemker等

[83]

提出了衡量灾

3个评价指标,该评指标主要有3个新的评估参数

赘

base

赘

new

T-1

难性遗忘问题的实验基准和评估指标.这里只介绍

式中:x表示输入;Y

表示生物钟的输出;t表示当前

=(Asin(2仔t/T),Acos(2仔t/T))

移

i=2

琢

new,i

移

i=2

琢

base,i

琢

ideal

(18)

(19)

时刻;T表示周期;T

min

和T

表示

max

均为超参数,分别表示

T的最小值与最大值;滓sigmoid函数;鬃表示

可训练的神经网络模型.通过实验作者发现该学习

模型不仅具有良好的持续学习能力,而且还具有一

定的信息存储能力.

图5摇普通神经网络和纤维束学习系统

[82]

Fig.5摇Common

withafiber

neural

bundle

network

[82]

andlearningsystem

3摇减缓灾难性遗忘的评价准则

针对神经网络中的灾难性遗忘问题,大量学者

提出了自己的方法,无论是基于样本的方法,或是基

于模型参数的方法,又或是基于知识蒸馏的方法等

等;总之,解决方案有很多,那么这又产生了一系列

赘

all

移

-1

琢

all,i

式中:T表示任务的数量;琢

ideal

(20)

1个任务的准确率

base,i

表示训练第i个任务

后,神经网络模型对第;琢

训练基础数据集(也即第1个任务)后,神经网络模

ideal

表示

型对基础数据集的准确率;琢

务后,神经网络模型对该任务的准确率

new,i

表示训练第i个任

;琢

型对当前所能得到所有数据的准确率.这里式

all,i

表示模

(18)

中的赘

base

表示神经网络模型在训练T个任务之后,

对学习到第1个任务知识的遗忘程度;式(19)中的

赘

务的适应能力

new

表示神经网络模型在学习到新任务后,对新任

;式(20)中的赘

知识

all

计算模型保留先前

学习的知识和学习到新的能力.vandeVen

等

[84]

也指出,虽然有很多针对神经网络中灾难性遗

忘问题的解决方案,但是由于没有统一的评价基准,

导致直接对比不同解决方案的效果非常困难.为了

能结构化地比较不同的解决方案,vandeVen等提

出了3种困难度逐渐加大的连续学习的情景,每个

情景包含2种任务协议.3种任务情景分别为:1)

测试时,已知任务ID;2)测试时,任务ID未知,且不

需要判断任务ID;3)测试时,任务ID未知,且需要

判断出任务ID.第1种实验情景针对的是任务增量

学习(task鄄IL),即每个任务在输出层都有与之对应

的特定的输出单元,而其余网络是共享的;第2种实

验情景是针对域增量学习(domain鄄IL),即任务的结

构相同但输入分布却不相同;第3种实验情景针对

类增量学习(class鄄IL),即递增地学习新类.在文献

中,作者将第1种任务协议称为分割MNIST任务协

议,该协议将MNIST数据集中分为5个任务,每个

任务包含

MNIST

包含10

任务协议

2类;作者将第2种任务协议称为置换

类,将原始

,该协议包含

MNIST作为任务

10个任务

1,在

,每个任务

MNIST基

础上随机生成另外

Pf俟lb等

9组数据即任务2~9的数据集.

[85]

也提出了一个评价深度神经网络(deep

560

北摇京摇工摇业摇大摇学摇学摇报2021年

neuralnetworks,DNNs)灾难性遗忘问题的范例.该

评价范例主要是针对实际应用层面,主要包括:1)

tasks,STLs)时,模型应能保证能随时增加新类;2)

在DNNs上训练序列学习任务(sequentiallearning

模型应该对先前学习过的任务表现出一定的记忆

力,即使灾难性遗忘不可避免,至少应该缓慢的遗忘

之前所学习的知识,而不是立即遗忘;3)DNNs如果

应用到嵌入式设备或机器人中,应该满足内存占用

低、添加任务时重新训练的时间或内存复杂度不应

依赖于子任务的数量等.除了提出新的评价方法,

也有学者提出了用于测试神经网络模型中灾难性遗

忘问题性能的新数据集,如Lomonaco等

[86]

提出了

基准数据集CORe50,该数据集用于测试不同持续

学习方法对目标检测的效果.

展神经网络模型的方法意义不大.之所以说灾难性

遗忘问题没有被解决且一直是阻碍现在人工智能领

域突破的关键点,是因为想使用尽量有限的神经网

络模型完成尽可能多的任务.如图7所示,t

时刻

仅有task

出现,为任务task

设计且训练的神经网

络模型model

时刻任务task

出现,想在尽量小

地改变神经网络模型model

的前提下让其学习到

任务task

的知识,且model

学习到任务task

的知

识后仍然对任务task

具有良好的效果;t

时刻任务

task

出现,依然想在尽量小地改变神经网络模型

model

的前提下让其学习任务task

的知识,且

model

学习到任务task

的知识后仍然对任务task

和任务task

具有良好的效果;当任务task

出现

时…….注意:图7中某一时刻多个任务同时指向

model

,并不意味着model

在该时刻同时训练这多

个任务的数据,仅表示model

能同时适应这多个不

同时间出现的任务;如任务task

和任务task

同时

指向model

,仅表示model

能同时适应t

时刻出

现的task

和t

时刻出现的task

,并不意味着

model

在t

时刻同时训练任务task

和任务task

的数据.由上可以看出,灾难性遗忘问题可以表述

为在尽量小地改变神经网络模型的前提下,使得

神经网络模型学习尽可能多的新知识且依然能记

得先前学习过的知识.灾难性遗忘实际可以类比

为人类或其他哺乳动物的记忆功能,人类在学习

新知识后并不会忘记之前学习的知识,而灾难性

遗忘则与之相反.

4摇讨论

由神经网络模型将信息存储在它的权重参数中

可以看出,其产生灾难性遗忘问题的根本原因:同一

个神经网络模型在学习新任务时,其权重参数在反

向传播算法的作用下不断更新以适应新任务;神经

网络模型权重参数的改变,进而导致其不适用于之

前学习的任务.如果允许使用无限并行扩大的神经

网络模型且不改变之前模型的参数,可以看出灾难

性遗忘问题能轻易地被解决,如图6所示.tasks是

所有任务的并集胰

task

;models是适应每个任务

i=1

task

的模型的并集胰

model

,显然使用这种简单扩

摇摇在尽量小地改变神经网络模型自身的情况下允

许神经网络模型适应更多的新任务且不发生灾难性

遗忘.如直接使用样本回放的方法,并非简单地将

所有任务的样本混合而是想要找到每个任务中具有

代表性的样本,并使用不同的方法对样本进行排序,

进而选择具有代表性的样本;在使用生成伪数据的

方法中,想要生成适量的伪数据而不是无限扩展网

Fig.6摇Infinitelyexpandingneuralnetworkmodel

图6摇无限扩大的神经网络模型

络;参数正则化的方法中,想要找到神经网络模型中

最重要的参数,并对其进行约束,而不是简单地约束

所有参数;在知识蒸馏中,想要将知识由一种网络迁

移到另一种网络,而不是简单地将2个网络并联.

另外,第3节中的很多方法依据生物的认知记忆等

原理进行改进创新,以期达到克服神经网络模型中

灾难性遗忘的目的

[66,80,82]

.注意:对减缓灾难性遗

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

561

中的某些样本具有代表该样本集的能力.一个显而

易见的事实是,神经网络模型是对生物神经网络的

模仿,而现在神经网络模型出现灾难性遗忘的问题,

说明对生物的神经网络研究的并不彻底,还有很多

盲点.思路1)进一步研究生物的避免研究灾难性

遗忘的机制,应该是研究的重点和趋势.

为彻底解决神经网络模型中的灾难性遗忘问

题,需要人工智能等方面学者们的努力,也需要脑科

图7摇逐渐增加模型的任务

Fig.7摇Graduallyaddtaskstothemodel

忘方法的分类并不是绝对的,如文献[77鄄78]既用到

了知识蒸馏的方法,也用到了样本的方法;这里的分

类依据是作者解决神经网络模型中灾难性遗忘问题

的主要思想,以文献[78]为例,作者在文中主要的

关注点是使用知识蒸馏的方法避免灾难性遗忘,而

使用之前任务所组成的小样本集仅是作者使用的一

个辅助的方式,因此将该方法归类为知识蒸馏的

类中.

5摇总结与建议

首先将减缓神经网络模型灾难性遗忘的方法分

为四大类,并对不同大类的方法进行了介绍;然后,

介绍了几种评价减缓神经网络模型灾难性遗忘性能

的方法;接着,对神经网络模型中的灾难性遗忘问题

进行了开放性的探讨.

如果将人类的大脑看成一个复杂的神经网络模

型,可以观察到人类并没有灾难性遗忘的问题.这

说明现在的神经网络模型与人脑相比仍有非常大的

缺陷,仍有非常大的进步空间.对于怎样解决灾难

性遗忘的问题,本文最后提出了几个解决思路:1)

探索生物怎样避免灾难性遗忘的机制,并根据该机

制设计相似的神经网络模型.2)探索神经网络模

型存储信息的新机制,如果神经网络模型在学习新

知识后仍能保持对之前学习的知识不遗忘,必然需

要存储一些关于之前学习的知识的一些信息,怎样

高效地存储和利用这些信息值得研究.3)选取具

有代表性的样本也是一种方法.该方法不仅存在于

生物的认知中,也广泛存在于社会生活中.如社会

生活中的选举,某一社会团体通常推选出该团体中

的某几位成员而不是全体成员代表该社会团体,这

也从另一个角度说明,部分样本往往可以近似代表

总体样本.对比到神经网络模型中,选取某一任务

中具有代表性的样本,而不是使用所有样本代表该

任务;该方法需要确定推选机制,即怎样确定样本集

学、心理学等方面学者们的支持.

参考文献

[1]SILVER

Mastering

thegame

HUANGA,MADDISONCJ,etal.

[2]

treesearch[J].Nature,

ofGo

2016,

with

529(7587):

deepneuralnetworks

484鄄489.

and

Nature,

Mastering

SILVERD,

2017,

the

SCHRITTWIESER

game

550(7676):

ofGowithout

354鄄359.

human

SIMONYAN

knowledge[

K,et

J].

al.

[3]HE

forimage

K,ZHANG

recognition

X,REN

]椅

Proceedings

sidual

ofthe

learning

ConferenceonComputerVisionandPattern

IEEE

[4]

Piscataway:

IEEE,2016:770鄄778.

Recognition.

[C]

椅

SHEN

and

Proceedings

L,SUN

PatternRecognition.

the

Squeeze鄄and鄄excitation

IEEE

Piscataway:

Conference

IEEE,

onComputer

networks

7132鄄7141.

Vision2018:

[5]

general

SILVER

reinforcement

D,HUBERTT,

learning

SCHRITTWIESER

algorithmthat

J,et

masters

al.A

[6]

2018,

chess,

YED,

362(6419):

shogi,and

LIUZ,SUN

1140鄄1144.

gothroughself鄄play[J].Science,

inMOBA

M,ingcomplexcontrol

[7]

AAAI.

LONG

networks

Cambridge,

gameswith

MA:

deep

AAAI

reinforcement

Press,2020:

learning

6672鄄6679.

[C]椅

IEEEConference

for

SHELHAMER

semantic

segmentation[C]

E,DARRELLT.

ComputerVision

椅Proceedings

Fullyconvolutional

andPattern

ofthe

[8]

Recognition.

Piscataway:IEEE,2015:3431鄄3440.

[C]椅Proceedings

K,GKIOXARI

the

DOLL魣R

IEEEInternational

P,etal.

Conference

MaskR鄄CNN

[9]

Computer

RENARD

Vision.

F,GUEDRIA

Piscataway:

IEEE,

DEPALMA

2017:2961鄄2969.

Variability

N,etal.

imagesegmentation

andreproducibility

indeeplearningformedical

[10]

(1):

PORZI

1鄄16.

].ScientificReports,2020,10

multi鄄object

L,HOFINGER

annotations[

tracking

C]椅

and

Proceedings

segmentation

RUIZI,et

ofthe

from

al.

IEEE

automatic

Learning

ConferenceonComputer

/CVF

Piscataway:IEEE,2020:

Vision

6846鄄6855.

andPatternRecognition.

562

北摇京摇工摇业摇大摇学摇学摇报2021年

[11]KONGT,SUNF,LIUH,ox:Beyound

anchor鄄basedobjectdetection[J].IEEETransactionson

ImageProcessing,2020,29:7389鄄7398.

convolutionsformonocular3dobjectdetection[C]椅

VisionandPatternRecognition.

[12]DINGM,HUOY,YIH,ngdepth鄄guided

ProceedingsoftheIEEE/CVFConferenceonComputer

2020:1000鄄1001.

Piscataway:IEEE,

AnnualConferenceoftheCognitiveScienceSociety.

[25]MCRAEK,HETHERINGTONPA.

CognitiveScienceSociety.

Mahwah:LawrenceErlbaumAssociates,1989:26鄄33.

interferenceiseliminatedinpretrainednetworks[C]椅

ErlbaumAssociates,1993:723鄄728.

Catastrophic

Proceedingsofthe15hAnnualConferenceofthe

Mahwah,NJ:Lawrence

[26]鄄recurrentconnectionistnetworks:

Anapproachtothe‘sensitivity鄄stability爷dilemma[J].

ConnectionScience,1997,9(4):353鄄380.

[27]ANSB,ngcatastrophicforgettingby

[13]QINZ,LIZ,ZHANGZ,rNet:towards

real鄄timegenericobjectdetectiononmobiledevices[C]椅

ProceedingsoftheIEEEInternationalConferenceon

away:IEEE,2019:6718鄄6727.

Bert:pre鄄

understanding[J].

training

DEVLIN

deep

CHANG

bidirectional

MW,LEE

LANZ,CHENM,

arXiv,

GOODMAN

2018:

transformers

K,etal.

abs

/1810.

for

04805.

language

bertforself鄄supervisedlearningoflanguage

alite

RADFORD

representations[J].

unsupervised

A,WU

multitask

arXiv,

CHILD

2019:

learners

R,et

abs

[

al.

/1909.

J].

Language

11942.

areOpenAI

models

2019,1(8):9.

Blog,

2005.

models

BROWN

14165.

are

few鄄shot

B,MANN

learners

B,RYDER

[J].

arXiv,

etal.

2020:

Language

abs/

ARTACHO

pose

B,e:unifiedhuman

Proceedings

estimation

ofthe

IEEE

single

/CVF

images

Conference

andvideos

onComputer

[C]椅

Vision

2020:

andPatternRecognition.

CHEN

7035鄄7044.

Piscataway:IEEE,

multi鄄human

L,AI

pose

CHEN

estimation

R,etal.

Cross鄄view

over100FPS

tracking

[C]

for

Proceedings

椅

Vision

oftheIEEE/CVFConference

Piscataway:

onComputer

2020:3279鄄3288.

CHEN

region

X,WANGG,GUO

[J].

JINS,

Neurocomputing,

ensemblenetwork

H,idedstructured

XUL,XUJ,

2020,

forcascaded

etal.

395:

Whole鄄body

138鄄149.

handposeestimation

estimation

humanpose

Computer

CARPENTER

Vision.

inthe

Berlin:

wild[C

A,GROSSBERG

Springer,

]椅European

2020:

Conference

196鄄214.

TheARTof

network[J].

adaptivepattern

MCCLOSKEY

Computer,

recognition

M,COHEN

1988,

NJ.

21(3):

aself鄄organizing

Catastrophic

77鄄88.

neural

inconnectionistnetworks:thesequentiallearning

interference

problem

24:

[J].

109鄄165.

ThePsychologyofLearningandMotivation,1989,

connectionist

HETHERINGTON

networks?

[C]椅

'catastrophic

Proceedings

interference'in

ofthe11th

coupling

Rendus

tworeverberating

cad佴miedesSciences鄄Series

neuralnetworks[

III鄄Sciences

J].Comptes

laVie,1997,

del'A

320(12):

Catastrophic

989鄄997.

[28]ting,rehearsaland

[29]

123鄄146.

pseudorehearsal[J].ConnectionScience,1995,7(2):

Massively

ARIVAZHAGAN

multilingual

N,BAPNAA,FIRATO,etal.

wild:findingsandchallenges

neuralmachine

[J].arXiv,

translation

2019:

abs

the

[30]

1907.

SHAZEER

05019.

Outrageously

large

MIRHOSEINI

neuralnetworks:

A,MAZIARZ

thesparsely鄄gated

K,etal.

[31]

06538.

mixture鄄of鄄expertslayer[J].arXiv,2017:abs/1701.

ZACARIAS

overcoming

networks

catastrophic

A,ALEXANDRE

forgetting

鄄CNN:

Workshop

inconvolutionalneural

Recognition.

selective

Berlin:

Artificial

network

Springer,

Neural

augmentation

2018:

Networks

[C]

102鄄112.

椅

Pattern

IAPR

[32]ROY

deepconvolutional

D,PANDAP,

[J].NeuralNetworks,

neural

ROY

2020,

network

鄄CNN:

121:

for

148鄄160.

incremental

ahierarchical

learning

[33]

forgetting

SCHAKM,oncatastrophic

Conference

indeepLSTMnetworks[C]椅International

Springer,2019:

714鄄728.

[34]THANH鄄TUNG

modecollapsein

Neural

GANs

TRAN

Networks

[C]

椅

Catastrophic

2020

(IJCNN).

International

forgetting

Piscataway:

Joint

and

[35]

IEEE,

Conference

CHANG

2020:

1鄄10.

generative

Y,LIW,PENGJ,protection

regularization

overcome

adversarial

the

methods

forgetting

network

[J].

(MPGAN):

IEEE

GANs

Access,

using

aframework

2020,

parameter

179942鄄179954.

[36]

methods

DUCHIJ,

for

HAZAN

online

learning

SINGER

and

stochastic

Adaptive

optimization

subgradient

[J].JournalofMachineLearningResearch,2011,12

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

摇第5期

(7):2121鄄2159.

韩纪东,等:神经网络模型中灾难性遗忘研究的综述

563

[37]ta:anadaptivelearningrate

[38]TIELEMANT,e6郾5鄄rmsprop:divide

thegradientbyarunningaverageofitsrecentmagnitude

[Z/OL].[2012鄄02鄄11].https:椅o.

edu/~tijmen/csc321/slides/lecture_slides_.

optimization[C]椅Proceedingsof

method[J].arXiv,2012:abs/1212.5701.

[51]LESORTT,LOMONACOV,STOIANA,etal.

learningstrategies,opportunitiesandchallenges[J].

InformationFusion,2020,58:52鄄68.

NeuralNetworks,2019,113:54鄄71.

comprehensivestudyofclass

lifelonglearningwithneuralnetworks:areview[J].

incremental

Continuallearningforrobotics:definition,framework,

[52]PARISIGI,KEMKERR,PARTJL,ual

[53]BELOUADAHE,POPESCUA,KANELLOSI.A[39]KINGMAD,:amethodforstochastic

Internationallearning

Conference

AmsterdamMachine

onLearning

Learning

Representations.

Lab,2015.

Amsterdam:

REBUFFI

Icarl:

SA,KOLESNIKOVA,SPERLG,etal.

Vision

[C]椅Proceedings

incrementalclassifier

andPattern

Recognition.

theIEEE

and

conference

representation

onComputer

learning

2017:2001鄄2010.

Piscataway:IEEE,

SARWAR

deep

sharing[J].

convolutional

SS,ANKITA,entallearningin

LIZ,HOIEM

IEEE

Access,

neural

Learning

2019,

networks

without

8:4615鄄4628.

usingpartialnetwork

Transactions

Intelligence,2017,

40(12):

Pattern

2935鄄2947.

Analysis

forgetting[

and

J].

Machine

IEEE

ZENG

context鄄dependent

G,CHENY,CUI

Nature

VON

MachineIntelligence,

processing

B,et

2019,

al.

neural

Continual

1(8):

networks

learning

364鄄372.

[J].

Conference

Continual

OSWALD

learning

J,HENNING

withhypernetworks

C,SACRAMENTO

[C]椅International

J,etal.

Elsevier,2019.

dam:

structure

X,ZHOUY,WUT,ogrow:acontinual

Learning.

forgetting

learning

[C]椅

framework

International

for

Conference

overcoming

catastrophic

NewYork,NY:ACM,2019:3925鄄3934.

Machine

GOODFELLOW

empirical

IJ,MIRZAM,XIAOD,

gradient鄄based

investigation

1312.

neuralnetworks

ofcatastrophic

[J].arXiv,

forgetting

2013:abs

neural

RUDER

6211.

networks[J].

view

arXiv,

2017:

multi鄄task

abs/1706.

learning

05098.

indeep

ZHUANG

IEEE.

survey

Piscataway:

transfer

QIZ,

IEEE,

learning

DUAN

2020:

[

1鄄34.

椅

al.

Proceedings

Acomprehensive

ofthe

(4):

networks

FRENCH

128鄄135.

[J].

RM.

Trends

Catastrophic

inCognitive

forgetting

Sciences,

inconnectionist

1999,3

Continual

LANGEM,ALJUNDIR,MASANAM,etal.

1909.

forgetting

08383.

learning:

classification

acomparative

tasks[J].

study

arXiv,

onhow

2019:

abs

defy

01844.

algorithmsforvisualtasks[J].arXiv,2020:abs/2011.

[54]MASANA

incremental

M,LIUX,TWARDOWSKI

[55]

[J].arXiv,

learning:

2020:abs

survey

/2010.

and

B,鄄

15277.

performanceevaluation

transferable

YOSINSKI

are

features

CLUNE

deep

BENGIO

neuralnetworks?

Y,etal.

[C]椅

How

Advances

[56]

Foundation,

Jolla,CA:

inNeural

GUOL,XIE

2014:

Neural

Information

3320鄄3328.

Information

Processing

Systems.

Systems

representation

XUX,ar鄄supported

[57]

IEEE

YOU

Access,

for

exemplar鄄based

C,LI

2020,

effective

C,ROBINSON

8:51276鄄51284.

class鄄incrementallearning[J].

DP,le

Computer

data[C]椅

Vision.

Proceedings

subspace

Berlin:

clustering

Springer,

theEuropean

onclass鄄imbalanced

BELOUADAH

2018:

Conference

67鄄83.

[58]

learning

E,2m:classincremental

IEEE,

International

with

Conference

dualmemory[C]椅Proceedings

onComputerVision.

Piscataway:

theIEEE

[59]

2019:583鄄592.

lifelong

ISELED,

learning[J].

COSGUN

arXiv,

ive

2018:

experience

abs/1802.

replay

10269.

for

[60]HAYES

yourneural

TL,

network

KAFLE

toprevent

K,SHRESTHA

catastrophic

forgetting[C]椅

European

Springer,2020:

Conference

466鄄483.

[61]ATKINSON

Pseudo鄄rehearsal:

C,MCCANEB,SZYMANSKIL,etal.

1812.

without

02464.

catastrophic

achieving

forgetting

deep

[J].

reinforcement

arXiv,2018:

learning

abs/

[62]

Pseudo鄄recursal:

ATKINSONC,MCCANE

solving

the

SZYMANSKI

catastrophic

forgetting

etal.

[63]

1802.

problem

SHINH,

03875.

indeepneuralnetworks[J].arXiv,2018:

deepgenerative

LEEJ

replay[C]椅Advances

K,KIMJ,ual

inNeural

learningwith

Processing

[64]

Processing

MALLYA

Systems

Systems.

A,LAZEBNIK

Foundation,

LaJolla,

2017:

CA:

Packnet:

2990鄄2999.

Neural

Information

addingmultiple

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

564

北摇京摇工摇业摇大摇学摇学摇报

taskstoasinglenetworkbyiterativepruning[C]椅

7765鄄7773.

andPatternRecognition.

9163鄄9171.

2021年

ProceedingsoftheIEEEConferenceonComputerVision

Piscataway:IEEE,2018:

[75]SHMELKOVK,SCHMIDC,ental

away:IEEE,2017:3400鄄3409.

learningofobjectdetectorswithoutcatastrophicforgetting

[65]SINGHP,VERMAVK,MAZUMDERP,ating

CNNsforlifelonglearning[C]椅AdvancesinNeural

a,CA:Neural

[66]KIRKPATRICKJ,PASCANUR,RABINOWITZN,et

InformationProcessingSystemsFoundation,2020:33.

mingcatastrophicforgettinginneuralnetworks

[C]椅ProceedingsoftheIEEEInternationalConferenceon

[76]CHENL,YUC,owledgedistillation

forincrementalobjectdetection[C]椅2019International

2019:1鄄7.

away:IEEE,

learningviaprogressivedistillationandretrospection[C]椅

[J].ProceedingsoftheNationalAcademyofSciences,

[77]HOUS,PANX,CHANGELOYC,ng

2017,

ELKHATIB

114(13):

3521鄄3526.

forgettingincontinual

KARRAY

learning

models

Preempting

catastrophic

regularization[C]椅2019InternationalJointConference

anticipatory

away:

IEEE,

DEAN

2019:

1鄄7.

HINTONG,VINYALSDistillingthe

1503.

knowledge

02531.

inaneuralnetwork[J].arXiv,2015:abs/

squeezed

LIP,SHUC,XIEY,chicalknowledge

Cambridge,

adversarialnetworkcompression[C]椅AAAI.

distillation

SUNS,CHENG

MA:AAAI

Press,2020:11370鄄11377.

Proceedings

for

inNaturalLanguage

ofthe

BERT

GAN

2019

model

Z,et

compression

tknowledge

[C]椅

Joint

Processing

Conference

and

the

Empirical

9thInternational

Methods

Stroudsburg,

Conference

PA:

onNaturalLanguage

Computational

Processing.

Linguistics,

WEI

towards

Y,PAN

2019:

4314鄄4323.

Associationfor

QINH,et

Proceedings

very

tiny

the

CNNforobject

zation

detection[

mimic:

C]椅

Vision(ECCV).Berlin:

European

Springer,

Conference

2018:267鄄283.

onComputer

YIM

distillation:

J,JOOD,BAEJ,romknowledge

Conference

transferlearning

fastoptimization,

[C]椅Proceedings

networkminimization

oftheIEEE

and

Piscataway:

IEEE,

Computer

2017:

Vision

4133鄄4141.

andPatternRecognition.

object

J,NIEY,WANGP,ngabinaryweight

and

driving[

detector

AHN

Automation.

C]椅2019

Piscataway:

International

knowledgetransfer

IEEE,

Conference

for

2019:2379鄄2384.

autonomous

Robotics

information

S,HU

Proceedings

distillation

SX,DAMIANOU

theIEEE

for

Conference

knowledge

A,et

transfer

ional

[C]椅

andPattern

away:

onComputer

IEEE,

Vision

2019:

Proceedings

ofthe

Springer,

European

2018:

Conference

437鄄452.

onComputer

[78]CASTRO

End鄄to鄄end

incremental

M,MAR魱N鄄JIM魪NEZ

learning[C]

椅Proceedings

J,GUILN,etal.

European

Springer,2018:

Conference

233鄄248.

ofthe

[79]LEE

forgetting

K,LEE

Proceedings

with

unlabeled

SHINJ,et

theIEEE

data

ming

International

inthewild

catastrophic

[C]椅

away:IEEE,2019:

Conference

312鄄321.

[80]MU譙OZ鄄MART魱N

Unsupervised

I,BIANCHIS,PEDRETTI

Solid鄄State

neuralnetworks

learning

Computational

overcome

Devices

IEEEJournal

catastrophic

forgetting

etal.

andCircuits,

onExploratory

[81]

(1):

TITSIAS

58鄄66.

2019,5

onal

MK,

regularisation

SCHWARZJ,

for

MATTHEWS

continuallearning

AGG,

with

[82]

Gaussianprocesses[J].arXiv,2019:abs/1901.11356.

learning

CAOZ.

1903.03511.

system

Realizing

asa

continual

fiberbundle[J].

learningthrough

arXiv,2019:

modeling

abs

[83]

Measuring

KEMKERR,MCCLUREM,ABITINOA,etal.

[84]

arXiv,

VANDE

2017:

catastrophic

VEN

abs

/1708.

forgetting

M,TOLIAS

02072.

inneuralnetworks[J].

continuallearning[J].

cenariosfor

[85]PF譈LB

application鄄oriented

B,GEPPERTH

arXiv,2019:

studyof

catastrophic

abs/

comprehensive,

1904.07734.

dnns[J].arXiv,2019:abs/1905.08101.

forgettingin

[86]

and

LOMONACO

benchmark

for

MALTONI

continuous

object

CORe50:

recognition

anew

[

dataset

Proceedingsofthe1stAnnual

C]椅

Microtome

Conference

Publishing,

2017:

Robot

17鄄26.

ine,MA:

(责任编辑摇杨开英)

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

本文标签：模型神经网络任务方法学习

版权声明：本文标题：神经网络模型中灾难性遗忘研究的综述内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/p/1713398923a632618.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

神经网络模型中灾难性遗忘研究的综述

更多相关文章

windows系统下快速删除海量小文件方法

机器学习—模型公平性

网心云OECOEC-turbo刷机问题——刷机教程、救砖方法、技术要点及下载boot失败异常解决尝试

Windows7 C盘瘦身最有效的方法

windows打开和关闭默认共享方法汇总

Windows安装ollama本地部署千问qwen2.5大模型

w ndows10卸载word,Windows10系统Office2010安装及卸载方法

彻底清理C盘空间！新手必看的10个高效方法（附详细图解）

数据恢复方法

Windows 11 BitLocker 加密 | 性能影响关闭方法密钥找回

如何用手机解锁电脑（旧方法）

win7讲述人安装包_Win7如何使用语音朗读？Win7开启语音播报讲述人的方法

Win7任务管理器窗口显示不全怎么解决？巧妙解决win7任务管理器显示不全的方法

优盘备份软件,想要备份电脑U盘数据可以采用哪些方法？

为计算机创建一个新用户名,Windows7系统创建一个新账户的方法

Word页眉横线删除全攻略：5种实用方法详解

OpenAI首次回应人机情感问题：越来越多人对ChatGPT产生依赖，模型感知意识会继续增强

是linux系统适合用于训练模型，还是Windows系统更适合

ios系统玩java游戏下载安装_苹果系统也能玩windowsPC游戏？方法看这里！

纯净版win10在哪下载_纯净的win10下载方法及安装方法

发表评论

推荐文章

javascript - Is it possible to get the inner HTML of element using Angular? - Stack Overflow

Javascript image slider setInterval() - Stack Overflow

javascript - Uncheck checkbox with jquery? - Stack Overflow

Python | python3.8安装教程（Windows环境）

Word空白页怎么都删除不掉？亲测有效

热门文章

javascript - How to fix the &#39;no severless pages built&#39; in nextjs deployment using vercel? - Stack Overflow

自己动手做一个adb的wifi连接及adb命令的apk

Use JavaScript to record audio as .wav in Chrome - Stack Overflow

javascript - Onclick change div style + onclick outside div remove style change - Stack Overflow

javascript - The value of this in onclick for a button - Stack Overflow

javascript - React Native - Changing the indicator width according to tab bar text width (react-native-tab-view) - Stack Overflo

javascript - Getting absolute path from webkitdirectory element - Stack Overflow

Win7网络和共享中心显示“依赖服务或组无法启动”，无法连接网络

荣耀笔记本Linux刷win10,笔者亲自带你体验，荣耀笔记本该怎么刷Win10系统？

HoRain云--当电脑死机的时候，电脑各硬件到底在做什么？

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

【亲测免费】 Win7旗舰版安装telnet解决方案

【免费下载】 WinBtrfs v1.8.2：Windows 系统中的 Btrfs 文件系统驱动程序

【免费下载】 Java JDK 17 (32位Windows系统) 下载资源

【免费下载】 WinXray 资源下载

【免费下载】 MacType 下载及安装教程

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

javascript - How to fix the 'no severless pages built' in nextjs deployment using vercel? - Stack Overflow