admin 管理员组文章数量: 1086019
2024年4月18日发(作者:linux空间满了进不去系统)
2021年5月
第47卷第5期
JOURNALOFBEIJINGUNIVERSITYOFTECHNOLOGY
北京工业大学学报
Vol.47No.5
May2021
神经网络模型中灾难性遗忘研究的综述
(1.北京工业大学信息学部,北京摇100124;2.桂林电子科技大学人工智能学院,广西桂林摇541004)
摘摇要:近年来,神经网络模型在图像分割、目标识别、自然语言处理等诸多领域都取得了巨大的成功.但是,神经
网络模型仍有很多关键性的问题尚未得到解决,其中就包括灾难性遗忘问题.人类在学习新知识后不会对旧知识
发生灾难性遗忘,神经网络模型则与之相反.神经网络模型在适应新任务之后,几乎完全忘记之前学习过的任务.
为了解决这一问题,很多相应的减缓神经网络模型灾难性遗忘的方法被提出.对这些方法进行了归纳总结,以促进
对该问题的进一步研究.主要贡献包括3个方面:对现有的减缓神经网络模型灾难性遗忘的方法进行了详细的介
绍,并将不同方法分为4类,即基于样本的方法、基于模型参数的方法、基于知识蒸馏的方法和其他方法.介绍了不
同的评估方案,以评估不同方法对减缓神经网络模型灾难性遗忘的效果.对神经网络模型中的灾难性遗忘问题进
行了开放性的讨论,并给出了一些研究建议.
关键词:神经网络模型;灾难性遗忘;样例;模型参数;知识蒸馏;增量学习
中图分类号:TP389郾1
doi:10.11936/bjutxb2020120014
文献标志码:A文章编号:0254-0037(2021)05-0551-14
韩纪东
1
,李玉鑑
1,2
SurveyofCatastrophicForgettingResearchinNeuralNetworkModels
(yofInformationTechnology,BeijingUniversityofTechnology,Beijing100124,China;
HANJidong
1
,LIYujian
1,2
ofArtificialIntelligence,GuilinUniversityofElectronicTechnology,Guilin541004,Guangxi,China)
Abstract:Inrecentyears,neuralnetworkmodelshaveachievedgreatsuccessinsomefields,suchas
imagesegmentation,objectdetection,naturallanguageprocessing(NLP),r,many
keyproblemsofneuralnetworkmodelshavenotbeensolved,forexample,catastrophicforgetting.
Humanbeingshavetheabilityofcontinuouslearningwithoutcatastrophicforgetting,butneuralnetwork
stingmethodsofmitigating
networkmodelsalmostcompletelyforgetthepreviouslylearnedtaskswhenit
ethisproblem,per
catastrophicforgettingofneuralnetworkmodelswereintroducedindetail,andallmethodsweredivided
intofourcategories,namelyexemplar鄄basedmethods,parameter鄄basedmethods,distillation鄄based
differentdiscussionon
thecatastrophicforgettingprobleminneuralnetworkmodelswascarriedout,andsomeresearch
suggestionsweregiven.
收稿日期:2020鄄12鄄21
基金项目:国家自然科学基金资助项目(61876010)
作者简介:韩纪东(1992—),男,博士研究生,主要从事深度学习和计算机视觉方面的研究,E鄄mail:hanjd@.
通信作者:李玉鑑(1968—),男,教授,博士生导师,主要从事模式识别与图像处理、机器学习与数据挖掘、人工智能与自然
语言处理方面的研究,E鄄mail:liyujian@
entevaluationschemeswereintroducedtoevaluatetheeffectof
552
北摇京摇工摇业摇大摇学摇学摇报2021年
Keywords:neuralnetworkmodels;catastrophicforgetting;exemplar;modelparameters;knowledge
distillation;incrementallearning
摇摇近年来,神经网络模型在很多方面已经远远超
对抗网络(generativeadversarialnetwork,GAN)
[34鄄35]
等.这是由于同20世纪相比,神经网络模型的思想
变化并不大,变化最大的是训练神经网络模型所使用
的硬件设备及所使用的数据量.目前,神经网络模型
依然使用反向传播算法进行反复迭代优化,直到损失
函数的值收敛,具体的优化策略可能更丰富了,如自
[37][38]
适应梯度法(adaptivegradient,AdaGrad)
[36]
、
过人类大脑,如在围棋领域AlphaGo战胜人类顶尖
高手
[1鄄2]
,在大规模视觉比赛ImageNet中表现出更
游戏玩家
[5鄄6]
.注意,本文中的神经网络泛指所有的
神经网络.这不仅使得神经网络模型受到广泛的关
注,还极大地促进了神经网络模型的进一步发展,使
强的图像识别能力
[3鄄4]
,在电子游戏中战胜专业顶级
得神经网络模型在更多领域取得了更加不凡的成
就,如图像分割
[7鄄10]
理
[14鄄17]
、姿态估计
[18鄄21]
、目
等
标
.神经网络模型的快速发
检测
[11鄄13]
、自然语言处
展,并没有使其克服所有缺陷.神经网络模型依然
有很多不足,如灾难性遗忘、广受争议的黑箱子操作
等,但是瑕不掩瑜,神经网络在很多方面的惊艳表现
使它依然备受学者们的青睐.
一个显而易见的事实是,人类在学习新知识后
不会对旧知识发生灾难性遗忘,而这既是神经网络
模型的一个重大缺陷,也是它的一个遗憾.该问题
在很久之前就已经引起了学者们的注意.20世纪
八九十年代,连接网络时期,Carpenter等
[22]
已经提
到了神经网络模型中的灾难性遗忘问题,并且用了
一个形象的比喻来说明,一个出生在波士顿的人搬
到洛杉矶,他再回到波士顿时,仍然不会忘记他在波
士顿的一切;也即他在洛杉矶学会新知识后,仍然会
记得之前在波士顿的旧知识,而不会发生灾难性遗
忘;McCloskey等
[23]
描述了神经网络在序列学习中
遇到的灾难性遗忘问题,在文中称该问题为灾难性
干扰(catastrophicinterference).注意:当时,神经网
络常被称为连接网络.当时,有很多学者提出了相
关的方案试图解决该问题,如有学者认为灾难性遗
忘是由于存储在神经网络内部表征重叠造成的,因
此使用稀疏向量、输入正交编码等方法来避免神经
网络模型中的灾难性遗忘
[24鄄25]
来解决神经网络模型中的灾难性遗忘
;有学者使用双网络
[26鄄27]
者使用伪训练数据预演的方法来减少神经网络模型
;也有学
中的灾难性遗忘
[28]
现在
.
亿
[16]
、几百亿
,神经网络模型的参数量已经达到十几
[29]
,甚至一千多亿
[17,30]
模型中的灾难性遗忘问题依然广泛存在
;但是神经网络
,如卷积神经
网络(convolutionalneuralnetworks,CNN)
[31鄄32]
期记忆网络(longshort鄄termmemory,LSTM)
[33]
、
、
长短
生成
AdaDelta
momentestimation,Adam)
、RMSprop、
[39]
自
等
适
.
应
为了克服神经网络
矩估计(adaptive
模型中的灾难性遗忘问题,最近,很多学者提出了他
们的解决方案.如Rebuffi等
[40]
提出iCaRL方法,该
方法选择性地存储之前任务的样本;Sarwar等
[41]
提
出基于部分网络共享的方法,该方法使用“克隆-分
支冶技术;Li等
[42]
提出LwF方法,该方法主要以知识
蒸馏的方式保留之前任务的知识;Zeng等
[43]
提出使
用
Oswald
正交
等
权重修改结合情景模块依赖的方法;von
[44]
提出任务条件超网络,该网络表现出了
保留之前任务记忆的能力;Li等
[45]
结合神经结构优
化和参数微调提出一种高效简单的架构.也有学者
研究了神经网络中的训练方法、激活函数及序列学习
任务之间的关系怎样影响神经网络中的灾难性遗忘
的问题,如Goodfellow等
[46]
就发现dropout方法在适
应新任务和记住旧任务中表现最好,激活函数的选择
受两任务之间关系的影响比较大.
目前对神经网络模型中灾难性遗忘的研究主要
是增量学习(incrementallearning),在很多情况下,
也被称为持续学习
(lifelong
(continous
为增量学习
learning)
,但是有时为与原论文保持一致也可能
等.这里如没有特别说明统一称
learning)或终身学习
使用持续学习或终身学习.还有一些其他神经网络
模型方法对灾难性遗忘问题的研究非常有意义且与
增量学习有一定的交叉
learning)、
是同时学习多个任务
迁移学习(transfer
,如多任务学习(multi鄄task
,利用不同任务的互补
learning).多任务学习
,相互促
进对方的学习
[47]
识迁移到新任务上
;迁移学习主要是将之前学习的知
[48]
习到新知识后是否发生灾难性遗忘
,但是这种学习方式不关心学
,也即该方法主
要的关注点是怎样将之前任务上的知识迁移到新任
务上.多任务学习、迁移学习和增量学习如图1所
示.图1(a)表示多任务学习的一个实例,model
a
和
摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述
553
model
b
分别针对task
A
、task
B
,涵盖2个模型的蓝色
背景代表model
a
和model
b
在同时训练2个任务时
的某种联系,如共享神经网络的前几层等;图1(b)
表示迁移学习,model
1
表示已经使用任务task
A
的
数据训练好的模型,model
2
表示针对任务task
B
的模
型且尚未被训练,迁移学习就是将model
1
的知识迁
model
I
学习任务task
A
,在t+1时刻model
I
学习任
务task
B
,增量学习要求model
I
在学习过task
B
后不
能忘记task
A
.
移到model
2
;图1(c)表示增量学习,在t时刻,
摇摇显然,神经网络模型中的灾难性遗忘问题已经
成为阻碍人工智能发展的绊脚石,该问题的解决无
疑将是人工智能发展史上的一个重要里程碑.为促
进该问题的早日解决,本文对神经网络模型中灾难
性遗忘问题的相关研究做了一个综述.该综述的主
要目的是为了总结之前在这方面的研究和对该问题
提出一些研究建议.
Fig.1摇Multi鄄tasklearning,transferlearningandincrementallearning
图1摇多任务学习、迁移学习和增量学习
则化的方法和基于参数隔离的方法;其次,为了公正
地对比不同持续学习方法的效果,还提出了一种对
比性研究持续学习性能的框架.Lesort等
[51]
综合性
地研究了机器人中的增量学习.Parisi等
[52]
对基于
神经网络的持续性终身学习做了一个综述,首先对
生物的终身学习做了详细的介绍,如人类怎样解决
弹性-稳定性困境、赫布弹性稳定性、大脑互补的学
习系统,这是该综述与其他类似综述最大的不同;然
后,分析了神经网络模型中的终身学习方法,并将其
分为:正则化方法、动态架构方法和互补学习系统及
记忆回放.Belouadah等
[53]
对视觉任务的类增量学
习做了一个综合性研究,提出了增量学习的6个通
用属性,即复杂度、内存、准确率、及时性、弹性和
伸缩性,并将增量学习的方法分为基于微调的方
法和基于固定表征的增量学习方法.Masana等
[54]
提出了类增量学习所面临的挑战,即权重偏移、激
活值偏移、任务间混淆和新旧任务失衡,并将类增
量学习分为3类,基于正则化的方法、基于预演的
方法和基于偏置-校正的方法.文献[50鄄54]虽然
都对神经网络中的克服灾难性遗忘的方法做了综
述性研究,但是它们均有一定的局限性,如文献
且用来对比不同持续学习方法性能的框架也是针
对图像分类任务的,文献[51]仅研究了针对机器
人的增量学习.另外,文献[50鄄54]都没有涉及生
成对抗模型或强化学习克服灾难性遗忘方法的
介绍.
[50]仅介绍了持续学习中关于图像分类的方法,
1摇相关工作
之前的连接网络模型中,French
[49]
对连接网络
的灾难性遗忘的问题做了一个综述.该文献不仅详
细地分析了造成连接神经网络灾难性遗忘的原因,
而且介绍了多种解决连接神经网络灾难性遗忘问题
的方案.该作者最后指出解决神经网络的灾难性遗
忘问题需要2个单独的相互作用的单元,一个用于
处理新信息,另一个用于存储先前学习的信息.但
是该文献作者分析的是早期的神经网络模型,随着
神经网络技术的快速发展,现在的神经网络模型与
连接神经网络模型在神经网络的结构、深度以及优
化策略,甚至是训练神经网络模型的数据量等方面
都有很大不同.
最近,为了总结对神经网络模型中灾难性遗忘
的研究,也有部分学者做了一些综述性研究.de
Lange等
[50]
对持续学习中的图像分类任务做了一个
对比性研究,首先对持续学习的方法进行了综合的
介绍,如介绍很多持续学习的方法,将各种持续学习
的方法进行了总结并归为基于回放的方法、基于正
554
北摇京摇工摇业摇大摇学摇学摇报2021年
2摇减缓灾难性遗忘问题的方法
针对神经网络模型中的灾难性遗忘问题,相关
学者提出了很多解决方法.尽管相关文献大都声称
提出的方法可以克服灾难性遗忘的问题,但实际上
仅是不同程度地减缓神经网络模型中的灾难性遗忘
问题,为了表述的严谨,本章的标题为减缓灾难性遗
忘问题的方法.由第1节的内容可以看出,不同的
综述文献依据不同的规则,对减缓灾难性遗忘问题
方法的分类并不相同,本节将减缓灾难性遗忘问题
的方法分为4类,即基于样本的方法、基于模型参数
的方法、基于知识蒸馏的方法和其他方法.
为方便下文的叙述,这里对下文中的符号进行
统一,符号及其含义具体如表1所示.
表1摇符号及其含义
Table1摇Symbolsanddefinition
符号
Task
pre
Tdata
pre
Task
new
含义
2
n
已经被神经网络模型学习过的任务的集合,等价于{T
1
pre
,T
pre
,…,T
pre
}
d
2
d
n
1
Task
pre
相对应的各任务样本的集合,等价于{T
d
pre
,T
pre
,…,T
pre
}
Tdata
select
Tdata
new
Class
pre
Cdata
pre
Class
new
专
s
d
2
d
n
1
由Tdata
pre
中抽取的部分样本的集合,等价于{T
d
select
,T
select
,…,T
select
}
2
p
将要被神经网络模型学习的新任务的集合,等价于{T
1
new
,T
new
,…,T
new
}
d
2
d
p
1
Task
new
相对应的各新任务样本的集合,等价于{T
d
new
,T
new
,…,T
new
}
2
n
已经被神经网络模型学习过的类的集合,等价于{C
1
pre
,C
pre
,…,C
pre
}
d
2
d
n
1
Class
pre
相对应的各类的样本的集合,等价于{C
d
pre
,C
pre
,…,C
pre
}
d
2
d
n
1
由Cdata
pre
中抽取的部分样本,等价于{C
d
select
,C
select
,…,C
select
}
Cdata
select
Cdata
new
专
T
i
专
Model
pre
Model
target
2
p
将要被神经网络模型学习的新类的集合,等价于{C
1
new
,C
new
,…,C
new
}
d
2
d
p
1
Class
new
相对应的各新类的样本的集合,等价于{C
d
new
,C
new
,…,C
new
}
神经网络模型的共享参数
神经网络模型针对任务T
i
的特定参数
神经网络模型的全部参数
添加新任务或新类之前的神经网络模型
添加新任务或新类之后的神经网络模型
摇摇考虑到很多被提出的减缓灾难性遗忘的方法将
共享参数专
s
模块与特定任务参数专
T
i
模块分开,这
里有必要进行提前说明.以卷积神经网络的图像分
类任务为例,如图2所示,淡红色方框的参数共享模
块是指卷积神经网络中的前几层,这几层被认为提
取图像的通用特征;浅绿色方框的特定任务模块是
网络的分支,每个网络分支分别对应一个固定的任
务T
i
pre
,且仅用于任务T
i
pre
的图像分类;浅蓝色方框
的特定任务模块是为新任务添加的新网络分支,该
模块用于新任务的图像分类.这样划分是由于文献
[55]已经指出卷积神经网络的前面几层学习的是
不同任务所共享的通用知识,而之后的几层学习每
个任务所专有的知识.
注意,由于增加新任务与增加新类非常相似,
在下文中不做特别区分,均使用增加新任务表示;
Fig.2摇Parametersharingmoduleandtask鄄specific
module
图2摇参数共享模块和特定任务模块
有些时候为与原论文表述一致,也会使用增加新
类表示.
摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述
555
2郾1摇基于样本的方法
据的方法称为基于样本的方法.直接使用即为使用
额外的内存存储Tdata
pre
样本集中的部分数据
Tdata
select
,在学习新任务时,将Tdata
select
与Tdata
new
混
合,最后使用混合后的数据训练Model
target
.间接使
用主要指生成伪数据或保存Tdata
pre
的特征,然后使
用它们与Tdata
new
或Tdata
new
的特征混合训练
Model
target
.在文献[50,52]中也将该方法称为回放.
本文将直接或间接地用到Tdata
pre
样本集中数
计量.存储之前任务Task
pre
部分样本Tdata
select
的目
然后作为更新网络的训练数据;存储每类样本初次
学习时的统计量,是由于初次训练时,该类样本的数
据最全,相应地统计量也最准确;该统计量的作用是
为了矫正更新网络时由于数据失衡(新任务Task
new
偏差.
的数据多,而之前任务Task
pre
的数据少)所造成的
Isele等
[59]
提出了一种选择性存储所有任务样
的非常简单,是为了与新任务Task
new
的数据混合,
注意:有些方法中虽然用到了Tdata
pre
中的部分样本
本的方法,避免强化学习的灾难性遗忘.该方法包
数据,考虑到论文作者在克服灾难性遗忘中的主要
思想是使用其他方法,因此这部分方法并没有被认
2郾
为是基于样本的方法
1郾1摇
Guo
直接使用样本的方法
.
题
等
[56]
为解决增量学习中的灾难性遗忘问
supported
,提出了支持样本表征的增量学习(exemplar鄄
ESRIL)
触(memory
方法
representation
aware
.ESRIL
synapses,MAS)
包括
for
3个部分
incremental
模块
:1)
,该模块使用
记忆感知突
learning,
ImageNet
convolutional
数据集预训练的深度卷积神经网络(deep
之前任务Task
neuralnetwork,DCNN),
;2)
是为了维持用
pre
数据集训练的特征基于样例的
字
3
ESC)
空间
)多
模块
聚
质
,
类
心
该模块是为了提取每个任务中的样本
(exemplar鄄basedsubspaceclustering,
最近类(thenearestclassmultiple
;
centroids,NCMC)
器,当增加的新类数据与
模块,该模块作为一个辅助分类
ImageNet数据很相似时,
使用该分类器替代MAS中全连接层,减少训练时
间
Guo
.ESRIL
过迭代的方式不断优化
等采用文献
的关键是每类数据中代表样本的选择
[57]中的方法进行样本的选择,通
,
f
浊
(z
j
,Z
k
new
)=
h
min
j
沂R
N
(
椰h
j
椰
1
+
浊
2
z
j
-
z
j
沂
移
Z
k
h
ij
z
i
2
new
2
)
式中:z
j
表示样本x
j
沂Cd
k
被DCNN提取的特征
(1)
;
Z
k
new
是X
k
为C
d
k
new
样本集的特征集合
new
;浊为一个超参数;N
保持的稀疏形式
new
样本的数量;h
j
[57]
.
=[h
1j
,h
2j
,…,h
Nj
]
T
,为子空间
学习方法
Belouadah
,称为
等
[58]
提出了一种基于双内存的增量
IL2M.与普通基于样本的方法不
同,该方法使用2个记忆模块:1)第1个记忆模块
存储之前任务Task
模块存储之前任务
pre
的部分样本Tdata
Task
select
;2)记忆
pre
每类样本初次学习时的统
括长时存储模块和短时存储模块.长时存储模块称
为情景记忆,存储的样本基于样本的等级(使用排
序函数对样本排序).短时记忆模块是一个先进先
出(first鄄in鄄first鄄out,FIFO)区,该部分不断刷新,以确
2郾
保网络能接触到所有的输入数据
1郾2摇间接使用样本的方法
.
型
Hayes
memory
,该模型称为使用记忆索引的回放
等
[60]
提出了一种别样的基于样本的模
储之前任务
indexing,
Task
征.REMIND模型将样本的特征经过量化后给予索
pre
REMIND).
的原始样本
REMIND
(replayusing
,而是存储样本的特
模型并不存
引号并存储,增加新任务Task
new
时,将随机抽取r个
存储的特征进行回放
Atkinson等
.
[61]
Pseudo鄄Rehearsal)
提出了RePR(reinforcement鄄
演的方式避免神经网络中的灾难性遗忘
模型.RePR模型使用伪数据
.RePR
-预
包
括短时记忆(short鄄termmemory,STM)和长时记忆模
块(long鄄termmemory,LTM).STM模块使用当前任
务Task
new
的数据Tdata
new
训练针对当前任务的深度
强化网络(deepQ鄄networks,DQNs);LTM模块包括
拥有之前所有任务Task
任务伪数据的GAN.结合迁移学习
pre
的知识和能生成之前所有
,将DQNs的知
识迁移到Model
pre
中;在知识迁移的过程中,真实的
数据使得Model
target
学习到新知识,GAN生成的伪数
据维持
成相应的伪数据
Atkinson
Model
pre
等
中之前任务的知识.
[62]
和Shin等
[63]
均使用中GAN生
.Atkinson等
[62]
使用GAN生成伪
图像代替随机生成的伪图像,因为随机生成的伪图
像明显不同于自然的图像,这将导致网络能学习到
很少的之前任务的知识.当训练第T
1
任务时,GAN
被训练T
1
的数据集D
T
1
D
,增加了T
2
任务后,GAN被
训练使用T
2
的数据集
T
2
;增加了T
3
任务后,该方
法显然就出现了问题
,意味着GAN生成的伪数据也是
,前一步中,GAN仅使用数据
集D
T
2
T
2
的伪数
556
北摇京摇工摇业摇大摇学摇学摇报2021年
据.为了不增加内存的消耗,作者将GAN也使用伪
标签进行训练,这样GAN生成的数据就代表之前所
有任务的数据.Shin等
[63]
提出的模型具有双架构
掖G,S业,G是深度生成器模型用来生成伪样本,S是
2郾2摇基于模型参数的方法
基于模型参数的方法根据是否直接使用模型参
数进行分类:1)选择性参数共享,该方法直接使用
模型的参数;2)参数正则化,该方法约束模型的重
要参数进行小幅度变动,以保证对之前已学习知识
解算器用来处理每个任务.
2郾
的记忆
2郾1摇
.
该方法在预训练神经网络模型
选择性共享参数
Model
新任务Task
pre
后,增加
.虽然神经网络模型的参数没有发生改变
new
时选择性地使用神经网络模型的参
数,由于
针对不同任务所选择性激活神经网络中参数的不
同,导致不同任务使用的神经网络的模型参数不同,
进而使同一个神经网络模型的参数适应不同的任
务.可以看出,这种方式换一个角度解决神经网络
中的灾难性遗忘问题.这种方式的优点:1)不需要
使用之前任务Task
pre
的数据Tdata
网络模型进行较大的改进.这种方式也有一个显著
pre
;2)没有对神经
的缺点,虽然不需要使用先前任务的数据进行训练,
但是需要针对不同任务存储一个激活参数,即使在
相关文献中,作者一再强调存储的激活参数很小,但
当任务量非常多时,即使逐渐小幅度定量的增加也
是非常可怕的
Mallya等
.
[64]
提出了一种共享参数的方法,该方
法不改变预训练骨干网络的参数专,而仅对每个任
务训练掩模m,具体如图3所示.以第k个任务为
例进行说明:首先训练得到掩模mask忆
k
;然后通过将
3
掩模
中mask
mask忆
k
二值化处理得到二值化掩模mask
k
,如图
k
所示(红色实方框为表示1,深灰色实方
框表示0);最后将二值化掩模mask
k
与预训练骨干
网络的参数专
的参数集专
,如图
backbone
3
逐元素运算得到适用于任务
中专
k
k
backbone
和专
k
所示(专
中绿色实方框表示具体的参数,专中绿色实方框表
backbone
k
示激活的参数,深灰色实方框表示未被激活的
参数)
习(calibrating
Singh
.
等
[65]
提出了校准卷积神经网络的终身学
CNNsforlifelonglearning,CCLL),该
模型是一个与众不同的网络.该网络重复使用训练
的参数,不同之处在于该网络在每层卷积神经网络
的输出位置添加一个校准模块,通过校准模块使该
图3摇共享参数的方法
[64]
摇
Fig.3摇Methodofsharingparameters
[64]
网络避免灾难性遗忘问题,同时适应新的任务.该
网络在神经网络的每层后面加一个任务适应校准模
块CM
t
i
络),该模块包括由针对网络中的单个参数的空间
(t表示第t个任务,i表示第i层卷积神经网
校准模块和针对网络参数通道的通道校准模块.空
间校准模块计算式为
M
t
i
*
=GCONV
琢
(M
t
i
式中:M
t
表示第t个任务中第i
)茌
层神经网络空间校
M
t
i
(2)
i
*
准模块的输出;GCONV
琢
表示组卷积,每个组卷积有
琢个通道;M
t
i
表示表示第t个任务中第i层神经网
络的输出;茌表示逐元素相乘.空间校准模块的输
出M
t
i
*
作为通道校准模块的输入,通道校准模块计
算式为
M
t
i
**
=滓(BN(GCONV
茁
(GAP(M
t
i
*
))))茚M
t
i
*
式中:M
t
(3)
i
**
表示第t个任务中第i层神经网络通道
校准模块的输出;BN表示批归一化;GCONV
琢
表示
组卷积,每个组卷积有茁个通道;GAP表示全局均
2郾
值池化
2郾2摇
;茚
使用该方法时
参数正则化
表示逐通道相乘.
,Model
对神经网络进行重新训练;
pre
在添加新任务后,需要
但是,由于添加了参数正
则项,神经网络在训练的过程中会保证对重要参数
进行小幅度的改变,以保证对之前任务Task
.
pre
的
效果
Kirkpatrick等
[66]
参考生物对特定任务的突触
巩固原理,提出了类似于该原理的人工智能算法,即
可塑权重巩固(elasticweightconsolidation,EWC).
摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述
557
小鼠在学习新任务后,一定比例的突触会增强,并且
能保持一段时间;相应地,神经网络模型的参数并非
全是等价的,有些参数可能是有用的,有些参数可能
作用非常低甚至是没有作用.因此,作者提出缓慢
改变神经网络模型中的重要参数,以使得模型不忘
记之前学习的知识.EWC使用损失函数来实现该
目的,即
L(兹)=L
B
(兹)+
式中:N为样本x的数量;i、j、k三个索引分别为样
本x的3个维度,D是样本x三个维度数的乘积;x
ijk
^
ijk
为重建后图为图像在索引(i,j,k)处的灰度值;
x
2郾3摇基于知识蒸馏的方法
像在索引(i,j,k)处的灰度值.
Hinton等
[68]
于2015年提出了一种模型压缩的
式中:L
B
(兹)表示针对task
B
的分类损失函数;姿表示
移
i
姿
2
F
i
(兹
i
-兹
*
A,i
)
2
方法,即知识蒸馏.该方法使用软目标辅助硬目标
(4)
进行训练小模型model
small
,软目标即将样本x
i
输入
到预训练的大模型model
big
中得到的输出q
i
,硬目标
即为样本的真实标签y
.之所以这样做,是因为软
之前学习的task
A
的重要性;F表示费雪矩阵;i是参
数的索引;兹表示模型的参数;兹
*
的参数
A,i
表示之前任务A
Chang
.
等
[35]
为了使GAN避免灾难性遗忘,提出
了记忆保护生成对抗模型
MPGAN)
(memoryprotection
derivative
,
则化方法使用输出函数的一阶导数不能准确地评估
preserver,SDP).
并设计了一种参数正则化方法
考虑到已存在的参数正
(second
GAN,
参数的重要性,SDP使用输出函数的二阶导数.使
用F表示输出函数,兹表示模型的参数,则SDP表
示为
I
SDP
(兹)=
啄兹+
1
由于汉森矩阵计算较为复杂
(
鄣
鄣
F
兹
)
T
2
啄兹
T
(
鄣
,在实际操作中使
鄣
2
兹
F
2
)
啄兹(5)
用费雪信息E[(
(
鄣
鄣
F/
鄣
兹)
2
I
]近似汉森矩阵
鄣
.SDP使用
SDP
El等
(兹
[67]
)=
鄣
F
兹
)
T
啄兹+
1
借用参数正则化的思想
2
啄兹
T
E
[(
,提出了一种方
鄣
F
兹
)
2
]
啄兹(6)
式约束增加新任务后模型参数的改变.作者将卷积
神经网络的特征提取模块称为编码器,在编码器后
由有2个分支网络,一个分支网络为了图像分类,另
一个分支网络称为解码器,使用反卷积进行样本的
重建.为了训练该网络,作者在损失函数中添加了
一个非监督重建损失,该损失的作用等同于参数正
则化.优化网络中的损失函数
L=L
^
,y)+姿L
式中:L
rec
的真实标签
cls
(
y
^
,y)是图像分类的交叉熵损失
cls
(
y
(
x
^
,x)(7)
,y为图像
L
^
,
y
^
网络输出的预测标签;姿是超参数;
,x)是重建损失,x
^
表示为
rec
(
x为重建样本,x为样本.L
rec
L
rec
(
x
^
,x)=-
ND
1
·
移
N
^
n=1
移
ijk
[x
ijk
log
a
x
ijk
+(1-x
ijk
)(1-log
a
x
^
ijk
)]
(8)
i
目标中包含的信息量巨大;而硬目标包含的信息量
较低.如果model
big
中真实类的输出结果远远大于
其他类的结果,那就不能很好地使用软目标中的信
息了,因此需要平滑softmax的输出结果,即
q
i
=
移
exp
exp
(z
(
i
z
/T)
(9)
j
j
/T)
式中:z
i
为softmax前一层(该层的神经元个数已被
映射为训练任务的类别数)的输出;T为温度,T越
大model
big
输出的结果越软.知识蒸馏的方法被广
泛应用于模型压缩
[69鄄71]
被广泛应用于解决神经网络模型的灾难性遗忘问题
、迁移学习
[72鄄74]
等领域,也
中
[75鄄79]
data
的方式将
同时输入到
.图4为知
model
big
model
识蒸馏的示意图,将训练样本
的知识迁移到
big
和model
model
small
,通过知识蒸馏
small
.
图4摇知识蒸馏
Fig.4摇Knowledgedistillation
(learning
Li等
[42]
结合知识蒸馏设计了学而不忘模型
类Class
new
without
时,仅需要使用新类
forgetting,LwF),
Class
该模型在增加新
且能避免对之前学习知识的遗忘
new
的数据训练
模型,.LwF模型
使用前几层作为特征提取模块,为所有任务共享;之
后几层作为特定任务模块
LwF使用的损失函数
,为不同任务的单独所有.
L=姿
0
L
old
(Y
^
R
0
(
,
Y
兹
^
0
s
,
)
兹
^
+L(Y
o
,
兹
^
new
n
,
Y
^
n
)+
n
)(10)
558
北摇京摇工摇业摇大摇学摇学摇报2021年
式中:姿
0
为一个超参数,值越大,相应地对蒸馏损失
^
)为软标签的损失,Y
为的权重就越大;L
(Y,
Y
^
增加新类增加新类Class
new
前模型的软标签,
Y
0
^
为训练过程中模型的输出;R(
兹
^
,
兹
^
,
兹
^
)
实标签,
Y
nson
^^
为正则项,
兹
为共享参数,
兹
之前任务的特定任务
^
为新任务的特定任务参数.参数,
兹
n
so
nn
old000
1
L
C
(棕)=-
N
1
L
D
(棕)=-
N
N
Class
new
后训练过程中模型输出的软标签;L
new
(Y
n
,
^
)增加新类别的标准损失,Y
为新类别数据的真
Y
式中:N和C分别表示样本的数目和样本的类别数;
p
ij
表示样本真实标签,q
ij
为模型的输出;pdist
ij
与
qdist
ij
类比于p
ij
和q
ij
.
Lee等
[79]
结合未标记的大规模野生动物数据设
pdist
ij
log
a
qdist
ij
移移
i=1j=1
移移
p
ij
log
a
q
ij
i=1j=1
C
NC
(13)
(14)
损失函数,将知识蒸馏的方法用到目标检测的灾难
Shmelkov等
[75]
和Chen等
[76]
分别提出了新的
计了一个蒸馏损失,称为全局蒸馏(global
distillation,GD)
[79]
.用M
t
表示增加第t个任务时所
性遗
Shmelkov
忘中,这里以文献[75]为例进行说
在增加新的任务时
等
明.
[75]
提出的损失函数使FastRCNN网络
,不用使用之前任务的数据,且表
现出对之前任务知识的不遗忘.将当前的网络称为
C
A
,C
A
增加新任务后需要增加新的分类分支和使用
新任务的数据进行重新训练,此时的网络称为C
由于目标检测任务中需要进行分类与回归训练,因
B
.
此作者结合分类与回归提出蒸馏损失函数
L
移
dist
[(
(y
A
y
,t
A
,y
B
,t
B
)=
N|
1
C
A
-y
B
)
2
+(t
A
-t
B
)
2
](11)
式中:N表示感兴趣区域
A
|
(regionofinterest,RoI)的
个数,|C
与y
A
C
和
B
分别是
|表示增加新任务前目标的种类个数
C
C
A
和C
B
的分类输出,t
y
A
与t
B
分别是
,y
A
A
,作者从每幅图像中的
B
的回归输出.
A
128
、y
B
、
个具有最小背景分数
t
A
、t
B
参数计算稍复
杂
的RoI中随机抽取64个;对于C
类输出的均值不妨记为y忆
A
,
y忆
,y
A
,令每个
此
RoI
64
的输出减去
个RoI的分
A
既得y
AB
、t
结合知识蒸馏与样本回放的方式提
A
、t
B
的计算同理.
出了适应蒸馏的方法
Hou等
[77]
,该方法首先针对新任务t
new
训
练一个模型CNN
新任务的知识迁移到目标模型
expert
,然后通过知识蒸馏的方式将
CNN
同的是,该方法在知识蒸馏时用到少量的之前任务
target
,与LwF不
的样本
前任务的数据设计了一个端到端的增量学习模型
Castro
.
等
[78]
使用之前任务的小部分数据和当
,
由任务共享模块特征提取和特定任务模块组成.针
对该架构,作者提出了交叉-蒸馏损失公式
L(棕)=L
C
(棕)+
式中:L
C
(棕
移
F
f=1
L
D
f
(棕)(12)
L
)为新旧任务所有数据的交叉熵损失;
L
D
f
(棕)表示每个特定任务层的蒸馏损失.L
C
(棕)和
D
f
(棕)表示为
需要训练的最终模型,兹和准
务的共享参数和特定任务参数
1:t
分别表示M
t
中各任
,准
准
1:t
={准
1
,准
2
,…,
t
务的数据的混合
},D
trn
t
表示第t个任务的数据集和小部分之前任
;则训练M
t
的标准损失为L
准
cls
(兹,
据
1:
,
t
;
直接使用该数据集训练
D
trn
t
).考虑到D
trn
t
仅包括小部分之前任务的数
M
t
可能导致灾难性遗
忘,因此需要在损失函数中加入蒸馏损失.使用之
前的M
t-1
模型生成软标签,为了避免数据偏置,生
成软标签的数据集为D
trn
t
生动物数据集抽样得到,
胰
则该部分损失为
D
ext
t
,D
ext
t
由未标记的野
L
准
dst
(兹,
1:t-1
;M
t-1
,D
trn
t
胰D
ext
t
).仅使用M
t-1
进行知识蒸馏
未考虑第t个任务的知识,添加了C
t个任务数据集训练的模型,该部分的损失为
t
,C
t
为仅使用第
L
准
1:t
;C
t
,D
trn
t
胰D
ext
t
).由于M
t-1
与C
t
分别独立地包
dst
(兹,
含t之前任务和第t个任务的知识,可能有知识遗
漏,因此结合M
t-1
与C
(兹,准
t
构建了模型Q
t
为L
,该部分损失
dst1:
Loss
t
;Q
t
,D
ext
t
).最终,全局蒸馏损失为
L
GD
=L
cls
(兹,准
1:t
;D
trn
t
)+
dst
(兹,准
,
1:(
准
t-1)
;P
t
,D
trn
t
ext
L
胰D
t
)
dst
(兹
t
;C
t
,D
trn
t
胰D
ext
+
t
)+
2郾4摇其他方法
L
dst
(兹,准
1:t
;Q
t
,D
ext
t
)(15)
除了上面所述的3类方法外,一些学者还提出
了
Mu觡oz鄄Mart侏n
其他方法为
等
避免神经网络中的灾难性遗忘.
[80]
将有监督的卷积神经网络与受
生物启发的无监督学习相结合,提出一种神经网络
概念;不同于参数正则化方法,Titsias等
[81]
提出一
种函数正则化的方法;Cao在将学习系统视为一个
纤维丛(表示一种特殊的映射),提出了一个学习模
型
[82]
.该学习模型的架构如图5所示,该图根据文
献[82]所画,与动态地选择模型的参数不同,该模
型动态地选择解释器.图5(a)表示了一个普通的
神经网络,即输入x通过神经网络得到输出y;图5
摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述
559
(b)表示作者所提出的学习模型的架构,该架构主
要有以下几步:1)输入x通过生成器Generator被编
码为潜在空间L中的x
L
,这里相似的样本会得到
x
L
;2)基于x
L
选择神经网络中被激活的神经元,得
到解释器Interpretor:f
x
;3)将样本x输入到解释器
f
x
得到输出y.为了使该学习模型能有对时间的感
知,作者又在模型中引入了一个生物钟,
T=T
min
+滓[鬃(x)](T
max
-T
min
)(16)
(17)
问题:如何确定哪种方法最优?如何确定某种解决
方案所适应的环境?如何评价不同方法的优劣?
针对如何评价不同方法这个问题,也有一些学
者进行了相应的研究.Kemker等
[83]
提出了衡量灾
3个评价指标,该评指标主要有3个新的评估参数
赘
base
赘
new
1
=
T-1
1
=
T-1
难性遗忘问题的实验基准和评估指标.这里只介绍
式中:x表示输入;Y
t
表示生物钟的输出;t表示当前
Y
t
=(Asin(2仔t/T),Acos(2仔t/T))
移
i=2
T
T
琢
new,i
移
i=2
琢
base,i
琢
ideal
(18)
(19)
时刻;T表示周期;T
min
和T
表示
max
均为超参数,分别表示
T的最小值与最大值;滓sigmoid函数;鬃表示
可训练的神经网络模型.通过实验作者发现该学习
模型不仅具有良好的持续学习能力,而且还具有一
定的信息存储能力.
图5摇普通神经网络和纤维束学习系统
[82]
Fig.5摇Common
withafiber
neural
bundle
network
[82]
andlearningsystem
3摇减缓灾难性遗忘的评价准则
针对神经网络中的灾难性遗忘问题,大量学者
提出了自己的方法,无论是基于样本的方法,或是基
于模型参数的方法,又或是基于知识蒸馏的方法等
等;总之,解决方案有很多,那么这又产生了一系列
赘
all
=
T
1
移
T
-1
琢
i=
琢
all,i
2
式中:T表示任务的数量;琢
ideal
(20)
1个任务的准确率
base,i
表示训练第i个任务
后,神经网络模型对第;琢
训练基础数据集(也即第1个任务)后,神经网络模
ideal
表示
型对基础数据集的准确率;琢
务后,神经网络模型对该任务的准确率
new,i
表示训练第i个任
;琢
型对当前所能得到所有数据的准确率.这里式
all,i
表示模
(18)
中的赘
base
表示神经网络模型在训练T个任务之后,
对学习到第1个任务知识的遗忘程度;式(19)中的
赘
务的适应能力
new
表示神经网络模型在学习到新任务后,对新任
;式(20)中的赘
知识
all
计算模型保留先前
学习的知识和学习到新的能力.vandeVen
等
[84]
也指出,虽然有很多针对神经网络中灾难性遗
忘问题的解决方案,但是由于没有统一的评价基准,
导致直接对比不同解决方案的效果非常困难.为了
能结构化地比较不同的解决方案,vandeVen等提
出了3种困难度逐渐加大的连续学习的情景,每个
情景包含2种任务协议.3种任务情景分别为:1)
测试时,已知任务ID;2)测试时,任务ID未知,且不
需要判断任务ID;3)测试时,任务ID未知,且需要
判断出任务ID.第1种实验情景针对的是任务增量
学习(task鄄IL),即每个任务在输出层都有与之对应
的特定的输出单元,而其余网络是共享的;第2种实
验情景是针对域增量学习(domain鄄IL),即任务的结
构相同但输入分布却不相同;第3种实验情景针对
类增量学习(class鄄IL),即递增地学习新类.在文献
中,作者将第1种任务协议称为分割MNIST任务协
议,该协议将MNIST数据集中分为5个任务,每个
任务包含
MNIST
包含10
任务协议
2类;作者将第2种任务协议称为置换
类,将原始
,该协议包含
MNIST作为任务
10个任务
1,在
,每个任务
MNIST基
础上随机生成另外
Pf俟lb等
9组数据即任务2~9的数据集.
[85]
也提出了一个评价深度神经网络(deep
560
北摇京摇工摇业摇大摇学摇学摇报2021年
neuralnetworks,DNNs)灾难性遗忘问题的范例.该
评价范例主要是针对实际应用层面,主要包括:1)
tasks,STLs)时,模型应能保证能随时增加新类;2)
在DNNs上训练序列学习任务(sequentiallearning
模型应该对先前学习过的任务表现出一定的记忆
力,即使灾难性遗忘不可避免,至少应该缓慢的遗忘
之前所学习的知识,而不是立即遗忘;3)DNNs如果
应用到嵌入式设备或机器人中,应该满足内存占用
低、添加任务时重新训练的时间或内存复杂度不应
依赖于子任务的数量等.除了提出新的评价方法,
也有学者提出了用于测试神经网络模型中灾难性遗
忘问题性能的新数据集,如Lomonaco等
[86]
提出了
基准数据集CORe50,该数据集用于测试不同持续
学习方法对目标检测的效果.
展神经网络模型的方法意义不大.之所以说灾难性
遗忘问题没有被解决且一直是阻碍现在人工智能领
域突破的关键点,是因为想使用尽量有限的神经网
络模型完成尽可能多的任务.如图7所示,t
1
时刻
仅有task
1
出现,为任务task
1
设计且训练的神经网
络模型model
A
;t
2
时刻任务task
2
出现,想在尽量小
地改变神经网络模型model
A
的前提下让其学习到
任务task
2
的知识,且model
A
学习到任务task
2
的知
识后仍然对任务task
1
具有良好的效果;t
3
时刻任务
task
3
出现,依然想在尽量小地改变神经网络模型
model
A
的前提下让其学习任务task
3
的知识,且
model
A
学习到任务task
3
的知识后仍然对任务task
1
和任务task
2
具有良好的效果;当任务task
4
出现
时…….注意:图7中某一时刻多个任务同时指向
model
A
,并不意味着model
A
在该时刻同时训练这多
个任务的数据,仅表示model
A
能同时适应这多个不
同时间出现的任务;如任务task
1
和任务task
2
同时
指向model
A
,仅表示model
A
能同时适应t
1
时刻出
现的task
1
和t
2
时刻出现的task
2
,并不意味着
model
A
在t
2
时刻同时训练任务task
1
和任务task
2
的数据.由上可以看出,灾难性遗忘问题可以表述
为在尽量小地改变神经网络模型的前提下,使得
神经网络模型学习尽可能多的新知识且依然能记
得先前学习过的知识.灾难性遗忘实际可以类比
为人类或其他哺乳动物的记忆功能,人类在学习
新知识后并不会忘记之前学习的知识,而灾难性
遗忘则与之相反.
4摇讨论
由神经网络模型将信息存储在它的权重参数中
可以看出,其产生灾难性遗忘问题的根本原因:同一
个神经网络模型在学习新任务时,其权重参数在反
向传播算法的作用下不断更新以适应新任务;神经
网络模型权重参数的改变,进而导致其不适用于之
前学习的任务.如果允许使用无限并行扩大的神经
网络模型且不改变之前模型的参数,可以看出灾难
性遗忘问题能轻易地被解决,如图6所示.tasks是
所有任务的并集胰
task
i
;models是适应每个任务
i=1
n
i=1
n
task
i
的模型的并集胰
model
i
,显然使用这种简单扩
摇摇在尽量小地改变神经网络模型自身的情况下允
许神经网络模型适应更多的新任务且不发生灾难性
遗忘.如直接使用样本回放的方法,并非简单地将
所有任务的样本混合而是想要找到每个任务中具有
代表性的样本,并使用不同的方法对样本进行排序,
进而选择具有代表性的样本;在使用生成伪数据的
方法中,想要生成适量的伪数据而不是无限扩展网
Fig.6摇Infinitelyexpandingneuralnetworkmodel
图6摇无限扩大的神经网络模型
络;参数正则化的方法中,想要找到神经网络模型中
最重要的参数,并对其进行约束,而不是简单地约束
所有参数;在知识蒸馏中,想要将知识由一种网络迁
移到另一种网络,而不是简单地将2个网络并联.
另外,第3节中的很多方法依据生物的认知记忆等
原理进行改进创新,以期达到克服神经网络模型中
灾难性遗忘的目的
[66,80,82]
.注意:对减缓灾难性遗
摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述
561
中的某些样本具有代表该样本集的能力.一个显而
易见的事实是,神经网络模型是对生物神经网络的
模仿,而现在神经网络模型出现灾难性遗忘的问题,
说明对生物的神经网络研究的并不彻底,还有很多
盲点.思路1)进一步研究生物的避免研究灾难性
遗忘的机制,应该是研究的重点和趋势.
为彻底解决神经网络模型中的灾难性遗忘问
题,需要人工智能等方面学者们的努力,也需要脑科
图7摇逐渐增加模型的任务
Fig.7摇Graduallyaddtaskstothemodel
忘方法的分类并不是绝对的,如文献[77鄄78]既用到
了知识蒸馏的方法,也用到了样本的方法;这里的分
类依据是作者解决神经网络模型中灾难性遗忘问题
的主要思想,以文献[78]为例,作者在文中主要的
关注点是使用知识蒸馏的方法避免灾难性遗忘,而
使用之前任务所组成的小样本集仅是作者使用的一
个辅助的方式,因此将该方法归类为知识蒸馏的
类中.
5摇总结与建议
首先将减缓神经网络模型灾难性遗忘的方法分
为四大类,并对不同大类的方法进行了介绍;然后,
介绍了几种评价减缓神经网络模型灾难性遗忘性能
的方法;接着,对神经网络模型中的灾难性遗忘问题
进行了开放性的探讨.
如果将人类的大脑看成一个复杂的神经网络模
型,可以观察到人类并没有灾难性遗忘的问题.这
说明现在的神经网络模型与人脑相比仍有非常大的
缺陷,仍有非常大的进步空间.对于怎样解决灾难
性遗忘的问题,本文最后提出了几个解决思路:1)
探索生物怎样避免灾难性遗忘的机制,并根据该机
制设计相似的神经网络模型.2)探索神经网络模
型存储信息的新机制,如果神经网络模型在学习新
知识后仍能保持对之前学习的知识不遗忘,必然需
要存储一些关于之前学习的知识的一些信息,怎样
高效地存储和利用这些信息值得研究.3)选取具
有代表性的样本也是一种方法.该方法不仅存在于
生物的认知中,也广泛存在于社会生活中.如社会
生活中的选举,某一社会团体通常推选出该团体中
的某几位成员而不是全体成员代表该社会团体,这
也从另一个角度说明,部分样本往往可以近似代表
总体样本.对比到神经网络模型中,选取某一任务
中具有代表性的样本,而不是使用所有样本代表该
任务;该方法需要确定推选机制,即怎样确定样本集
学、心理学等方面学者们的支持.
参考文献
[1]SILVER
:
Mastering
D,
thegame
HUANGA,MADDISONCJ,etal.
[2]
treesearch[J].Nature,
ofGo
2016,
with
529(7587):
deepneuralnetworks
484鄄489.
and
Nature,
Mastering
SILVERD,
2017,
the
SCHRITTWIESER
game
550(7676):
ofGowithout
J,
354鄄359.
human
SIMONYAN
knowledge[
K,et
J].
al.
[3]HE
forimage
K,ZHANG
recognition
X,REN
[C
S,
]椅
et
Proceedings
sidual
ofthe
learning
ConferenceonComputerVisionandPattern
IEEE
[4]
Piscataway:
HU
IEEE,2016:770鄄778.
Recognition.
[C]
J,
椅
SHEN
and
Proceedings
L,SUN
PatternRecognition.
of
G.
the
Squeeze鄄and鄄excitation
IEEE
Piscataway:
Conference
IEEE,
onComputer
networks
7132鄄7141.
Vision2018:
[5]
general
SILVER
reinforcement
D,HUBERTT,
learning
SCHRITTWIESER
algorithmthat
J,et
masters
al.A
[6]
2018,
chess,
YED,
362(6419):
shogi,and
LIUZ,SUN
1140鄄1144.
gothroughself鄄play[J].Science,
inMOBA
M,ingcomplexcontrol
[7]
AAAI.
LONG
networks
J,
Cambridge,
gameswith
MA:
deep
AAAI
reinforcement
Press,2020:
learning
6672鄄6679.
[C]椅
IEEEConference
for
SHELHAMER
semantic
on
segmentation[C]
E,DARRELLT.
ComputerVision
椅Proceedings
Fullyconvolutional
andPattern
ofthe
[8]
Recognition.
HE
Piscataway:IEEE,2015:3431鄄3440.
[C]椅Proceedings
K,GKIOXARI
of
G,
the
DOLL魣R
IEEEInternational
P,etal.
Conference
MaskR鄄CNN
on
[9]
Computer
RENARD
Vision.
F,GUEDRIA
Piscataway:
S,
IEEE,
DEPALMA
2017:2961鄄2969.
Variability
N,etal.
imagesegmentation
andreproducibility
[J
indeeplearningformedical
[10]
(1):
PORZI
1鄄16.
].ScientificReports,2020,10
multi鄄object
L,HOFINGER
annotations[
tracking
C]椅
and
M,
Proceedings
segmentation
RUIZI,et
ofthe
from
al.
IEEE
automatic
Learning
ConferenceonComputer
/CVF
Piscataway:IEEE,2020:
Vision
6846鄄6855.
andPatternRecognition.
562
北摇京摇工摇业摇大摇学摇学摇报2021年
[11]KONGT,SUNF,LIUH,ox:Beyound
anchor鄄basedobjectdetection[J].IEEETransactionson
ImageProcessing,2020,29:7389鄄7398.
convolutionsformonocular3dobjectdetection[C]椅
VisionandPatternRecognition.
[12]DINGM,HUOY,YIH,ngdepth鄄guided
ProceedingsoftheIEEE/CVFConferenceonComputer
2020:1000鄄1001.
Piscataway:IEEE,
AnnualConferenceoftheCognitiveScienceSociety.
[25]MCRAEK,HETHERINGTONPA.
CognitiveScienceSociety.
Mahwah:LawrenceErlbaumAssociates,1989:26鄄33.
interferenceiseliminatedinpretrainednetworks[C]椅
ErlbaumAssociates,1993:723鄄728.
Catastrophic
Proceedingsofthe15hAnnualConferenceofthe
Mahwah,NJ:Lawrence
[26]鄄recurrentconnectionistnetworks:
Anapproachtothe‘sensitivity鄄stability爷dilemma[J].
ConnectionScience,1997,9(4):353鄄380.
[27]ANSB,ngcatastrophicforgettingby
[13]QINZ,LIZ,ZHANGZ,rNet:towards
real鄄timegenericobjectdetectiononmobiledevices[C]椅
ProceedingsoftheIEEEInternationalConferenceon
away:IEEE,2019:6718鄄6727.
Bert:pre鄄
understanding[J].
training
DEVLIN
of
J,
deep
CHANG
bidirectional
MW,LEE
LANZ,CHENM,
arXiv,
GOODMAN
2018:
transformers
K,etal.
S,
abs
et
/1810.
for
:
04805.
language
bertforself鄄supervisedlearningoflanguage
alite
RADFORD
representations[J].
unsupervised
A,WU
multitask
J,
arXiv,
CHILD
2019:
learners
R,et
abs
[
al.
/1909.
J].
Language
11942.
areOpenAI
models
2019,1(8):9.
Blog,
2005.
models
BROWN
14165.
are
T
few鄄shot
B,MANN
learners
B,RYDER
[J].
N,
arXiv,
etal.
2020:
Language
abs/
ARTACHO
pose
B,e:unifiedhuman
Proceedings
estimation
ofthe
in
IEEE
single
/CVF
images
Conference
andvideos
onComputer
[C]椅
Vision
2020:
andPatternRecognition.
CHEN
7035鄄7044.
Piscataway:IEEE,
multi鄄human
L,AI
3D
H,
pose
CHEN
estimation
R,etal.
at
Cross鄄view
over100FPS
tracking
[C]
for
Proceedings
椅
Vision
oftheIEEE/CVFConference
Piscataway:
onComputer
2020:3279鄄3288.
,
CHEN
region
X,WANGG,GUO
[J].
JINS,
Neurocomputing,
ensemblenetwork
H,idedstructured
XUL,XUJ,
2020,
forcascaded
etal.
395:
Whole鄄body
138鄄149.
handposeestimation
estimation
humanpose
Computer
CARPENTER
Vision.
inthe
G
Berlin:
wild[C
A,GROSSBERG
Springer,
]椅European
2020:
Conference
S.
196鄄214.
on
TheARTof
network[J].
adaptivepattern
MCCLOSKEY
Computer,
recognition
M,COHEN
1988,
by
NJ.
21(3):
aself鄄organizing
Catastrophic
77鄄88.
neural
inconnectionistnetworks:thesequentiallearning
interference
problem
24:
[J].
109鄄165.
ThePsychologyofLearningandMotivation,1989,
connectionist
HETHERINGTON
networks?
e
[C]椅
'catastrophic
Proceedings
interference'in
ofthe11th
coupling
Rendus
tworeverberating
cad佴miedesSciences鄄Series
neuralnetworks[
III鄄Sciences
J].Comptes
laVie,1997,
del'A
320(12):
Catastrophic
989鄄997.
de
[28]ting,rehearsaland
[29]
123鄄146.
pseudorehearsal[J].ConnectionScience,1995,7(2):
Massively
ARIVAZHAGAN
multilingual
N,BAPNAA,FIRATO,etal.
wild:findingsandchallenges
neuralmachine
[J].arXiv,
translation
2019:
in
abs
the
/
[30]
1907.
SHAZEER
05019.
Outrageously
N,
large
MIRHOSEINI
neuralnetworks:
A,MAZIARZ
thesparsely鄄gated
K,etal.
[31]
06538.
mixture鄄of鄄expertslayer[J].arXiv,2017:abs/1701.
ZACARIAS
overcoming
networks
catastrophic
A,ALEXANDRE
forgetting
鄄CNN:
Workshop
by
inconvolutionalneural
Recognition.
on
selective
Berlin:
Artificial
network
Springer,
Neural
augmentation
2018:
Networks
[C]
102鄄112.
in
椅
Pattern
IAPR
[32]ROY
deepconvolutional
D,PANDAP,
[J].NeuralNetworks,
neural
ROY
2020,
network
鄄CNN:
121:
for
148鄄160.
incremental
ahierarchical
learning
[33]
forgetting
SCHAKM,oncatastrophic
Conference
indeepLSTMnetworks[C]椅International
Springer,2019:
on
714鄄728.
:
[34]THANH鄄TUNG
modecollapsein
H,
Neural
GANs
TRAN
Networks
[C]
T.
椅
Catastrophic
2020
(IJCNN).
International
forgetting
Piscataway:
Joint
and
[35]
IEEE,
Conference
CHANG
2020:
on
1鄄10.
generative
Y,LIW,PENGJ,protection
to
regularization
overcome
adversarial
the
methods
forgetting
network
[J].
of
(MPGAN):
IEEE
GANs
Access,
using
aframework
2020,
parameter
179942鄄179954.
8:
[36]
methods
DUCHIJ,
for
HAZAN
online
E,
learning
SINGER
and
Y.
stochastic
Adaptive
optimization
subgradient
[J].JournalofMachineLearningResearch,2011,12
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
摇第5期
(7):2121鄄2159.
韩纪东,等:神经网络模型中灾难性遗忘研究的综述
563
[37]ta:anadaptivelearningrate
[38]TIELEMANT,e6郾5鄄rmsprop:divide
thegradientbyarunningaverageofitsrecentmagnitude
[Z/OL].[2012鄄02鄄11].https:椅o.
edu/~tijmen/csc321/slides/lecture_slides_.
optimization[C]椅Proceedingsof
method[J].arXiv,2012:abs/1212.5701.
[51]LESORTT,LOMONACOV,STOIANA,etal.
learningstrategies,opportunitiesandchallenges[J].
InformationFusion,2020,58:52鄄68.
NeuralNetworks,2019,113:54鄄71.
comprehensivestudyofclass
lifelonglearningwithneuralnetworks:areview[J].
incremental
Continuallearningforrobotics:definition,framework,
[52]PARISIGI,KEMKERR,PARTJL,ual
[53]BELOUADAHE,POPESCUA,KANELLOSI.A[39]KINGMAD,:amethodforstochastic
Internationallearning
Conference
AmsterdamMachine
onLearning
Learning
Representations.
Lab,2015.
Amsterdam:
REBUFFI
Icarl:
SA,KOLESNIKOVA,SPERLG,etal.
Vision
[C]椅Proceedings
incrementalclassifier
andPattern
of
Recognition.
theIEEE
and
conference
representation
onComputer
learning
2017:2001鄄2010.
Piscataway:IEEE,
SARWAR
deep
sharing[J].
convolutional
SS,ANKITA,entallearningin
LIZ,HOIEM
IEEE
D.
Access,
neural
Learning
2019,
networks
without
8:4615鄄4628.
usingpartialnetwork
Transactions
Intelligence,2017,
on
40(12):
Pattern
2935鄄2947.
Analysis
forgetting[
and
J].
Machine
IEEE
ZENG
context鄄dependent
G,CHENY,CUI
Nature
VON
MachineIntelligence,
processing
B,et
2019,
in
al.
neural
Continual
1(8):
networks
learning
364鄄372.
[J].
of
Conference
Continual
OSWALD
learning
J,HENNING
withhypernetworks
C,SACRAMENTO
[C]椅International
J,etal.
Elsevier,2019.
dam:
LI
structure
X,ZHOUY,WUT,ogrow:acontinual
Learning.
forgetting
learning
[C]椅
framework
International
for
Conference
overcoming
on
catastrophic
NewYork,NY:ACM,2019:3925鄄3934.
Machine
GOODFELLOW
empirical
IJ,MIRZAM,XIAOD,
gradient鄄based
investigation
1312.
neuralnetworks
ofcatastrophic
[J].arXiv,
forgetting
2013:abs
in
/
neural
RUDER
6211.
networks[J].
view
arXiv,
of
2017:
multi鄄task
abs/1706.
learning
05098.
indeep
ZHUANG
IEEE.
survey
Piscataway:
on
F,
transfer
QIZ,
IEEE,
learning
DUAN
2020:
[
K,
C]
et
1鄄34.
椅
al.
Proceedings
Acomprehensive
ofthe
(4):
networks
FRENCH
128鄄135.
[J].
RM.
Trends
Catastrophic
inCognitive
forgetting
Sciences,
inconnectionist
1999,3
DE
Continual
LANGEM,ALJUNDIR,MASANAM,etal.
1909.
forgetting
08383.
in
learning:
classification
acomparative
tasks[J].
study
arXiv,
onhow
2019:
to
abs
defy
/
01844.
algorithmsforvisualtasks[J].arXiv,2020:abs/2011.
[54]MASANA
incremental
M,LIUX,TWARDOWSKI
[55]
[J].arXiv,
learning:
2020:abs
survey
/2010.
and
B,鄄
15277.
performanceevaluation
transferable
YOSINSKI
are
J,
features
CLUNE
in
J,
deep
BENGIO
neuralnetworks?
Y,etal.
[C]椅
How
Advances
[56]
Foundation,
Jolla,CA:
inNeural
GUOL,XIE
2014:
Neural
Information
G,
3320鄄3328.
Information
Processing
Processing
Systems.
Systems
La
representation
XUX,ar鄄supported
[57]
IEEE
YOU
Access,
for
exemplar鄄based
C,LI
2020,
effective
C,ROBINSON
8:51276鄄51284.
class鄄incrementallearning[J].
DP,le
Computer
data[C]椅
Vision.
Proceedings
subspace
Berlin:
of
clustering
Springer,
theEuropean
onclass鄄imbalanced
BELOUADAH
2018:
Conference
67鄄83.
on
[58]
learning
E,2m:classincremental
IEEE,
International
with
Conference
dualmemory[C]椅Proceedings
onComputerVision.
of
Piscataway:
theIEEE
[59]
2019:583鄄592.
lifelong
ISELED,
learning[J].
COSGUN
arXiv,
ive
2018:
experience
abs/1802.
replay
10269.
for
[60]HAYES
yourneural
TL,
network
KAFLE
toprevent
K,SHRESTHA
catastrophic
R,
forgetting[C]椅
European
Springer,2020:
Conference
466鄄483.
:
[61]ATKINSON
Pseudo鄄rehearsal:
C,MCCANEB,SZYMANSKIL,etal.
1812.
without
02464.
catastrophic
achieving
forgetting
deep
[J].
reinforcement
arXiv,2018:
learning
abs/
[62]
Pseudo鄄recursal:
ATKINSONC,MCCANE
solving
B,
the
SZYMANSKI
catastrophic
L,
forgetting
etal.
[63]
1802.
problem
SHINH,
03875.
indeepneuralnetworks[J].arXiv,2018:
deepgenerative
LEEJ
replay[C]椅Advances
K,KIMJ,ual
inNeural
learningwith
Processing
[64]
Processing
MALLYA
Systems
Systems.
A,LAZEBNIK
Foundation,
LaJolla,
S.
2017:
CA:
Packnet:
2990鄄2999.
Neural
Information
Information
addingmultiple
[40]
[41]
[42]
[43]
[44]
[45]
[46]
[47]
[48]
[49]
[50]
564
北摇京摇工摇业摇大摇学摇学摇报
taskstoasinglenetworkbyiterativepruning[C]椅
7765鄄7773.
andPatternRecognition.
9163鄄9171.
2021年
ProceedingsoftheIEEEConferenceonComputerVision
Piscataway:IEEE,2018:
[75]SHMELKOVK,SCHMIDC,ental
away:IEEE,2017:3400鄄3409.
learningofobjectdetectorswithoutcatastrophicforgetting
[65]SINGHP,VERMAVK,MAZUMDERP,ating
CNNsforlifelonglearning[C]椅AdvancesinNeural
a,CA:Neural
[66]KIRKPATRICKJ,PASCANUR,RABINOWITZN,et
InformationProcessingSystemsFoundation,2020:33.
mingcatastrophicforgettinginneuralnetworks
[C]椅ProceedingsoftheIEEEInternationalConferenceon
[76]CHENL,YUC,owledgedistillation
forincrementalobjectdetection[C]椅2019International
2019:1鄄7.
away:IEEE,
learningviaprogressivedistillationandretrospection[C]椅
[J].ProceedingsoftheNationalAcademyofSciences,
[77]HOUS,PANX,CHANGELOYC,ng
2017,
ELKHATIB
114(13):
A,
3521鄄3526.
forgettingincontinual
KARRAY
learning
F.
models
Preempting
by
catastrophic
regularization[C]椅2019InternationalJointConference
anticipatory
away:
O,
IEEE,
DEAN
2019:
J.
1鄄7.
on
HINTONG,VINYALSDistillingthe
1503.
knowledge
02531.
inaneuralnetwork[J].arXiv,2015:abs/
squeezed
LIP,SHUC,XIEY,chicalknowledge
Cambridge,
adversarialnetworkcompression[C]椅AAAI.
distillation
SUNS,CHENG
MA:AAAI
Y,
Press,2020:11370鄄11377.
Proceedings
for
inNaturalLanguage
ofthe
BERT
GAN
2019
model
Z,et
compression
tknowledge
[C]椅
Joint
Processing
Conference
and
on
the
Empirical
9thInternational
Methods
Stroudsburg,
Conference
PA:
onNaturalLanguage
Computational
Processing.
Linguistics,
WEI
towards
Y,PAN
2019:
X,
4314鄄4323.
Associationfor
QINH,et
Proceedings
very
of
tiny
the
CNNforobject
zation
detection[
mimic:
C]椅
Vision(ECCV).Berlin:
European
Springer,
Conference
2018:267鄄283.
onComputer
YIM
distillation:
J,JOOD,BAEJ,romknowledge
Conference
transferlearning
fastoptimization,
[C]椅Proceedings
networkminimization
oftheIEEE
and
Piscataway:
on
XU
IEEE,
Computer
2017:
Vision
4133鄄4141.
andPatternRecognition.
object
J,NIEY,WANGP,ngabinaryweight
and
driving[
detector
AHN
Automation.
C]椅2019
by
Piscataway:
International
knowledgetransfer
IEEE,
Conference
for
2019:2379鄄2384.
on
autonomous
Robotics
information
S,HU
Proceedings
distillation
SX,DAMIANOU
theIEEE
for
Conference
knowledge
A,et
transfer
ional
[C]椅
andPattern
of
away:
onComputer
IEEE,
Vision
2019:
Proceedings
:
ofthe
Springer,
European
2018:
Conference
437鄄452.
onComputer
[78]CASTRO
End鄄to鄄end
F
incremental
M,MAR魱N鄄JIM魪NEZ
learning[C]
M
椅Proceedings
J,GUILN,etal.
European
Springer,2018:
Conference
233鄄248.
:
ofthe
[79]LEE
forgetting
K,LEE
Proceedings
with
K,
of
unlabeled
SHINJ,et
theIEEE
data
ming
International
inthewild
catastrophic
[C]椅
away:IEEE,2019:
Conference
312鄄321.
on
[80]MU譙OZ鄄MART魱N
Unsupervised
I,BIANCHIS,PEDRETTI
in
Solid鄄State
neuralnetworks
learning
Computational
[J
to
].
overcome
Devices
IEEEJournal
catastrophic
G,
forgetting
etal.
andCircuits,
onExploratory
[81]
(1):
TITSIAS
58鄄66.
2019,5
onal
MK,
regularisation
SCHWARZJ,
for
MATTHEWS
continuallearning
AGG,
with
et
[82]
Gaussianprocesses[J].arXiv,2019:abs/1901.11356.
learning
CAOZ.
1903.03511.
system
Realizing
asa
continual
fiberbundle[J].
learningthrough
arXiv,2019:
modeling
abs
a
/
[83]
Measuring
KEMKERR,MCCLUREM,ABITINOA,etal.
[84]
arXiv,
VANDE
2017:
catastrophic
VEN
abs
G
/1708.
forgetting
M,TOLIAS
02072.
inneuralnetworks[J].
continuallearning[J].
cenariosfor
[85]PF譈LB
application鄄oriented
B,GEPPERTH
arXiv,2019:
studyof
A.
catastrophic
A
abs/
comprehensive,
1904.07734.
dnns[J].arXiv,2019:abs/1905.08101.
forgettingin
[86]
and
LOMONACO
benchmark
V,
for
MALTONI
continuous
D.
object
CORe50:
recognition
anew
[
dataset
Proceedingsofthe1stAnnual
C]椅
Microtome
Conference
Publishing,
on
2017:
Robot
17鄄26.
ine,MA:
(责任编辑摇杨开英)
[67]
[68]
[69]
[70]
[71]
[72]
[73]
[74]
版权声明:本文标题:神经网络模型中灾难性遗忘研究的综述 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1713398923a632618.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论