admin 管理员组

文章数量: 1086019


2024年4月18日发(作者:linux空间满了进不去系统)

2021年5月

第47卷第5期

JOURNALOFBEIJINGUNIVERSITYOFTECHNOLOGY

北京工业大学学报

Vol.47No.5

May2021

神经网络模型中灾难性遗忘研究的综述

(1.北京工业大学信息学部,北京摇100124;2.桂林电子科技大学人工智能学院,广西桂林摇541004)

摘摇要:近年来,神经网络模型在图像分割、目标识别、自然语言处理等诸多领域都取得了巨大的成功.但是,神经

网络模型仍有很多关键性的问题尚未得到解决,其中就包括灾难性遗忘问题.人类在学习新知识后不会对旧知识

发生灾难性遗忘,神经网络模型则与之相反.神经网络模型在适应新任务之后,几乎完全忘记之前学习过的任务.

为了解决这一问题,很多相应的减缓神经网络模型灾难性遗忘的方法被提出.对这些方法进行了归纳总结,以促进

对该问题的进一步研究.主要贡献包括3个方面:对现有的减缓神经网络模型灾难性遗忘的方法进行了详细的介

绍,并将不同方法分为4类,即基于样本的方法、基于模型参数的方法、基于知识蒸馏的方法和其他方法.介绍了不

同的评估方案,以评估不同方法对减缓神经网络模型灾难性遗忘的效果.对神经网络模型中的灾难性遗忘问题进

行了开放性的讨论,并给出了一些研究建议.

关键词:神经网络模型;灾难性遗忘;样例;模型参数;知识蒸馏;增量学习

中图分类号:TP389郾1

doi:10.11936/bjutxb2020120014

文献标志码:A文章编号:0254-0037(2021)05-0551-14

韩纪东

1

,李玉鑑

1,2

SurveyofCatastrophicForgettingResearchinNeuralNetworkModels

(yofInformationTechnology,BeijingUniversityofTechnology,Beijing100124,China;

HANJidong

1

,LIYujian

1,2

ofArtificialIntelligence,GuilinUniversityofElectronicTechnology,Guilin541004,Guangxi,China)

Abstract:Inrecentyears,neuralnetworkmodelshaveachievedgreatsuccessinsomefields,suchas

imagesegmentation,objectdetection,naturallanguageprocessing(NLP),r,many

keyproblemsofneuralnetworkmodelshavenotbeensolved,forexample,catastrophicforgetting.

Humanbeingshavetheabilityofcontinuouslearningwithoutcatastrophicforgetting,butneuralnetwork

stingmethodsofmitigating

networkmodelsalmostcompletelyforgetthepreviouslylearnedtaskswhenit

ethisproblem,per

catastrophicforgettingofneuralnetworkmodelswereintroducedindetail,andallmethodsweredivided

intofourcategories,namelyexemplar鄄basedmethods,parameter鄄basedmethods,distillation鄄based

differentdiscussionon

thecatastrophicforgettingprobleminneuralnetworkmodelswascarriedout,andsomeresearch

suggestionsweregiven.

收稿日期:2020鄄12鄄21

基金项目:国家自然科学基金资助项目(61876010)

作者简介:韩纪东(1992—),男,博士研究生,主要从事深度学习和计算机视觉方面的研究,E鄄mail:hanjd@.

通信作者:李玉鑑(1968—),男,教授,博士生导师,主要从事模式识别与图像处理、机器学习与数据挖掘、人工智能与自然

语言处理方面的研究,E鄄mail:liyujian@

entevaluationschemeswereintroducedtoevaluatetheeffectof

552

北摇京摇工摇业摇大摇学摇学摇报2021年

Keywords:neuralnetworkmodels;catastrophicforgetting;exemplar;modelparameters;knowledge

distillation;incrementallearning

摇摇近年来,神经网络模型在很多方面已经远远超

对抗网络(generativeadversarialnetwork,GAN)

[34鄄35]

等.这是由于同20世纪相比,神经网络模型的思想

变化并不大,变化最大的是训练神经网络模型所使用

的硬件设备及所使用的数据量.目前,神经网络模型

依然使用反向传播算法进行反复迭代优化,直到损失

函数的值收敛,具体的优化策略可能更丰富了,如自

[37][38]

适应梯度法(adaptivegradient,AdaGrad)

[36]

过人类大脑,如在围棋领域AlphaGo战胜人类顶尖

高手

[1鄄2]

,在大规模视觉比赛ImageNet中表现出更

游戏玩家

[5鄄6]

.注意,本文中的神经网络泛指所有的

神经网络.这不仅使得神经网络模型受到广泛的关

注,还极大地促进了神经网络模型的进一步发展,使

强的图像识别能力

[3鄄4]

,在电子游戏中战胜专业顶级

得神经网络模型在更多领域取得了更加不凡的成

就,如图像分割

[7鄄10]

[14鄄17]

、姿态估计

[18鄄21]

、目

.神经网络模型的快速发

检测

[11鄄13]

、自然语言处

展,并没有使其克服所有缺陷.神经网络模型依然

有很多不足,如灾难性遗忘、广受争议的黑箱子操作

等,但是瑕不掩瑜,神经网络在很多方面的惊艳表现

使它依然备受学者们的青睐.

一个显而易见的事实是,人类在学习新知识后

不会对旧知识发生灾难性遗忘,而这既是神经网络

模型的一个重大缺陷,也是它的一个遗憾.该问题

在很久之前就已经引起了学者们的注意.20世纪

八九十年代,连接网络时期,Carpenter等

[22]

已经提

到了神经网络模型中的灾难性遗忘问题,并且用了

一个形象的比喻来说明,一个出生在波士顿的人搬

到洛杉矶,他再回到波士顿时,仍然不会忘记他在波

士顿的一切;也即他在洛杉矶学会新知识后,仍然会

记得之前在波士顿的旧知识,而不会发生灾难性遗

忘;McCloskey等

[23]

描述了神经网络在序列学习中

遇到的灾难性遗忘问题,在文中称该问题为灾难性

干扰(catastrophicinterference).注意:当时,神经网

络常被称为连接网络.当时,有很多学者提出了相

关的方案试图解决该问题,如有学者认为灾难性遗

忘是由于存储在神经网络内部表征重叠造成的,因

此使用稀疏向量、输入正交编码等方法来避免神经

网络模型中的灾难性遗忘

[24鄄25]

来解决神经网络模型中的灾难性遗忘

;有学者使用双网络

[26鄄27]

者使用伪训练数据预演的方法来减少神经网络模型

;也有学

中的灾难性遗忘

[28]

现在

.

亿

[16]

、几百亿

,神经网络模型的参数量已经达到十几

[29]

,甚至一千多亿

[17,30]

模型中的灾难性遗忘问题依然广泛存在

;但是神经网络

,如卷积神经

网络(convolutionalneuralnetworks,CNN)

[31鄄32]

期记忆网络(longshort鄄termmemory,LSTM)

[33]

长短

生成

AdaDelta

momentestimation,Adam)

、RMSprop、

[39]

.

为了克服神经网络

矩估计(adaptive

模型中的灾难性遗忘问题,最近,很多学者提出了他

们的解决方案.如Rebuffi等

[40]

提出iCaRL方法,该

方法选择性地存储之前任务的样本;Sarwar等

[41]

出基于部分网络共享的方法,该方法使用“克隆-分

支冶技术;Li等

[42]

提出LwF方法,该方法主要以知识

蒸馏的方式保留之前任务的知识;Zeng等

[43]

提出使

Oswald

正交

权重修改结合情景模块依赖的方法;von

[44]

提出任务条件超网络,该网络表现出了

保留之前任务记忆的能力;Li等

[45]

结合神经结构优

化和参数微调提出一种高效简单的架构.也有学者

研究了神经网络中的训练方法、激活函数及序列学习

任务之间的关系怎样影响神经网络中的灾难性遗忘

的问题,如Goodfellow等

[46]

就发现dropout方法在适

应新任务和记住旧任务中表现最好,激活函数的选择

受两任务之间关系的影响比较大.

目前对神经网络模型中灾难性遗忘的研究主要

是增量学习(incrementallearning),在很多情况下,

也被称为持续学习

(lifelong

(continous

为增量学习

learning)

,但是有时为与原论文保持一致也可能

等.这里如没有特别说明统一称

learning)或终身学习

使用持续学习或终身学习.还有一些其他神经网络

模型方法对灾难性遗忘问题的研究非常有意义且与

增量学习有一定的交叉

learning)、

是同时学习多个任务

迁移学习(transfer

,如多任务学习(multi鄄task

,利用不同任务的互补

learning).多任务学习

,相互促

进对方的学习

[47]

识迁移到新任务上

;迁移学习主要是将之前学习的知

[48]

习到新知识后是否发生灾难性遗忘

,但是这种学习方式不关心学

,也即该方法主

要的关注点是怎样将之前任务上的知识迁移到新任

务上.多任务学习、迁移学习和增量学习如图1所

示.图1(a)表示多任务学习的一个实例,model

a

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

553

model

b

分别针对task

A

、task

B

,涵盖2个模型的蓝色

背景代表model

a

和model

b

在同时训练2个任务时

的某种联系,如共享神经网络的前几层等;图1(b)

表示迁移学习,model

1

表示已经使用任务task

A

数据训练好的模型,model

2

表示针对任务task

B

的模

型且尚未被训练,迁移学习就是将model

1

的知识迁

model

I

学习任务task

A

,在t+1时刻model

I

学习任

务task

B

,增量学习要求model

I

在学习过task

B

后不

能忘记task

A

.

移到model

2

;图1(c)表示增量学习,在t时刻,

摇摇显然,神经网络模型中的灾难性遗忘问题已经

成为阻碍人工智能发展的绊脚石,该问题的解决无

疑将是人工智能发展史上的一个重要里程碑.为促

进该问题的早日解决,本文对神经网络模型中灾难

性遗忘问题的相关研究做了一个综述.该综述的主

要目的是为了总结之前在这方面的研究和对该问题

提出一些研究建议.

Fig.1摇Multi鄄tasklearning,transferlearningandincrementallearning

图1摇多任务学习、迁移学习和增量学习

则化的方法和基于参数隔离的方法;其次,为了公正

地对比不同持续学习方法的效果,还提出了一种对

比性研究持续学习性能的框架.Lesort等

[51]

综合性

地研究了机器人中的增量学习.Parisi等

[52]

对基于

神经网络的持续性终身学习做了一个综述,首先对

生物的终身学习做了详细的介绍,如人类怎样解决

弹性-稳定性困境、赫布弹性稳定性、大脑互补的学

习系统,这是该综述与其他类似综述最大的不同;然

后,分析了神经网络模型中的终身学习方法,并将其

分为:正则化方法、动态架构方法和互补学习系统及

记忆回放.Belouadah等

[53]

对视觉任务的类增量学

习做了一个综合性研究,提出了增量学习的6个通

用属性,即复杂度、内存、准确率、及时性、弹性和

伸缩性,并将增量学习的方法分为基于微调的方

法和基于固定表征的增量学习方法.Masana等

[54]

提出了类增量学习所面临的挑战,即权重偏移、激

活值偏移、任务间混淆和新旧任务失衡,并将类增

量学习分为3类,基于正则化的方法、基于预演的

方法和基于偏置-校正的方法.文献[50鄄54]虽然

都对神经网络中的克服灾难性遗忘的方法做了综

述性研究,但是它们均有一定的局限性,如文献

且用来对比不同持续学习方法性能的框架也是针

对图像分类任务的,文献[51]仅研究了针对机器

人的增量学习.另外,文献[50鄄54]都没有涉及生

成对抗模型或强化学习克服灾难性遗忘方法的

介绍.

[50]仅介绍了持续学习中关于图像分类的方法,

1摇相关工作

之前的连接网络模型中,French

[49]

对连接网络

的灾难性遗忘的问题做了一个综述.该文献不仅详

细地分析了造成连接神经网络灾难性遗忘的原因,

而且介绍了多种解决连接神经网络灾难性遗忘问题

的方案.该作者最后指出解决神经网络的灾难性遗

忘问题需要2个单独的相互作用的单元,一个用于

处理新信息,另一个用于存储先前学习的信息.但

是该文献作者分析的是早期的神经网络模型,随着

神经网络技术的快速发展,现在的神经网络模型与

连接神经网络模型在神经网络的结构、深度以及优

化策略,甚至是训练神经网络模型的数据量等方面

都有很大不同.

最近,为了总结对神经网络模型中灾难性遗忘

的研究,也有部分学者做了一些综述性研究.de

Lange等

[50]

对持续学习中的图像分类任务做了一个

对比性研究,首先对持续学习的方法进行了综合的

介绍,如介绍很多持续学习的方法,将各种持续学习

的方法进行了总结并归为基于回放的方法、基于正

554

北摇京摇工摇业摇大摇学摇学摇报2021年

2摇减缓灾难性遗忘问题的方法

针对神经网络模型中的灾难性遗忘问题,相关

学者提出了很多解决方法.尽管相关文献大都声称

提出的方法可以克服灾难性遗忘的问题,但实际上

仅是不同程度地减缓神经网络模型中的灾难性遗忘

问题,为了表述的严谨,本章的标题为减缓灾难性遗

忘问题的方法.由第1节的内容可以看出,不同的

综述文献依据不同的规则,对减缓灾难性遗忘问题

方法的分类并不相同,本节将减缓灾难性遗忘问题

的方法分为4类,即基于样本的方法、基于模型参数

的方法、基于知识蒸馏的方法和其他方法.

为方便下文的叙述,这里对下文中的符号进行

统一,符号及其含义具体如表1所示.

表1摇符号及其含义

Table1摇Symbolsanddefinition

符号

Task

pre

Tdata

pre

Task

new

含义

2

n

已经被神经网络模型学习过的任务的集合,等价于{T

1

pre

,T

pre

,…,T

pre

}

d

2

d

n

1

Task

pre

相对应的各任务样本的集合,等价于{T

d

pre

,T

pre

,…,T

pre

}

Tdata

select

Tdata

new

Class

pre

Cdata

pre

Class

new

s

d

2

d

n

1

由Tdata

pre

中抽取的部分样本的集合,等价于{T

d

select

,T

select

,…,T

select

}

2

p

将要被神经网络模型学习的新任务的集合,等价于{T

1

new

,T

new

,…,T

new

}

d

2

d

p

1

Task

new

相对应的各新任务样本的集合,等价于{T

d

new

,T

new

,…,T

new

}

2

n

已经被神经网络模型学习过的类的集合,等价于{C

1

pre

,C

pre

,…,C

pre

}

d

2

d

n

1

Class

pre

相对应的各类的样本的集合,等价于{C

d

pre

,C

pre

,…,C

pre

}

d

2

d

n

1

由Cdata

pre

中抽取的部分样本,等价于{C

d

select

,C

select

,…,C

select

}

Cdata

select

Cdata

new

T

i

Model

pre

Model

target

2

p

将要被神经网络模型学习的新类的集合,等价于{C

1

new

,C

new

,…,C

new

}

d

2

d

p

1

Class

new

相对应的各新类的样本的集合,等价于{C

d

new

,C

new

,…,C

new

}

神经网络模型的共享参数

神经网络模型针对任务T

i

的特定参数

神经网络模型的全部参数

添加新任务或新类之前的神经网络模型

添加新任务或新类之后的神经网络模型

摇摇考虑到很多被提出的减缓灾难性遗忘的方法将

共享参数专

s

模块与特定任务参数专

T

i

模块分开,这

里有必要进行提前说明.以卷积神经网络的图像分

类任务为例,如图2所示,淡红色方框的参数共享模

块是指卷积神经网络中的前几层,这几层被认为提

取图像的通用特征;浅绿色方框的特定任务模块是

网络的分支,每个网络分支分别对应一个固定的任

务T

i

pre

,且仅用于任务T

i

pre

的图像分类;浅蓝色方框

的特定任务模块是为新任务添加的新网络分支,该

模块用于新任务的图像分类.这样划分是由于文献

[55]已经指出卷积神经网络的前面几层学习的是

不同任务所共享的通用知识,而之后的几层学习每

个任务所专有的知识.

注意,由于增加新任务与增加新类非常相似,

在下文中不做特别区分,均使用增加新任务表示;

Fig.2摇Parametersharingmoduleandtask鄄specific

module

图2摇参数共享模块和特定任务模块

有些时候为与原论文表述一致,也会使用增加新

类表示.

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

555

2郾1摇基于样本的方法

据的方法称为基于样本的方法.直接使用即为使用

额外的内存存储Tdata

pre

样本集中的部分数据

Tdata

select

,在学习新任务时,将Tdata

select

与Tdata

new

合,最后使用混合后的数据训练Model

target

.间接使

用主要指生成伪数据或保存Tdata

pre

的特征,然后使

用它们与Tdata

new

或Tdata

new

的特征混合训练

Model

target

.在文献[50,52]中也将该方法称为回放.

本文将直接或间接地用到Tdata

pre

样本集中数

计量.存储之前任务Task

pre

部分样本Tdata

select

的目

然后作为更新网络的训练数据;存储每类样本初次

学习时的统计量,是由于初次训练时,该类样本的数

据最全,相应地统计量也最准确;该统计量的作用是

为了矫正更新网络时由于数据失衡(新任务Task

new

偏差.

的数据多,而之前任务Task

pre

的数据少)所造成的

Isele等

[59]

提出了一种选择性存储所有任务样

的非常简单,是为了与新任务Task

new

的数据混合,

注意:有些方法中虽然用到了Tdata

pre

中的部分样本

本的方法,避免强化学习的灾难性遗忘.该方法包

数据,考虑到论文作者在克服灾难性遗忘中的主要

思想是使用其他方法,因此这部分方法并没有被认

2郾

为是基于样本的方法

1郾1摇

Guo

直接使用样本的方法

.

[56]

为解决增量学习中的灾难性遗忘问

supported

,提出了支持样本表征的增量学习(exemplar鄄

ESRIL)

触(memory

方法

representation

aware

.ESRIL

synapses,MAS)

包括

for

3个部分

incremental

模块

:1)

,该模块使用

记忆感知突

learning,

ImageNet

convolutional

数据集预训练的深度卷积神经网络(deep

之前任务Task

neuralnetwork,DCNN),

;2)

是为了维持用

pre

数据集训练的特征基于样例的

3

ESC)

空间

)多

模块

,

该模块是为了提取每个任务中的样本

(exemplar鄄basedsubspaceclustering,

最近类(thenearestclassmultiple

;

centroids,NCMC)

器,当增加的新类数据与

模块,该模块作为一个辅助分类

ImageNet数据很相似时,

使用该分类器替代MAS中全连接层,减少训练时

Guo

.ESRIL

过迭代的方式不断优化

等采用文献

的关键是每类数据中代表样本的选择

[57]中的方法进行样本的选择,通

,

f

(z

j

,Z

k

new

)=

h

min

j

沂R

N

(

椰h

j

1

+

2

z

j

-

z

j

Z

k

h

ij

z

i

2

new

2

)

式中:z

j

表示样本x

j

沂Cd

k

被DCNN提取的特征

(1)

;

Z

k

new

是X

k

为C

d

k

new

样本集的特征集合

new

;浊为一个超参数;N

保持的稀疏形式

new

样本的数量;h

j

[57]

.

=[h

1j

,h

2j

,…,h

Nj

]

T

,为子空间

学习方法

Belouadah

,称为

[58]

提出了一种基于双内存的增量

IL2M.与普通基于样本的方法不

同,该方法使用2个记忆模块:1)第1个记忆模块

存储之前任务Task

模块存储之前任务

pre

的部分样本Tdata

Task

select

;2)记忆

pre

每类样本初次学习时的统

括长时存储模块和短时存储模块.长时存储模块称

为情景记忆,存储的样本基于样本的等级(使用排

序函数对样本排序).短时记忆模块是一个先进先

出(first鄄in鄄first鄄out,FIFO)区,该部分不断刷新,以确

2郾

保网络能接触到所有的输入数据

1郾2摇间接使用样本的方法

.

Hayes

memory

,该模型称为使用记忆索引的回放

[60]

提出了一种别样的基于样本的模

储之前任务

indexing,

Task

征.REMIND模型将样本的特征经过量化后给予索

pre

REMIND).

的原始样本

REMIND

(replayusing

,而是存储样本的特

模型并不存

引号并存储,增加新任务Task

new

时,将随机抽取r个

存储的特征进行回放

Atkinson等

.

[61]

Pseudo鄄Rehearsal)

提出了RePR(reinforcement鄄

演的方式避免神经网络中的灾难性遗忘

模型.RePR模型使用伪数据

.RePR

-预

括短时记忆(short鄄termmemory,STM)和长时记忆模

块(long鄄termmemory,LTM).STM模块使用当前任

务Task

new

的数据Tdata

new

训练针对当前任务的深度

强化网络(deepQ鄄networks,DQNs);LTM模块包括

拥有之前所有任务Task

任务伪数据的GAN.结合迁移学习

pre

的知识和能生成之前所有

,将DQNs的知

识迁移到Model

pre

中;在知识迁移的过程中,真实的

数据使得Model

target

学习到新知识,GAN生成的伪数

据维持

成相应的伪数据

Atkinson

Model

pre

中之前任务的知识.

[62]

和Shin等

[63]

均使用中GAN生

.Atkinson等

[62]

使用GAN生成伪

图像代替随机生成的伪图像,因为随机生成的伪图

像明显不同于自然的图像,这将导致网络能学习到

很少的之前任务的知识.当训练第T

1

任务时,GAN

被训练T

1

的数据集D

T

1

D

,增加了T

2

任务后,GAN被

训练使用T

2

的数据集

T

2

;增加了T

3

任务后,该方

法显然就出现了问题

,意味着GAN生成的伪数据也是

,前一步中,GAN仅使用数据

集D

T

2

T

2

的伪数

556

北摇京摇工摇业摇大摇学摇学摇报2021年

据.为了不增加内存的消耗,作者将GAN也使用伪

标签进行训练,这样GAN生成的数据就代表之前所

有任务的数据.Shin等

[63]

提出的模型具有双架构

掖G,S业,G是深度生成器模型用来生成伪样本,S是

2郾2摇基于模型参数的方法

基于模型参数的方法根据是否直接使用模型参

数进行分类:1)选择性参数共享,该方法直接使用

模型的参数;2)参数正则化,该方法约束模型的重

要参数进行小幅度变动,以保证对之前已学习知识

解算器用来处理每个任务.

2郾

的记忆

2郾1摇

.

该方法在预训练神经网络模型

选择性共享参数

Model

新任务Task

pre

后,增加

.虽然神经网络模型的参数没有发生改变

new

时选择性地使用神经网络模型的参

数,由于

针对不同任务所选择性激活神经网络中参数的不

同,导致不同任务使用的神经网络的模型参数不同,

进而使同一个神经网络模型的参数适应不同的任

务.可以看出,这种方式换一个角度解决神经网络

中的灾难性遗忘问题.这种方式的优点:1)不需要

使用之前任务Task

pre

的数据Tdata

网络模型进行较大的改进.这种方式也有一个显著

pre

;2)没有对神经

的缺点,虽然不需要使用先前任务的数据进行训练,

但是需要针对不同任务存储一个激活参数,即使在

相关文献中,作者一再强调存储的激活参数很小,但

当任务量非常多时,即使逐渐小幅度定量的增加也

是非常可怕的

Mallya等

.

[64]

提出了一种共享参数的方法,该方

法不改变预训练骨干网络的参数专,而仅对每个任

务训练掩模m,具体如图3所示.以第k个任务为

例进行说明:首先训练得到掩模mask忆

k

;然后通过将

3

掩模

中mask

mask忆

k

二值化处理得到二值化掩模mask

k

,如图

k

所示(红色实方框为表示1,深灰色实方

框表示0);最后将二值化掩模mask

k

与预训练骨干

网络的参数专

的参数集专

,如图

backbone

3

逐元素运算得到适用于任务

中专

k

k

backbone

和专

k

所示(专

中绿色实方框表示具体的参数,专中绿色实方框表

backbone

k

示激活的参数,深灰色实方框表示未被激活的

参数)

习(calibrating

Singh

.

[65]

提出了校准卷积神经网络的终身学

CNNsforlifelonglearning,CCLL),该

模型是一个与众不同的网络.该网络重复使用训练

的参数,不同之处在于该网络在每层卷积神经网络

的输出位置添加一个校准模块,通过校准模块使该

图3摇共享参数的方法

[64]

Fig.3摇Methodofsharingparameters

[64]

网络避免灾难性遗忘问题,同时适应新的任务.该

网络在神经网络的每层后面加一个任务适应校准模

块CM

t

i

络),该模块包括由针对网络中的单个参数的空间

(t表示第t个任务,i表示第i层卷积神经网

校准模块和针对网络参数通道的通道校准模块.空

间校准模块计算式为

M

t

i

*

=GCONV

(M

t

i

式中:M

t

表示第t个任务中第i

)茌

层神经网络空间校

M

t

i

(2)

i

*

准模块的输出;GCONV

表示组卷积,每个组卷积有

琢个通道;M

t

i

表示表示第t个任务中第i层神经网

络的输出;茌表示逐元素相乘.空间校准模块的输

出M

t

i

*

作为通道校准模块的输入,通道校准模块计

算式为

M

t

i

**

=滓(BN(GCONV

(GAP(M

t

i

*

))))茚M

t

i

*

式中:M

t

(3)

i

**

表示第t个任务中第i层神经网络通道

校准模块的输出;BN表示批归一化;GCONV

表示

组卷积,每个组卷积有茁个通道;GAP表示全局均

2郾

值池化

2郾2摇

;茚

使用该方法时

参数正则化

表示逐通道相乘.

,Model

对神经网络进行重新训练;

pre

在添加新任务后,需要

但是,由于添加了参数正

则项,神经网络在训练的过程中会保证对重要参数

进行小幅度的改变,以保证对之前任务Task

.

pre

效果

Kirkpatrick等

[66]

参考生物对特定任务的突触

巩固原理,提出了类似于该原理的人工智能算法,即

可塑权重巩固(elasticweightconsolidation,EWC).

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

557

小鼠在学习新任务后,一定比例的突触会增强,并且

能保持一段时间;相应地,神经网络模型的参数并非

全是等价的,有些参数可能是有用的,有些参数可能

作用非常低甚至是没有作用.因此,作者提出缓慢

改变神经网络模型中的重要参数,以使得模型不忘

记之前学习的知识.EWC使用损失函数来实现该

目的,即

L(兹)=L

B

(兹)+

式中:N为样本x的数量;i、j、k三个索引分别为样

本x的3个维度,D是样本x三个维度数的乘积;x

ijk

^

ijk

为重建后图为图像在索引(i,j,k)处的灰度值;

x

2郾3摇基于知识蒸馏的方法

像在索引(i,j,k)处的灰度值.

Hinton等

[68]

于2015年提出了一种模型压缩的

式中:L

B

(兹)表示针对task

B

的分类损失函数;姿表示

i

姿

2

F

i

(兹

i

-兹

*

A,i

)

2

方法,即知识蒸馏.该方法使用软目标辅助硬目标

(4)

进行训练小模型model

small

,软目标即将样本x

i

输入

到预训练的大模型model

big

中得到的输出q

i

,硬目标

即为样本的真实标签y

.之所以这样做,是因为软

之前学习的task

A

的重要性;F表示费雪矩阵;i是参

数的索引;兹表示模型的参数;兹

*

的参数

A,i

表示之前任务A

Chang

.

[35]

为了使GAN避免灾难性遗忘,提出

了记忆保护生成对抗模型

MPGAN)

(memoryprotection

derivative

,

则化方法使用输出函数的一阶导数不能准确地评估

preserver,SDP).

并设计了一种参数正则化方法

考虑到已存在的参数正

(second

GAN,

参数的重要性,SDP使用输出函数的二阶导数.使

用F表示输出函数,兹表示模型的参数,则SDP表

示为

I

SDP

(兹)=

啄兹+

1

由于汉森矩阵计算较为复杂

(

F

)

T

2

啄兹

T

(

,在实际操作中使

2

F

2

)

啄兹(5)

用费雪信息E[(

(

F/

兹)

2

I

]近似汉森矩阵

.SDP使用

SDP

El等

(兹

[67]

)=

F

)

T

啄兹+

1

借用参数正则化的思想

2

啄兹

T

E

[(

,提出了一种方

F

)

2

]

啄兹(6)

式约束增加新任务后模型参数的改变.作者将卷积

神经网络的特征提取模块称为编码器,在编码器后

由有2个分支网络,一个分支网络为了图像分类,另

一个分支网络称为解码器,使用反卷积进行样本的

重建.为了训练该网络,作者在损失函数中添加了

一个非监督重建损失,该损失的作用等同于参数正

则化.优化网络中的损失函数

L=L

^

,y)+姿L

式中:L

rec

的真实标签

cls

(

y

^

,y)是图像分类的交叉熵损失

cls

(

y

(

x

^

,x)(7)

,y为图像

L

^

,

y

^

网络输出的预测标签;姿是超参数;

,x)是重建损失,x

^

表示为

rec

(

x为重建样本,x为样本.L

rec

L

rec

(

x

^

,x)=-

ND

1

·

N

^

n=1

ijk

[x

ijk

log

a

x

ijk

+(1-x

ijk

)(1-log

a

x

^

ijk

)]

(8)

i

目标中包含的信息量巨大;而硬目标包含的信息量

较低.如果model

big

中真实类的输出结果远远大于

其他类的结果,那就不能很好地使用软目标中的信

息了,因此需要平滑softmax的输出结果,即

q

i

=

exp

exp

(z

(

i

z

/T)

(9)

j

j

/T)

式中:z

i

为softmax前一层(该层的神经元个数已被

映射为训练任务的类别数)的输出;T为温度,T越

大model

big

输出的结果越软.知识蒸馏的方法被广

泛应用于模型压缩

[69鄄71]

被广泛应用于解决神经网络模型的灾难性遗忘问题

、迁移学习

[72鄄74]

等领域,也

[75鄄79]

data

的方式将

同时输入到

.图4为知

model

big

model

识蒸馏的示意图,将训练样本

的知识迁移到

big

和model

model

small

,通过知识蒸馏

small

.

图4摇知识蒸馏

Fig.4摇Knowledgedistillation

(learning

Li等

[42]

结合知识蒸馏设计了学而不忘模型

类Class

new

without

时,仅需要使用新类

forgetting,LwF),

Class

该模型在增加新

且能避免对之前学习知识的遗忘

new

的数据训练

模型,.LwF模型

使用前几层作为特征提取模块,为所有任务共享;之

后几层作为特定任务模块

LwF使用的损失函数

,为不同任务的单独所有.

L=姿

0

L

old

(Y

^

R

0

(

,

Y

^

0

s

,

)

^

+L(Y

o

,

^

new

n

,

Y

^

n

)+

n

)(10)

558

北摇京摇工摇业摇大摇学摇学摇报2021年

式中:姿

0

为一个超参数,值越大,相应地对蒸馏损失

^

)为软标签的损失,Y

为的权重就越大;L

(Y,

Y

^

增加新类增加新类Class

new

前模型的软标签,

Y

0

^

为训练过程中模型的输出;R(

^

,

^

,

^

)

实标签,

Y

nson

^^

为正则项,

为共享参数,

之前任务的特定任务

^

为新任务的特定任务参数.参数,

n

so

nn

old000

1

L

C

(棕)=-

N

1

L

D

(棕)=-

N

N

Class

new

后训练过程中模型输出的软标签;L

new

(Y

n

,

^

)增加新类别的标准损失,Y

为新类别数据的真

Y

式中:N和C分别表示样本的数目和样本的类别数;

p

ij

表示样本真实标签,q

ij

为模型的输出;pdist

ij

qdist

ij

类比于p

ij

和q

ij

.

Lee等

[79]

结合未标记的大规模野生动物数据设

pdist

ij

log

a

qdist

ij

移移

i=1j=1

移移

p

ij

log

a

q

ij

i=1j=1

C

NC

(13)

(14)

损失函数,将知识蒸馏的方法用到目标检测的灾难

Shmelkov等

[75]

和Chen等

[76]

分别提出了新的

计了一个蒸馏损失,称为全局蒸馏(global

distillation,GD)

[79]

.用M

t

表示增加第t个任务时所

性遗

Shmelkov

忘中,这里以文献[75]为例进行说

在增加新的任务时

明.

[75]

提出的损失函数使FastRCNN网络

,不用使用之前任务的数据,且表

现出对之前任务知识的不遗忘.将当前的网络称为

C

A

,C

A

增加新任务后需要增加新的分类分支和使用

新任务的数据进行重新训练,此时的网络称为C

由于目标检测任务中需要进行分类与回归训练,因

B

.

此作者结合分类与回归提出蒸馏损失函数

L

dist

[(

(y

A

y

,t

A

,y

B

,t

B

)=

N|

1

C

A

-y

B

)

2

+(t

A

-t

B

)

2

](11)

式中:N表示感兴趣区域

A

|

(regionofinterest,RoI)的

个数,|C

与y

A

C

B

分别是

|表示增加新任务前目标的种类个数

C

C

A

和C

B

的分类输出,t

y

A

与t

B

分别是

,y

A

A

,作者从每幅图像中的

B

的回归输出.

A

128

、y

B

个具有最小背景分数

t

A

、t

B

参数计算稍复

的RoI中随机抽取64个;对于C

类输出的均值不妨记为y忆

A

,

y忆

,y

A

,令每个

RoI

64

的输出减去

个RoI的分

A

既得y

AB

、t

结合知识蒸馏与样本回放的方式提

A

、t

B

的计算同理.

出了适应蒸馏的方法

Hou等

[77]

,该方法首先针对新任务t

new

练一个模型CNN

新任务的知识迁移到目标模型

expert

,然后通过知识蒸馏的方式将

CNN

同的是,该方法在知识蒸馏时用到少量的之前任务

target

,与LwF不

的样本

前任务的数据设计了一个端到端的增量学习模型

Castro

.

[78]

使用之前任务的小部分数据和当

,

由任务共享模块特征提取和特定任务模块组成.针

对该架构,作者提出了交叉-蒸馏损失公式

L(棕)=L

C

(棕)+

式中:L

C

(棕

F

f=1

L

D

f

(棕)(12)

L

)为新旧任务所有数据的交叉熵损失;

L

D

f

(棕)表示每个特定任务层的蒸馏损失.L

C

(棕)和

D

f

(棕)表示为

需要训练的最终模型,兹和准

务的共享参数和特定任务参数

1:t

分别表示M

t

中各任

,准

1:t

={准

1

,准

2

,…,

t

务的数据的混合

},D

trn

t

表示第t个任务的数据集和小部分之前任

;则训练M

t

的标准损失为L

cls

(兹,

1:

,

t

;

直接使用该数据集训练

D

trn

t

).考虑到D

trn

t

仅包括小部分之前任务的数

M

t

可能导致灾难性遗

忘,因此需要在损失函数中加入蒸馏损失.使用之

前的M

t-1

模型生成软标签,为了避免数据偏置,生

成软标签的数据集为D

trn

t

生动物数据集抽样得到,

则该部分损失为

D

ext

t

,D

ext

t

由未标记的野

L

dst

(兹,

1:t-1

;M

t-1

,D

trn

t

胰D

ext

t

).仅使用M

t-1

进行知识蒸馏

未考虑第t个任务的知识,添加了C

t个任务数据集训练的模型,该部分的损失为

t

,C

t

为仅使用第

L

1:t

;C

t

,D

trn

t

胰D

ext

t

).由于M

t-1

与C

t

分别独立地包

dst

(兹,

含t之前任务和第t个任务的知识,可能有知识遗

漏,因此结合M

t-1

与C

(兹,准

t

构建了模型Q

t

为L

,该部分损失

dst1:

Loss

t

;Q

t

,D

ext

t

).最终,全局蒸馏损失为

L

GD

=L

cls

(兹,准

1:t

;D

trn

t

)+

dst

(兹,准

,

1:(

t-1)

;P

t

,D

trn

t

ext

L

胰D

t

)

dst

(兹

t

;C

t

,D

trn

t

胰D

ext

+

t

)+

2郾4摇其他方法

L

dst

(兹,准

1:t

;Q

t

,D

ext

t

)(15)

除了上面所述的3类方法外,一些学者还提出

Mu觡oz鄄Mart侏n

其他方法为

避免神经网络中的灾难性遗忘.

[80]

将有监督的卷积神经网络与受

生物启发的无监督学习相结合,提出一种神经网络

概念;不同于参数正则化方法,Titsias等

[81]

提出一

种函数正则化的方法;Cao在将学习系统视为一个

纤维丛(表示一种特殊的映射),提出了一个学习模

[82]

.该学习模型的架构如图5所示,该图根据文

献[82]所画,与动态地选择模型的参数不同,该模

型动态地选择解释器.图5(a)表示了一个普通的

神经网络,即输入x通过神经网络得到输出y;图5

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

559

(b)表示作者所提出的学习模型的架构,该架构主

要有以下几步:1)输入x通过生成器Generator被编

码为潜在空间L中的x

L

,这里相似的样本会得到

x

L

;2)基于x

L

选择神经网络中被激活的神经元,得

到解释器Interpretor:f

x

;3)将样本x输入到解释器

f

x

得到输出y.为了使该学习模型能有对时间的感

知,作者又在模型中引入了一个生物钟,

T=T

min

+滓[鬃(x)](T

max

-T

min

)(16)

(17)

问题:如何确定哪种方法最优?如何确定某种解决

方案所适应的环境?如何评价不同方法的优劣?

针对如何评价不同方法这个问题,也有一些学

者进行了相应的研究.Kemker等

[83]

提出了衡量灾

3个评价指标,该评指标主要有3个新的评估参数

base

new

1

=

T-1

1

=

T-1

难性遗忘问题的实验基准和评估指标.这里只介绍

式中:x表示输入;Y

t

表示生物钟的输出;t表示当前

Y

t

=(Asin(2仔t/T),Acos(2仔t/T))

i=2

T

T

new,i

i=2

base,i

ideal

(18)

(19)

时刻;T表示周期;T

min

和T

表示

max

均为超参数,分别表示

T的最小值与最大值;滓sigmoid函数;鬃表示

可训练的神经网络模型.通过实验作者发现该学习

模型不仅具有良好的持续学习能力,而且还具有一

定的信息存储能力.

图5摇普通神经网络和纤维束学习系统

[82]

Fig.5摇Common

withafiber

neural

bundle

network

[82]

andlearningsystem

3摇减缓灾难性遗忘的评价准则

针对神经网络中的灾难性遗忘问题,大量学者

提出了自己的方法,无论是基于样本的方法,或是基

于模型参数的方法,又或是基于知识蒸馏的方法等

等;总之,解决方案有很多,那么这又产生了一系列

all

=

T

1

T

-1

i=

all,i

2

式中:T表示任务的数量;琢

ideal

(20)

1个任务的准确率

base,i

表示训练第i个任务

后,神经网络模型对第;琢

训练基础数据集(也即第1个任务)后,神经网络模

ideal

表示

型对基础数据集的准确率;琢

务后,神经网络模型对该任务的准确率

new,i

表示训练第i个任

;琢

型对当前所能得到所有数据的准确率.这里式

all,i

表示模

(18)

中的赘

base

表示神经网络模型在训练T个任务之后,

对学习到第1个任务知识的遗忘程度;式(19)中的

务的适应能力

new

表示神经网络模型在学习到新任务后,对新任

;式(20)中的赘

知识

all

计算模型保留先前

学习的知识和学习到新的能力.vandeVen

[84]

也指出,虽然有很多针对神经网络中灾难性遗

忘问题的解决方案,但是由于没有统一的评价基准,

导致直接对比不同解决方案的效果非常困难.为了

能结构化地比较不同的解决方案,vandeVen等提

出了3种困难度逐渐加大的连续学习的情景,每个

情景包含2种任务协议.3种任务情景分别为:1)

测试时,已知任务ID;2)测试时,任务ID未知,且不

需要判断任务ID;3)测试时,任务ID未知,且需要

判断出任务ID.第1种实验情景针对的是任务增量

学习(task鄄IL),即每个任务在输出层都有与之对应

的特定的输出单元,而其余网络是共享的;第2种实

验情景是针对域增量学习(domain鄄IL),即任务的结

构相同但输入分布却不相同;第3种实验情景针对

类增量学习(class鄄IL),即递增地学习新类.在文献

中,作者将第1种任务协议称为分割MNIST任务协

议,该协议将MNIST数据集中分为5个任务,每个

任务包含

MNIST

包含10

任务协议

2类;作者将第2种任务协议称为置换

类,将原始

,该协议包含

MNIST作为任务

10个任务

1,在

,每个任务

MNIST基

础上随机生成另外

Pf俟lb等

9组数据即任务2~9的数据集.

[85]

也提出了一个评价深度神经网络(deep

560

北摇京摇工摇业摇大摇学摇学摇报2021年

neuralnetworks,DNNs)灾难性遗忘问题的范例.该

评价范例主要是针对实际应用层面,主要包括:1)

tasks,STLs)时,模型应能保证能随时增加新类;2)

在DNNs上训练序列学习任务(sequentiallearning

模型应该对先前学习过的任务表现出一定的记忆

力,即使灾难性遗忘不可避免,至少应该缓慢的遗忘

之前所学习的知识,而不是立即遗忘;3)DNNs如果

应用到嵌入式设备或机器人中,应该满足内存占用

低、添加任务时重新训练的时间或内存复杂度不应

依赖于子任务的数量等.除了提出新的评价方法,

也有学者提出了用于测试神经网络模型中灾难性遗

忘问题性能的新数据集,如Lomonaco等

[86]

提出了

基准数据集CORe50,该数据集用于测试不同持续

学习方法对目标检测的效果.

展神经网络模型的方法意义不大.之所以说灾难性

遗忘问题没有被解决且一直是阻碍现在人工智能领

域突破的关键点,是因为想使用尽量有限的神经网

络模型完成尽可能多的任务.如图7所示,t

1

时刻

仅有task

1

出现,为任务task

1

设计且训练的神经网

络模型model

A

;t

2

时刻任务task

2

出现,想在尽量小

地改变神经网络模型model

A

的前提下让其学习到

任务task

2

的知识,且model

A

学习到任务task

2

的知

识后仍然对任务task

1

具有良好的效果;t

3

时刻任务

task

3

出现,依然想在尽量小地改变神经网络模型

model

A

的前提下让其学习任务task

3

的知识,且

model

A

学习到任务task

3

的知识后仍然对任务task

1

和任务task

2

具有良好的效果;当任务task

4

出现

时…….注意:图7中某一时刻多个任务同时指向

model

A

,并不意味着model

A

在该时刻同时训练这多

个任务的数据,仅表示model

A

能同时适应这多个不

同时间出现的任务;如任务task

1

和任务task

2

同时

指向model

A

,仅表示model

A

能同时适应t

1

时刻出

现的task

1

和t

2

时刻出现的task

2

,并不意味着

model

A

在t

2

时刻同时训练任务task

1

和任务task

2

的数据.由上可以看出,灾难性遗忘问题可以表述

为在尽量小地改变神经网络模型的前提下,使得

神经网络模型学习尽可能多的新知识且依然能记

得先前学习过的知识.灾难性遗忘实际可以类比

为人类或其他哺乳动物的记忆功能,人类在学习

新知识后并不会忘记之前学习的知识,而灾难性

遗忘则与之相反.

4摇讨论

由神经网络模型将信息存储在它的权重参数中

可以看出,其产生灾难性遗忘问题的根本原因:同一

个神经网络模型在学习新任务时,其权重参数在反

向传播算法的作用下不断更新以适应新任务;神经

网络模型权重参数的改变,进而导致其不适用于之

前学习的任务.如果允许使用无限并行扩大的神经

网络模型且不改变之前模型的参数,可以看出灾难

性遗忘问题能轻易地被解决,如图6所示.tasks是

所有任务的并集胰

task

i

;models是适应每个任务

i=1

n

i=1

n

task

i

的模型的并集胰

model

i

,显然使用这种简单扩

摇摇在尽量小地改变神经网络模型自身的情况下允

许神经网络模型适应更多的新任务且不发生灾难性

遗忘.如直接使用样本回放的方法,并非简单地将

所有任务的样本混合而是想要找到每个任务中具有

代表性的样本,并使用不同的方法对样本进行排序,

进而选择具有代表性的样本;在使用生成伪数据的

方法中,想要生成适量的伪数据而不是无限扩展网

Fig.6摇Infinitelyexpandingneuralnetworkmodel

图6摇无限扩大的神经网络模型

络;参数正则化的方法中,想要找到神经网络模型中

最重要的参数,并对其进行约束,而不是简单地约束

所有参数;在知识蒸馏中,想要将知识由一种网络迁

移到另一种网络,而不是简单地将2个网络并联.

另外,第3节中的很多方法依据生物的认知记忆等

原理进行改进创新,以期达到克服神经网络模型中

灾难性遗忘的目的

[66,80,82]

.注意:对减缓灾难性遗

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述

561

中的某些样本具有代表该样本集的能力.一个显而

易见的事实是,神经网络模型是对生物神经网络的

模仿,而现在神经网络模型出现灾难性遗忘的问题,

说明对生物的神经网络研究的并不彻底,还有很多

盲点.思路1)进一步研究生物的避免研究灾难性

遗忘的机制,应该是研究的重点和趋势.

为彻底解决神经网络模型中的灾难性遗忘问

题,需要人工智能等方面学者们的努力,也需要脑科

图7摇逐渐增加模型的任务

Fig.7摇Graduallyaddtaskstothemodel

忘方法的分类并不是绝对的,如文献[77鄄78]既用到

了知识蒸馏的方法,也用到了样本的方法;这里的分

类依据是作者解决神经网络模型中灾难性遗忘问题

的主要思想,以文献[78]为例,作者在文中主要的

关注点是使用知识蒸馏的方法避免灾难性遗忘,而

使用之前任务所组成的小样本集仅是作者使用的一

个辅助的方式,因此将该方法归类为知识蒸馏的

类中.

5摇总结与建议

首先将减缓神经网络模型灾难性遗忘的方法分

为四大类,并对不同大类的方法进行了介绍;然后,

介绍了几种评价减缓神经网络模型灾难性遗忘性能

的方法;接着,对神经网络模型中的灾难性遗忘问题

进行了开放性的探讨.

如果将人类的大脑看成一个复杂的神经网络模

型,可以观察到人类并没有灾难性遗忘的问题.这

说明现在的神经网络模型与人脑相比仍有非常大的

缺陷,仍有非常大的进步空间.对于怎样解决灾难

性遗忘的问题,本文最后提出了几个解决思路:1)

探索生物怎样避免灾难性遗忘的机制,并根据该机

制设计相似的神经网络模型.2)探索神经网络模

型存储信息的新机制,如果神经网络模型在学习新

知识后仍能保持对之前学习的知识不遗忘,必然需

要存储一些关于之前学习的知识的一些信息,怎样

高效地存储和利用这些信息值得研究.3)选取具

有代表性的样本也是一种方法.该方法不仅存在于

生物的认知中,也广泛存在于社会生活中.如社会

生活中的选举,某一社会团体通常推选出该团体中

的某几位成员而不是全体成员代表该社会团体,这

也从另一个角度说明,部分样本往往可以近似代表

总体样本.对比到神经网络模型中,选取某一任务

中具有代表性的样本,而不是使用所有样本代表该

任务;该方法需要确定推选机制,即怎样确定样本集

学、心理学等方面学者们的支持.

参考文献

[1]SILVER

:

Mastering

D,

thegame

HUANGA,MADDISONCJ,etal.

[2]

treesearch[J].Nature,

ofGo

2016,

with

529(7587):

deepneuralnetworks

484鄄489.

and

Nature,

Mastering

SILVERD,

2017,

the

SCHRITTWIESER

game

550(7676):

ofGowithout

J,

354鄄359.

human

SIMONYAN

knowledge[

K,et

J].

al.

[3]HE

forimage

K,ZHANG

recognition

X,REN

[C

S,

]椅

et

Proceedings

sidual

ofthe

learning

ConferenceonComputerVisionandPattern

IEEE

[4]

Piscataway:

HU

IEEE,2016:770鄄778.

Recognition.

[C]

J,

SHEN

and

Proceedings

L,SUN

PatternRecognition.

of

G.

the

Squeeze鄄and鄄excitation

IEEE

Piscataway:

Conference

IEEE,

onComputer

networks

7132鄄7141.

Vision2018:

[5]

general

SILVER

reinforcement

D,HUBERTT,

learning

SCHRITTWIESER

algorithmthat

J,et

masters

al.A

[6]

2018,

chess,

YED,

362(6419):

shogi,and

LIUZ,SUN

1140鄄1144.

gothroughself鄄play[J].Science,

inMOBA

M,ingcomplexcontrol

[7]

AAAI.

LONG

networks

J,

Cambridge,

gameswith

MA:

deep

AAAI

reinforcement

Press,2020:

learning

6672鄄6679.

[C]椅

IEEEConference

for

SHELHAMER

semantic

on

segmentation[C]

E,DARRELLT.

ComputerVision

椅Proceedings

Fullyconvolutional

andPattern

ofthe

[8]

Recognition.

HE

Piscataway:IEEE,2015:3431鄄3440.

[C]椅Proceedings

K,GKIOXARI

of

G,

the

DOLL魣R

IEEEInternational

P,etal.

Conference

MaskR鄄CNN

on

[9]

Computer

RENARD

Vision.

F,GUEDRIA

Piscataway:

S,

IEEE,

DEPALMA

2017:2961鄄2969.

Variability

N,etal.

imagesegmentation

andreproducibility

[J

indeeplearningformedical

[10]

(1):

PORZI

1鄄16.

].ScientificReports,2020,10

multi鄄object

L,HOFINGER

annotations[

tracking

C]椅

and

M,

Proceedings

segmentation

RUIZI,et

ofthe

from

al.

IEEE

automatic

Learning

ConferenceonComputer

/CVF

Piscataway:IEEE,2020:

Vision

6846鄄6855.

andPatternRecognition.

562

北摇京摇工摇业摇大摇学摇学摇报2021年

[11]KONGT,SUNF,LIUH,ox:Beyound

anchor鄄basedobjectdetection[J].IEEETransactionson

ImageProcessing,2020,29:7389鄄7398.

convolutionsformonocular3dobjectdetection[C]椅

VisionandPatternRecognition.

[12]DINGM,HUOY,YIH,ngdepth鄄guided

ProceedingsoftheIEEE/CVFConferenceonComputer

2020:1000鄄1001.

Piscataway:IEEE,

AnnualConferenceoftheCognitiveScienceSociety.

[25]MCRAEK,HETHERINGTONPA.

CognitiveScienceSociety.

Mahwah:LawrenceErlbaumAssociates,1989:26鄄33.

interferenceiseliminatedinpretrainednetworks[C]椅

ErlbaumAssociates,1993:723鄄728.

Catastrophic

Proceedingsofthe15hAnnualConferenceofthe

Mahwah,NJ:Lawrence

[26]鄄recurrentconnectionistnetworks:

Anapproachtothe‘sensitivity鄄stability爷dilemma[J].

ConnectionScience,1997,9(4):353鄄380.

[27]ANSB,ngcatastrophicforgettingby

[13]QINZ,LIZ,ZHANGZ,rNet:towards

real鄄timegenericobjectdetectiononmobiledevices[C]椅

ProceedingsoftheIEEEInternationalConferenceon

away:IEEE,2019:6718鄄6727.

Bert:pre鄄

understanding[J].

training

DEVLIN

of

J,

deep

CHANG

bidirectional

MW,LEE

LANZ,CHENM,

arXiv,

GOODMAN

2018:

transformers

K,etal.

S,

abs

et

/1810.

for

:

04805.

language

bertforself鄄supervisedlearningoflanguage

alite

RADFORD

representations[J].

unsupervised

A,WU

multitask

J,

arXiv,

CHILD

2019:

learners

R,et

abs

[

al.

/1909.

J].

Language

11942.

areOpenAI

models

2019,1(8):9.

Blog,

2005.

models

BROWN

14165.

are

T

few鄄shot

B,MANN

learners

B,RYDER

[J].

N,

arXiv,

etal.

2020:

Language

abs/

ARTACHO

pose

B,e:unifiedhuman

Proceedings

estimation

ofthe

in

IEEE

single

/CVF

images

Conference

andvideos

onComputer

[C]椅

Vision

2020:

andPatternRecognition.

CHEN

7035鄄7044.

Piscataway:IEEE,

multi鄄human

L,AI

3D

H,

pose

CHEN

estimation

R,etal.

at

Cross鄄view

over100FPS

tracking

[C]

for

Proceedings

Vision

oftheIEEE/CVFConference

Piscataway:

onComputer

2020:3279鄄3288.

,

CHEN

region

X,WANGG,GUO

[J].

JINS,

Neurocomputing,

ensemblenetwork

H,idedstructured

XUL,XUJ,

2020,

forcascaded

etal.

395:

Whole鄄body

138鄄149.

handposeestimation

estimation

humanpose

Computer

CARPENTER

Vision.

inthe

G

Berlin:

wild[C

A,GROSSBERG

Springer,

]椅European

2020:

Conference

S.

196鄄214.

on

TheARTof

network[J].

adaptivepattern

MCCLOSKEY

Computer,

recognition

M,COHEN

1988,

by

NJ.

21(3):

aself鄄organizing

Catastrophic

77鄄88.

neural

inconnectionistnetworks:thesequentiallearning

interference

problem

24:

[J].

109鄄165.

ThePsychologyofLearningandMotivation,1989,

connectionist

HETHERINGTON

networks?

e

[C]椅

'catastrophic

Proceedings

interference'in

ofthe11th

coupling

Rendus

tworeverberating

cad佴miedesSciences鄄Series

neuralnetworks[

III鄄Sciences

J].Comptes

laVie,1997,

del'A

320(12):

Catastrophic

989鄄997.

de

[28]ting,rehearsaland

[29]

123鄄146.

pseudorehearsal[J].ConnectionScience,1995,7(2):

Massively

ARIVAZHAGAN

multilingual

N,BAPNAA,FIRATO,etal.

wild:findingsandchallenges

neuralmachine

[J].arXiv,

translation

2019:

in

abs

the

/

[30]

1907.

SHAZEER

05019.

Outrageously

N,

large

MIRHOSEINI

neuralnetworks:

A,MAZIARZ

thesparsely鄄gated

K,etal.

[31]

06538.

mixture鄄of鄄expertslayer[J].arXiv,2017:abs/1701.

ZACARIAS

overcoming

networks

catastrophic

A,ALEXANDRE

forgetting

鄄CNN:

Workshop

by

inconvolutionalneural

Recognition.

on

selective

Berlin:

Artificial

network

Springer,

Neural

augmentation

2018:

Networks

[C]

102鄄112.

in

Pattern

IAPR

[32]ROY

deepconvolutional

D,PANDAP,

[J].NeuralNetworks,

neural

ROY

2020,

network

鄄CNN:

121:

for

148鄄160.

incremental

ahierarchical

learning

[33]

forgetting

SCHAKM,oncatastrophic

Conference

indeepLSTMnetworks[C]椅International

Springer,2019:

on

714鄄728.

:

[34]THANH鄄TUNG

modecollapsein

H,

Neural

GANs

TRAN

Networks

[C]

T.

Catastrophic

2020

(IJCNN).

International

forgetting

Piscataway:

Joint

and

[35]

IEEE,

Conference

CHANG

2020:

on

1鄄10.

generative

Y,LIW,PENGJ,protection

to

regularization

overcome

adversarial

the

methods

forgetting

network

[J].

of

(MPGAN):

IEEE

GANs

Access,

using

aframework

2020,

parameter

179942鄄179954.

8:

[36]

methods

DUCHIJ,

for

HAZAN

online

E,

learning

SINGER

and

Y.

stochastic

Adaptive

optimization

subgradient

[J].JournalofMachineLearningResearch,2011,12

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

摇第5期

(7):2121鄄2159.

韩纪东,等:神经网络模型中灾难性遗忘研究的综述

563

[37]ta:anadaptivelearningrate

[38]TIELEMANT,e6郾5鄄rmsprop:divide

thegradientbyarunningaverageofitsrecentmagnitude

[Z/OL].[2012鄄02鄄11].https:椅o.

edu/~tijmen/csc321/slides/lecture_slides_.

optimization[C]椅Proceedingsof

method[J].arXiv,2012:abs/1212.5701.

[51]LESORTT,LOMONACOV,STOIANA,etal.

learningstrategies,opportunitiesandchallenges[J].

InformationFusion,2020,58:52鄄68.

NeuralNetworks,2019,113:54鄄71.

comprehensivestudyofclass

lifelonglearningwithneuralnetworks:areview[J].

incremental

Continuallearningforrobotics:definition,framework,

[52]PARISIGI,KEMKERR,PARTJL,ual

[53]BELOUADAHE,POPESCUA,KANELLOSI.A[39]KINGMAD,:amethodforstochastic

Internationallearning

Conference

AmsterdamMachine

onLearning

Learning

Representations.

Lab,2015.

Amsterdam:

REBUFFI

Icarl:

SA,KOLESNIKOVA,SPERLG,etal.

Vision

[C]椅Proceedings

incrementalclassifier

andPattern

of

Recognition.

theIEEE

and

conference

representation

onComputer

learning

2017:2001鄄2010.

Piscataway:IEEE,

SARWAR

deep

sharing[J].

convolutional

SS,ANKITA,entallearningin

LIZ,HOIEM

IEEE

D.

Access,

neural

Learning

2019,

networks

without

8:4615鄄4628.

usingpartialnetwork

Transactions

Intelligence,2017,

on

40(12):

Pattern

2935鄄2947.

Analysis

forgetting[

and

J].

Machine

IEEE

ZENG

context鄄dependent

G,CHENY,CUI

Nature

VON

MachineIntelligence,

processing

B,et

2019,

in

al.

neural

Continual

1(8):

networks

learning

364鄄372.

[J].

of

Conference

Continual

OSWALD

learning

J,HENNING

withhypernetworks

C,SACRAMENTO

[C]椅International

J,etal.

Elsevier,2019.

dam:

LI

structure

X,ZHOUY,WUT,ogrow:acontinual

Learning.

forgetting

learning

[C]椅

framework

International

for

Conference

overcoming

on

catastrophic

NewYork,NY:ACM,2019:3925鄄3934.

Machine

GOODFELLOW

empirical

IJ,MIRZAM,XIAOD,

gradient鄄based

investigation

1312.

neuralnetworks

ofcatastrophic

[J].arXiv,

forgetting

2013:abs

in

/

neural

RUDER

6211.

networks[J].

view

arXiv,

of

2017:

multi鄄task

abs/1706.

learning

05098.

indeep

ZHUANG

IEEE.

survey

Piscataway:

on

F,

transfer

QIZ,

IEEE,

learning

DUAN

2020:

[

K,

C]

et

1鄄34.

al.

Proceedings

Acomprehensive

ofthe

(4):

networks

FRENCH

128鄄135.

[J].

RM.

Trends

Catastrophic

inCognitive

forgetting

Sciences,

inconnectionist

1999,3

DE

Continual

LANGEM,ALJUNDIR,MASANAM,etal.

1909.

forgetting

08383.

in

learning:

classification

acomparative

tasks[J].

study

arXiv,

onhow

2019:

to

abs

defy

/

01844.

algorithmsforvisualtasks[J].arXiv,2020:abs/2011.

[54]MASANA

incremental

M,LIUX,TWARDOWSKI

[55]

[J].arXiv,

learning:

2020:abs

survey

/2010.

and

B,鄄

15277.

performanceevaluation

transferable

YOSINSKI

are

J,

features

CLUNE

in

J,

deep

BENGIO

neuralnetworks?

Y,etal.

[C]椅

How

Advances

[56]

Foundation,

Jolla,CA:

inNeural

GUOL,XIE

2014:

Neural

Information

G,

3320鄄3328.

Information

Processing

Processing

Systems.

Systems

La

representation

XUX,ar鄄supported

[57]

IEEE

YOU

Access,

for

exemplar鄄based

C,LI

2020,

effective

C,ROBINSON

8:51276鄄51284.

class鄄incrementallearning[J].

DP,le

Computer

data[C]椅

Vision.

Proceedings

subspace

Berlin:

of

clustering

Springer,

theEuropean

onclass鄄imbalanced

BELOUADAH

2018:

Conference

67鄄83.

on

[58]

learning

E,2m:classincremental

IEEE,

International

with

Conference

dualmemory[C]椅Proceedings

onComputerVision.

of

Piscataway:

theIEEE

[59]

2019:583鄄592.

lifelong

ISELED,

learning[J].

COSGUN

arXiv,

ive

2018:

experience

abs/1802.

replay

10269.

for

[60]HAYES

yourneural

TL,

network

KAFLE

toprevent

K,SHRESTHA

catastrophic

R,

forgetting[C]椅

European

Springer,2020:

Conference

466鄄483.

:

[61]ATKINSON

Pseudo鄄rehearsal:

C,MCCANEB,SZYMANSKIL,etal.

1812.

without

02464.

catastrophic

achieving

forgetting

deep

[J].

reinforcement

arXiv,2018:

learning

abs/

[62]

Pseudo鄄recursal:

ATKINSONC,MCCANE

solving

B,

the

SZYMANSKI

catastrophic

L,

forgetting

etal.

[63]

1802.

problem

SHINH,

03875.

indeepneuralnetworks[J].arXiv,2018:

deepgenerative

LEEJ

replay[C]椅Advances

K,KIMJ,ual

inNeural

learningwith

Processing

[64]

Processing

MALLYA

Systems

Systems.

A,LAZEBNIK

Foundation,

LaJolla,

S.

2017:

CA:

Packnet:

2990鄄2999.

Neural

Information

Information

addingmultiple

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

564

北摇京摇工摇业摇大摇学摇学摇报

taskstoasinglenetworkbyiterativepruning[C]椅

7765鄄7773.

andPatternRecognition.

9163鄄9171.

2021年

ProceedingsoftheIEEEConferenceonComputerVision

Piscataway:IEEE,2018:

[75]SHMELKOVK,SCHMIDC,ental

away:IEEE,2017:3400鄄3409.

learningofobjectdetectorswithoutcatastrophicforgetting

[65]SINGHP,VERMAVK,MAZUMDERP,ating

CNNsforlifelonglearning[C]椅AdvancesinNeural

a,CA:Neural

[66]KIRKPATRICKJ,PASCANUR,RABINOWITZN,et

InformationProcessingSystemsFoundation,2020:33.

mingcatastrophicforgettinginneuralnetworks

[C]椅ProceedingsoftheIEEEInternationalConferenceon

[76]CHENL,YUC,owledgedistillation

forincrementalobjectdetection[C]椅2019International

2019:1鄄7.

away:IEEE,

learningviaprogressivedistillationandretrospection[C]椅

[J].ProceedingsoftheNationalAcademyofSciences,

[77]HOUS,PANX,CHANGELOYC,ng

2017,

ELKHATIB

114(13):

A,

3521鄄3526.

forgettingincontinual

KARRAY

learning

F.

models

Preempting

by

catastrophic

regularization[C]椅2019InternationalJointConference

anticipatory

away:

O,

IEEE,

DEAN

2019:

J.

1鄄7.

on

HINTONG,VINYALSDistillingthe

1503.

knowledge

02531.

inaneuralnetwork[J].arXiv,2015:abs/

squeezed

LIP,SHUC,XIEY,chicalknowledge

Cambridge,

adversarialnetworkcompression[C]椅AAAI.

distillation

SUNS,CHENG

MA:AAAI

Y,

Press,2020:11370鄄11377.

Proceedings

for

inNaturalLanguage

ofthe

BERT

GAN

2019

model

Z,et

compression

tknowledge

[C]椅

Joint

Processing

Conference

and

on

the

Empirical

9thInternational

Methods

Stroudsburg,

Conference

PA:

onNaturalLanguage

Computational

Processing.

Linguistics,

WEI

towards

Y,PAN

2019:

X,

4314鄄4323.

Associationfor

QINH,et

Proceedings

very

of

tiny

the

CNNforobject

zation

detection[

mimic:

C]椅

Vision(ECCV).Berlin:

European

Springer,

Conference

2018:267鄄283.

onComputer

YIM

distillation:

J,JOOD,BAEJ,romknowledge

Conference

transferlearning

fastoptimization,

[C]椅Proceedings

networkminimization

oftheIEEE

and

Piscataway:

on

XU

IEEE,

Computer

2017:

Vision

4133鄄4141.

andPatternRecognition.

object

J,NIEY,WANGP,ngabinaryweight

and

driving[

detector

AHN

Automation.

C]椅2019

by

Piscataway:

International

knowledgetransfer

IEEE,

Conference

for

2019:2379鄄2384.

on

autonomous

Robotics

information

S,HU

Proceedings

distillation

SX,DAMIANOU

theIEEE

for

Conference

knowledge

A,et

transfer

ional

[C]椅

andPattern

of

away:

onComputer

IEEE,

Vision

2019:

Proceedings

:

ofthe

Springer,

European

2018:

Conference

437鄄452.

onComputer

[78]CASTRO

End鄄to鄄end

F

incremental

M,MAR魱N鄄JIM魪NEZ

learning[C]

M

椅Proceedings

J,GUILN,etal.

European

Springer,2018:

Conference

233鄄248.

:

ofthe

[79]LEE

forgetting

K,LEE

Proceedings

with

K,

of

unlabeled

SHINJ,et

theIEEE

data

ming

International

inthewild

catastrophic

[C]椅

away:IEEE,2019:

Conference

312鄄321.

on

[80]MU譙OZ鄄MART魱N

Unsupervised

I,BIANCHIS,PEDRETTI

in

Solid鄄State

neuralnetworks

learning

Computational

[J

to

].

overcome

Devices

IEEEJournal

catastrophic

G,

forgetting

etal.

andCircuits,

onExploratory

[81]

(1):

TITSIAS

58鄄66.

2019,5

onal

MK,

regularisation

SCHWARZJ,

for

MATTHEWS

continuallearning

AGG,

with

et

[82]

Gaussianprocesses[J].arXiv,2019:abs/1901.11356.

learning

CAOZ.

1903.03511.

system

Realizing

asa

continual

fiberbundle[J].

learningthrough

arXiv,2019:

modeling

abs

a

/

[83]

Measuring

KEMKERR,MCCLUREM,ABITINOA,etal.

[84]

arXiv,

VANDE

2017:

catastrophic

VEN

abs

G

/1708.

forgetting

M,TOLIAS

02072.

inneuralnetworks[J].

continuallearning[J].

cenariosfor

[85]PF譈LB

application鄄oriented

B,GEPPERTH

arXiv,2019:

studyof

A.

catastrophic

A

abs/

comprehensive,

1904.07734.

dnns[J].arXiv,2019:abs/1905.08101.

forgettingin

[86]

and

LOMONACO

benchmark

V,

for

MALTONI

continuous

D.

object

CORe50:

recognition

anew

[

dataset

Proceedingsofthe1stAnnual

C]椅

Microtome

Conference

Publishing,

on

2017:

Robot

17鄄26.

ine,MA:

(责任编辑摇杨开英)

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]


本文标签: 模型 神经网络 任务 方法 学习