admin 管理员组

文章数量: 1184232


2024年6月26日发(作者:英文名shirley和shelly)

2020

10

43

卷第

5

北京邮电大学学报

JournalofBeijingUniversityofPostsandTelecommunications

DOI:10.13190/j.jbupt.2020-032

Oct.2020

Vol.43No.5

5321(2020)05-0084-07

文章编号

:1007-

基于数据增强的中文医疗命名实体识别

王蓬辉

李明正

李思

北京邮电大学人工智能学院

北京

100876)

摘要

由于缺乏大量已标注数据

在中文医疗命名实体识别中

主要利用外部资源来改善医疗实体识别的性能

提出了一种基于生成对抗网络的数

需要大量的时间和有效的规则加入外部资源

为了解决标注数据不足的问题

自动生成大量标注数据

提高医疗实体识别的性能

实验结果表明

该算法在性能方面优于实验中的

据增强算法

基准模型

证明了该算法在医疗实体识别上的有效性

关键词

命名实体识别

数据增强

序列生成对抗网络

文献标志码

:A

中图分类号

:TP181

DataAugmentationforChineseClinicalNamedEntityRecognition

WANGPeng-hui,LIMing-zheng,LISi

(SchoolofArtificialIntelligence,BeijingUniversityofPostsandTelecommunications,Beijing100876,China)

Abstract:Chineseclinicalnamedentityrecognitionplaysanimportantroleinrecognizingmedicalenti-

tiescontainedinChineseelectronicmedicalrecords.Limitedtolackoflargeannotateddata

,mostofex-

istingmethodsconcentrateonemployingexternalresourcestoimprovetheperformanceofclinicalnamed

entityrecognition

,whichrequirelotsoftimeandefficientrules.Tosolvetheproblemoflackoflargean-

notateddata

,dataaugmentationusingsequenceadversarialgenerativenetworkisusedtogeneratemore

variousdatadependingonentitiesandnon-entitiesinthetrainingset.Experimentsshowthatwhenusing

generateddatatoexpandtrainingset

,theproposednamedentityrecognitionsystemhasachievedcompet-

itiveperformancecomparedwithstate-of-artmethods

,whichshowstheeffectivenessofourdataaugmen-

tationmethod.

Keywords:namedentityrecognition;dataaugmentation;generativeadversarialnetwork

作为信息提取的基本任务

命名实体识别

(NER,namedentityrecognition)

在过去几年受到了

例如新闻领域

研究人员

广泛关注

对于通用领域

即人名

地名

组织机

主要关注

3

种基本实体类型

命名实体识别任务在通用领域中已存

构名

目前

现有方法利用神经网络提取高效

在大量标注数据

达到了良好的实体识别性能

的信息特征

[1-2]

于神经网络的命名实体识别过程中

基于字符的长

long-shorttermmemorynet-

短期记忆网络

(LSTM,

work

[1]

常用于获取丰富的上下文信息

卷积神经网

convolutionalneuralnetworks)

[2]

用于提取

(CNN,

字符级语义表示

在中文医疗文本领域

医疗文本中包含了大量

如疾病和解剖结构

这些特

医疗领域特有的实体

在基

03-24

收稿日期

:2020-

基金项目

国家自然科学基金项目

(61702047)

作者简介

王蓬辉

(1996—),

硕士生

通信作者

mail:lisi@bupt.edu.cn.

(1985—),

副教授

,E-

5

期王蓬辉等

基于数据增强的中文医疗命名实体识别

85

有实体需要具有医疗知识的人员才可以做准确标

这使得在医疗领域通常缺乏大量的标注数据

因此

采用神经网络的方法难以获取高效的信息特

这使得医疗实体识别的准确度不高

近期

中文

医疗命名实体识别的研究工作取得了一定的进展

这些工作主要从

2

个方面来改善医疗命名实体识别

的性能

一方面

修改深度模型的结构

多任务的

学习

[3]

被用于综合考虑医疗文本中不同类别的实

体的识别结果

注意力机制

[4]

通过赋予不同的字符

以不同的权重

来提取文本中更加重要的信息

一方面

引入外部资源

以帮助提高命名实体识别的

准确性

外部的实体字典通常以额外特征的形式集

成到模型中

[5]

此外

扩大训练集也是直接改善性

能的方法

[6]

但是

通过人工标注大量的数据集不

切实际

因为在医疗领域

对医疗数据进行准确的

标注需要专业的医疗人员

这会花费大量的时间和

人力

通过分析中文医疗文本数据

研究人员发现

疗文本的表达具有一定的规律性

多数医疗实体总

是出现在相似的非实体后面

其中

非实体指的是

文本中那些不属于预定义的实体类别字符

如图

1

所示

,“

下腹部

中下腹

出现在相同的非实体部

患者因

后面

因此

笔者采用了序列生成网络

通过学习医疗文本中实体和非实体部分的关系

自动生成数据

扩大训练集

达到提高医疗命名实体

识别性能的目的

1

在医疗数据集中的一些实例

笔者提出一种基于序列生成对抗网络的数据增

强算法用于命名实体识别

(DA-NER,dataaugmenta-

tionfornamedentityrecognition

模型

以缓解命名实

体识别任务中标注数据不足的情况

.DA-NER

模型

的本质是通过对抗生成的方式进行数据增强

以减

轻大量标注数据缺乏的影响

DA-NER

模型中

2

个问题需要解决

一是生成的文本数据是离散

序列

很难将梯度从判别器传递到生成器

笔者借

鉴了强化学习

[7]

的思路

将判别器的输出作为奖励

来指导生成器

二是生成器仅生成句子

没有对应

的标签无法用于扩大训练集

.DA-NER

模型采用了

序列生成变换

解决了生成数据的标签问题

笔者的主要贡献包括

①提出了

DA-NER

学习训练集中的实体和非实体之间的关系

自动

生成标注数据

缓解了缺乏大量已标注医疗数据的

影响

②在医疗数据集和其他领域数据集上的实

验结果表明

该模型不仅能提升医疗命名实体识别

的性能

还可以应用到其他领域

1

相关工作

在研究方法上

早期的命名实体识别任务主要

集中在人工设计特征和规则上

以实现高性能的命

名实体识别

.Zhang

[8]

在进行中文命名实体识别

任务中

设计了

7

种和人名相关的规则来识别中文

人名

.Chen

[9]

则引入了三元组和二元组的特征

近几年

随着深度学习的不断发展

神经网络成为解

决命名实体识别任务的主流方法

不仅解决了人工

设计特征的问题

还提升了命名实体识别的性能

在英文命名实体识别方面

,Collobert

[10]

采用了

CNN

和条件随机场

(CRF,conditionalrandomfield)

获得了比人工设计特征更好的模型效果

在中文命

名实体识别上

,Zhang

[11]

Lattice

模型不依赖分

词信息

但是可以更加高效地利用词的信息

.Zhu

[12]

CNN

与注意力机制进行了结合

在研究领域上

早期的命名实体研究工作主要

专注在新闻等通用领域上

其中

He

[13]

采用

CRF

方法在中文新闻领域的命名实体进行了识别

近年

随着医疗信息化的高速发展

针对医疗数据的命

名实体研究工作受到了广泛的关注

.Wu

[14]

采用

了无监督学习的方式从未标注的医疗数据中增强字

符表示

然后再结合神经网络应用于命名实体识别

Wang

[15]

采用图像特征和语音特征来增强字符表

改善了医疗命名实体识别的性能

这些方法都

在一定程度上解决了医疗命名实体识别数据缺乏的

问题

与之前的方法不同

针对医疗数据缺乏的问题

笔者采用了序列生成对抗网络

通过学习训练集中

实体和非实体部分之间的关系

生成多样化的数据

提升命名实体识别的性能

2

序列生成变换

在以往的文本生成

[7]

任务中

字符常被视为组

成一个完整序列的基本单元

生成器通过学习字符

之间的关系

生成一个字符序列

{c

1

,c

2

,…,c

n

},c

i

86

北京邮电大学学报第

43

v,

其中

v

是数据集中所有字符形成的字典

但是

在命名实体识别数据上如果采用这样的方式进行数

据生成

生成器只能生成一些没有标签的序列

果采用监督学习的方式

生成数据无法直接用于扩

大训练数据集

进而提升命名实体识别性能

为此

笔者对生成器的生成过程进行了变换

以解决标签

问题

笔者对医疗文本进行了分析

正如在图

1

结合命名实体识别任务

当考虑句子的实体标签

医疗文本

患者因下腹部隐痛不适

3

月于

2014-

04-06-

就诊我院门诊

包括

3

个部分

解剖部位实体

下腹部

”、

非实体部分

患者因

”、“

隐痛不适

3

月于

2014-04-06

就诊我院门诊

”.

根据字符的标签

基于

字符的文本序列可以看成包含实体和非实体部分的

序列

那么

在命名实体识别数据的生成过程中

成字符的过程可以看成生成实体和非实体部分的过

如果采用训练集中的数据来训练生成器生成数

由于生成数据的实体和非实体部分都来自训练

那么就可以采用字符串匹配找到其对应的标签

这样就解决了生成数据的标签问题

为了用实体和非实体部分来表示训练集中的所

有句子

首先得构建一个包含实体和非实体的集合

给定训练集

S={X

1:T

,Y

1:T

其中

X

1

Y

1

为数据集中的句子及其标签

然后初

始化集合

B={},

对于训练集中的

{X

t

,Y

t

},

根据标

签找到其中的实体和非实体部分

然后把它们加入

集合

具体来说

假设一个文本序列

{c

1

,c

2

,c

3

,c

4

,c

5

c

6

的标签是

{O,O,B-PER,I-PER,O,O},

可以将

c

1

c

2

,c

5

c

6

归为非实体部分

,c

3

c

4

归为实体部分

然后

将它们和对应的标签加入集合中

3

模型

3.1

模型框架

DA-NER

模型结构如图

2

所示

该模型包含生

成器

判别器和

NER

模型

3

个主要部分

3.2

生成器

生成器的目标是学习训练集中实体和非实体之

间的隐藏关系

然后生成可以欺骗判别器的数据

于扩大训练集

在生成序列时

采用从左向右生成

序列的策略

因为这种生成方式符合汉语的习惯

生成器从初始状态

l

0

开始生成序列

直到生成序列

2DA-NER

整体模型结构

的长度等于设定的长度才停止

其中生成序列的基

本单元来源于训练集中的实体和非实体部分

在生成器中

先随机初始化一个向量字典

用于

查询每个输入基本单元所对应的数值化矩阵

生成

器在每个时刻的输出具有一定的时序关系

因此

笔者采用

LSTM

作为生成器

来建立输出单元之间

的时序关系

具体来说

假设生成器的最终输出序

列是

{l

1

,l

2

,…,l

m

},

其中

m

是设定的生成序列长

那么当生成器要预测

i

时刻的输出时

h

gg

i

=F(h

i-1

,l

i-1

)(1)

p(l

i

|l

0

,l

1

,…,l

i-1

)=softmax(W

f

h

g

i

+b

f

)(2)

其中

:h

g

i-1

i-1

时刻生成器中

LSTM

的隐层输出

l

i-1

i-1

时刻生成器的输出

,F

为生成器中

LSTM

模块

,W

f

b

f

为前馈网络可训练的参数权重

采用

h

g

i-1

来初始化

i

时刻的

LSTM

是为了引入前一时刻

的信息

然后前馈网络将获取的隐层状态信息映射

成所有可能的输出单元的概率

.softmax

函数用于将

输出的概率归一化

最终选择概率最高的单元作为

输出

在生成对抗网络中

梯度更新对于维持生成器

和判别器之间的平衡十分重要

但是

在文本生成

由于生成数据是离散的文本序列

这使得梯度更

新无法在生成器和判别器进行传播

为了解决这个

问题

笔者借鉴序列生成对抗网络

(SeqGAN,se-

quencegenerativeadversarialnets

[7]

的思想

采用强

化学习的方法解决梯度更新的问题

通过判别器的

分数来指导生成器的训练过程

3

展示了

Seq-

GAN

的结构

判别器作为决策网络

状态是生成器

每次生成的数据

奖励是判别器的输出

判别器每

次接受一个完整的序列输入

给出分数

来给予生成

器一定的奖励

5

期王蓬辉等

基于数据增强的中文医疗命名实体识别

87

3Seq-GAN

模型结构

在生成序列过程中

仅考虑之前时刻状态的影

响是不够的

当前时刻的输出对于整个输出序列的

影响也需要考虑进去

因此

笔者通过蒙特卡洛搜

索中的

roll-out

策略

对之后时刻的输出状态进行采

来考虑当前

i

时刻的输出对于整个输出序列的

影响

对于

i

时刻之后的输出进行了

K

次采样

[(l

12K

1

,l

2

,…,l

m

),(l

1

,l

2

,…,l

m

),…,(l

1

,l

2

,…,l

m

)]=

MC

[(l

1

,l

2

,…,l

i

),K](3)

其中

:l

i

为当前时刻的输出

,m

为设定的最大输出序

列长度

,K

为蒙特卡洛搜索的采样次数

,MC

为蒙特

卡洛搜索方法

这样

生成器每个时刻产生一个输出单元

都会

通过采样后形成完整的输出序列

然后判别器对完

整序列进行判断

给出当前时刻的输出的分数

指导

生成器

而不是当生成器输出一个完整的序列之后

再进行判断

.i

时刻生成器获得的奖励为

K

i

=

1

K

D[(l

1

,l

2

,…,l

K

m

)](4)

k=

0

其中

D

为判别器函数

生成器的目标函数是最大化

期望

m

J(

θ

)=

E

lG

l

0:i-1

)R

i

](5)

i=

1

1:i

θ

[lbG

θ

(l

i

|

其中

:E

l

1:i

~G

θ

是对生成器输出的序列

l

1:i

概率求期

;G

θ

为生成器函数

,G

θ

(l

i

|l

0:i-1

为生成器在输出

序列为

l

0:i-1

下输出

l

i

的概率

3.3

判别器

判别器可以视为一个文本分类模型

接收一个

完整的文本序列

然后判断该序列是否为真实的数

.CNN

因其良好的性能常常被用来构建文本分类

网络

故笔者采用了

CNN

构建判别器

判别器主要由

CNN

和全连接网络组成

其具体

网络结构见图

2.

具体来说

给定输入序列为

{l

1

,l

2

…,l

m

},

判别器首先将序列中的每个单元即实体或

者非实体部分映射成对应的字符序列

{c

1

,c

2

,…,

c

n

}.

之所以将序列映射成字符序列是因为字符序

列包含更加丰富的字符级别信息

有利于判别器判

断序列的真假

接着

通过字符嵌入

可以将每个字符映射成对

应的向量

同时生成的数据中还包括字符的实体标

签信息

判别器可以结合每个字符的标签信息来判

断字符序列在命名实体识别任务中的合理性

在结

合了数据的标签信息后

每个字符的表示方式为

x

i

=[e

c

i

:t

i

](6)

其中

:e

c

i

为字符

c

i

的字向量

,t

i

为字符

c

i

对应的标

.CNN

用于提取输入序列的局部特征为

h

d

=W

T

CNN

[x

i-

w-1

2

:x

i+

w-1

2

]+b

T

i

CNN

(7)

其中

:W

TT

CNN

b

CNN

为卷积核的参数

,w

为卷积核的窗

口大小

再采用最大池化操作得到序列为

o=max{h

ddd

1

,h

2

,…,h

m

}(8)

最后

全连接网络用于将最终的序列表征映射

到判断序列为真假的概率

与生成器的目标相反

判别器的目标是能够正确判断输入序列是否为真实

数据

具体地

判别器的目标函数为

max

D

E

p

data

[lbD(l

1

,l

2

,…,l

m

)]+

φ

E

l

1

,l

2

,…,l

m

~G

θ

[1-lbD(l

1

,l

2

,…,l

m

)](9)

其中

D

φ

G

θ

分别为判别器和生成器的参数

3.4NER

模型

借鉴前人的命名实体识别工作

[16]

,LSTM

在命

名实体识别中常用于提取文本特征

,CRF

则用于特

征提取之后的解码过程

笔者也采用

LSTM+CRF

的模型结构作为

NER

模型

与之前模型的不同之

处在于

,NER

模型的输入不仅包括真实数据

还包

括生成器的生成数据

给定输入序列

{c

1

,c

2

,…,c

n

},NER

模型首先在

预训练的字向量词典中找到每个字符对应的数值化

向量

{e

1

,e

2

,…,e

n

}.

然后

LSTM

用于获取每个字符

上下文相关的隐层状态信息

前馈神经网络则将

LSTM

输出的隐层状态映射成每个字符的标签概

.CRF

用于建立输出标签之间的相关性和解码得

到最后的标签输出

其中

标签序列的输出概率定

义为

P(Y|X)=

exp

[s(X,Y)]

exp[s((X,Y'))]

10)

Y'

其中

:s

CRF

中的特征函数

,X

为输入序列

,Y

真实的标签序列

,Y'

为任意输出的标签序列

在模型训练中

,NER

模型的目标是最大化真实

标签序列的概率

对应的损失函数为

88

北京邮电大学学报第

43

N

L=-

lbP(Y

i

|X

i

)(11)

i=

0

其中

:N

为训练集中的句子总数

;P(Y

i

|X

i

为输入文

本序列

X

i

,NER

模型的预测标签序列为

Y

i

的条

件概率

4

实验

4.1

数据统计

在实验过程中

使用了

4

个数据集来验证

DA-

NER

数据增强算法在命名实体识别任务上的有效

为了验证数据增强算法在医疗文本上的有效

在医疗命名实体识别数据集

CCKS2019

CMID

进行了实验

同时为了进一步探究该算法是

否适用于其他领域

选取了常用的中文命名实体识

别数据集

WeiboNER

[16]

Resume

[11]

并且在这些

数据上进行了实验

.4

个数据集的统计结果见表

1.

14

个数据集的数据统计

数据集

数据集句子数

/

划分

文档数

实体类型

训练集

1000

CCKS2019

开发集

100

疾病

症状

影像检查

测试集

400

剖部位

药物

手术

训练集

9803

CMID

开发集

疾病

症状

影像检查

测试集

2451

剖部位

药物

手术

训练集

3821

人名

国籍

种族

教育地

Resume

开发集

463

理位置

组织机构

专业

测试集

477

头衔

训练集

1350

WeiboNER

开发集

270

人名

地理位置

地缘政

测试集

270

组织机构

4.2

性能评估

在医疗数据上

采用

2

个基准模型来验证数据

增强方法的有效性

一种是基于字符的模型

使用的

是基于字符的

LSTM+CRF

结构

[11]

一种是采用

Bert

[17]

作为字符的预训练字向量的模型

从表

2

可知

通过数据增强的方式

,DA-NER

型取得了比基准模型更好的结果

在不使用

Bert

情况下

,DA-NER

模型在

CCKS2019

数据集上的

F

值达到了

81.76%,

CMID

数据集上的

F

值达到了

57.12%,

分别比基准模型高

0.8%

0.68%.

在使

Bert

的情况下

,DA-NER

模型在

CCKS2019

数据

集上的

F

值达到了

83.40%,

CMID

数据集上的

F

值达到了

59.31%,

分别比基准模型高

0.65%

0.96%.

2

在医疗数据集上的实验结果

数据集方法准确率召回率

F

Baseline

[11]

81.0980.8280.96

DA-NER81.7381.7981.76

CCKS2019

Baseline+Bert81.8283.6982.75

DA-NER+Bert82.5884.2483.40

Baseline

[11]

57.9754.9956.44

DA-NER58.8655.4957.12

CMID

Baseline+Bert58.0158.6958.35

DA-NER+Bert58.2260.4559.31

这些实验结果验证了数据增强的方法在医疗数

据集上的有效性

此外

笔者针对不同长度的输出单元对医疗命

名实体识别性能的影响进行了研究

4

所示为采

DA-NER

模型在

CCKS2019

数据集上取得的实

验结果

4

不同长度的输出单元下性能的比较

可以看出

设置不同长度的输出单元会对命名

实体识别的性能造成影响

输出单元设置过长或者

过短都会造成实体识别性能的下降

当设置输出单

元的长度为

5

医疗命名实体识别的性能最佳

4.3

扩展实验

为了探究笔者提出的数据增强方法是否还适用

其他领域

研究人员还在

WeiboNER

Resume

据集上进行了实验

其中基于字符的

LSTM+CRF

模型

[11]

作为基准模型

在现有的先进命名实体识

别系统中

笔者选择

Lattice

模型

[11]

CAN-NER

[12]

DA-NER

模型进行了对比

探究数据增强算

http:

www.ccks2019.cn/

https

github.com/liutongyang/CMID

5

期王蓬辉等

基于数据增强的中文医疗命名实体识别

89

法与现有的先进命名实体识别方法是否具有可

比性

采用

DA-NER

模型在

WeiboNER

Resume

据集上的实验分别取得了

59.42%

95.28%

F

性能不仅超越了基准模型

而且与

Lattice

模型

CAN-NER

模型相比也有提升

如表

3

所示

3DA-NER

模型在

WeiboNER

Resume

上的

实验结果

数据集模型准确率召回率

F

Latticemodel

[11]

--58.79

CAN-NER

[12]

--59.31

WeiboNER

Baseline

[11]

--56.75

DA-NER69.0152.1759.42

Latticemodel

[11]

94.8194.1194.46

CAN-NER

[12]

95.0594.8294.94

Resume

Baseline

[11]

94.5394.2994.41

DA-NER95.2295.3495.28

5

实例分析

为了进一步分析数据增强方法的有效性

笔者

分析了不同数据集上的真实数据和生成数据

如表

4

所示

CCKS2019

CMID

数据集上

真实数据

”、“

直肠癌

实体

在生成数据中变成了

”、“

肛瘘

实体

可见

数据增强的方法在生成数

据时可以生成多样性的实体部分的数据

CCKS

2019

CMID

数据集上

生成数据中的非实体部分

4DA-NER

模型在数据集上的生成数据和

真实数据的例子

数据集生成数据真实数据

下腹壁不均匀增厚伴周围胃壁不均匀增厚伴周

CCKS2019

多发小淋巴结

围多发小淋巴结

网膜淋巴结隐痛

网膜淋巴结可见癌

转移

CMID

最近检查出有高血压

怎最近检查出有高血

么治疗压

想买点药吃

肛瘘通过哪些方法筛查

直肠癌通过哪些方法

筛查

30

年前

刘易阳说

细节

裸婚时代刘易阳说

WeiboNER

打败爱情原来是真的

细节打败爱情原来是

真的

黄忠和先生

现任公司监

刘昊维先生

现任公

Resume

事会职工代表监事

司监事会职工代表

监事

隐痛

替代了

可见癌转移

”,

生成数据中的非实体

部分

怎么治疗

替代了

想买点药吃

”,

说明数据增

强的方法在生成数据时也能生成多样性的非实体部

分数据

同样地

WeiboNER

真实数据中的非

实体部分

裸婚时代

在生成数据中变成了

“30

”,

Resume

真实数据中的

刘昊维

”,

在生成

数据中是

黄忠和

”,

表明数据增强方法在其他数据

集上也能产生多样化的数据

上述分析说明

数据增强的方法在生成数据时

可以生成多样化的句子

不仅表现在实体的多样化

还表现在非实体部分多样化

以此来扩大训练数据

提高命名实体的识别性能

6

结束语

笔者提出了一种基于序列生成对抗网络的数据

增强算法

DA-NER

模型

通过扩大训练集

达到

提高命名实体识别性能的目的

实验结果表明

,DA-

NER

模型可以在不使用外部资源的情况下

生成更

加多样化的训练数据

来扩大数据集

不仅在医学领

而且在其他领域也能提高命名实体的识别性能

未来工作考虑尝试在更大数据集中进行

并和外部

知识库进行结合以提高精度

参考文献

[1]DongChuanhai,ZhangJiajun,ZongChengqing,etal.

CharacterbasedLSTM-CRFwithradical-levelfeaturesfor

Chinesenamedentityrecognition

[C]

NaturalLanguage

UnderstandingandIntelligentApplications-5thConfer-

enceonNaturalLanguageProcessingandChineseCom-

puting

(NLPCC).Kunming:SpringerPress,2016:239-

250.

[2]MaXuezhe,HovyE.End-to-endsequencelabelingvia

Bi-directionalLSTM-CNNs-CRF

[C]

Proceedingsofthe

54thAnnualMeetingoftheAssociationforComputational

Linguistics

(ACL).Berlin:ACL,2016:1064-1074.

[3]WangXuan,ZhangYu,RenXiang,etal.Cross-typebi-

omedicalnamedentityrecognitionwithdeepmulti-task

learning

[J].Bioinformatics,2019,35(10):1745-

1752.

[4]LiLuqi,ZhaoJie,HouLi,etal.Anattention-based

deeplearningmodelforclinicalnamedentityrecognition

ofChineseelectronicmedicalrecords

[J].BMCMedInf

&DecisionMaking

,2019,19(5):4.

[5]WangQi,ZhouYangming,TongRuan,etal.Incorpora-

tingdictionariesintodeepneuralnetworksfortheChinese

90

北京邮电大学学报

clinicalnamedentityrecognition[J].JBiomedInformat-

2019:92.

ics

43

AmericanChapteroftheAssociationforComputational

Linguistics

:HumanLanguageTechnologies(NAACL-

2019:3384-3393.

HLT

).Minneapolis:ACL,

[13]HeJingzhou,WangHoufeng.Chinesenamedentityrec-

C]

ognitionandwordsegmentationbasedoncharacter

ThirdInternationalJointConferenceonNaturalLanguage

Processing

(IJCNLP).Hyderabad:ACL,2008:128-

132.

[14]WuYonghui,JiangMin,LeiJianbo,etal.Namedenti-

[6]CuiZongyong,ZhangMingrui,CaoZongjieetal.Image

dataaugmentationforSARsensorviagenerativeadversar-

ialnets

[J].IEEEAccess,2019,7:42255-42268.

[7]YuLantao,ZhangWeinan,WangJun,etal.Sequence

C]

generativeadversarialnetswithpolicygradient

Pro-

ceedingsoftheThirty-FirstAAAIConferenceonArtificial

Intelligence

(AAAI).SanFrancisco:AAAI,2017:

2852-2858.

[8]ZhangSuxiang,QinYing,WenJuan,etal.Wordseg-

mentationandnamedentityrecognitionforsighanbake-

off3

[C]

ProceedingsoftheFifthSIGHANWorkshopon

ChineseLanguageProcessing.Sydney

:ACL,2006:158-

161.

[9]ChenAitao,PengFuchun,ShanRoy,etal.Chinese

namedentityrecognitionwithconditionalprobabilistic

models

[C]

ProceedingsoftheFifthSIGHANWorkshop

onChineseLanguageProcessing.Sydney

:ACL,2006:

173-176.

[10]CollobertR,WestonJ,BottouL,etal.Naturallan-

guageprocessing

(almost)fromscratch[J].Journalof

MachineLearningResearch

,2011,12:2493-2537.

[11]ZhangYue,YangJie.ChineseNERusinglatticeLSTM

[C]

Proceedingsofthe56thAnnualMeetingofthe

AssociationforComputationalLinguistics

(ACL).Mel-

bourne

:ACL,2018:1554-1564.

[12]ZhuYuying,WangGuoxin.CAN-NER:convolutional

attentionnetworkforChinesenamedentityrecognition

[C]

Proceedingsofthe2019ConferenceoftheNorth

tyrecognitioninChineseclinicaltextusingdeepneural

network

[C]

eHealth-enabledHealth-Proceedingsof

the15thWorldCongressonHealthandBiomedicalIn-

formatics.SaoPaulo

:IOSPress,2015:624-628.

15]WangYifei,AnaniadouS,TsujiiJ.ImproveChinese

clinicalnamedentityrecognitionperformancebyusing

thegraphicalandphoneticfeature

[C]

International

ConferenceonBioinformaticsandBiomedicine

(BIBM).

Madrid

:IEEEPress,2018:1582-1586

16]PengNanyun,DredzeM.Namedentityrecognitionfor

Chinesesocialmediawithjointlytrainedembeddings

[C]

Proceedingsofthe2015ConferenceonEmpirical

MethodsinNaturalLanguageProcessing

(EMNLP).

Lisbon

:ACL,2015:548-554.

17]DevlinJ,ChangMingwei,LeeK,etal.BERT:pre-

trainingofdeepbidirectionaltransformersforlanguage

understanding

[C]

Proceedingsofthe2019Conference

oftheNorthAmericanChapteroftheAssociationfor

ComputationalLinguistics

:HumanLanguageTechnolo-

gies

(NAACL-HLT).Minneapolis:ACL,2019:4171-

4186.


本文标签: 实体 数据 识别 序列 生成