基于数据增强的中文医疗命名实体识别-Linux大棚

admin 管理员组

文章数量: 1184232

2024年6月26日发(作者：英文名shirley和shelly)

2020

年

月

第

卷第

期

北京邮电大学学报

JournalofBeijingUniversityofPostsandTelecommunications

DOI：10．13190/j．jbupt．2020－032

Oct．2020

Vol．43No．5

5321（2020）05-0084-07

文章编号

：1007-

基于数据增强的中文医疗命名实体识别

王蓬辉

，

李明正

，

李思

（

北京邮电大学人工智能学院

，

北京

100876）

摘要

：

由于缺乏大量已标注数据

，

在中文医疗命名实体识别中

，

主要利用外部资源来改善医疗实体识别的性能

，

这

提出了一种基于生成对抗网络的数

需要大量的时间和有效的规则加入外部资源

．

为了解决标注数据不足的问题

，

自动生成大量标注数据

，

提高医疗实体识别的性能

．

实验结果表明

，

该算法在性能方面优于实验中的

据增强算法

，

基准模型

，

证明了该算法在医疗实体识别上的有效性

．

关键词

：

命名实体识别

；

数据增强

；

序列生成对抗网络

文献标志码

：A

中图分类号

：TP181

DataAugmentationforChineseClinicalNamedEntityＲecognition

WANGPeng-hui，LIMing-zheng，LISi

（SchoolofArtificialIntelligence，BeijingUniversityofPostsandTelecommunications，Beijing100876，China）

Abstract：Chineseclinicalnamedentityrecognitionplaysanimportantroleinrecognizingmedicalenti-

tiescontainedinChineseelectronicmedicalrecords．Limitedtolackoflargeannotateddata

，mostofex-

istingmethodsconcentrateonemployingexternalresourcestoimprovetheperformanceofclinicalnamed

entityrecognition

，whichrequirelotsoftimeandefficientrules．Tosolvetheproblemoflackoflargean-

notateddata

，dataaugmentationusingsequenceadversarialgenerativenetworkisusedtogeneratemore

variousdatadependingonentitiesandnon-entitiesinthetrainingset．Experimentsshowthatwhenusing

generateddatatoexpandtrainingset

，theproposednamedentityrecognitionsystemhasachievedcompet-

itiveperformancecomparedwithstate-of-artmethods

，whichshowstheeffectivenessofourdataaugmen-

tationmethod．

Keywords：namedentityrecognition；dataaugmentation；generativeadversarialnetwork

作为信息提取的基本任务

，

命名实体识别

（NEＲ，namedentityrecognition）

在过去几年受到了

例如新闻领域

，

研究人员

广泛关注

．

对于通用领域

，

即人名

、

地名

、

组织机

主要关注

种基本实体类型

，

命名实体识别任务在通用领域中已存

构名

．

目前

，

现有方法利用神经网络提取高效

在大量标注数据

，

达到了良好的实体识别性能

的信息特征

，

［1-2］

于神经网络的命名实体识别过程中

，

基于字符的长

long-shorttermmemorynet-

短期记忆网络

（LSTM，

work

）

［1］

常用于获取丰富的上下文信息

，

卷积神经网

convolutionalneuralnetworks）

［2］

用于提取

络

（CNN，

字符级语义表示

．

在中文医疗文本领域

，

医疗文本中包含了大量

如疾病和解剖结构

．

这些特

医疗领域特有的实体

，

．

在基

03-24

收稿日期

：2020-

基金项目

：

国家自然科学基金项目

（61702047）

作者简介

：

王蓬辉

（1996—），

男

，

硕士生

．

通信作者

：

李

mail：lisi@bupt．edu．cn．

思

（1985—），

女

，

副教授

，E-

第

期王蓬辉等

：

基于数据增强的中文医疗命名实体识别

有实体需要具有医疗知识的人员才可以做准确标

识

，

这使得在医疗领域通常缺乏大量的标注数据

．

因此

，

采用神经网络的方法难以获取高效的信息特

征

，

这使得医疗实体识别的准确度不高

．

近期

，

中文

医疗命名实体识别的研究工作取得了一定的进展

．

这些工作主要从

个方面来改善医疗命名实体识别

的性能

．

一方面

，

修改深度模型的结构

．

多任务的

学习

［3］

被用于综合考虑医疗文本中不同类别的实

体的识别结果

；

注意力机制

［4］

通过赋予不同的字符

以不同的权重

，

来提取文本中更加重要的信息

．

另

一方面

，

引入外部资源

，

以帮助提高命名实体识别的

准确性

．

外部的实体字典通常以额外特征的形式集

成到模型中

［5］

．

此外

，

扩大训练集也是直接改善性

能的方法

［6］

．

但是

，

通过人工标注大量的数据集不

切实际

．

因为在医疗领域

，

对医疗数据进行准确的

标注需要专业的医疗人员

，

这会花费大量的时间和

人力

．

通过分析中文医疗文本数据

，

研究人员发现

，

医

疗文本的表达具有一定的规律性

，

多数医疗实体总

是出现在相似的非实体后面

．

其中

，

非实体指的是

文本中那些不属于预定义的实体类别字符

．

如图

所示

，“

下腹部

”

和

“

中下腹

”

出现在相同的非实体部

分

“

患者因

”

后面

．

因此

，

笔者采用了序列生成网络

，

通过学习医疗文本中实体和非实体部分的关系

，

来

自动生成数据

，

扩大训练集

，

达到提高医疗命名实体

识别性能的目的

．

图

在医疗数据集中的一些实例

笔者提出一种基于序列生成对抗网络的数据增

强算法用于命名实体识别

（DA-NEＲ，dataaugmenta-

tionfornamedentityrecognition

）

模型

，

以缓解命名实

体识别任务中标注数据不足的情况

．DA-NEＲ

模型

的本质是通过对抗生成的方式进行数据增强

，

以减

轻大量标注数据缺乏的影响

．

在

DA-NEＲ

模型中

，

有

个问题需要解决

．

一是生成的文本数据是离散

序列

，

很难将梯度从判别器传递到生成器

．

笔者借

鉴了强化学习

［7］

的思路

，

将判别器的输出作为奖励

来指导生成器

．

二是生成器仅生成句子

，

没有对应

的标签无法用于扩大训练集

．DA-NEＲ

模型采用了

序列生成变换

，

解决了生成数据的标签问题

．

笔者的主要贡献包括

：

①提出了

DA-NEＲ

模

型

，

学习训练集中的实体和非实体之间的关系

，

自动

生成标注数据

，

缓解了缺乏大量已标注医疗数据的

影响

．

②在医疗数据集和其他领域数据集上的实

验结果表明

，

该模型不仅能提升医疗命名实体识别

的性能

，

还可以应用到其他领域

．

相关工作

在研究方法上

，

早期的命名实体识别任务主要

集中在人工设计特征和规则上

，

以实现高性能的命

名实体识别

．Zhang

等

［8］

在进行中文命名实体识别

任务中

，

设计了

种和人名相关的规则来识别中文

人名

．Chen

等

［9］

则引入了三元组和二元组的特征

．

近几年

，

随着深度学习的不断发展

，

神经网络成为解

决命名实体识别任务的主流方法

，

不仅解决了人工

设计特征的问题

，

还提升了命名实体识别的性能

．

在英文命名实体识别方面

，Collobert

等

［10］

采用了

CNN

和条件随机场

（CＲF，conditionalrandomfield）

获得了比人工设计特征更好的模型效果

．

在中文命

名实体识别上

，Zhang

等

［11］

的

Lattice

模型不依赖分

词信息

，

但是可以更加高效地利用词的信息

．Zhu

等

［12］

将

CNN

与注意力机制进行了结合

．

在研究领域上

，

早期的命名实体研究工作主要

专注在新闻等通用领域上

，

其中

等

［13］

采用

CＲF

方法在中文新闻领域的命名实体进行了识别

．

近年

来

，

随着医疗信息化的高速发展

，

针对医疗数据的命

名实体研究工作受到了广泛的关注

．Wu

等

［14］

采用

了无监督学习的方式从未标注的医疗数据中增强字

符表示

，

然后再结合神经网络应用于命名实体识别

．

Wang

等

［15］

采用图像特征和语音特征来增强字符表

示

，

改善了医疗命名实体识别的性能

．

这些方法都

在一定程度上解决了医疗命名实体识别数据缺乏的

问题

．

与之前的方法不同

，

针对医疗数据缺乏的问题

，

笔者采用了序列生成对抗网络

，

通过学习训练集中

实体和非实体部分之间的关系

，

生成多样化的数据

，

提升命名实体识别的性能

．

序列生成变换

在以往的文本生成

［7］

任务中

，

字符常被视为组

成一个完整序列的基本单元

．

生成器通过学习字符

之间的关系

，

生成一个字符序列

｛c

，c

，…，c

｝，c

∈

北京邮电大学学报第

卷

v，

其中

是数据集中所有字符形成的字典

．

但是

，

在命名实体识别数据上如果采用这样的方式进行数

据生成

，

生成器只能生成一些没有标签的序列

．

如

果采用监督学习的方式

，

生成数据无法直接用于扩

大训练数据集

，

进而提升命名实体识别性能

．

为此

，

笔者对生成器的生成过程进行了变换

，

以解决标签

问题

．

笔者对医疗文本进行了分析

．

正如在图

所

示

，

结合命名实体识别任务

，

当考虑句子的实体标签

时

，

医疗文本

“

患者因下腹部隐痛不适

月于

2014-

04-06-

就诊我院门诊

”

包括

个部分

：

解剖部位实体

下腹部

”、

非实体部分

“

患者因

”、“

隐痛不适

月于

2014-04-06

就诊我院门诊

”．

根据字符的标签

，

基于

字符的文本序列可以看成包含实体和非实体部分的

序列

．

那么

，

在命名实体识别数据的生成过程中

，

生

成字符的过程可以看成生成实体和非实体部分的过

程

．

如果采用训练集中的数据来训练生成器生成数

据

，

由于生成数据的实体和非实体部分都来自训练

集

，

那么就可以采用字符串匹配找到其对应的标签

，

这样就解决了生成数据的标签问题

．

为了用实体和非实体部分来表示训练集中的所

有句子

，

首先得构建一个包含实体和非实体的集合

，

给定训练集

S=｛X

1：T

，Y

1：T

｝

其中

和

为数据集中的句子及其标签

；

然后初

始化集合

B=｛｝，

对于训练集中的

｛X

，Y

｝，

根据标

签找到其中的实体和非实体部分

，

然后把它们加入

集合

．

具体来说

，

假设一个文本序列

｛c

，c

，

｝

的标签是

｛O，O，B-PEＲ，I-PEＲ，O，O｝，

可以将

，c

归为非实体部分

，c

归为实体部分

，

然后

将它们和对应的标签加入集合中

．

模型

3.1

模型框架

DA-NEＲ

模型结构如图

所示

．

该模型包含生

成器

、

判别器和

NEＲ

模型

个主要部分

．

3.2

生成器

生成器的目标是学习训练集中实体和非实体之

间的隐藏关系

，

然后生成可以欺骗判别器的数据

，

用

于扩大训练集

．

在生成序列时

，

采用从左向右生成

序列的策略

，

因为这种生成方式符合汉语的习惯

．

生成器从初始状态

开始生成序列

，

直到生成序列

图

2DA-NEＲ

整体模型结构

的长度等于设定的长度才停止

．

其中生成序列的基

本单元来源于训练集中的实体和非实体部分

．

在生成器中

，

先随机初始化一个向量字典

，

用于

查询每个输入基本单元所对应的数值化矩阵

．

生成

器在每个时刻的输出具有一定的时序关系

．

因此

，

笔者采用

LSTM

作为生成器

，

来建立输出单元之间

的时序关系

．

具体来说

，

假设生成器的最终输出序

列是

｛l

，l

，…，l

｝，

其中

是设定的生成序列长

度

，

那么当生成器要预测

时刻的输出时

，

有

=F（h

i－1

，l

i－1

）（1）

p（l

，l

，…，l

i－1

）=softmax（W

）（2）

其中

：h

i－1

为

i－1

时刻生成器中

LSTM

的隐层输出

，

i－1

为

i－1

时刻生成器的输出

，F

为生成器中

LSTM

模块

，W

和

为前馈网络可训练的参数权重

，

采用

i－1

来初始化

时刻的

LSTM

是为了引入前一时刻

的信息

．

然后前馈网络将获取的隐层状态信息映射

成所有可能的输出单元的概率

．softmax

函数用于将

输出的概率归一化

．

最终选择概率最高的单元作为

输出

．

在生成对抗网络中

，

梯度更新对于维持生成器

和判别器之间的平衡十分重要

．

但是

，

在文本生成

中

，

由于生成数据是离散的文本序列

，

这使得梯度更

新无法在生成器和判别器进行传播

．

为了解决这个

问题

，

笔者借鉴序列生成对抗网络

（SeqGAN，se-

quencegenerativeadversarialnets

）

［7］

的思想

，

采用强

化学习的方法解决梯度更新的问题

，

通过判别器的

分数来指导生成器的训练过程

．

图

展示了

Seq-

GAN

的结构

．

判别器作为决策网络

，

状态是生成器

每次生成的数据

，

奖励是判别器的输出

．

判别器每

次接受一个完整的序列输入

，

给出分数

，

来给予生成

器一定的奖励

．

“

第

期王蓬辉等

：

基于数据增强的中文医疗命名实体识别

图

3Seq-GAN

模型结构

在生成序列过程中

，

仅考虑之前时刻状态的影

响是不够的

，

当前时刻的输出对于整个输出序列的

影响也需要考虑进去

．

因此

，

笔者通过蒙特卡洛搜

索中的

roll-out

策略

，

对之后时刻的输出状态进行采

样

，

来考虑当前

时刻的输出对于整个输出序列的

影响

．

对于

时刻之后的输出进行了

次采样

，

有

［（l

12K

，l

，…，l

），（l

，l

，…，l

），…，（l

，l

，…，l

）］=

［（l

，l

，…，l

），K］（3）

其中

：l

为当前时刻的输出

，m

为设定的最大输出序

列长度

，K

为蒙特卡洛搜索的采样次数

，MC

为蒙特

卡洛搜索方法

．

这样

，

生成器每个时刻产生一个输出单元

，

都会

通过采样后形成完整的输出序列

，

然后判别器对完

整序列进行判断

，

给出当前时刻的输出的分数

，

指导

生成器

，

而不是当生成器输出一个完整的序列之后

再进行判断

．i

时刻生成器获得的奖励为

Ｒ

∑

D［（l

，l

，…，l

）］（4）

其中

为判别器函数

．

生成器的目标函数是最大化

期望

，

有

J（

）=

∑

0：i－1

）Ｒ

］（5）

1：i

～

［lbG

（l

其中

：E

1：i

～G

是对生成器输出的序列

1：i

概率求期

望

；G

为生成器函数

，G

（l

0：i－1

）

为生成器在输出

序列为

0：i－1

下输出

的概率

．

3.3

判别器

判别器可以视为一个文本分类模型

，

接收一个

完整的文本序列

，

然后判断该序列是否为真实的数

据

．CNN

因其良好的性能常常被用来构建文本分类

网络

，

故笔者采用了

CNN

构建判别器

．

判别器主要由

CNN

和全连接网络组成

，

其具体

网络结构见图

2．

具体来说

，

给定输入序列为

｛l

，l

，

…，l

｝，

判别器首先将序列中的每个单元即实体或

者非实体部分映射成对应的字符序列

｛c

，c

，…，

｝．

之所以将序列映射成字符序列是因为字符序

列包含更加丰富的字符级别信息

，

有利于判别器判

断序列的真假

．

接着

，

通过字符嵌入

，

可以将每个字符映射成对

应的向量

．

同时生成的数据中还包括字符的实体标

签信息

，

判别器可以结合每个字符的标签信息来判

断字符序列在命名实体识别任务中的合理性

．

在结

合了数据的标签信息后

，

每个字符的表示方式为

=［e

：t

］（6）

其中

：e

为字符

的字向量

，t

为字符

对应的标

签

．CNN

用于提取输入序列的局部特征为

CNN

［x

i－

w－1

：x

w－1

］+b

CNN

（7）

其中

：W

CNN

和

CNN

为卷积核的参数

，w

为卷积核的窗

口大小

．

再采用最大池化操作得到序列为

o=max｛h

ddd

，h

，…，h

｝（8）

最后

，

全连接网络用于将最终的序列表征映射

到判断序列为真假的概率

．

与生成器的目标相反

，

判别器的目标是能够正确判断输入序列是否为真实

数据

，

具体地

，

判别器的目标函数为

max

data

［lbD（l

，l

，…，l

）］+

，l

，…，l

～G

［1－lbD（l

，l

，…，l

）］（9）

其中

和

分别为判别器和生成器的参数

．

3.4NEＲ

模型

借鉴前人的命名实体识别工作

［16］

，LSTM

在命

名实体识别中常用于提取文本特征

，CＲF

则用于特

征提取之后的解码过程

．

笔者也采用

LSTM+CＲF

的模型结构作为

NEＲ

模型

．

与之前模型的不同之

处在于

，NEＲ

模型的输入不仅包括真实数据

，

还包

括生成器的生成数据

．

给定输入序列

｛c

，c

，…，c

｝，NEＲ

模型首先在

预训练的字向量词典中找到每个字符对应的数值化

向量

｛e

，e

，…，e

｝．

然后

LSTM

用于获取每个字符

上下文相关的隐层状态信息

．

前馈神经网络则将

LSTM

输出的隐层状态映射成每个字符的标签概

率

．CＲF

用于建立输出标签之间的相关性和解码得

到最后的标签输出

．

其中

，

标签序列的输出概率定

义为

P（Y|X）=

exp

［s（X，Y）］

∑

exp［s（（X，Y'））］

（

10）

其中

：s

为

CＲF

中的特征函数

，X

为输入序列

，Y

为

真实的标签序列

，Y'

为任意输出的标签序列

．

在模型训练中

，NEＲ

模型的目标是最大化真实

标签序列的概率

，

对应的损失函数为

北京邮电大学学报第

卷

L=－

∑

lbP（Y

）（11）

其中

：N

为训练集中的句子总数

；P（Y

）

为输入文

本序列

时

，NEＲ

模型的预测标签序列为

的条

件概率

．

实验

4.1

数据统计

在实验过程中

，

使用了

个数据集来验证

DA-

NEＲ

数据增强算法在命名实体识别任务上的有效

性

．

为了验证数据增强算法在医疗文本上的有效

性

，

在医疗命名实体识别数据集

CCKS2019

①

和

CMID

②

进行了实验

，

同时为了进一步探究该算法是

否适用于其他领域

，

选取了常用的中文命名实体识

别数据集

WeiboNEＲ

［16］

和

Ｒesume

［11］

，

并且在这些

数据上进行了实验

．4

个数据集的统计结果见表

1．

表

个数据集的数据统计

数据集

数据集句子数

划分

文档数

实体类型

训练集

1000

CCKS2019

开发集

100

疾病

，

症状

，

影像检查

，

解

测试集

400

剖部位

，

药物

，

手术

训练集

9803

CMID

开发集

－

疾病

，

症状

，

影像检查

，

解

测试集

2451

剖部位

，

药物

，

手术

训练集

3821

人名

，

国籍

，

种族

，

教育地

Ｒesume

开发集

463

理位置

，

组织机构

，

专业

，

测试集

477

头衔

训练集

1350

WeiboNEＲ

开发集

270

人名

，

地理位置

，

地缘政

测试集

270

治

，

组织机构

4.2

性能评估

在医疗数据上

，

采用

个基准模型来验证数据

增强方法的有效性

：

一种是基于字符的模型

，

使用的

是基于字符的

LSTM+CＲF

结构

［11］

；

一种是采用

Bert

［17］

作为字符的预训练字向量的模型

．

从表

可知

，

通过数据增强的方式

，DA-NEＲ

模

型取得了比基准模型更好的结果

．

在不使用

Bert

的

情况下

，DA-NEＲ

模型在

CCKS2019

数据集上的

值达到了

81.76%，

在

CMID

数据集上的

值达到了

57.12%，

分别比基准模型高

0.8%

和

0.68%．

在使

用

Bert

的情况下

，DA-NEＲ

模型在

CCKS2019

数据

集上的

值达到了

83.40%，

在

CMID

数据集上的

值达到了

59.31%，

分别比基准模型高

0.65%

和

0.96%．

表

在医疗数据集上的实验结果

数据集方法准确率召回率

值

Baseline

［11］

81.0980.8280.96

DA-NEＲ81.7381.7981.76

CCKS2019

Baseline+Bert81.8283.6982.75

DA-NEＲ+Bert82.5884.2483.40

Baseline

［11］

57.9754.9956.44

DA-NEＲ58.8655.4957.12

CMID

Baseline+Bert58.0158.6958.35

DA-NEＲ+Bert58.2260.4559.31

这些实验结果验证了数据增强的方法在医疗数

据集上的有效性

．

此外

，

笔者针对不同长度的输出单元对医疗命

名实体识别性能的影响进行了研究

．

图

所示为采

用

DA-NEＲ

模型在

CCKS2019

数据集上取得的实

验结果

．

图

不同长度的输出单元下性能的比较

可以看出

，

设置不同长度的输出单元会对命名

实体识别的性能造成影响

，

输出单元设置过长或者

过短都会造成实体识别性能的下降

，

当设置输出单

元的长度为

时

，

医疗命名实体识别的性能最佳

．

4.3

扩展实验

为了探究笔者提出的数据增强方法是否还适用

其他领域

，

研究人员还在

WeiboNEＲ

和

Ｒesume

数

据集上进行了实验

，

其中基于字符的

LSTM+CＲF

模型

［11］

作为基准模型

．

在现有的先进命名实体识

别系统中

，

笔者选择

Lattice

模型

［11］

和

CAN-NEＲ

模

型

［12］

与

DA-NEＲ

模型进行了对比

，

探究数据增强算

①

http：

∥

www．ccks2019．cn/

②

https

：

∥

github．com/liutongyang/CMID

第

期王蓬辉等

：

基于数据增强的中文医疗命名实体识别

法与现有的先进命名实体识别方法是否具有可

比性

．

采用

DA-NEＲ

模型在

WeiboNEＲ

和

Ｒesume

数

据集上的实验分别取得了

59.42%

和

95.28%

的

值

，

性能不仅超越了基准模型

，

而且与

Lattice

模型

和

CAN-NEＲ

模型相比也有提升

，

如表

所示

．

表

3DA-NEＲ

模型在

WeiboNEＲ

和

Ｒesume

上的

实验结果

数据集模型准确率召回率

值

Latticemodel

［11］

－－58.79

CAN-NEＲ

［12］

－－59.31

WeiboNEＲ

Baseline

［11］

－－56.75

DA-NEＲ69.0152.1759.42

Latticemodel

［11］

94.8194.1194.46

CAN-NEＲ

［12］

95.0594.8294.94

Ｒesume

Baseline

［11］

94.5394.2994.41

DA-NEＲ95.2295.3495.28

实例分析

为了进一步分析数据增强方法的有效性

，

笔者

分析了不同数据集上的真实数据和生成数据

，

如表

所示

．

在

CCKS2019

和

CMID

数据集上

，

真实数据

中

“

胃

”、“

直肠癌

”

实体

，

在生成数据中变成了

“

下

腹

”、“

肛瘘

”

实体

，

可见

，

数据增强的方法在生成数

据时可以生成多样性的实体部分的数据

．

在

CCKS

2019

和

CMID

数据集上

，

生成数据中的非实体部分

表

4DA-NEＲ

模型在数据集上的生成数据和

真实数据的例子

数据集生成数据真实数据

下腹壁不均匀增厚伴周围胃壁不均匀增厚伴周

CCKS2019

多发小淋巴结

围多发小淋巴结

网膜淋巴结隐痛

网膜淋巴结可见癌

转移

CMID

最近检查出有高血压

，

怎最近检查出有高血

么治疗压

，

想买点药吃

肛瘘通过哪些方法筛查

直肠癌通过哪些方法

筛查

年前

，

刘易阳说

：

细节

裸婚时代刘易阳说

：

WeiboNEＲ

打败爱情原来是真的

细节打败爱情原来是

真的

黄忠和先生

，

现任公司监

刘昊维先生

，

现任公

Ｒesume

事会职工代表监事

司监事会职工代表

监事

“

隐痛

”

替代了

“

可见癌转移

”，

生成数据中的非实体

部分

“

怎么治疗

”

替代了

“

想买点药吃

”，

说明数据增

强的方法在生成数据时也能生成多样性的非实体部

分数据

．

同样地

，

在

WeiboNEＲ

上

，

真实数据中的非

实体部分

“

裸婚时代

”

在生成数据中变成了

“30

年

前

”，

在

Ｒesume

上

，

真实数据中的

“

刘昊维

”，

在生成

数据中是

“

黄忠和

”，

表明数据增强方法在其他数据

集上也能产生多样化的数据

．

上述分析说明

，

数据增强的方法在生成数据时

可以生成多样化的句子

，

不仅表现在实体的多样化

，

还表现在非实体部分多样化

，

以此来扩大训练数据

集

，

提高命名实体的识别性能

．

结束语

笔者提出了一种基于序列生成对抗网络的数据

增强算法

，

即

DA-NEＲ

模型

，

通过扩大训练集

，

达到

提高命名实体识别性能的目的

．

实验结果表明

，DA-

NEＲ

模型可以在不使用外部资源的情况下

，

生成更

加多样化的训练数据

，

来扩大数据集

，

不仅在医学领

域

，

而且在其他领域也能提高命名实体的识别性能

．

未来工作考虑尝试在更大数据集中进行

，

并和外部

知识库进行结合以提高精度

．

参考文献

：

［1］DongChuanhai，ZhangJiajun，ZongChengqing，etal．

CharacterbasedLSTM-CＲFwithradical-levelfeaturesfor

Chinesenamedentityrecognition

［C］

∥

NaturalLanguage

UnderstandingandIntelligentApplications-5thConfer-

enceonNaturalLanguageProcessingandChineseCom-

puting

（NLPCC）．Kunming：SpringerPress，2016：239-

250．

［2］MaXuezhe，HovyE．End-to-endsequencelabelingvia

Bi-directionalLSTM-CNNs-CＲF

［C］

∥

Proceedingsofthe

54thAnnualMeetingoftheAssociationforComputational

Linguistics

（ACL）．Berlin：ACL，2016：1064-1074．

［3］WangXuan，ZhangYu，ＲenXiang，etal．Cross-typebi-

omedicalnamedentityrecognitionwithdeepmulti-task

learning

［J］．Bioinformatics，2019，35（10）：1745-

1752．

［4］LiLuqi，ZhaoJie，HouLi，etal．Anattention-based

deeplearningmodelforclinicalnamedentityrecognition

ofChineseelectronicmedicalrecords

［J］．BMCMedInf

＆DecisionMaking

，2019，19（5）：4．

［5］WangQi，ZhouYangming，TongＲuan，etal．Incorpora-

tingdictionariesintodeepneuralnetworksfortheChinese

北京邮电大学学报

clinicalnamedentityrecognition［J］．JBiomedInformat-

2019：92．

ics

，

第

卷

AmericanChapteroftheAssociationforComputational

Linguistics

：HumanLanguageTechnologies（NAACL-

2019：3384-3393．

HLT

）．Minneapolis：ACL，

［13］HeJingzhou，WangHoufeng．Chinesenamedentityrec-

C］

ognitionandwordsegmentationbasedoncharacter

［

∥

ThirdInternationalJointConferenceonNaturalLanguage

Processing

（IJCNLP）．Hyderabad：ACL，2008：128-

132．

［14］WuYonghui，JiangMin，LeiJianbo，etal．Namedenti-

［6］CuiZongyong，ZhangMingrui，CaoZongjieetal．Image

dataaugmentationforSAＲsensorviagenerativeadversar-

ialnets

［J］．IEEEAccess，2019，7：42255-42268．

［7］YuLantao，ZhangWeinan，WangJun，etal．Sequence

C］

generativeadversarialnetswithpolicygradient

［

∥

Pro-

ceedingsoftheThirty-FirstAAAIConferenceonArtificial

Intelligence

（AAAI）．SanFrancisco：AAAI，2017：

2852-2858．

［8］ZhangSuxiang，QinYing，WenJuan，etal．Wordseg-

mentationandnamedentityrecognitionforsighanbake-

off3

［C］

∥

ProceedingsoftheFifthSIGHANWorkshopon

ChineseLanguageProcessing．Sydney

：ACL，2006：158-

161．

［9］ChenAitao，PengFuchun，ShanＲoy，etal．Chinese

namedentityrecognitionwithconditionalprobabilistic

models

［C］

∥

ProceedingsoftheFifthSIGHANWorkshop

onChineseLanguageProcessing．Sydney

：ACL，2006：

173-176．

［10］CollobertＲ，WestonJ，BottouL，etal．Naturallan-

guageprocessing

（almost）fromscratch［J］．Journalof

MachineLearningＲesearch

，2011，12：2493-2537．

［11］ZhangYue，YangJie．ChineseNEＲusinglatticeLSTM

［C］

∥

Proceedingsofthe56thAnnualMeetingofthe

AssociationforComputationalLinguistics

（ACL）．Mel-

bourne

：ACL，2018：1554-1564．

［12］ZhuYuying，WangGuoxin．CAN-NEＲ：convolutional

attentionnetworkforChinesenamedentityrecognition

［C］

∥

Proceedingsofthe2019ConferenceoftheNorth

tyrecognitioninChineseclinicaltextusingdeepneural

network

［C］

∥

eHealth-enabledHealth-Proceedingsof

the15thWorldCongressonHealthandBiomedicalIn-

formatics．SaoPaulo

：IOSPress，2015：624-628．

15］WangYifei，AnaniadouS，TsujiiJ．ImproveChinese

clinicalnamedentityrecognitionperformancebyusing

thegraphicalandphoneticfeature

［C］

∥

International

ConferenceonBioinformaticsandBiomedicine

（BIBM）．

Madrid

：IEEEPress，2018：1582-1586

16］PengNanyun，DredzeM．Namedentityrecognitionfor

Chinesesocialmediawithjointlytrainedembeddings

［C］

∥

Proceedingsofthe2015ConferenceonEmpirical

MethodsinNaturalLanguageProcessing

（EMNLP）．

Lisbon

：ACL，2015：548-554．

17］DevlinJ，ChangMingwei，LeeK，etal．BEＲT：pre-

trainingofdeepbidirectionaltransformersforlanguage

understanding

［C］

∥

Proceedingsofthe2019Conference

oftheNorthAmericanChapteroftheAssociationfor

ComputationalLinguistics

：HumanLanguageTechnolo-

gies

（NAACL-HLT）．Minneapolis：ACL，2019：4171-

4186．

［

本文标签：实体数据识别序列生成

版权声明：本文标题：基于数据增强的中文医疗命名实体识别内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1719384099a735287.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于数据增强的中文医疗命名实体识别

更多相关文章

只需一步！叶子自动备份工具帮您实现SWF文件安全存储和快速恢复

一文详解：如何通过4K对齐技术优化你的SSD性能

一文读懂：深入剖析bin、hex及axf格式，揭秘它们在嵌入式开发领域的奥秘

一文在手，闪退不愁：利用Dump文件快速定位Adobe Flash Player故障点

解析DMP转储文件的奥秘：解锁数据宝藏的关键

Flash控必学：Windows下dump文件的生成及剖析攻略！

一学就会：DMP转储文件的简易操作指南

GIS新知：快速上手指南带你玩转空间数据处理

NRG文件编辑之旅：从基础知识到进阶技能全面梳理

掌握Qt剪贴板操作：让你的程序也能复制粘贴

西瓜病害识别不再是挑战，AI技术让农业管理更智能、更高效！

ASF文件格式入门：让Flash内容制作更加高效与流畅

NRG文件不再难：Flash开发者指南与实战技巧

Mac小白也能学会：深度清理系统垃圾，加速效率

机械硬盘损坏，数据还能起死回生吗？揭秘数据恢复秘籍

Windows应用数据开发实战：Windows 8环境下轻松上手

Adobe Flash Player与SWF：一段从技术到应用的旅程

深入I.MX6U：Linux启动方式的实战指南

VS2010下生成dll的方法(更新)_vs2010 dll

深度学习驱动的穿越火线：基于YOLO的目标检测_游戏 目标检测

发表评论

推荐文章

Windows 11 Consumer Edition：深度解析，解锁更多功能

购电脑大学生秘籍：防骗全攻略+火绒软件，值得拥吗？

UWP应用的终极挑战：如何实现跨设备数据共享

windows系统修复？【图文详解】windows系统修复命令行？系统内置修复工具？

torch显存分析——如何在不关闭进程的情况下释放显存

热门文章

联想z400成功带起外置显卡gtx1050_prr.exe

SpeedFan：硬件监控与风扇调速的全能神器_speedfan怎么设置风扇速度

【亲测免费】 TeamViewer14 与安装教程

文件或目录损坏的磁盘修复方法_硬盘目录修复

最新最简单的黑苹果Mac Windows双系统教程（单双系统通用）_苹果windows双系统

针对此次iTunes12.1升级导致第三方用不了的解决方案_itunes 12.1

TP-Link路由器桥接设置_tplink不同型号的路由器可以无线桥接吗

Swift-All小白教程：快速部署大模型，解决环境配置难题

屏蔽PrintScreen键_华为电脑js监听不到prtsc

小小操作，大大改变！如何在设置中轻松实现电脑系统还原？

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

深度学习驱动的穿越火线：基于YOLO的目标检测_游戏目标检测