admin 管理员组文章数量: 1184232
2024年6月26日发(作者:英文名shirley和shelly)
2020
年
10
月
第
43
卷第
5
期
北京邮电大学学报
JournalofBeijingUniversityofPostsandTelecommunications
DOI:10.13190/j.jbupt.2020-032
Oct.2020
Vol.43No.5
5321(2020)05-0084-07
文章编号
:1007-
基于数据增强的中文医疗命名实体识别
王蓬辉
,
李明正
,
李思
(
北京邮电大学人工智能学院
,
北京
100876)
摘要
:
由于缺乏大量已标注数据
,
在中文医疗命名实体识别中
,
主要利用外部资源来改善医疗实体识别的性能
,
这
提出了一种基于生成对抗网络的数
需要大量的时间和有效的规则加入外部资源
.
为了解决标注数据不足的问题
,
自动生成大量标注数据
,
提高医疗实体识别的性能
.
实验结果表明
,
该算法在性能方面优于实验中的
据增强算法
,
基准模型
,
证明了该算法在医疗实体识别上的有效性
.
关键词
:
命名实体识别
;
数据增强
;
序列生成对抗网络
文献标志码
:A
中图分类号
:TP181
DataAugmentationforChineseClinicalNamedEntityRecognition
WANGPeng-hui,LIMing-zheng,LISi
(SchoolofArtificialIntelligence,BeijingUniversityofPostsandTelecommunications,Beijing100876,China)
Abstract:Chineseclinicalnamedentityrecognitionplaysanimportantroleinrecognizingmedicalenti-
tiescontainedinChineseelectronicmedicalrecords.Limitedtolackoflargeannotateddata
,mostofex-
istingmethodsconcentrateonemployingexternalresourcestoimprovetheperformanceofclinicalnamed
entityrecognition
,whichrequirelotsoftimeandefficientrules.Tosolvetheproblemoflackoflargean-
notateddata
,dataaugmentationusingsequenceadversarialgenerativenetworkisusedtogeneratemore
variousdatadependingonentitiesandnon-entitiesinthetrainingset.Experimentsshowthatwhenusing
generateddatatoexpandtrainingset
,theproposednamedentityrecognitionsystemhasachievedcompet-
itiveperformancecomparedwithstate-of-artmethods
,whichshowstheeffectivenessofourdataaugmen-
tationmethod.
Keywords:namedentityrecognition;dataaugmentation;generativeadversarialnetwork
作为信息提取的基本任务
,
命名实体识别
(NER,namedentityrecognition)
在过去几年受到了
例如新闻领域
,
研究人员
广泛关注
.
对于通用领域
,
即人名
、
地名
、
组织机
主要关注
3
种基本实体类型
,
命名实体识别任务在通用领域中已存
构名
.
目前
,
现有方法利用神经网络提取高效
在大量标注数据
,
达到了良好的实体识别性能
的信息特征
,
[1-2]
于神经网络的命名实体识别过程中
,
基于字符的长
long-shorttermmemorynet-
短期记忆网络
(LSTM,
work
)
[1]
常用于获取丰富的上下文信息
,
卷积神经网
convolutionalneuralnetworks)
[2]
用于提取
络
(CNN,
字符级语义表示
.
在中文医疗文本领域
,
医疗文本中包含了大量
如疾病和解剖结构
.
这些特
医疗领域特有的实体
,
.
在基
03-24
收稿日期
:2020-
基金项目
:
国家自然科学基金项目
(61702047)
作者简介
:
王蓬辉
(1996—),
男
,
硕士生
.
通信作者
:
李
mail:lisi@bupt.edu.cn.
思
(1985—),
女
,
副教授
,E-
第
5
期王蓬辉等
:
基于数据增强的中文医疗命名实体识别
85
有实体需要具有医疗知识的人员才可以做准确标
识
,
这使得在医疗领域通常缺乏大量的标注数据
.
因此
,
采用神经网络的方法难以获取高效的信息特
征
,
这使得医疗实体识别的准确度不高
.
近期
,
中文
医疗命名实体识别的研究工作取得了一定的进展
.
这些工作主要从
2
个方面来改善医疗命名实体识别
的性能
.
一方面
,
修改深度模型的结构
.
多任务的
学习
[3]
被用于综合考虑医疗文本中不同类别的实
体的识别结果
;
注意力机制
[4]
通过赋予不同的字符
以不同的权重
,
来提取文本中更加重要的信息
.
另
一方面
,
引入外部资源
,
以帮助提高命名实体识别的
准确性
.
外部的实体字典通常以额外特征的形式集
成到模型中
[5]
.
此外
,
扩大训练集也是直接改善性
能的方法
[6]
.
但是
,
通过人工标注大量的数据集不
切实际
.
因为在医疗领域
,
对医疗数据进行准确的
标注需要专业的医疗人员
,
这会花费大量的时间和
人力
.
通过分析中文医疗文本数据
,
研究人员发现
,
医
疗文本的表达具有一定的规律性
,
多数医疗实体总
是出现在相似的非实体后面
.
其中
,
非实体指的是
文本中那些不属于预定义的实体类别字符
.
如图
1
所示
,“
下腹部
”
和
“
中下腹
”
出现在相同的非实体部
分
“
患者因
”
后面
.
因此
,
笔者采用了序列生成网络
,
通过学习医疗文本中实体和非实体部分的关系
,
来
自动生成数据
,
扩大训练集
,
达到提高医疗命名实体
识别性能的目的
.
图
1
在医疗数据集中的一些实例
笔者提出一种基于序列生成对抗网络的数据增
强算法用于命名实体识别
(DA-NER,dataaugmenta-
tionfornamedentityrecognition
)
模型
,
以缓解命名实
体识别任务中标注数据不足的情况
.DA-NER
模型
的本质是通过对抗生成的方式进行数据增强
,
以减
轻大量标注数据缺乏的影响
.
在
DA-NER
模型中
,
有
2
个问题需要解决
.
一是生成的文本数据是离散
序列
,
很难将梯度从判别器传递到生成器
.
笔者借
鉴了强化学习
[7]
的思路
,
将判别器的输出作为奖励
来指导生成器
.
二是生成器仅生成句子
,
没有对应
的标签无法用于扩大训练集
.DA-NER
模型采用了
序列生成变换
,
解决了生成数据的标签问题
.
笔者的主要贡献包括
:
①提出了
DA-NER
模
型
,
学习训练集中的实体和非实体之间的关系
,
自动
生成标注数据
,
缓解了缺乏大量已标注医疗数据的
影响
.
②在医疗数据集和其他领域数据集上的实
验结果表明
,
该模型不仅能提升医疗命名实体识别
的性能
,
还可以应用到其他领域
.
1
相关工作
在研究方法上
,
早期的命名实体识别任务主要
集中在人工设计特征和规则上
,
以实现高性能的命
名实体识别
.Zhang
等
[8]
在进行中文命名实体识别
任务中
,
设计了
7
种和人名相关的规则来识别中文
人名
.Chen
等
[9]
则引入了三元组和二元组的特征
.
近几年
,
随着深度学习的不断发展
,
神经网络成为解
决命名实体识别任务的主流方法
,
不仅解决了人工
设计特征的问题
,
还提升了命名实体识别的性能
.
在英文命名实体识别方面
,Collobert
等
[10]
采用了
CNN
和条件随机场
(CRF,conditionalrandomfield)
获得了比人工设计特征更好的模型效果
.
在中文命
名实体识别上
,Zhang
等
[11]
的
Lattice
模型不依赖分
词信息
,
但是可以更加高效地利用词的信息
.Zhu
等
[12]
将
CNN
与注意力机制进行了结合
.
在研究领域上
,
早期的命名实体研究工作主要
专注在新闻等通用领域上
,
其中
He
等
[13]
采用
CRF
方法在中文新闻领域的命名实体进行了识别
.
近年
来
,
随着医疗信息化的高速发展
,
针对医疗数据的命
名实体研究工作受到了广泛的关注
.Wu
等
[14]
采用
了无监督学习的方式从未标注的医疗数据中增强字
符表示
,
然后再结合神经网络应用于命名实体识别
.
Wang
等
[15]
采用图像特征和语音特征来增强字符表
示
,
改善了医疗命名实体识别的性能
.
这些方法都
在一定程度上解决了医疗命名实体识别数据缺乏的
问题
.
与之前的方法不同
,
针对医疗数据缺乏的问题
,
笔者采用了序列生成对抗网络
,
通过学习训练集中
实体和非实体部分之间的关系
,
生成多样化的数据
,
提升命名实体识别的性能
.
2
序列生成变换
在以往的文本生成
[7]
任务中
,
字符常被视为组
成一个完整序列的基本单元
.
生成器通过学习字符
之间的关系
,
生成一个字符序列
{c
1
,c
2
,…,c
n
},c
i
∈
86
北京邮电大学学报第
43
卷
v,
其中
v
是数据集中所有字符形成的字典
.
但是
,
在命名实体识别数据上如果采用这样的方式进行数
据生成
,
生成器只能生成一些没有标签的序列
.
如
果采用监督学习的方式
,
生成数据无法直接用于扩
大训练数据集
,
进而提升命名实体识别性能
.
为此
,
笔者对生成器的生成过程进行了变换
,
以解决标签
问题
.
笔者对医疗文本进行了分析
.
正如在图
1
所
示
,
结合命名实体识别任务
,
当考虑句子的实体标签
时
,
医疗文本
“
患者因下腹部隐痛不适
3
月于
2014-
04-06-
就诊我院门诊
”
包括
3
个部分
:
解剖部位实体
下腹部
”、
非实体部分
“
患者因
”、“
隐痛不适
3
月于
2014-04-06
就诊我院门诊
”.
根据字符的标签
,
基于
字符的文本序列可以看成包含实体和非实体部分的
序列
.
那么
,
在命名实体识别数据的生成过程中
,
生
成字符的过程可以看成生成实体和非实体部分的过
程
.
如果采用训练集中的数据来训练生成器生成数
据
,
由于生成数据的实体和非实体部分都来自训练
集
,
那么就可以采用字符串匹配找到其对应的标签
,
这样就解决了生成数据的标签问题
.
为了用实体和非实体部分来表示训练集中的所
有句子
,
首先得构建一个包含实体和非实体的集合
,
给定训练集
S={X
1:T
,Y
1:T
}
其中
X
1
和
Y
1
为数据集中的句子及其标签
;
然后初
始化集合
B={},
对于训练集中的
{X
t
,Y
t
},
根据标
签找到其中的实体和非实体部分
,
然后把它们加入
集合
.
具体来说
,
假设一个文本序列
{c
1
,c
2
,c
3
,c
4
,c
5
,
c
6
}
的标签是
{O,O,B-PER,I-PER,O,O},
可以将
c
1
c
2
,c
5
c
6
归为非实体部分
,c
3
c
4
归为实体部分
,
然后
将它们和对应的标签加入集合中
.
3
模型
3.1
模型框架
DA-NER
模型结构如图
2
所示
.
该模型包含生
成器
、
判别器和
NER
模型
3
个主要部分
.
3.2
生成器
生成器的目标是学习训练集中实体和非实体之
间的隐藏关系
,
然后生成可以欺骗判别器的数据
,
用
于扩大训练集
.
在生成序列时
,
采用从左向右生成
序列的策略
,
因为这种生成方式符合汉语的习惯
.
生成器从初始状态
l
0
开始生成序列
,
直到生成序列
图
2DA-NER
整体模型结构
的长度等于设定的长度才停止
.
其中生成序列的基
本单元来源于训练集中的实体和非实体部分
.
在生成器中
,
先随机初始化一个向量字典
,
用于
查询每个输入基本单元所对应的数值化矩阵
.
生成
器在每个时刻的输出具有一定的时序关系
.
因此
,
笔者采用
LSTM
作为生成器
,
来建立输出单元之间
的时序关系
.
具体来说
,
假设生成器的最终输出序
列是
{l
1
,l
2
,…,l
m
},
其中
m
是设定的生成序列长
度
,
那么当生成器要预测
i
时刻的输出时
,
有
h
gg
i
=F(h
i-1
,l
i-1
)(1)
p(l
i
|l
0
,l
1
,…,l
i-1
)=softmax(W
f
h
g
i
+b
f
)(2)
其中
:h
g
i-1
为
i-1
时刻生成器中
LSTM
的隐层输出
,
l
i-1
为
i-1
时刻生成器的输出
,F
为生成器中
LSTM
模块
,W
f
和
b
f
为前馈网络可训练的参数权重
,
采用
h
g
i-1
来初始化
i
时刻的
LSTM
是为了引入前一时刻
的信息
.
然后前馈网络将获取的隐层状态信息映射
成所有可能的输出单元的概率
.softmax
函数用于将
输出的概率归一化
.
最终选择概率最高的单元作为
输出
.
在生成对抗网络中
,
梯度更新对于维持生成器
和判别器之间的平衡十分重要
.
但是
,
在文本生成
中
,
由于生成数据是离散的文本序列
,
这使得梯度更
新无法在生成器和判别器进行传播
.
为了解决这个
问题
,
笔者借鉴序列生成对抗网络
(SeqGAN,se-
quencegenerativeadversarialnets
)
[7]
的思想
,
采用强
化学习的方法解决梯度更新的问题
,
通过判别器的
分数来指导生成器的训练过程
.
图
3
展示了
Seq-
GAN
的结构
.
判别器作为决策网络
,
状态是生成器
每次生成的数据
,
奖励是判别器的输出
.
判别器每
次接受一个完整的序列输入
,
给出分数
,
来给予生成
器一定的奖励
.
“
第
5
期王蓬辉等
:
基于数据增强的中文医疗命名实体识别
87
图
3Seq-GAN
模型结构
在生成序列过程中
,
仅考虑之前时刻状态的影
响是不够的
,
当前时刻的输出对于整个输出序列的
影响也需要考虑进去
.
因此
,
笔者通过蒙特卡洛搜
索中的
roll-out
策略
,
对之后时刻的输出状态进行采
样
,
来考虑当前
i
时刻的输出对于整个输出序列的
影响
.
对于
i
时刻之后的输出进行了
K
次采样
,
有
[(l
12K
1
,l
2
,…,l
m
),(l
1
,l
2
,…,l
m
),…,(l
1
,l
2
,…,l
m
)]=
MC
[(l
1
,l
2
,…,l
i
),K](3)
其中
:l
i
为当前时刻的输出
,m
为设定的最大输出序
列长度
,K
为蒙特卡洛搜索的采样次数
,MC
为蒙特
卡洛搜索方法
.
这样
,
生成器每个时刻产生一个输出单元
,
都会
通过采样后形成完整的输出序列
,
然后判别器对完
整序列进行判断
,
给出当前时刻的输出的分数
,
指导
生成器
,
而不是当生成器输出一个完整的序列之后
再进行判断
.i
时刻生成器获得的奖励为
K
R
i
=
1
K
∑
D[(l
1
,l
2
,…,l
K
m
)](4)
k=
0
其中
D
为判别器函数
.
生成器的目标函数是最大化
期望
,
有
m
J(
θ
)=
∑
E
lG
l
0:i-1
)R
i
](5)
i=
1
1:i
~
θ
[lbG
θ
(l
i
|
其中
:E
l
1:i
~G
θ
是对生成器输出的序列
l
1:i
概率求期
望
;G
θ
为生成器函数
,G
θ
(l
i
|l
0:i-1
)
为生成器在输出
序列为
l
0:i-1
下输出
l
i
的概率
.
3.3
判别器
判别器可以视为一个文本分类模型
,
接收一个
完整的文本序列
,
然后判断该序列是否为真实的数
据
.CNN
因其良好的性能常常被用来构建文本分类
网络
,
故笔者采用了
CNN
构建判别器
.
判别器主要由
CNN
和全连接网络组成
,
其具体
网络结构见图
2.
具体来说
,
给定输入序列为
{l
1
,l
2
,
…,l
m
},
判别器首先将序列中的每个单元即实体或
者非实体部分映射成对应的字符序列
{c
1
,c
2
,…,
c
n
}.
之所以将序列映射成字符序列是因为字符序
列包含更加丰富的字符级别信息
,
有利于判别器判
断序列的真假
.
接着
,
通过字符嵌入
,
可以将每个字符映射成对
应的向量
.
同时生成的数据中还包括字符的实体标
签信息
,
判别器可以结合每个字符的标签信息来判
断字符序列在命名实体识别任务中的合理性
.
在结
合了数据的标签信息后
,
每个字符的表示方式为
x
i
=[e
c
i
:t
i
](6)
其中
:e
c
i
为字符
c
i
的字向量
,t
i
为字符
c
i
对应的标
签
.CNN
用于提取输入序列的局部特征为
h
d
=W
T
CNN
[x
i-
w-1
2
:x
i+
w-1
2
]+b
T
i
CNN
(7)
其中
:W
TT
CNN
和
b
CNN
为卷积核的参数
,w
为卷积核的窗
口大小
.
再采用最大池化操作得到序列为
o=max{h
ddd
1
,h
2
,…,h
m
}(8)
最后
,
全连接网络用于将最终的序列表征映射
到判断序列为真假的概率
.
与生成器的目标相反
,
判别器的目标是能够正确判断输入序列是否为真实
数据
,
具体地
,
判别器的目标函数为
max
D
E
p
data
[lbD(l
1
,l
2
,…,l
m
)]+
φ
E
l
1
,l
2
,…,l
m
~G
θ
[1-lbD(l
1
,l
2
,…,l
m
)](9)
其中
D
φ
和
G
θ
分别为判别器和生成器的参数
.
3.4NER
模型
借鉴前人的命名实体识别工作
[16]
,LSTM
在命
名实体识别中常用于提取文本特征
,CRF
则用于特
征提取之后的解码过程
.
笔者也采用
LSTM+CRF
的模型结构作为
NER
模型
.
与之前模型的不同之
处在于
,NER
模型的输入不仅包括真实数据
,
还包
括生成器的生成数据
.
给定输入序列
{c
1
,c
2
,…,c
n
},NER
模型首先在
预训练的字向量词典中找到每个字符对应的数值化
向量
{e
1
,e
2
,…,e
n
}.
然后
LSTM
用于获取每个字符
上下文相关的隐层状态信息
.
前馈神经网络则将
LSTM
输出的隐层状态映射成每个字符的标签概
率
.CRF
用于建立输出标签之间的相关性和解码得
到最后的标签输出
.
其中
,
标签序列的输出概率定
义为
P(Y|X)=
exp
[s(X,Y)]
∑
exp[s((X,Y'))]
(
10)
Y'
其中
:s
为
CRF
中的特征函数
,X
为输入序列
,Y
为
真实的标签序列
,Y'
为任意输出的标签序列
.
在模型训练中
,NER
模型的目标是最大化真实
标签序列的概率
,
对应的损失函数为
88
北京邮电大学学报第
43
卷
N
L=-
∑
lbP(Y
i
|X
i
)(11)
i=
0
其中
:N
为训练集中的句子总数
;P(Y
i
|X
i
)
为输入文
本序列
X
i
时
,NER
模型的预测标签序列为
Y
i
的条
件概率
.
4
实验
4.1
数据统计
在实验过程中
,
使用了
4
个数据集来验证
DA-
NER
数据增强算法在命名实体识别任务上的有效
性
.
为了验证数据增强算法在医疗文本上的有效
性
,
在医疗命名实体识别数据集
CCKS2019
①
和
CMID
②
进行了实验
,
同时为了进一步探究该算法是
否适用于其他领域
,
选取了常用的中文命名实体识
别数据集
WeiboNER
[16]
和
Resume
[11]
,
并且在这些
数据上进行了实验
.4
个数据集的统计结果见表
1.
表
14
个数据集的数据统计
数据集
数据集句子数
/
划分
文档数
实体类型
训练集
1000
CCKS2019
开发集
100
疾病
,
症状
,
影像检查
,
解
测试集
400
剖部位
,
药物
,
手术
训练集
9803
CMID
开发集
-
疾病
,
症状
,
影像检查
,
解
测试集
2451
剖部位
,
药物
,
手术
训练集
3821
人名
,
国籍
,
种族
,
教育地
Resume
开发集
463
理位置
,
组织机构
,
专业
,
测试集
477
头衔
训练集
1350
WeiboNER
开发集
270
人名
,
地理位置
,
地缘政
测试集
270
治
,
组织机构
4.2
性能评估
在医疗数据上
,
采用
2
个基准模型来验证数据
增强方法的有效性
:
一种是基于字符的模型
,
使用的
是基于字符的
LSTM+CRF
结构
[11]
;
一种是采用
Bert
[17]
作为字符的预训练字向量的模型
.
从表
2
可知
,
通过数据增强的方式
,DA-NER
模
型取得了比基准模型更好的结果
.
在不使用
Bert
的
情况下
,DA-NER
模型在
CCKS2019
数据集上的
F
值达到了
81.76%,
在
CMID
数据集上的
F
值达到了
57.12%,
分别比基准模型高
0.8%
和
0.68%.
在使
用
Bert
的情况下
,DA-NER
模型在
CCKS2019
数据
集上的
F
值达到了
83.40%,
在
CMID
数据集上的
F
值达到了
59.31%,
分别比基准模型高
0.65%
和
0.96%.
表
2
在医疗数据集上的实验结果
数据集方法准确率召回率
F
值
Baseline
[11]
81.0980.8280.96
DA-NER81.7381.7981.76
CCKS2019
Baseline+Bert81.8283.6982.75
DA-NER+Bert82.5884.2483.40
Baseline
[11]
57.9754.9956.44
DA-NER58.8655.4957.12
CMID
Baseline+Bert58.0158.6958.35
DA-NER+Bert58.2260.4559.31
这些实验结果验证了数据增强的方法在医疗数
据集上的有效性
.
此外
,
笔者针对不同长度的输出单元对医疗命
名实体识别性能的影响进行了研究
.
图
4
所示为采
用
DA-NER
模型在
CCKS2019
数据集上取得的实
验结果
.
图
4
不同长度的输出单元下性能的比较
可以看出
,
设置不同长度的输出单元会对命名
实体识别的性能造成影响
,
输出单元设置过长或者
过短都会造成实体识别性能的下降
,
当设置输出单
元的长度为
5
时
,
医疗命名实体识别的性能最佳
.
4.3
扩展实验
为了探究笔者提出的数据增强方法是否还适用
其他领域
,
研究人员还在
WeiboNER
和
Resume
数
据集上进行了实验
,
其中基于字符的
LSTM+CRF
模型
[11]
作为基准模型
.
在现有的先进命名实体识
别系统中
,
笔者选择
Lattice
模型
[11]
和
CAN-NER
模
型
[12]
与
DA-NER
模型进行了对比
,
探究数据增强算
①
http:
∥
www.ccks2019.cn/
②
https
:
∥
github.com/liutongyang/CMID
第
5
期王蓬辉等
:
基于数据增强的中文医疗命名实体识别
89
法与现有的先进命名实体识别方法是否具有可
比性
.
采用
DA-NER
模型在
WeiboNER
和
Resume
数
据集上的实验分别取得了
59.42%
和
95.28%
的
F
值
,
性能不仅超越了基准模型
,
而且与
Lattice
模型
和
CAN-NER
模型相比也有提升
,
如表
3
所示
.
表
3DA-NER
模型在
WeiboNER
和
Resume
上的
实验结果
数据集模型准确率召回率
F
值
Latticemodel
[11]
--58.79
CAN-NER
[12]
--59.31
WeiboNER
Baseline
[11]
--56.75
DA-NER69.0152.1759.42
Latticemodel
[11]
94.8194.1194.46
CAN-NER
[12]
95.0594.8294.94
Resume
Baseline
[11]
94.5394.2994.41
DA-NER95.2295.3495.28
5
实例分析
为了进一步分析数据增强方法的有效性
,
笔者
分析了不同数据集上的真实数据和生成数据
,
如表
4
所示
.
在
CCKS2019
和
CMID
数据集上
,
真实数据
中
“
胃
”、“
直肠癌
”
实体
,
在生成数据中变成了
“
下
腹
”、“
肛瘘
”
实体
,
可见
,
数据增强的方法在生成数
据时可以生成多样性的实体部分的数据
.
在
CCKS
2019
和
CMID
数据集上
,
生成数据中的非实体部分
表
4DA-NER
模型在数据集上的生成数据和
真实数据的例子
数据集生成数据真实数据
下腹壁不均匀增厚伴周围胃壁不均匀增厚伴周
CCKS2019
多发小淋巴结
围多发小淋巴结
网膜淋巴结隐痛
网膜淋巴结可见癌
转移
CMID
最近检查出有高血压
,
怎最近检查出有高血
么治疗压
,
想买点药吃
肛瘘通过哪些方法筛查
直肠癌通过哪些方法
筛查
30
年前
,
刘易阳说
:
细节
裸婚时代刘易阳说
:
WeiboNER
打败爱情原来是真的
细节打败爱情原来是
真的
黄忠和先生
,
现任公司监
刘昊维先生
,
现任公
Resume
事会职工代表监事
司监事会职工代表
监事
“
隐痛
”
替代了
“
可见癌转移
”,
生成数据中的非实体
部分
“
怎么治疗
”
替代了
“
想买点药吃
”,
说明数据增
强的方法在生成数据时也能生成多样性的非实体部
分数据
.
同样地
,
在
WeiboNER
上
,
真实数据中的非
实体部分
“
裸婚时代
”
在生成数据中变成了
“30
年
前
”,
在
Resume
上
,
真实数据中的
“
刘昊维
”,
在生成
数据中是
“
黄忠和
”,
表明数据增强方法在其他数据
集上也能产生多样化的数据
.
上述分析说明
,
数据增强的方法在生成数据时
可以生成多样化的句子
,
不仅表现在实体的多样化
,
还表现在非实体部分多样化
,
以此来扩大训练数据
集
,
提高命名实体的识别性能
.
6
结束语
笔者提出了一种基于序列生成对抗网络的数据
增强算法
,
即
DA-NER
模型
,
通过扩大训练集
,
达到
提高命名实体识别性能的目的
.
实验结果表明
,DA-
NER
模型可以在不使用外部资源的情况下
,
生成更
加多样化的训练数据
,
来扩大数据集
,
不仅在医学领
域
,
而且在其他领域也能提高命名实体的识别性能
.
未来工作考虑尝试在更大数据集中进行
,
并和外部
知识库进行结合以提高精度
.
参考文献
:
[1]DongChuanhai,ZhangJiajun,ZongChengqing,etal.
CharacterbasedLSTM-CRFwithradical-levelfeaturesfor
Chinesenamedentityrecognition
[C]
∥
NaturalLanguage
UnderstandingandIntelligentApplications-5thConfer-
enceonNaturalLanguageProcessingandChineseCom-
puting
(NLPCC).Kunming:SpringerPress,2016:239-
250.
[2]MaXuezhe,HovyE.End-to-endsequencelabelingvia
Bi-directionalLSTM-CNNs-CRF
[C]
∥
Proceedingsofthe
54thAnnualMeetingoftheAssociationforComputational
Linguistics
(ACL).Berlin:ACL,2016:1064-1074.
[3]WangXuan,ZhangYu,RenXiang,etal.Cross-typebi-
omedicalnamedentityrecognitionwithdeepmulti-task
learning
[J].Bioinformatics,2019,35(10):1745-
1752.
[4]LiLuqi,ZhaoJie,HouLi,etal.Anattention-based
deeplearningmodelforclinicalnamedentityrecognition
ofChineseelectronicmedicalrecords
[J].BMCMedInf
&DecisionMaking
,2019,19(5):4.
[5]WangQi,ZhouYangming,TongRuan,etal.Incorpora-
tingdictionariesintodeepneuralnetworksfortheChinese
90
北京邮电大学学报
clinicalnamedentityrecognition[J].JBiomedInformat-
2019:92.
ics
,
第
43
卷
AmericanChapteroftheAssociationforComputational
Linguistics
:HumanLanguageTechnologies(NAACL-
2019:3384-3393.
HLT
).Minneapolis:ACL,
[13]HeJingzhou,WangHoufeng.Chinesenamedentityrec-
C]
ognitionandwordsegmentationbasedoncharacter
[
∥
ThirdInternationalJointConferenceonNaturalLanguage
Processing
(IJCNLP).Hyderabad:ACL,2008:128-
132.
[14]WuYonghui,JiangMin,LeiJianbo,etal.Namedenti-
[6]CuiZongyong,ZhangMingrui,CaoZongjieetal.Image
dataaugmentationforSARsensorviagenerativeadversar-
ialnets
[J].IEEEAccess,2019,7:42255-42268.
[7]YuLantao,ZhangWeinan,WangJun,etal.Sequence
C]
generativeadversarialnetswithpolicygradient
[
∥
Pro-
ceedingsoftheThirty-FirstAAAIConferenceonArtificial
Intelligence
(AAAI).SanFrancisco:AAAI,2017:
2852-2858.
[8]ZhangSuxiang,QinYing,WenJuan,etal.Wordseg-
mentationandnamedentityrecognitionforsighanbake-
off3
[C]
∥
ProceedingsoftheFifthSIGHANWorkshopon
ChineseLanguageProcessing.Sydney
:ACL,2006:158-
161.
[9]ChenAitao,PengFuchun,ShanRoy,etal.Chinese
namedentityrecognitionwithconditionalprobabilistic
models
[C]
∥
ProceedingsoftheFifthSIGHANWorkshop
onChineseLanguageProcessing.Sydney
:ACL,2006:
173-176.
[10]CollobertR,WestonJ,BottouL,etal.Naturallan-
guageprocessing
(almost)fromscratch[J].Journalof
MachineLearningResearch
,2011,12:2493-2537.
[11]ZhangYue,YangJie.ChineseNERusinglatticeLSTM
[C]
∥
Proceedingsofthe56thAnnualMeetingofthe
AssociationforComputationalLinguistics
(ACL).Mel-
bourne
:ACL,2018:1554-1564.
[12]ZhuYuying,WangGuoxin.CAN-NER:convolutional
attentionnetworkforChinesenamedentityrecognition
[C]
∥
Proceedingsofthe2019ConferenceoftheNorth
tyrecognitioninChineseclinicaltextusingdeepneural
network
[C]
∥
eHealth-enabledHealth-Proceedingsof
the15thWorldCongressonHealthandBiomedicalIn-
formatics.SaoPaulo
:IOSPress,2015:624-628.
15]WangYifei,AnaniadouS,TsujiiJ.ImproveChinese
clinicalnamedentityrecognitionperformancebyusing
thegraphicalandphoneticfeature
[C]
∥
International
ConferenceonBioinformaticsandBiomedicine
(BIBM).
Madrid
:IEEEPress,2018:1582-1586
16]PengNanyun,DredzeM.Namedentityrecognitionfor
Chinesesocialmediawithjointlytrainedembeddings
[C]
∥
Proceedingsofthe2015ConferenceonEmpirical
MethodsinNaturalLanguageProcessing
(EMNLP).
Lisbon
:ACL,2015:548-554.
17]DevlinJ,ChangMingwei,LeeK,etal.BERT:pre-
trainingofdeepbidirectionaltransformersforlanguage
understanding
[C]
∥
Proceedingsofthe2019Conference
oftheNorthAmericanChapteroftheAssociationfor
ComputationalLinguistics
:HumanLanguageTechnolo-
gies
(NAACL-HLT).Minneapolis:ACL,2019:4171-
4186.
[
[
[
版权声明:本文标题:基于数据增强的中文医疗命名实体识别 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1719384099a735287.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论