admin 管理员组文章数量: 1087139
2024年4月29日发(作者:应天编程在线教育怎么样)
2010年4月
第27 第2期
沈阳航空工业学院学报
Journal of Shenyang Institute of Aeronautical Engineering
Apr.2010
Vo1.27 No.2
文章编号:1007—1385(2010)02—0055—04
基于Web的中英术语翻译获取方法研究
董燕举
(1.沈阳航空工业学院知识工程中心,辽宁沈阳
白字 蔡东风
I10136) 110136;2.沈阳航空工业学院计算机学院,辽宁沈阳
摘要:从Web双语资源中获取术语翻译具有很大应用价值。从实用化术语翻译角度出发,设计
了一个基于Web的中英术语翻译系统。该系统使用Google搜索引擎,通过关键词扩展技术搜索
词汇表类型网页,从其搜索结果摘要中抽取术语翻译。实验结果表明系统取得良好性能:TOP1
的正确率达到90.9%,TOP3的正确率达到95.4%。
关键词:术语翻译获取;Web信息抽取;术语翻译;信息检索;Web挖掘
中图分类号:TP391 文献标识码:A
当今科学技术发展13新月异,每个学科都拥
有大量专业术语。术语是表达一个专业领域知识
的核心词汇。术语翻译是将一种语言术语翻译为
业领域,包含很多专业新术语和惯用语,因而具有
专业性、时效性、高质量等特点,是优质的专业双
语词汇资源。本文设计了一个基于Web的中英
术语翻译获取系统,该系统使用了基于搜索词扩
另一种语言的等价词汇。科技文献翻译要求专业
性和准确性,术语翻译成为其核心问题和难点问
题。
展的定位搜索技术,利用Google搜索得到包含术
语翻译的词汇表类型网页摘要,直接从网页摘要
术语翻译最简单的方式是直接查找各种专业
词典。但专业词典的词汇量总是有限,特别是不
能及时吸纳补充新术语,造成大量未登录术语词
中获取术语翻译。该方法抽取模式设计简单,而
且不用下载每个网页,处理效率较快,所获取的术
语翻译质量较好。实验表明该系统取得了良好的
汇。而当前Web是世界上最大的动态知识库和
信息库,其中存在大量术语词汇双语资源,如在线
双语词典、双语对照词汇表、双语对照网站等。因
翻译正确率。另外,尽管本文论述的是中英术语
翻译获取问题,实际上该方法同样可应用于其它
语种的术语翻译获取。
此可以利用Web上双语资源进行术语翻译,将术
语翻译问题转变为在Web中获取对应目标语言
翻译的过程。其研究目标是给定一个源语言术
语,在Web中获取其对应的目标语言术语。例如
对一个中文术语“母线槽”,中英术语翻译过程即
是在Web中搜索并获取它的对应英文术语“bus
duct”。基于Web的术语翻译获取技术研究涉及
信息检索、信息抽取、自然语言处理等多个研究领
域,在辅助机器翻译、跨语言信息检索、领域双语
词典构建等领域中都具有重要应用价值。
各种语言学习网站和专业网站存在大量专业
双语词汇表网页(本文简称词汇表网页),如图1
所示。词汇表网页中的双语词汇一般属于特定专
收稿日期:2010—01—07
图1机械专业中英词汇表网页示例
1 相关研究
基于Web术语翻译实质上是从Web的双语
资源中获取术语对应的翻译项,其研究包含两个
关键问题:(1)术语翻译获取来源定位问题,即找
基金项目:辽宁省自然科学基金(20062006);辽宁省高校创新团
队支持计划项目(2007T140)
作者简介:董燕举(1973一),男,硕士,讲师,主要研究方向:信息
检索,E—mail:dongyanju163@163.eom。
沈阳航空工业学院学报 第27卷
到术语翻译所在的网页;(2)如何识别并抽取该
术语相应的翻译。术语翻译获取来源主要是
Web中的双语网页资源,包括各种双语对照网
站、外语学习网站、在线双语知识库等。基于
Web术语翻译获取方法主要有以下两种:
1)基于搜索的方法。该方法一般使用搜索
引擎在Web中搜索源术语,然后利用目标翻译的
特征信息(如与源术语位置关系、频率、上下文特
征、词性等)在搜索结果网页集中抽取一组目标
语言的候选翻译项,构成候选翻译项集合。然后
根据候选翻译评价模型,从候选翻译项集中选择
最佳翻译项。
方高林的汉英翻译获取系统…利用中文术
语每个汉字的英文作为预测信息,作为源术语的
扩展搜索词,以此搜索目标网页,从中抽取候选翻
译项。然后使用了词汇分布特征,长度比率,与
中文术语的距离,关键符号与边界信息等多种特
征,对候选翻译项集进行排序。而在一个基于
Web的英中术语翻译系统_2 中,方高林又利用后
缀数组构造候选翻译,使用子集冗余和词缀冗余
两种方法解决噪音干扰问题,最后基于互信息方
法从候选翻译集中选择最佳翻译项。
为了更快捷地获取术语翻译,Conrad Chen
在中英术语翻译系统中直接从Google搜索结果
页中抽取候选翻译项。整个系统包括候选翻译获
取、候选翻译评价和候选翻译验证三个处理步骤,
能够完成人名、地名等命名实体类型短语的翻译。
系统制定了一些规则以识别命名实体类型的候选
翻译项,然后基于发音、词义、频率、与中文术语相
对位置等多种特征对候选翻译项进行评价,在候
选翻译集中选择最佳翻译项。
双语混合网页(如词汇表网页)是一种有用
的双语资源。为了使搜索结果中包含双语混合网
页。Ying Zhang 提出了一个利用英文线索词扩
展中文搜索词的方法。所谓英文线索词是指与该
术语相关的英文词。例如搜索“列夫.托尔斯泰”
的英文翻译,可将列夫.托尔斯泰的作品“战争与
和平”对应的英文“war peace”作为英文线索词加
入到搜索词中。该方法基于这样一个假设:出现
了术语相关的英文词的页面更可能出现该术语的
英文翻译,由此作者提出了若干英文线索词的选
择规则。
2)模式匹配方法。该方法首先利用自动方
法或手工方法建立起双语匹配模板,根据匹配模
板从大量网页中批量抽取双语术语。模式匹配法
是自动构造大规模双语词典的一种有效方法。
Guihong Cao等 提出了一种基于中文网页建立
英中双语词典的方法。该方法定义了四种抽取模
板(如图2所示)用于从大量网页中抽取英中双
语词汇。在图2中C1,c2,…,Cn表示中文字串,
而En表示英文字串。
图2四种抽取模块
括号翻译是中文网页中一种常见的双语混合
形式。例如“人工智能(Artiifcial Intelligence)”。
括号翻译是典型的匹配模式,一般形如“中文串
(英文串)”。括号内的英文串是英文术语,而中
文术语在括号左侧的中文串中。括号翻译处理难
点在于如何确定中文术语边界。郭稷等 提出
一
种基于统计的方法解决这一问题。该方法首先
使用中文分词工具对中文串切分,然后将切分后
的中文词自右向左构造多个可能的中文词串。每
个词串与括号内的英文术语构成一个候选双语术
语对。然后基于共现频率等特征建立统计判别模
型,利用感知机来训练判别模型。最后使用训练
好的判别模型从中选择最佳双语术语对。
2 系统结构
系统总体结构分为Google搜索、候选翻译抽
取和候选翻译排序三个模块。对于一个中文术
语,系统首先调用Google搜索引擎检索得到
Google搜索结果页。Google搜索结果页包含各个
相关网页的摘要信息。然后从前100项网页摘要
中识别出词汇表网页类型摘要,利用词汇表抽取
模式从中提取出候选翻译项。所有候选翻译项组
成了该术语的候选翻译集合。最后根据Goog|e
前100项搜索结果中的出现频率对所有候选翻译
第2期 董燕举等:基于Web的中英术语翻译获取方法研究 57
项进行排序,输出前三个出现频率最高的翻译项。 html源文件,可知每个网页摘要项主要包括三个
系统处理流程如图3所示。
部分:网页标题、网页正文摘要和网页的url地
中文术语
址。根据网页摘要前后的html标签特征,我们设
计了网页摘要项和网页摘要正文的抽取模式。由
于Google摘要标签将不定期地改变,因此抽取模
式也将随之变化。当前系统所用的网页摘要抽取
模式如图5所示。
图5 Google摘要抽取模式
4候选翻译抽取
图3系统处理流程图
候选翻译抽取是从词汇表网页的正文摘信息
3 Google搜索
中抽取候选翻译项。我们根据词汇表网页的
Google摘要特征,设计出针对词汇表网页摘要的
Google搜索模块主要功能是首先对搜索词进
候选翻译抽取模式,如图6所示。该模式包括
行扩展,之后通过程序调用Google搜索引擎得到
“中英”和“英中”两种类型,分别应用于中英和英
搜索结果页,最后对搜索结果页解析,从中提取前
中两种双语对照形式。模式中的“l”表示或关
100项摘要信息。
系。
3.1 基于搜索词扩展的定位搜索
如果单纯用中文术语作为搜索词,搜索引擎
一
般将返回巨大数量的搜索结果,很难保证有价
值的词汇表网页一定出现在前100项搜索结果
中。为了使搜索结果中出现更多词汇表网页,我
们使用了搜索词扩展的方法。该方法通过附加
图6词汇表摘要模式
“专业”、“英汉”、“汉英”、“词汇”、“对照”、“英
为了保证所抽取候选翻译的准确性,我们制
文”等词汇表网页的特征词,使得词汇表网页在
定了三个抽取规则:(1)候选翻译只能出现于词
搜索结果中排序靠前,从而实现了定位搜索的目
标。例如:直接用Google搜索“母线槽”,搜索结
汇表网页摘要中;(2)词汇表网页摘要与抽取模
式相符,且中文术语必须出现其中;(3)候选翻译
果的前100项中,都是母线槽相关产品和厂家信
息。如果使用“专业英语词汇”作为扩展搜索词,
只能是中文术语前或其后的英文串。通常词汇表
搜索结果中有81项是词汇表网页,其中15个摘
网页有中英对照和英中对照两种类型。词汇表网
要中包含母线槽的英文翻译bus duct。图4为一
页的类型可以决定抽取中文术语之前还是之后的
个英中词汇表网页摘要示例。
英文串作为候选翻译项。根据词汇表网页摘要模
式,可以按从头特征串开始的前两个短语字串对
照类型(中英或英中)作为词汇表网页的类型。
若是中英类型,抽取中文术语前的英文串作为候
图4母线槽Google英中词汇表网页摘要示例
选翻译,否则抽取其后的英文串。例如:对于“母
3.2 Google摘要抽取模式
线槽”,图3对应的网页摘要为:“…bus duct母
为了抽取Google搜索结果页中的摘要信息,
线槽substation分站flow instrument流量计…”,
需要对html源文件进行解析处理。Google结果
头特征串和尾特征串都为“…”,摘要类型为英
页由若干网页摘要项组成。通过分析结果页的
中类型,因此抽取中文术语“母线槽”前的英文串
“bus duct”作为一个候选翻译。
58 沈阳航空工业学院学报 第27卷
5实验结果与分析
实验使用的测试数据分别随机选自化学、物
理学和计算机三个专业120个常用术语,其中化
学35个、物理学35个、计算机50个。搜索时使
用了“专业英语词汇”作为扩展关键词。总计有
110个术语返回至少一个翻译项,其中105个术
语返回了正确的翻译结果,召回率为87.3%。实
表3“过饱和蒸气”的译项
实验结果显示系统具有良好的正确率,但召
回率相对不高。主要原因是翻译抽取中使用了严
格的抽取规则。这样使得Google摘要中可能出
现的一些术语译项,由于不能精确匹配词汇表网
验所获取的部分英语翻译结果如表1所示。
表1抽取术语翻译示例
本实验使用人工评价术语翻译的正确性。评
价时既考虑含义正确性,也考虑了术语所属专业
领域。例如术语“模块”的一个翻译为“die
block”。“die block”在模具工程领域有模块含
义,而计算机专业最常用的英文词是“module”,
因此评价“die block”为错误翻译。实验正确率统
计结果如表2所示。
表2术语翻译获取的正确率
表2中,翻译正确率是指系统获取出的英文
翻译正确率。TOP1是指按出现频率排序后的排
序最高译项。TOP2和TOP3是指排序的前两个
和前三个译项。由于同义词及拼法差异,一个术
语可能有多个等价英文翻译,因此TOP2或TOP3
都可能是正确的。TOP1一般是最常用的义项。
例如物理术语“过饱和蒸气”的前三个译项如表3
所示。
页摘要抽取模式而被放弃。
6结论与未来工作
本文描述一个基于Web的中英术语翻译获
取系统。该系统利用搜索词扩展技术,调用
Google引擎在Web中进行定向搜索,使用模式匹
配方法在词汇表网页摘要中获取英文译项。实验
表明该系统的翻译结果有良好的正确率,具有很
好的实用价值。未来研究工作重点是解决翻译抽
取模式的模糊匹配问题,减少摘要中噪声信息影
响,以提高系统的召回率。
参考文献:
[1]Gaolin Fang,Hao Yu,and Fumihito Nishino.Chinese—English
Term Translation Mining Based on Semantic Prediction[A].Pro-
ceedings of the COLING/ACL 2006 Main Conference Poster Ses—
sions【C].2006:199~206.
[2]Gaolin Fang,Hao Yu.Web Translation Mining Based On Suffix
Arrays[J].Journal of Chinese Language and Computing,2007,
17(1):1一l4.
[3]Conrad Chen,Hsin—Hsi Chen.A High—Accurate Chinese—
English NE Backward Translation System Combining Both Lexieal
Information and Web Statistics[A].Proceedings of the COLING/
ACL 2006 Main Conference Poster Sessions[C].2006:81—88.
[4]Ying Zhang.Mining Translations of OOV Terms from the Web
through Cross lingual Query Expansion[c].In:Proceedings of
SIGIR05,2005.
[5]Guihong Cao,Jianfeng Gao,Jian—Yun Nie.A System to Mine
Large—Scale Bilingual Dictionaries from Monolingual Web Pages
[C].In:Proceedings of MT Summit XI,2007.
[6]郭稷,吕雅娟,刘群.一种有效的基于Web的双语翻译对获取
方法[J].中文信息学报,2008,22(6):103—109.
[7]尹宝生,陈建军,张桂平 基于知识管理技术的翻译Robot的
设计与应用【J].沈阳航空工业学院学报,2008,25(5):68
—
7O.
[8]Long Jiang,Shiquan Yang,Ming Zhou,et a1.Mining bilingual
data from the web with adaptively leamt patterns[A].Proceedings
ofthe 47th Annu ̄Meetingofthe ACL andthe4thIJCNLPofthe
AFNLP[c].2009:870—878. (下转第54页)
沈阳航空工业学院学报 第27卷
问题。
[M].北京:清华大学出版社,2005.
[5]赵忠孝.数据库原理及Visual FoxPro应用[M].北京:高等教
参考文献:
育出版社,2004.
[6]刘季平.VFP程序设计课教学方法浅探[J].科技创业月刊。
[1]张琪.Visual FoxPro数据库教学中的矛盾及其对策[J].职业
2005(05):154—155.
技术,2006(22):93—94.
[2]徐亚军.Visual FoxPro程序设计基础[M].jE京:清华大学出
[7]聂永红.Visual Foxpro 6.0程序基本结构探索[J].科技资
讯,2008(30):23—24.
版社,2006.
[8]许树云.VFP应用中的数据共享与程序安全问题探讨[J].
[3]何振林,罗奕,孟丽.关于Visual FoxPro数据库教学方法的一
交通与计算机,2005(03):126—129.
点探索[J].成都中医药大学学报,2005,7(2):73.
[4]李春葆,曾慧.数据库原理与应用——基于Visual FoxPro
Discussion of some questions in program design using VFP
SUN Yu—xia WANG Xiao—yan
, .
(Engineering Training Center,Shenyang Institute of Aeronautical Engineering,Liaoning Shenyang 110136)
Abstract:The diifculties and their solution in program design of VFP were discussed in details in this paper,
which includes parameter passing,deletion record,system compilation etc.In VFP,parameter passing is
comprised of inter—procedural parameter passing and inter—forms parameter passing;The table is already
opened exclusively when the recorded information is deleted;master file and event loop should be paid atten—
tion to in system compiling.
Keywords:program design;VFP;parameter passing;deletion recorded;system compiling
(责任编辑:刘划)
(上接第58页)
Research on web——based chinese——english
term translation acquisition
DONG Yan—ju , BAI Yu CAI Dong—feng
(1.Knowledge Research Center,Shenyang Institute of Aeronautical Engineering,Liaoning Shenyang 1 10136;
2.Computer School,Shenyang Institute of Aeronautical Engineering,Liaoning Shenyang 110136)
Abstract:It is valuable to extract term translation from the bilingual resources in the Web.In view of practical
term translation,a Web—Based Chinese—English term translation system is designed.The system uses
Google search engine to focus the glossary Web pages by utilizing keywords expansion technology,and does ex—
tracts term translation from the returned snippets in Google search results.Experiments show that the system
has good performance:TOP1 accuracy 90.9%,and TOP3 accuracy 95.4%.
Keywords:term translation acquisition;Web information extraction;term translation;information retrieval;
Web mining
(责任编辑:刘划)
版权声明:本文标题:基于Web的中英术语翻译获取方法研究 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1714350839a676693.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论