admin 管理员组

文章数量: 1184232


2025年1月2日发(作者:velocity global)

系统功能语言学在自然语言处理领域的应

用历程-应用语言学论文-语言学论文

——文章均为WORD文档,下载后可直接编辑使用亦可打印——

系统功能语言学是一个开放而有活力的语言系统,它总是能

一、引言

随着时代的发展稳步地自我完善。早在20世纪50年代,韩礼德就密

切关注计算语言学的发展,并对机器翻译、电子词典编纂等多个分支

领域进行了深入的研究(Webster,2007)。从此以后,自然语言处理一直

在系统功能语言学者的研究视野当中,一系列的研究成果也逐步问世。

从时间上来看,系统功能语言学在自然语言处理领域的应用

历程恰巧伴随着计算机的变革。如今许多系统功能语言学的应用已经

离不开计算机,比如机器翻译、语料库、自然语言生成和人机对话等,

这些都可以在一定程度上检验系统功能语言学的完整性面对真实的

文本(自然语言)时,系统功能语言学能否对文本进行充分的形式化解

读。这样一来,计算语言学者们才可以发现问题出在哪个环节,以及该

如何提高。韩礼德认为能否将语言理论应用于人工智能是检验其正确

性的重要手段,同时也是使之发挥更大作用的大好机会(朱永生,严世

清,2001:12)。

本文就系统功能语言学在自然语言处理领域的应用历程进行

总结,主要的应用领域包括机器翻译、语言切分、自然语言生成以及

人机对话系统等。

早在20世纪50年代,韩礼德已经着手机器翻译方面的研究,

二、机器翻译

此后,陆续发表了多篇重要论文。其中1962年发表的Linguistics and

machine translation(Halliday,2007:20-36)具有重要的历史价值和现实

意义,在此论文中,他所提出的理论观点对于今天的机器2翻译研究仍

有重要的指导和借鉴意义。

首先,韩礼德对于机器翻译的语言学归属问题进行了探讨,他

明确了机器翻译归属于应用语言学的范畴,这为机器翻译最终发展成

为计算语言学中的一个重要研究领域起到了积极的推动作用。

在上世纪90年代之前,绝大部分的机器翻译系统基于规则的

机器翻译系统,它们的设计方案可以归纳为三种基本的类型:直接翻译,

中间翻译和转换翻译。而韩礼德的设计方案属于转换翻译,采用的是

阶与范畴语法,他用实例演示了机器翻译的基本过程。在第一个阶段,

需要对原文的句子进行切分,依次获得其小句、词组/短语、词和词素。

第二阶段是逐层往上进行翻译,即先翻译词素,然后翻译词,以此类推。

在每一级阶的翻译中,先在目标语中找到概率最大的等值翻译项目,然

后在更高阶层的翻译中根据该词出现的上下文语境进行调整。在第三

阶段,根据目标语的内在结构对译文在词汇和语法方面作进一步的调

整。例如,多在词素层、词层可以暂时译为many。但是在小句层和句

层,则应该基于英语的内部结构规律逐步调整为there aremore

than(Halliday,2007:31-32)。

90年代之后,机器翻译引入了语料库方法,主要包括基于实例

的方法和基于统一的方法。在韩礼德的机器翻译研究中,概率统计是

一个重要的思想。他认为如果期待计算机进行机器翻译工作,就必须

为之提供既精确、又有效的描写。在词汇定量研究方面,他认为统计

词类出现频率和组合规律是不够的,还需要统计词汇的搭配。

韩礼德在1962年已经准确地预测了十年后的主流机器翻译

规则系统设计方案转换翻译,并认为其在语料库的机器翻译系统设计

中也有广阔的应用前景,这体现了他在这个研究领域的前瞻性和洞察

力。虽然在他的机器翻译研究中还存在着一些局限性,然而这些局限

性一方面充分反映了机器翻译的复杂性,另一方面反过来推动了我们

进一步从事相关的计算机与定量语言研究,同时这也是为智能计算研

究打下了良好的基础。

上文提及60年代机器翻译的中止,语言学者们便将目光转移

三、语言切分

到语言切分上来。所谓语言切分是指语法中的句法结构的文本分析。

-Rhodes和Yorick Wilks

最早对韩礼德的语法进行切分工作始于上世纪60年 代初。

当时,Parker-Rhodes和韩礼德 是NUDE项目组的同事,基于韩礼德的

阶与范畴语法,Parker-Rhodes研究出了一个切分程序,其领导的一组成

员包括Yorick Wilks,后来研究出了韩礼德语法的句法系统。

Wilks将切分方法编写在霍勒内斯(Hollerith,利用凿孔把字母

信息在卡片上编码的一种方式)卡片机器上,其程序主要是将输入的句

子成分用括号法进行切分,例如:((His second wife)(was(young

and(verybeautiful))))((His eyes)(were blue(like(the morningsky))))

最早在切分系统中使用系统功能语言学。来自美国的

adTerry Winograd

Winograd受奖学金资助,曾在伦敦做了一年韩礼德的学生,期间,使用

系统形式化方法分析音调和谐。返美后,1967年,Winograd建立了一个

系统SHRDLU:机器人能够根据人发出的一些简单指令来摆放不同颜

色的积木(李学宁,张德禄2012)。此系统的句法分析器完全基于韩礼德

的早期系统功能语法,以系统网络为核心。

SHRDLU系统在当时影响力极大,70年代的研究焦点在切分句

子,以及如何使句法切分程序更有效率。Winograd则走功能路线,专注

于如何使SHRDLU系统运行更加通畅,他建立了一个切分文本的系统,

进行语义解释并决定如何采用恰当的处理方式。许多语言学者认为这

个系统体现了自然语言处理与人工智能结合的可能性。

Winograd的工作使系统功能语言学在自然语言处理领域名声

大震,但是仍然有许多问题需要改进,例如系统网络并不是输入计算机

由其自行运行,而是要依靠使用者调用;再比如此系统最初是为摆放积

木量身定做的,其应用范围较为有限,当时只有120个特征结构,并不能

完成足够多的工作。

Martin Kay和韩礼德在六七十年代有多年交流,也曾在剑桥语

Kay

言研究中心工作过。基于系统功能语法,他创立了功能合一语法,后来

成为应用最广泛的形式语法之一。虽然有此渊源,功能合一语法和系

统功能语法还是有很大区别的。最重要的区别在于功能合一语法并没

有采用系统网络,而是采用数理逻辑中的合一运算方法。

80年代后,Kay编写了功能合一语法的切分程序。这种程序可

以把功能合一语法的功能描述映射为某种适合于分析算法的形式,然

后采用句法处理器完成自动分析,这样功能合一语法既可以用于生成,

又可以用于分析,成为一种双向性的语法。(冯志伟,2010:207)

90年代后,围绕Fawcett的系统功能语法模型出现了一系列的

4.加的夫语法

切分试验。Fawcett早就意识到自动分析文本的重大意义,在Fawcett

的卡的夫语法模型中,只有一层意义潜势,一个系统网络,即语义网络,

它旨在根据特定的体现规则生成语法结构和语义特征(廖楚燕,2008)。

其中包含两种切分方式,一是基于语料库的方法,二是基于语法的方法。

限于篇幅,在此不作具体论述。

ll

1989年,Mick ODonnell小范围的尝试了多种切分程序,发现很

难将范围扩大以至覆盖系统功能语法。1990年,他在洛杉矶信息科学

学院的Kasper手下工作,学习了语法再编辑,用形式逻辑的方法进行切

分。在没有附加条件限制的情况下,ODonnell第一次建立了一个可以

完全切分系统功能语法的系统,但是当用此系统去处理Nigel语法时,

要花费数小时的时间来编辑语法,这 限制了系统的使用。后来

ODonnell缩小范围,将切分系统控制在语气层,这极大的提高了切分的

速率。

简单说来,自然语言生成是基于某种语法的在计算机上实现

四、自然语言生成

自动生成句子的学科。最早将系统语法用于语言自动生成的语言学者

是Henrici,1965年,他采用了系统(纵聚合关系)和结构(横组合关系)的

概念来进行编程。限于当时的条件,虽然表征程度不高、兼容性较弱、

局限性较大,但可以肯定系统语法在自然语言生成的应用是完全可能

的。

另一将系统功能语法应用于自然语言生成的代表人物是

Robin Fawcett,他认为将系统功能语法应用于自然语言生成非常有必

要,在这一方面的持续性工作使得后来建立的COMMUNAL系统成为

在自然语言生成方面应用最为广泛的系统之一(ODonnell

Bateman,2005)。

在这一应用上,Proteus是第一个真正意义上的自然语言生成

系统。这是第一次发现运用系统的词汇语法来进行自动文本生成的系

统。运用此系统,计算机可以自行玩三连棋游戏。Proteus采用了

Hudson(1973)的系统语法,明确了语法范畴:系统语法的表示方法是系

统网络。在系统网络中需要选择一系列的特征,才能生成相应的句法

成分;使用了替代、照应、连接等一系列的衔接手段,以此增强文本的

连贯性。

系统功能语言学在自然语言生成的地位因为Penman系统的

出现得到了极大的提升。Penman系统由洛杉矶信息科学学院的

William Mann设计研发,基于之前的计算机应用经验,Mann确信要使

计算机像人一样操作需要非常详尽有效的词汇、语法、语义和话语模

型,这样的模型在当时的自然语言生成领域是非常困难而且罕见的,经

过反复思考,Mann决定以韩礼德的系统功能语法为基石来建立其系

统模型。

Mann希望Penman系统可以做成无关上下文、应用范围不限

的自然语言生成系统,因此他邀请了韩礼德和当时从UCLA(加州大学

洛杉矶分校)刚毕业的Matthiessen一起研究如何将系统功能语法用计

算机表征。经过长期的研究,他们建立了一套非常清晰的、用于自然

语言生成的计算系统功能语法,即Nigel语法。

Nigel语法包括两个组成部分:系统语法、选择与询问界面。前

者可以进一步分为系统、实现规则和词库。而后者是系统语法与环境

的界面,其作用是向环境提出询问,并根据回答对系统语法进行有目的

的选择。Nigel语法应用非常广泛,至今仍然少有生成语法可以与它媲

美。

总的说来,基于系统功能语法的生成系统已经在自然语言生

成领域占有了一席之地,但是后续的影响和发展还是需要诸多因素支

撑。

五、人机对话系统

建立人机对话系统是系统功能语言学在自然语言处理上更深

层次的应用。人机对话,顾名思义,即计算机操作员或用户与计算机之

间,通过控制台或终端显示屏幕,以对话的方式进行工作。

1991年,澳大利亚电信公司和悉尼大学的研究小组最早将系

统功能语法直接应用于这一领域。他们启动了一个研究项目建立电信

对话系统,此系统可以使人与计算机接线员对话以获得信息。此对话

系统采用了ODonnell、Berry、Martin等语言学者的语言交流模型,由

两部分组成:交流状态网络和一系列行为模式选项。行为模式选项由

交流状态决定,而每一个行为指令都会引起交流状态的改变。

另一对话系统由KOMET自然语言生成小组和布达佩斯大学

合作建立,目标是探索德语语言生成,找到适合语境、恰当交互方式的

语调控制方式(Teich,1999)。此系统依靠鼠标和键盘输入,输出的是基

于韩礼德韵律性的带有语调控的德语。虽然现在有许多人机对话系统,

也可以完成特定的任务,例如已经有不少省份开始使用英语人机对话

系统进行中高考英语听力口语测试,但这些系统都不是系统功能语言

学框架内的。不过可以预见,在不久的将来系统功能语言学一定会研

究出应用更加广泛的人机对话系统。

归纳系统功能语言学在自然语言处理中的应用具有重要意义,

六、总结

在此过程中,我们不仅梳理了系统功能语言学在各分支领域的应用情

况,同时学到了很多新知识,遭遇了许多新挑战。虽然应用广泛,但真正

基于系统功能语言学的人机对话系统还未出现,语法的复杂度依然很

高,有许多问题暂时还无法解决,比如基于语义的智能计算系统等。随

着人工神经网络技术的兴起,人们有可能采用联结主义的新范式来建

立系统功能语言学的计算模型(李学宁,张德禄2012)。系统功能语言学

者正在不断努力实现系统功能语言学理论的计算表征,促进系统功能

语言学的新发展。


本文标签: 系统 语法 功能 语言学 生成