admin 管理员组

文章数量: 1086019


2024年4月12日发(作者:targetframework的作用)

EXCHANGE OF EXPERIENCE

经验交流

信息时代的南岛语语料库述评

——以台湾大学南岛语多媒体语料库为例

◆ 张 立

摘要:台湾大学(以下简称台大)南岛语多媒体语料库是以收录台湾南岛语为主要内容的在线语

料库,它是以计算机信息技术运用为支撑,以语言数据典藏及后设数据为标准,以系统地收集、转写、

保存弥足珍贵台湾南岛语的自然语料为目标。论文基于探究语言资料库的建立对语言乃至地域文化的影

响的目的,分析评价了南岛语多媒体语料库的建设背景、原理、系统应用的优缺点以及对推广传播南岛

语的影响,以期为同类型的语言资料库的建立提供启发和借鉴。

关键词:南岛语;语料库;述评

一、前言

根据1996年McEnery and Wilson的定义,任何多于一

个文本以上的集合,都可以被称为语料库(corpus)。现代

意义上的语料库诞生于20 世纪 60 年代,其标志性的代表是

美国布朗语料库的建成和使用。虽然这个语料库只收录了约

100万个词,但这却是世界上第一个可用机器可读的语料库。

随着互联网技术的不断发展和普及,语料库及语料库技术研

究的方法在国内外都有了长足的进步,一大批语料库在国内

外不断建立,不仅语料库的规模越来越大,内容也越来越丰

富,并且计算机软件技术应用也越来越娴熟。

南岛语系的语言简称南岛语(Austronesian),旧称马来—

波利尼西亚语(Malay-Polynesian)。我国台湾是南岛语分布

的最北端,使用的人口为高山族。台湾南岛语具有高度的歧

异性,现存各种语言在台湾的大致分化年代多数在千年以上,

保留了菲律宾、马来西亚、印度尼西亚等地区没有的古语特

征,如今大多数南岛语学者都相信台湾岛至少是古南岛民族

最早的居留地之一。

本文研究的主要对象是台湾大学(以下简称台大)南岛

语多媒体语料库,笔者是在分析其在线语料库内容的基础上,

对其做出简要评价。台大南岛语多媒体语料库是以收录台湾

南岛语为主要内容的在线语料库,其的建立是以计算机信息

技术运用为支撑,以建立语言数据典藏及后设数据为标准,

以收集、转写、保存弥足珍贵台湾南岛语的自然语料为目标。

二、台大南岛语多媒体语料库简介

(一)基本信息

台大南岛语多媒体语料库之前是台大信息电子科技整合

研究中心多媒体整合实验室的子项目之一(2001年-2003年),

由台大语言学研究所黄宣范、苏以文及宋丽梅教授共同主持,

联合了台大四个学院八个系所的跨领域专业人才,于2005

年前后基本建立成型。后又受到研究了各方经费的支持,在

原有语料库的基础上进行改版、修订、转档与扩增工作。

(二)研究团队

台大南岛语多媒体语料库的研究团队是以台大的黄宣

范、苏以文、宋丽梅等教授为核心,联合了台大其他相关系

所的专业人才,共同研究构建。

96

信息系统工程 │ 2019.11.20

(三)研究方法

台大南岛语多媒体语料库的语料都是研究人员通过田野

调查的方法采集到的自然语料,并且利用录音、录像等设备

对每一段语料进行音频、视频的记录,之后再转写成文字记

录,并且进一步分割为IU单位(即语调单位,指在自然言谈中,

说话者产出的一段在声谱图上看是紧密结合在一起的语音)、

做标记、及中英翻译等。搜集的语料均为自然话语,主要来

源于发音人的生活对话、传说故事,或者是请发音人观看影

片或图书,之后再进行复述所观看到的影片或图书内容。

(四)研究成果

在台大南岛语多媒体语料库网站上有已经构建好的语料

库包括如噶玛兰语、赛夏语、邹语、阿美语、撒奇莱雅语、

赛德克语以及布农语等7种台湾南岛语的语料。其中噶玛兰

语有4段口述语料,并且都有音频与视频材料;赛夏语有22

段口述语料,只有音频材料;邹语有2段语料,只有音频材

料;阿美语有2段口述语料,并且都有音频与视频材料;撒

奇莱雅语有2段语料,只有音频材料;赛德克语有2段语料,

只有音频材料;布农语有2段语料,只有音频材料。

三、台大南岛语多媒体语料库述评

众所周知,随着计算机网络技术的发展以及自然语料处

理技术的进步,语料库是记录、保存语料的最有效的方式之

一,同时语料库也为语言研究者提供了一条快速便捷的研究

方式。世界上也有不少关于南岛语的语料库,例如台湾南岛

语数位典藏、兰屿达悟语口语资料典藏网、The University of

Auckland:Austronesian Basic Vocabulary Database(奥克兰大学:

南岛语基本词汇数据库)等,但这些语料库大多只是针对特

定需求或某一特定领域,并且搜集的语料一般以句子为单位,

并以文字形式呈现。而台大南岛语多媒体语料库侧重于自然

语料以多媒体方式进行呈现,面向的群体具有大众化,而不

仅仅是语言研究者。本文在分析其在线语料库的基础上,认

为主要有以下几个特点:

1.普及性与实用性

上文已经提到,台大南岛语多媒体语料库所服务的对象

不仅仅是南岛语研究者,还包括对南岛语有兴趣的一般大众。

这样不仅仅有利于南岛语的研究,也同时有利于推广和传播

EXCHANGE OF EXPERIENCE

经验交流

南岛语言以及文化。除此之外,该语料库的语料都来自于学

者们的田野调查,这些语料都是自然语料,反映出南岛民族

的语言在生活中的实际使用状况,具有很强的实用性。

2.交叉兼容性

台大南岛语多媒体语料库是在多学科交叉的基础上建立

的,同时由于收录了多种南岛语,因此其提供的查询的功能也

具有交叉性。如果想要查询某一词条,可在线上字典交叉链接

至相关例句、文本和注解,反之亦可在所查询文本中直接点选

某词汇查询该词条的相关信息。这样有利于使用者对不同台湾

南岛语进行交叉查询与比较研究,同时,为了让该语料库尽可

能发挥最大的效能,满足不同系统用户的需求。台大南岛语多

媒体语料库系统采用XML (Extensible-Mark-up Language)格式

输出数据,兼容不同的系统,为不同的对象提供服务。

3.跨语言的一致性

台大南岛语多媒体语料库现收录的南岛语已有7种,因

此该语料库具有跨语言的特性,最明显的体现就是其查询功

能。其所提供的查询功能不是针对的是某单一语言,而是提

供了跨语言查询的功能,用户可根据自身的需求,输入任何

中文、英文等,即可进行跨语言查询。与此同时,语料库内

部采用采用统一的规格标示,具有高度的一致性,主要体现

在语料的标注上,即:该语料库的语料标注均采用国际通行

的莱比锡标注系统(Leipzig Glossing Rules)。

4.便利性

台大南岛语多媒体语料库利用现代计算机技术实现了南

岛语语料的信息化、数字化以及数据化,用户不仅可以根据

自身需求快速检索出所需要的语料,也可以使用基于计算机

的语料库分析软件来帮助他们分析语料,提取他们所需要的

语言数据。除此之外,该数据库不仅提供文字材料,同时还

提供音频、视频等多媒体材料,使语料库的内容得以多媒体

的形式进行呈现,提升其使用的便利性。

台大南岛语多媒体语料库的建立虽然有不少优点,但也

难免有其不足之处,主要体现在以下几个方面:

1.收录语言、语料数量还是相对偏少

上文已经提到台大南岛语多媒体语料库现已收录了7种

台湾南岛语的语料,共36段语料,其中收录最多语料的语

言是赛夏语共有22段,而大多数语言的语料例如邹语、阿

美语、撒奇莱雅语、赛德克语以及布农语等仅有2段,因此

从整体来说,作为南岛语语料库来说,其现在所搜集的语料

还是相对偏少。另外需要指出的是,该语料库收集语言的数

量也略显不足,据统计台湾现存南岛语有16种,而语料库

现收录的仅有7种,占总数的一半不到。

2.台大南岛语多媒体语料库网站需要进行优化升级

台大南岛语多媒体语料库网站是其语料库呈现的主要平

台。目前对该网站的浏览,笔者建议使用1024x768及Firefox

浏览器进行浏览,如果使用其他浏览器会造成兼容性问题。

除此之外,如果通过手机端浏览的话,网页也不会根据手机

屏幕而自动适配,调整网页布局,造成用户体验不佳。另外,

通过分析网站源码可知,如图1所示。

台大南岛语多媒体语料库网页是通过HTML4技术建设

的,造成了以上在使用过程中碰到的问题,可以通过HTML5

技术重建网站,通过HTML5技术重建台大南岛语多媒体语

料库网站有以下优点:一是,更好的设备兼容特性,不需要

指定浏览器访问网页;二是,跨平台运行,网站将能适应多

种屏幕,自动调整布局,解决原先对手机终端不友好的问题;

三是,更好的多媒体元素,与原网站相比,通过HTML5重

建后网页呈现的元素将更加丰富,可以很好地替代flash和

silverlight,给用户带来更好的体验。

3.数据库系统需要进一步完善

语言语音语料库的建立,要考虑存储四种素材:一是,

发音人属性素材,如发音人年龄,性别,受教育程度等;二是,

发音文本素材;三是,实际语音素材;四是,存储部分声学

分析数据。目前台大南岛语多媒体语料库,四种素材还不够

齐全,另外台大南岛语多媒体语料库还可以增加对一定数量

的语音进行声学分析,建立一个描写性的声学参数数据库。

4.增加语料库的标注并提供下载功能

对语料库进行不同层次加工标注能使得隐藏在语料中的

语言知识显性化,同时经过显性化的语言知识,机器更容易

学到,利用原始语料库获取参数的机器学习称之为无指导的

机器学习,而利用经过加工的带标记的语料库获取参数的机

器学习称之为有指导的机器学习,现在效果较好的统计学习

方法基本都是有指导的,只能从带有标注的数据中学习到有

意义的模型参数。台大南岛语多媒体语料库如果在原有基础

上丰富语料库的标注,并提供下载功能的话,将能使计算语

言学中的新成果更好的引入到南岛语的研究中来。

图1 台大南岛语多媒体语料库网站源码

信息系统工程 │ 2019.11.20

97

EXCHANGE OF EXPERIENCE

经验交流

四、结语

总体来说,台大南岛语多媒体语料库是一个比较成功的

南岛语在线语料库,虽然现在仍存在着一些不完善的问题,

但它的构建不仅有利于保存南岛语语料,还有利于推广和传

播南岛语言以及文化,同时也为未来大陆相关语料库的构建

提供经验。H

参考文献

[1] Chafe, Wallace. Cognitive constraints on information flow[M].

In Coherence and grounding in discourse, ed. by Russell S. Tomlin.

Amsterdam: John Benjamins,1987.

[2] Chafe, Wallace. Discourse, consciousness and time: The flow and

displacement of conscious experience in speaking and writing[M]. Chicago:

University of Chicago Press,1994.

[3] Du Bois, J. W, Stephan Schuetze-Coburn, Susanna Cumming,

and Danae Paolino. Outline of discourse transcription[M]. In Talking Data:

Transcription and Coding for Language Research, ed. by J. A. Edwards and

M. t, 45-90. Hillsdale, N.J.: Lawrence Erlbaum Associates,1993.

[4] Huang, Shuanfan. Pause as a window in the mind and grammar—

evidence from spoken Chinese discourse[J]. Workshop on Interfaces and the

Chinese Language, Ohio State University,1993.

[5]Sung, Li-May, Lily I-wen Su, Fuhui Hsieh, Zhemin Lin.

Developing an Online Corpus of Formosan Languages[J]. Taiwan Journal of

Linguistics,2008:79-118.

[6] Su, Lily I-wen, Li-May Sung, Shuping Huang, Fuhui Hsieh,

Zhemin Lin. NTU Corpus of Formosan Languages: A State-of-the-art

Report[Z]. Corpus Linguistics and Linguistic Theory 4-2,2008:291-294.

[7]常宝宝, 俞士汶. 语料库技术及其应用[J]. 外语研

究,2006(5):43-51.

[8]姜莉芳. 台湾南岛语总数[J]. 民族论坛,2012(4):84-86

[9] 刘岩. 关于中国少数民族濒危语言语音语料库的设计[J]. 中央

民族大学学报,2006(4):133-136.

[10]中国台湾大学. 南岛语多媒体语料库[DB/OL]. 台大南岛语多

媒体语料库. /index_.

[11] 吴鉴城, 陈浩然, 张俊盛. 网路语料库介绍与应用[Z]. 语料

库与华语教学,2017.

(基金项目:本论文受到2015年国家社科重大项目“中

国境内语言语法化词库建设”

15ZDB100

子课题“中国

境内南岛语语法化词库”的经费资助)

(作者单位:南开大学文学院)

(上接第95页)

(四)加强管理人员的培训。由于油田信息管理工作人

员素质较低,影响信息的管理。在管理过程中工作人员的综

合素质十分重要,会影响到油田企业的发展,如果工作人员

缺乏一定的水平就无法管理好信息,很容易发生信息的泄露。

要通过考核来对工作人员进行评价,避免发生泄密事件。

(二)围绕规范,加强基础工作。相关部门必须要对信

息进行严格保密,遵守上级的要求,及时地更新工作,完善

相关制度,确保信息安全。

(三)不断创新,加强保密宣传教育。在对油田信息进

行保密的过程中,应该加大创新与时具进,同时也要进行一

些宣传,根据社会发展的形式,采取措施开展一些宣传教育

的工作。宣传教育的重点是全体工作人员,在内容上要注重

宣传保密法规,做好宣传教育,使得人人具有法律法规的意识。

(四)围绕安全,完善技防手段。在进行信息安全保护

工作时,需要借助一些技术来提高防护的能力,同时也要对

计算机网络加强管理,涉密计算机不上互联网,把内网和外

网分离,同时也要安装系统的补丁,如果计算机出现了问题

要及时进行修复升级,避免其他计算机植入病毒。利用新科

技手段加强对移动储存介质的管理,提高保密措施,保护好

信息,避免文件外漏。

三、新形势下油田信息安全工作的管理措施

(一)加强认识。油田企业开展保护信息安全,需要领

导者和管理人员不断强化安全保密的意识。组织培训增强安

全工作的意识,提高信息工作的保密效率,优化信息安全工作。

(二)完善设施建设。在油田发展过程中离不开硬件设

施,它发挥着重要的作用,需要不断地对硬件设施进行优化,

引进一些先进的设备,加强安全保护。

(三)建立健全制度。在对信息进行管理时,不仅需要

加强认识,完善基础设施的建设,同时也要建立管理制度,

加强保密力度。

(四)提升管理人员素质。管理人员的素质影响到信息

安全工作的开展,当具备了一定的制度之后,也要对工作人

员进行培训,使其提高素质, 确保工作顺利进行。

五、结语

综上所述,油田信息保密工作作为油田企业发展的重中

之重,不断完善相关制度提高工作人员素质,保护好信息。H

参考文献

[1]王玲.新形势下油田档案保密安全工作思考[J].纳

税,2019,13(05):296.

[2]韩丹丹.新形势下关于做好油田信息安全工作的思考[J].计算

机产品与流通,2019(02):277.

[3]张平,曹春玲.新形势下油田档案保密安全工作思考[J].办公

室业务,2018(14):75.

四、做好安全保密工作的建议

油田企业需要采取措施保护好相关信息,避免发生泄露。

(一)围绕责任,认真落实安全工作。在进行信息安全

工作时,工作人员要不断的学习相关的保密工作,提高保密

的能力,同时也要签订责任合同。每个人都要明确各自的责

任,根据工作制的要求来开展工作,及时发现在进行信息安

全工作中的问题,不断强化内部管理,采取防范风险的措施,

层层落实。不断落实工作领导责任制,确保责任到人。每天

98

信息系统工程 │ 2019.11.20

(作者单位:中国石油新疆油田公司数据公司)


本文标签: 语料库 南岛 多媒体 台大 语料