admin 管理员组

文章数量: 1087139


2024年4月15日发(作者:linux系统安装cuda)

龙源期刊网

对COCA和COHA的比较研究

作者:刘寒冰

来源:《陕西教育·高教版》2013年第02期

【摘 要】对语料库的研究在中外已经取得了很大的进步,许多双语和多语语料库的建立

和成熟也加强了语言之间的交流。 COCA(美国当代英语语料库)和COHA(美国近当代英语

语料库)是由Brigham Young University的Mark Davies开发的两款不同的语料库,前者以美国

当代英语的语料库为主,后者则包含了从1810年至2009年间的英语语料。文章将以Sorry为

例,分别用COCA和COHA两种语料库对Sorry进行分析,说明两种语料库之间的相同和差

异,这将有助于英语学习者在语料库中更准确地了解语言的应用和意义。

【关键词】语料库 COCA COHA Sorry

本文属于院级科研项目,项目编号:院级10XSYK320。

引 言

COCA和COHA是由Brigham Young University的Mark Davies开发的两款不同的语料

库。COCA(Corpus of Contemporary American English)是美国当代英语语料库,收录1990年

至2012年间的英语,每年进行更新,是当今世界上最大的平衡语料库。COHA(Corpus of

Historical American English)是美国近当代英语语料库,收录从19世纪初至今的英语样本,在

各个时代之间保持平衡,又分了小说、通俗杂志、新闻和学术等子库。COCA和COHA都只

需要经过注册,就可免费在互联网上使用。本文通过对sorry进行两种语料库分析,了解这两

种语料库对语言进行分析的异同。

COCA和COHA操作界面的异同

COCA和COHA在操作上有很大的相似性,但由于这两种语料库在时间上的侧重点不

同,它们的操作方式和设置选项也存在一定的差异。

和COHA的相同之处

COCA和COHA的操作界面都由DISPLAY(显示方式), SEARCH STRING(字串查询

区), SECTONS(语料库分类区), SORTING AND LIMITS(分类与限制)和OPTIONS

(查询结果排列方式)五部分组成。其中,DISPLAY包括LIST(条目), CHART(图

表), KWIC(文中关键词)和COMPARE(比较)四个选项; SEARCH STRING包括

WORD(S)(单词), COLLOCATES(搭配) 和POS LIST(位置)三个选项; SECTONS

包括五个子库和时间分段;SORTING AND LIMITS(保存和限制)包括SORTING和

MINIMUM, 其中SORTING按FREQUENCY(词频),RELEVANCE(相关度)和

ALPHABETICAL ORDER(字母顺序)三个方面进行不同的排序。在所有选项设置完成之

龙源期刊网

后,进行搜索,将会在右侧出现搜索结果。一般情况下,默认方式为FREQUENCY(词

频)。

和COHA的差异

在操作界面上,COCA和COHA基本相同,差别在于SECTIONS(语料库分类区)的设

置部分。COCA的SECTIONS部分首先分为SPOKEN(口语体), FICTION(小说),

MAGAZINE(杂志), NEWSPAPER(报纸), ACADEMIC(学术)五个子库;在时间跨度

上,又按时间段进行分类,从1990年到2012年间,以每五年为一个时间单位;然后再对上述

五个子库进行下一级分类。

而在COHA的操作界面上,SECTIONS部分与COCA的顺序相反,先进行时间分类,跨

度从2000年到1810年,以每十年为一个时间单位;然后,进行子库分类,分为FICTION,

MAGAZINE,NEWSPAPER, NF BOOKS;最后,以每年为单位,进行时间分类, 采用倒时

方式,跨度从2009年到1810年。

因此,在界面和分类上,COCA和COHA的差别并不是特别的明显。

Sorry在COCA和COHA中的异同

以下将以Sorry为例,利用COCA和COHA的搜索结果,从语义和用法上,对Sorry进行

的分析,找出COCA和COHA存在的相同点和不同点。

在COCA和COHA中的词频分析

在COCA和COHA中,在DISPLAY, SEARCH STRING, SECTIONS和OPTIONS设置

相同,将SORTING设置为FREQUENCY(词频)的情况下,在COCA语料库中,搜索结果

为:

(1)’m,共20571条;

(2)was , 共2640条;

(3)said,共2513条;

(4)feel,共21623条;

(5)’s, 共1575条。

其中,年代分布并无一定的规律性;并且,COCA注重词的前搭配,即它所收录的是

Sorry用在哪些词和句式之后。

龙源期刊网

而在COHA语料库中,搜索结果为:

(1)I,共29851条;

(2). , 共27925条;

(3)’,共23152条;

(4)“,共22003条;

(5)’m, 共15098条。

其中,年代越靠近现代这五项出现的频率越高;而与Sorry的搭配则不仅包括词,还包括

标点符号,收录的词条更细致。

从以上的数据可以看出,由于COCA和COHA收录的词条时间跨度不同,COHA的词条

数要比COCA的词条数量大许多。

2. Sorry在COCA和COHA中的搭配分析

在COCA和COHA中,从二者以Sorry在句中的用法,可以看出Sorry的用法基本相同。

(1)在Sorry的后搭配中:

①Sorry作表语。在COCA和COHA中,sorry作表语的用法最为常见,如:

I’m sorry. You know when you came off the break? (COCA)

I’m sorry, I should have told you, but I forgot it.(COHA)

②Sorry + 介词。如:

I’m sorry about that. (COCA)

I was sorry for both of them. (COHA)

③Sorry + to do不定式。如:

I'm sorry to bother you. (COCA)

I was sorry to see it go. (COHA)

龙源期刊网

④Sorry +副词。如:

They are coming in sorry again. (COCA)

(2) 在Sorry的前搭配中:

①系动词+ sorry的用法最多。系动词包括Be系动词的各种时态和人称变化,以及半系动

词包括feel等的各种时态和人称变化。如:

I feel so sorry for our ambassador. (COCA)

I'm starting to feel very sorry for myself. (COHA)

②实义动词+代词+sorry。Sorry还可以和实义动词+代词连用。如:

I show my sincere sorry to you. (COCA)

③Sorry单独使用。如:

Sorry. We have to let you go, but it’s quite an interesting story. (COCA)

Sorry, did I interrupt? (COHA)

因此,COCA和COHA对词语搭配的收录并无明显的区别。

(3) Sorry在COCA和COHA中的语意分析

在COCA和COHA这两个语料库中,都表达了Sorry在不同语言环境下的意思,以下主

要以Sorry作形容词为主进行分析。

①Sorry可表示同情、遗憾和后悔。如:

I’m sorry I’m late. (COCA)

I feel sorry for him. (COHA)

②Sorry可表示毫无价值的,不重要的。如:

It’s a sorry excuse. (COCA)

Lisa is a sorry house. (COHA)

龙源期刊网

③Sorry可表示导致不幸的或痛苦的。如:

The car industry is a sorry development in the distant region. (COCA)

Everyone could see the sorry days of the war. (COHA)

④Sorry可表示可怜或痛苦的。如:

Her clothes were in sorry shape. (COCA)

His finances were in a sorry state. (COHA)

⑤Sorry可表示道歉,对不起。如:

I’m sorry I broke your pen. (COCA)

Sorry, did I step on your foot? (COHA)

⑥Sorry可表示客气地提出异议或拒绝,其后常接but分句。如:

I’m sorry but I don’t agree(COCA)

Sorry, but I must refuse. (COHA)

⑦Sorry可表示轻视。如:

I’m sorry for you, but you have been rather foolish, haven’t you?

I’m sorry for you, but isn’t it your own fault?

⑧Sorry可表示没有听清楚对方的话,请对方再说一遍。如: “Sorry?” “I said I was cold.”

(COCA)

从以上的分析可以看出,COCA和COHA这两个语料库包含了Sorry在不同语境中的基本

用法和特殊的用法,在句中的词性和语义都有较全面的收录,可以让学习者对词语的认知更完

整、更充分。如果想要研究一个词的用法和词义的演变过程,那么,COHA无疑是最佳的语料

库;而要研究一个词的现代意义,则应该以COCA语料库为基础。

结 语

通过上述分析,COCA和COHA在界面操作上具有很大的相同之处。但由于收录词条的

时间跨度不同,COHA在SECTONS(语料库分类区)中去掉了SPOKEN子库,并将时间的区

龙源期刊网

分以年为单位,更细化了词条的出处。不论在COCA和COHA哪种语料库中,词条的应用并

无较大差别。

参考文献:

[1]钱多秀.计算机辅助翻译[M].北京:外语教学与研究出版社,2011.

[2]http:///coca

作者单位:咸阳师范学院外语系 陕西咸阳


本文标签: 语料库 进行 分析 分类 时间