国家哲学社会科学 “九五”规划项目
中国学习者英语语料库
桂诗春 杨惠中
广东外语外贸大学 上海交通大学
国外语言学及应用 语言文字工程研究所语言学研究中心
上海外语教育出版社
1
目录
前言 I.
中国学习者英语语料库 一 导言
二 CLEC的建立 三 CLEC的统计分析
四 中国学习者言语失误统计分析 II. 词频排列(按频数)表 III. 拼写失误表 IV. 词目表 V.
词频分布表
VI. 语法标注频数表
(附
Lob134个语法标注的说明与例子)VII. 言语失误表
2
I.中国学习者英语语料库
一. 导言
中国学习者英语库(Chinese Learner English Corpus,CLEC)是国家社科基金95规划项目“基于语料库的中国学习者英语错误分析”(Corpus-based Analysis of Chinese Learner English,CBACLE)的一个重要组成部分。本书所载的是CLEC的各种统计资料和列表;对中国学习者英语错误的各种分析另收集在《中国学习者英语错误分析》一书里。两书为姐妹篇,供读者互相引证。
在某种意义上说,语料库语言学是一种研究方法; 而这种研究方法是借助计算机来实现
的,故Leech(1998a)主张把语料库语言学(corpus
表1.1 语料库研究方法 linguistics)说成是计算机语料库语言学(computer corpus
的发展 linguistics)。随着计算机的普及和现代技术(高速的中央处
时期 研究数目 理器、精密的扫描仪和字母识别程序、大容量硬盘等等)To 1965 10 的发展,这种研究方法在最近20~30年有了很大的发展。1966-1970 20 McEnery & Wilson(1996)对使用语料库方法来进行语言1971-197s 30 学研究的发展归纳如表1.1。 根据英国Lancaster大学Taylor, 1976-1980 80 Leech & Fligelstone等人在1989年的统计,英语的机读语1981-1985 160 料库当时已有36种,非英语的有18种。Hofland等人 1986-1991 320 (1999)更把18个大型的英语语料库制成ICAME(International Computer Archive of Modern English)英语语料库光盘(第二版),公诸于世。
语料库方法可以广泛地应用在语言学的各个领域(句法学、语音学、语义学、语用学、社会语言学、心理语言学、应用语言学,等等)。语料库和语言教学有密切的关系,它成为1994年ICAME年会的主题,1997年由Wichman等人将论文编辑为《教学与语言语料库》(1997)。根据Leech(1997)的说法,语料库运用到教学可以是直接的(如对学习者讲授语料库语言学、教他们使用语料库、利用语料库进行教学, 等等);也可以是间接的(如编辑词典、编写教材、语言测试,等等)。Leech还提出编写专门用途英语语料库、母语和二语语言发展的语料库、双语和多语语料库,以进一步探索语料库对教学的作用。二语语言发展的语料库也可称为学习者语料库(以后均略为LC,learner corpus)。Granger(1998)所编著的《计算机上的学习者英语》收录了15篇关于LC的论文,体现了语料库语言学研究者近年来探索在语言教学中使用语料库的各种努力。LC还可分为有标注(tagged)和无标注(untagged)两种,而有标注的LC还可以从不同的角度进行标注。从语法角度的标注叫做语法标注(grammatical tagging),主要是对词类(parts of speech, POS)标注;现在已经可能根据概率的原则,用计算机来进行自动化处理,准确率最高达95~97%。另一个角度从学习者的言语失误1来标注,叫做失误标注(error tagging)。它需要由人工进行,难度大而工 1
失误是失检(mistakes)和错误(errors)的合称。一般人把语言运用(performance)中的误差
3
作繁重,所以尽管有一些人在做这方面的努力,到目前为止,还未有一个对言语失误进行标注的LC正式问世。我们所建立的100万词的CLEC组织了一批教师对言语失误进行标注,体现了一种很有意义的尝试。它现在已经放在因特网上供教师试用,希望能获得反馈,以作进一步的改进;我们更希望教师们利用语料库所提供的信息,对中国学习者英语特点和英语失误进行探索,产生更多的研究成果,推进我国的英语教学。
根据Leech(1998b)的说法,建立LC的目的是:
? 比较LC和以目标语为母语的语料库(以后均略为ECNS,English Corpus of
Native Speakers),看有哪些语言特征是超用的 (overused)或少用的(underused)的?
? 学习者的母语在多大程度上影响了他们使用目标语的行为?
? 学习者的目标语在哪些方面达到或未达到目标语的说话人的言语行为?
? 学习者有哪些主要方面(按照频数)未能符合目标语说话人的言语行为而需要
特别的帮助?
这意味着我们需要从两个方面来分析学习者语料:一个方面是对比分析LC和别的ECNS的异同,我们选择了美国英语的Brown语料库和英国英语的LOB语料库,因为这两个语料库的数目都是100万个词左右,而且我们的学习者有的学美国英语,有的学英国英语。但是这两个语料库反映的是60~70年代英语使用情况,所以我们也尽可能使用Frown和FLOB来进行对比。这两个语料库是德国Freiburg 大学根据Brown和LOB两个语料库的采样方案收集90年代美国和英国英语语料建成的语料库。另一个方面是分析LC的言语失误,这是他们言语行为偏离目标语说话人的主要方面。应该说明的是学习者的语料偏离ECNS有许多方面,例如语言风格、文化色彩和母语影响等等,我们一下还未能对它们进行标注。因为对它们的标注有争议,而且带有较强的主观成分;而我们参与标注的人较多,难以统一。但我们的语料库一旦公诸于世,研究者就可以根据自己的需要对失误进行再分类和再标注,以便根据特定需要作更深入的研究。
叫做失检,这些误差是学习者可以自行检查出来,并作更正的;而错误则是语言能力(competence)中的误差,学习者不能自行更正。但是这种区分是从解释误差的角度提出来的,学习者语料库仅能提供言语误差,至于它们是失检,还是错误,则无法说明。例如一个词拼写错了,是因为学习者已经懂得它的正确拼写法,但在使用中不小心拼错了,还是因为学习者根本不懂其正确拼写法,需要研究者根据具体情况来解释,语料库是无能为力的。所以我们把这两种情况笼统称为失误。
4
二. CLEC的建立
1. 样本的选定
LC和ECNS最主要的不同是学习者本身是有差异的,他们语言发展居于不同的阶段,
所以样本必须来自不同发展阶段的学习者。而制订ECNS抽样方
表2.1 CLEC语料分布 案则考虑文体类型(genre)而不是语言能力。学习者的写作能力类型 词次 只是停留在“一般的”英语(例如我们不能期望我们的学习者去ST2 208088 写小说、社论、科技文章,而这些类型是一般ECNS都有的)。从ST3 209043 整体上看,我们所建立的LC基本上是同质的(homogeneous),ST4 212855 都是中国的英语学习者;从分体上却是异质的(heterogeneous)的,ST5 214510 他们处于不同的发展阶段。我们定为5个阶段,如表2.12: ST6 226106 a) 中学阶段,主要是高中生,因为初中生还没有写作课。总计 1070602 代号为st2。
b) 大学英语4级,大学1~2年级非英语专业学习者,多数学习者将参加CET4级
考试。代号为st3。
c) 大学英语6级,大学3~4年级非英语专业学习者,多数学习者将参加CET6级
考试。代号为st4。
d) 英语专业1~2年级学习者。代号为st5。 e) 英语专业3~4年级学习者。代号为st6。
整个语料库的语料有100万词,每一类型的学习者的语料为20万词。为了避免学习者在考试时往往采取回避策略(strategy of avoidance),避免写一些没有把握的东西,因此语料采样应不仅来自考试的试卷,还应来自课内外的作业。前者称为试卷作文,后者称为自由作文3。
由于采样和录入的困难,目前的语料库严格来说是书面英语的语料库。但是初级的英语学习者不会在语体上区别目标语,所以他们所写的往往就是他们要说的话。
23
这是经过处理后的数字,未经处理的原始语料库为1207879词,整理原则见1.词频排列表。 我们在研究过程中发现,试卷作文和自由作文在语言运用方面有很大差异:试卷作文是在考试
环境下的语言运用,不仅有时间和考试规则的限制,而且不允许考生查阅词典和参考书,此外还有考试焦虑因素的影响等等,因此试卷作文是一种非常态语言运用。目前CLEC中所收集的学习者语料,ST2和ST5、ST6都是自由作文,而ST3、ST4主要是试卷作文。由于来源不同,目前CLEC 中的数据仅适宜于做同类语料的比较,但不适合作纵向的比较,即不能用来说明中国学习者的语言发展过程。从长远来看,本项目将开展后续研究,把整个CLEC语料库分为两个子库:CLEC1全部由自由作文构成,CLEC2全部由试卷作文构成,这样才能作纵向的比较。关于试卷作文和自由作文的进一步讨论请参阅《中国学习者英语错误分析》一书中的有关文章。
5
2. 样本的处理
样本的处理在LC里也是比较特殊的。一般的语料库可以通过扫描仪和光学字母识别程序来建立, 十分方便。但是我们的样本都是学习者的手写文字,需要组织专人来输入,而且还要找人来校对,以免出错。我们的处理程序如下:
a) 选好样本。 b) 输入样本。 c) 校对。
d) 对言语失误进行标注。
e) 对标注进行统一。统一最好由一个人进行,使标准得以统一。但语料太多,我
们最后由三个人把失误类型分为三大部分来进行统一。 f) 对语料库和言语失误进行统计分析。 g) 建立语料库索引检索器(concordancer)。
h) 将语料库索引检索器和整个语料库放在因特网上试用。 i) 将语料库的统计数据公开发表。
3. 言语失误分类表的制订
对语料库中的学习者的言语失误进行标注是本语料库最主要的特点。在制订言语失误分类表前我们考虑了几条编制原则:
a) 简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就难于掌
握。我们采取两级分类,第一级有11类:词形、动词短语、名词短语、代词、形容词短语、副词、介词短语、连词、词汇、搭配、句子。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
b) 分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者的失误;
过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细,对少见的失误从粗。现在的分类表有61个失误码,是属于中等规模的分类表。
c)提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past,
people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断are这个词用错了。
d)开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如
[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
6
e)对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以
统一。
表2.2 言语失误分类表4 总数:61
词 码 fm2 fm3 形容词 码 aj1 aj2 aj3 aj4 aj5 词 码 wd1 wd2 wd3 语 类型 order part of speech substitution 搭 码 cc1 cc2 cc3 配 类型 noun/noun noun/verb verb/noun 句 码 sn1 sn2 sn3 sn4 子 类型 run-on sentence sentence fragment dangling modifier illogical 短语 类型 pattern set phrase degree -ed/-ing confusion 副 码 ad1 ad2 ad3 词 类型 order modification degree 介词 码 pp1 pp2 短语 类型 pattern set phrase 连 词 码 cj1 cj2 类型 pattern set phrase 形 类型 word building 动词 码 vp1 vp2 短语 类型 pattern set phrase agreement non-finite tense voice mood 名词 码 np1 np2 np3 np5 np6 np7 np8 短语 类型 pattern set phrase agreement case number article quantifiers 代 词 码 pr1 pr2 pr3 pr4 pr6 类型 Reference anticipatory it Agreement Case wh- Indefinite fm1 Spelling capitalization vp3 vp4 vp5 vp6 vp7 vp8 vp9 finite/non-finite np4 countability pr5 modal/auxiliary np9 other determiners predicative /attributive wd4 absence cc4 adj/noun 4
我们没有对表2.2和表2.3的说明译成汉语,因为没有统一译法,勉强统一容易引起误解。
7
comparison wd5 wd6 wd7
redundancy repetition ambiguity cc5 cc6 verb/adv adv/adj sn5 sn6 sn7 sn8 sn9 topic prominence Coordination Subordination structural deficiency Punctuation
表2.3 标注说明
码 fm1 fm2 分类 word word 类别 spelling word building 说明 spelling, coinage, abbreviation, apostrophe derivation, inflection, compounding, plurality (noun), irregularity(verb), 3rd person singular form(verb), syllabification, hyphenation, word division or fusion fm3 vp1 word vb phr capitalization pattern lower initial letter for upper initial letter or vice versa error in transitivity(vi as vt or vice versa), transitive verb pattern/ grammatical(cf Oxford advanced learner’s dictionary of current English edited by A. S. Hornby) phrasal verb and verbal phrase: error in form or use number agreement with its subject (noun or pronoun) finite verb for non-finite verb or vice versa infinitive error: form and use; infinitive for participle or vice versa; -ed participle for -ing participle or vice versa error in tense use within a sentence; the sequence of tenses between sentences error in the use of voice: active for passive or vice versa error in the use of mood: imperative, subjunctive; improper structure of conditional sentences misuse of modal/auxiliary verbs; wrong form of modal verb(or auxiliary verb) and verb combination (e.g tense form, voice form, etc) Error in combination with other words/grammatical 8
vp2 vp3 vp4 vp5 vb phr vb phr vb phr vb phr set phrase agreement finite/non-finite non-finite vp6 vp7 vp8 vp9 vb phr vb phr vb phr vb phr tense voice mood modal/auxiliary np1
nn phr pattern np2 np3 np4 np5 np6 np7 np8 np9 pr1 pr2 pr3 pr4 pr5 pr6 nn phr nn phr nn phr nn phr nn phr nn phr nn phr nn phr pron pron pron pron pron pron set phrase agreement case countability number article quantifiers other determiners Reference anticipatory it Agreement Case wh- indefinite omission or replacement of a fixed element that goes after a certain noun number agreement of a noun with its determiner or a word that refers to it possessive case error: form or use uncountable noun used as countable noun countable noun used with no determiner or -s; a or -s with plural noun a/an confusion or definite/indefinite confusion misuse or confusion between many/much, (a) few/(a) little, some/any, etc misuse or confusion of demonstratives, wh- determiners, numerals, etc. incorrect/ambiguous pronoun reference/anaphoric improper or wrong use of anticipatory it ; it replaced by a demonstrative, etc number agreement with a noun it refers to case error of any personal pronoun misuse or confusion of interrogative, relative and conjunctive pronouns misuse or confusion of indefinite pronouns such as all/both, few/little, some/any, either/neither, etc error in the combination words/grammatical with other aj1 aj2 adj adj pattern set phrase error in the idiomatic use of an adjectival phrase; omission or replacement of a fixed element that goes after a certain adjective adjective degree error: form and use -ed adjective for -ing adjective or vice versa improper adverb placement/wrong position adjective modifier used as verb modifier; other kinds of confusion adverb degree error: form and use unacceptable combination words/grammatical with other aj3 aj4 aj5 ad1 ad2 ad3 pp1 pp2 cj1 cj2 adj adj adj adv adv adv prep prep conj conj degree -ed/-ing confusion order modification degree pattern set phrase pattern set phrase predicative/attributive predicative adjective used as attributive adjective error in the formation or use of an idiomatic prepositional phrase unacceptable combination words/grammatical with other error in the formation or use of a phrase functioning as a conjunction 9
wd1 wd2 wd3 wd4 wd5 wd6 wd7 cc1 cc2 cc3 cc4 cc5 cc6 sn1 sn2 sn3 sn4 sn5 sn6 sn7 sn8 word word word word word word word notional notional notional notional notional notional sentence sentence sentence sentence sentence sentence sentence sentence order part of speech substitution absence redundancy repetition ambiguity n/n collocation n/v collocation v/n collocation a/n collocation v/ad collocation ad/a collocation run-on sentence sentence fragment dangling modifier misplacement of any word other than an adverb error in part of speech: right root but wrong word class error in word choice: right word class but wrong selection (any part of speech) omission of a word(any part of speech) oversuppliance of a word(any part of speech) unnecessary repeating of a word not clear word meaning/semantic improper noun(phrase) combination/semantic improper noun(phrase) combination/semantic improper verb combination/semantic improper adjective combination/semantic improper verb and combination/semantic improper adverb combination/semantic and and and and adverb and noun(phrase) verb(phrase) noun(phrase) noun(phrase) (or ad/v) adjective improper addition of clauses/fused sentence subordinate clause as a sentence; any phrase as a sentence illogical adverbial modification of a clause illogical comparison error in the comparison of words or phrases in a sentence which can not be compared topic prominence coordination subordination structural deficiency the co-occurrence of an initial noun phrase and its equivalent(usually a pronoun) in the same sentence faulty parallelism of clauses (or words/phrases) in a sentence faulty attachment of a subordinate clause to the main clause error in the grammatical construction of a sentence: improper splitting, pattern shifting, confusing structure, etc overuse, absence, choice, apostrophe, comma splice, etc. sn9 sentence punctuation
10
4. 语料库的制作工具
语料库是在计算机上实现的一个数据库,必须使用合适的软件来进行加工。这方面的软件已有不少,如WordCruncher,MicroConcord, Longman’s Concordancer, Concordance, Concordancer, Lexa, TACT, Wordsmith, 等等。经过实验和比较,我们决定使用TACT和Wordsmith,因为它们的功能比较强大,而且是自由软件或共享软件。但是我们有特殊的标注要求,而且这些软件大都不能处理汉语(我们的LC虽然是英语的,但偶尔也有汉字,影响了文件的处理),故我们也编写了一些专门的软件,如corpfind (供标注用;有的同志还用Word的自动图文集的功能编制言语失误分类表,找到失误后,按鼠标键入码,效果也很好), cbrowser(供检索用), cleantxt(供清除汉字符号用), paragraph(供清除转行符用), merge(供合并和统计词表用),PosTagger(供做语法标注用),lemma(作词目归并用),wordlist(作改正拼写后归并词表用)。所有的这些软件都要求语料库的文件是纯文本(.txt)格式。另外我们觉得Microsoft Office的Excel制造表格的功能十分强大,我们所做的表格都是Excel的.xls格式的,必须装有Excel才能打开。对这些表格我们不作进一步转换,以便用户在Excel状态下进行处理数据。如有需要,用户可以在Excel下把文件另存为别的格式。Excel本身也能做一些统计和制图工作;在需要做进一步的统计分析和制图时,我们使用了SPSS,Statistica和Harvard Chart。
TACT和Wordsmith都可以对语料库作统计分析,并进行索引检索。但是TACT可以定出检索条件(如全部语料或某一类学习者的语料)来检索词语或失误,而Wordsmith有一个特殊的功能,叫做keyness(关键词性),可以把两个语料库的词语频数进行比较,找出比参照语料库超用或少用的词语。例如我们可以把5类学习者的词表与一个参照语料库的词表进行比较,看哪些词语是各类学习者多用或少用的。在光盘里,我们提供了这两个软件,要发挥Wordsmith的全部功能,必须经过注册。
三. CLEC的统计分析
1. 统计列表
(1)
词频排列表(按频数)
词频排列表(Rank List),按频数把语料库的词型从高到低进行排列,例如the的出现频数最高,共有61787次,排在第一位。对词频也可以按字母顺序排列,叫做字母排列表(Alphabetical List)。这两个表的数据是一样的,只是排列次序不一。本书只提供按频数的词频排列表,编号II,在光盘中还提供按字母排列的词频排列表,编号III。为了把CLEC的词频排列表和别的ECNS的词频排列表进行比较,我们必须对CLEC的语料做一些筛选处理。 语料中有许多汉语拼音的专有名词和我们加到语料库里的失误标注,还有许多拼写失误,例如*abilitical, *abilitities, *abilitys, *abillities, *ablelity, *ablity, *abtilities等等,都是ability和abilities的拼写失误的不同形式。如果我们把它们都作为词型算进词频排列表里来和ECNS的词频排列表比较,则中国学习者的词汇量显然含有水分。故我们在编制词频排列表时,把汉语拼音的专有名词和失误标注加以剔除,把拼写失误的都改过来。经过处理后,
11
原来语料库的词次(tokens,语料库所有单词出现的次数)从1207879减为1070602,词型(types,语料库中所有拼写相同的连续词符串,如do, does, did, doing, done是五个词型)从25562减为15313。但这仅在编制词频排列表时所做的改变,原始的语料并没有减少和改正,以保持原貌。但在使用词语检索器进行其他统计时,仍按原来1207879个词计算,望读者留意。
一般语料库的词频排列表都要提供一些重要参数如频数(frequency)和分布率(dispersion)。AHI还提供U值(一个词在1,000,000词理论频数)和标准频数指数(SFI)。我们采取了AHI的几个参数来整理我们的词频排列表。具体的公式和它的含义见词频排列表前的说明。
(2) 拼写失误表
拼写失误表,编号IV。我们在编制词频排列表时,为了了解学习者所使用的词汇量,把他们的拼写失误改正。但不同类型学习者的拼写失误对教学很有参考意义,故我们把词频排列表中改正的拼写失误形式单独列出一个拼写失误表。拼写失误共有10540词次、5810词型。拼写失误表先列出正确的拼写形式,然后列出各类学习者的失误形式。我们可以看到有些常用词是学习者容易拼写错的,如knowledge(22种),society(21种),important(13种),government(13种),opinion(12种),beautiful(12种),because(11种),industry(11种),people(11种),等等。
(3) 词目表
词目表,编号V。词频排列表所排列的词型来自原始语料库,所以take,took,taken,taking都作为词型而统计,我们需要把这些不同形式的词型归并而成为词目(lemmas),这就是词目归并(lemmatization)。目的是了解学习者实际使用了多少词。
在编制词目表时,我们以1998年Yasumasa Someya 所编制的E_lemma表为依据, 编成专门软件。在E_lemma里,代词、副词并没有归并。词目表仍按词频排列表所设定的参数来统计,可参考词频排列表前的说明。
经过词目归并后,词型大概减少1/3强,见表3.1:
表3.1 词目归并前后的变化
学习者类型 St2 St3 St4 St5 St6 整个语料库 词目归并前 5844 5343 5481 8459 9978 15313 *参见P5脚注3
词目归并后 3981 3578 3891 5726 6781 9861
12
(4) 词频分布表
词频分布表(Word Frequency Distribution),编号VI。它和词频排列表所提供的数据是一致的,但是排列方式不一。主要是从排列的序号看词频的分布。在书中,我们提供了整个CLEC的词频分布总表,但在光盘里则增加了各类学习者的分表(编号IX~XI)。
(5) 词目分布表
CLEC词目分布表,编号为VII。Flob词目分布表,编号为VIII。编制这两个表的目的是了解词目归并后词频分布的变化情况。
(6) 语法标注频数表
CLEC语法标注表,编号为XIV。根据Lob的Tagset进行词类的自动标注,标注后再进行归类统计,因为各类学习者的语料不完全一样,故表中既提供原始的语法标注频数,又提供经标准化处理后的频数,后者可以进行比较。标准化处理的方法见表4.1前的说明。
Johansson,S. & Hofland,K.(1989)曾按上述Tagset的14大类比较了Lob和Brown的频数,现增加CLEC的频数,以作比较。表3.2显示,几个语料库的语法标注的比例比较一致,用得最多的名词类和动词类,其词汇密度(名词、动词、形容词、副词、数词等实义词所占的比例)亦很一致,在58~59%之间。
如果我们把这14类语法标注作图,就可以看到CLEC的限定词和介词用得少些,而代词又用得多些,如图3.1。这可能反映了CLEC的特点,学习者作文中有很多与个人和社会生活有关的题材,故使用了较多的代词。至于限定词(特别是the,a(n))和介词用得少些,则可能是中国学习者受汉语影响,掌握得不好,有意或无意地少用。
表3.2
名词 动词 限定词 介词 形容词 代词 副词 连词 数词 St2 CLEC,Lob,Brown语法标注比较
St3 St4 St5 49074.9 39010.2 22730.3 18145.7 14758.4 24272.1 11437.2 9025.4 3078.2 48709.2 41381.6 21773.4 21264.8 15614.6 19258.3 11985.7 10222.4 1087.4 44910.5 42229 22051.8 19462.1 13731.5 23039.4 12113.6 10481.6 1844.6 Lob Brown CLEC 50201.8 51256.2 244152.6 254992 272984 37203.2 37876.6 197700.6 179975 185393 22743.5 23537 112836 125018 123321 21477.3 22851.3 103201.2 123440 122613 15509.5 17297.7 76911.7 73546 72034 19574.1 13908.7 100052.6 71498 66879 12140.9 11297.7 58975.1 56083 53283 10354.6 11158.7 51242.7 55516 60328 1897 1354.9 9262.1 19126 20853 St6 13
不定式 Wh-词 Not There 感叹词 总计 实义词 比例 2906.5 2193.1 1825.3 744.2 238.8 3739.6 2233.3 1831.2 715.5 54.3 4422.3 2511.8 2385.9 578.3 98.9 3764.8 4044.2 18877.4 2265 2595.5 11798.7 1725.4 2105.8 9873.6 631 551.3 3220.3 114.8 43.3 550.1 15837 15718 7465 2794 1109 15030 14921 6979 2280 629 199440.3 199871.3 199861.3 199602.9 199878.9 998654.7 1002117 1017527 117358.9 118778.5 114829.2 116952.4 119083.1 587002.1 583722 604547 0.588441 0.594275 0.574544 0.585925 0.595776 0.587793 0.582489 0.594134 *参见P5脚注3
图3.1 Clec,Lob,Brown语法标注比较300000250000200000150000100000500000noundevsteerrmbsineprrseposiaPrdjonounacodvnunjuinmenfiranilstivWhal-wordExisNteotntiainlterjClecLobBrown频数语法标注
(7) 言语失误表
言语失误表编号为XV,这是未经标准化处理的原始记录。表中仍按词频排列表那样提供F,D,U,SFI,几个参数,但是实际有意义的是F和D,F表示实际频数,而D表示失误在各类学习者中的分布情况。
2. CLEC的对比分析
(1)
分布模型
14
早在上一世纪的30年代,美国Zipf提出了解释词频分布中词频和它的排列序号的关系的定律:r*f=c(词的相应的序号(r)和词的频数(f)的乘积等于一个常数(c)),所以Pr=1/(10r),即某一个序号的概率相当于1除以这个序号乘以10。但是这个定律和实际的观察并不很一致。于是法国的Mandelbrot又提出修正的公式。英国的Herdan对Zipf定律提出批评,认为它既不是一条象物理学定律那样的定律,也不符合实际的观察(不能正确描述高频词和低频词的分布)。 他认为词频的分布是遵循所谓对数正态模型(Herdan,1960a;Carroll,1967),即如果把样本(用词次表示)的积累百分比和相应的词型频数的对数作图,前者为Y轴,后者为X轴,其分布是正态的。Herdan对圣经,Carroll对Brown和AHI(American Heritage Intermediate Corpus)语料库的分析证实了这一点。
那么LC的词频分布是否也遵循这个规律,这是我们首先感兴趣的。因为如果分布模型不一样,其他的对比也就缺乏依据了。下面我们比较CLEC,Brown和AHI。三个语料库都是以对数作为X轴坐标的,但用的单位略有不同:CLEC把词型频数转换成对数(这是Herdan最初使用的单位);Brown以φ(即以log(π)为单位,π是词型频数/总词次),而AHI用的是SFI,(即10(φ+10))。因为使用的都是对数单位,所做出的曲线是可以比较的。从图3.2可见,CLEC的词频数据是线性的,和其他语料库的相似(参看图3.3和3.4)。Carroll还建议把词型频数转换成对数从而取得中位数(median)。根据这个分布,CLEC所得出的中位数是-4.20(Brown的为-3.39,AHI为-2.69)。-4.20意味着语料库中有一半的词居于63/1,000,000。
图 3.2 CLEC 词频分布图100908070例比次词累积60504030201001101001000发生频率
图3.3 Brown词频分布图 15
图3.4 AHI词次和词型的实际值和预测值
AHI 图把词次和词型做在同一幅图,而且用回归的最小二乘法来进行拟合,说明实际观察和预测的曲线是非常一致的,因此语料库是符合对数正态模型的。我们用同样的方法,作出词次和词型(图中上一组曲线代表词型,下一组代表词次)的拟合曲线。读者可以看出,实际观察和预测曲线也是高度吻合的。
16
图3.5 CLEC词次和词型的实际观察值和预测值43210-1-2-346.61差态正60.8964.166.6170.2577.74SFI(标准频率指数)
以上CLEC的两幅图都是根据词频分布表做出的,只能给我们一个总体感觉。下面我们进一步解释怎样使用词频分布表来了解中国学习者使用英语词语,特别是常用词的情况。
Palmer,H.(见Bongers,1947)在没有使用计算机的情况下曾估计头1000个英语常用词覆盖了任何英语文本的85%,第二个1000覆盖了7%,第三个1000覆盖了3%。换句话说,头3000个英语常用词覆盖了95%。有了词频分布表,我们就可以进行精确的估算。例如以Brown语料库为例,头一个1000常用词型覆盖了68.98%,第二个覆盖了6.3%,第三个覆盖了5.4%,共80.68%。Palmer的估算实际上有些偏高。那么CLEC的常用词型的覆盖面又如何?这是我们需要作比较分析。
在比较之前,我们需要对怎样使用词频分布表做一点说明。例如我们想知道CLEC中头100个常用词型的覆盖面,只要到VI词频分布表的序号栏里找到100,然后交叉查阅积累词次栏的值(0.453)和积累词型栏的值(0.9935),再用1来减去这两个值(因为词频分布表的排列是从低到高递加的),头一个值为0.547,这是覆盖面的比率,即54.7%。第二个值为0.0065,即6.5%,这是词型的比率。这两个值的含义是占了总词型的6.5%的头100个常用词型覆盖了54.7%的总词次。 其实我们也可在根据词频分布表中序号100的各排数据来算出同样结果,例如积累词次为484534,而CLEC的总词次为1070602,因此这个位置词次为1070602-484534=586068,而比例则为586068/1070602=.547。同样的,积累词型为15214,而总词型为15313,因此比例为(15313-15214)/15313=.0065。
下面我们把Brown,Lob,Frown,Flob几个语料库和CLEC一起按头100,500,1000,3000,5000个常用词型列出它们的覆盖面。
17
表3.3 从这个表可见,几个英语语 Brown 词型比例 0.198 0.992 1.99 5.96 10.281 22543 料库的覆盖面基
本上是相同的,47.43 61.965 68.86 80.663 86.204 词次比例 Frown 词型比例 0.22 1.105 2.211 6.614 11.086 17474 即数目较少的词
型占了很大份量45.28 60.176 67.626 80.121 85.854 词次比例 Lob 0.251 1.259 2.516 7.583 12.96 14264 的词次。但是词型比例 CLEC有一个鲜词次比例 49.662 65.193 72.252 83.73 88.761 Flob 词型比例 0.222 1.113 2.22 6.74 11.402 17958 明的特点,即积
累词型频数的百词次比例 47.118 61.958 69.216 81.414 86.732 0.65 3.25 6.52 19.44 31.5 4930 分比比较大(原CLEC 词型比例 因是总词型数54.7 78 85.9 95.2 97.6 词次比例 少,只有15313),
而占的积累词次数也大:头100个词型占54.7%,头1000词型占85.9%,而头3000词型占95.2%。而其他ECNS的覆盖面只有80~83%。CLEC的头1000个常用词型的覆盖面(85.9%)已经相当于其他ECNS语料库的头5000个常用词型的覆盖面(85.8%~88.7),而这1000个词型只占总词型的6.52%;CLEC的头5000个常用词型(占总词型的31.5%)已经覆盖了其语料的97.6%。
CLEC和其他ECNS的常用词型覆盖面比较 一次词 100 500 1000 3000 5000 图3.6 Clec与其他语料库常用词覆盖面比较150词次百分比100500BrownFrownLobFlobClec10050010003000500047.445.349.747.154.76268.980.760.267.680.165.272.383.76269.281.478常用词85.995.286.285.988.886.797.6BrownFrownLobFlobClec
这里应该说明的是,Palmer当初所做的估计指的其实是词目,而不是词型,因为当时并没有用计算机建立起来的语料库。为了更准确地说明覆盖面的问题,我们把CLEC和Flob的词目表再制成词目分布表(它们均载入光盘内,编号为VII和VIII),然后再比较两者的词目覆盖面:
18
表3.4 Flob CLEC 根据词目分布所作的CLEC和Flob常用词型覆盖面比较 词目比例 词次比例 词目比例 词次比例 100 0.27 48.9 1 59 500 1000 1.37 66 5.04 82.8 2.74 74.2 10.1 90.7 3000 8.14 86.27 30 97.9 5000一 次词 13.24 15128 90.48 47 2851 99.1 由此可见,从词目分布来看覆盖面,范围更宽。这更进一步说明中国学习者的词汇量有限,他们掌握的词汇量比较少,而使用面却比较宽;所以说,很多常用词都超量使用。另一方面这也说明他们写作题目范围的狭窄。就语料库自身的采样范围而言,CLEC的常用词覆盖面明显地超出其他的几个语料库,如表3.3所显示。这几个语料库的总词次都在一百万个词左右,但是它们只出现一次的词汇量又明显比CLEC的大3倍多。按照Carroll的说法,这些罕见词在语料库的出现是带有偶然性的,但都属于理论模型的一部分,都有出现的可能。使用词汇量小,而罕见词也比较少,应该是LC的一种特征。
我们还可以把CLEC内部的5类学习者的常用词覆盖面来和ECNS加以比较。首先取得几个ECNS的各个档次的常用词的平均值,定为X(其实它们的差异不大,取哪一个也可以),作为比较的参照点,然后把5类学习者和这个参照点一起列表和作图,如下:
表3.5 CLEC五类学习者常用词型覆盖面比较 st2 st3 st4 st5 st6 X 100 0.571 0.619 0.634 0.534 0.54 0.474 500 0.818 0.863 0.857 0.766 0.76 0.623 1000 0.902 0.928 0.919 0.849 0.842 0.695 3000 0.978 0.984 0.978 0.948 0.94 0.815 5000 0.99 0.991 0.993 0.974 0.97 0.869 图3.7 CLEC五类学生常用词覆盖面比较1.21词次百分比0.80.60.40.20100500100030005000常用词st2st3st4st5st6x
19
从图中可见,它们都比X偏高,即覆盖面都较大;但较为接近X的是St5和St6的学习者,即水平较高的学习者。
分布表还有另一个用途,可帮助我们了解学习者需要掌握多少常用词才能覆盖所有的文本。例如我们想知道达到90%的覆盖面需要掌握多少常用词型,通过查阅各个ECNS,我们知道:Brown 为7920(90.51%),Frown为7809(90.463%),Lob为5881(90.02%),Flob为7012(90.029%),其平均为7200左右。而在我们的St6语料中总词型为9978,但一次词有3795(只是个别学习者偶然使用),减去它以后只有6183个词,这说明St6的学习者要达到90%的覆盖面还要多懂1000个词。当然,CLEC的语料都是学习者产生的(productive),不等于他们能辨认的语料也只有那么多。
(2) 型/次比
Herdan(1960b,25)曾经指出,在语体统计学里观察词汇及其发生频数的关系的特征时,首先要考虑的是型/次比、对数型/次比和K特征值。
型/次比(type/token ratio)指的是一个语篇里所用的词型和该语篇的总词次的比率,是观察语料库用词多少最常用的参数。一般来说,这个比率视语篇体积的大小而改变:语篇的长度增加,词汇也会随着增加;但是增加并非按比例进行。语篇的长度越大,型/次比反而会降低。 因为不少常用词(特别是一些功能词)的重复率增加了。例如Brown的词型为50406,词次为1014232,型/次比为0.0497;AHI的词型为86741,词次为5088721,型/次比为0.017。这是因为AHI的收词量为5百万,比Brown多5倍。但是对数型/次比(即log(词型)/log(词次))却相对稳定,不受语料库大小的影响。Brown的对数型/次比为0.783,而AHI的对数型/次比为0.736。在我们把CLEC和其他ECNS比较,把CLEC内部的各类学习者比较时,语料的体积不完全一样,所以采用了对数型/次比的计量办法。Scott 在他的Wordsmith专用程序里,还使用了一个标准型/次比的计量,其方法是在首1000个词次中计算出其型/次比,然后在次1000个词中再重新计算一遍,一直算下去。最后取所有型/次比的平均。
K特征值是Yule(1944)首先提出的。对K特征值有不同的解释,Brown用它来表示语词的重复率,即在一个样本里随机抽取两个词,这两个词是同一个词的概率。K值大表示两个词是同一个词的概率大,这意味着使用了较大比例的常用词;K值小表示这两个词是同一个词的概率小,这意味着使用了较多的低频词。
Brown还提供了词型的平均值(总词次/总词型)、标准差和差异指数(coefficient of variation,V),后两个数据都是表示离散程度,V是相对于平均值的离散值(=标准差/平均值)。
型/次比和平均值都是表示语料库中的词汇密度的(严格意义的词汇密度是把功能词排除以后再计算型/次比,见我们在语法标注表中的讨论)。一个语料库里的词型越多,型/次比就越高,而平均值也越小。表3.6给出CLEC和其他几个ECNS在这几个方面的数据:
20
表3.6 CLEC和其他ECNS的型/次比的比较 Brown Frown Lob Flob CLEC 15313 50406 45355 39868 45089 总词型数 1070602 1014232 1008438 1094925 1007004 总词次 4930 22543 17474 14262 17958 一次词 0.321948 0.447229 0.385272 0.357731 0.398279 一次词在词型中的比例 69.915 20.12126 22.23433 27.46376 22.3337 平均值 805.29 448.39 436.3357 541.4604 452.2518 标准差 87.28 98.7077 85.12053 97.73577 91.15273 K特征值 11.52 22.2844 19.62441 19.71545 20.24975 V值 0.694083 0.782946 0.775632 0.76177 0.775287 对数型/次比 可以看出CLEC的对数型/次比低与于ECNS,只有0.69。如上所述,CLEC的语料是经过筛选处理的,其原始语料的词次为1207879,词型为25562,因此对数型/次比便是0.725。这个比率显然是有水分的,因为把许多汉语拼音的专有名词和拼写错的词都算为词型。CLEC的一次词在词型中的比例也低于其他语料库,所以平均值也特别高。有趣的是,它的K特征值并不高,表示常用词的使用程度和其他语料库大致相同。这个结果和分布模型的分析结果是一致的。我们还可以再看CLEC五种不同类型的学习者的对数型/次比:
表3.7 CLEC5类学习者的型/次比的比较 ST6 ST5 ST4 ST3 ST2 9978 8459 5481 5343 5844 总词型数 226106 214510 212855 209043 208088 总词次 3795 2961 1607 1840 2007 一次词 一次词在词型中的比例 0.380337 0.350041 0.293195 0.344376 0.343429 22.66045 25.35879 38.83507 39.12465 35.60712 平均值 215.3664 215.3376 274.0634 283.4198 265.4043 标准差 91.47528 86.36948 92.62538 100.0196 96.71432 K特征值 9.504063 8.491637 7.05711 7.244021 7.453686 V值 0.746883 0.736633 0.701727 0.70068 0.708262 对数型/次比 从表中看出,水平越高的学习者型/次比越高,越接近说ECNS。(本族语者) 但仔细分析,几类学习者语料的来源和写作的环境有所不同。St2应属一类,完全是自由作文(以课外居多),无甚限制;St3和St4属另一类,其语料主要来自CET的试卷,有考试的题材和规定的限制;而St5和St6又属另一类,以课堂作文为主,有题材的限制,但可自由参考外部资源。所以我们不能简单地比较各类学习者的对数型/次比,更不能说大学英语学习者的水平和中学学习者的差不多。这些语料的最大差别是自由作文和试卷作文的差别。试卷作文为了保证评分的一致性和可比性,不得不对命题和写作提纲作出严格规定。规定越具体,考试的信度就越有保证;但这对考生自由表达的限制就越大。它们有几个差别:
(a) 自由作文往往是关于个人和社会生活的一般性题目(如写日记、描写
学习者个人的家庭、学校生活等),而试卷的写作题目却恰恰不可能是这样的题目,以避免学习者考前把作文写好。受了题目的控制,在试卷作文里,很多国家、月份、周日的名称都出不来,而有些词语却又
21
要求考生非使用不可,导致言语失误,例如要求St3学习者写一篇Global Shortage of Fresh Water 的短文,结果有23处出现??fresh water is short的句子; (b) 在考试中的学习者有焦虑感,容易采取回避策略;而且有时间和考试
规则的限制,不能查阅词典;中学学习者的自由作文往往没有时间限制,可以查词典,请教别人; (c) 中学学习者作文的有些题目是让学习者复述一些他们所读过的文章
(如《皇帝的新衣》、《William Tell的故事》等),很多词语都抄自这些文章。
(3) 词长和句长
语料库的词长(Word length)和句长(Sentence length)也是比较语料库常用的参数。我们用Wordsmith对CLEC、Brown、Frown、Lob和Flob几个语料库作了一个统计,删去一些无关重要的数据(例如对段落的统计),其结果为表3.8。其中型/次比和标准型/次比有其不同的算法,但结果和我们的分析是一致的。读者不难发现几个语料库的词次和词型数目和我们上面报告的(也是使用Wordsmith做的)都有所增加,因为这是根据原始数据来计算的。在编制词频表时,Wordsmith会删去一些标注文字。CLEC的语料(包括下面所讨论的各类学习者的语料)是未经过筛选的,所以词次和词型的词频排列表的不一样。我们在这里关心的主要是词长和句长,词次和词型的筛选与否对分析它们没有太大的影响。 表3.8 CLEC和几个ENCS语料库的句长和词长比较 平均词长4.094.474.394.23句子69,35143,01756,91242,971句长16.6927.8421.8231.34句长标准差12.321.9315.4432.391-字母词99,05537,30544,24247,7732-字母词200,539172,961209,939247,0633-字母词297,297305,900374,302413,1894-字母词210,411252,400162,734188,0685-字母词125,649110,922113,643124,3416-字母词86,31186,27589,19193,1387-字母词74,22878,18982,55482,4768-字母词43,66756,60559,77356,3339-字母词33,41540,11842,99541,48510-字母词21,32126,90728,44726,11311-字母词10,07314,90916,54914,32612-字母词3,2418,2409,1387,80813-字母词1,8524,1964,9363,72014(+)-字母词5582,0642,1641,513 22
4.3552,67523.4916.6240,982219,087377,279162,207111,18886,42080,36757,93942,26027,68516,1808,4884,5491,784
a) 词长
我们先看平均词长,CLEC的 最低(4.09)。从词长的分布来看,几个语料库却十分一致,3-字母词最多,居首位。但CLEC 和Brown一样,排第二位的是4-字母词,而其他语料库则是2-字母词。其余的分布则是一样的,从3-字母词起递减,如图3.8:
图3.8 几个语料库的词长分布比较500,000400,000300,000200,000100,0000频数
至于CLEC 内5类学习者的语料的词长和句长的统计资料,见表3.9。表中数据显示,(a)平均词长是按学习者的水平增长而增长,St6的学习者和以英语为母语的人已经无甚区别。平均词长是学习者水平的一个很好标志。(b)从词长的分布来看,也是以3-字母词居首位。除St4和St6外,其他都是4-字母词居第二位。从图3.8看,其分布也是非常一致的,从3-字母起递减。
1-字母3-词字母5-词字母7-词字母9-词字11母词-字13母词-字母词CLECBROWNFROWNLOBFLOB字母数23
表3.9 CLEC各类学习者的词长和句长比较 St2 St3 St4 St5 St6 词次 251354 232,494 241,979 238,020 244,032 词型 8,603 7,923 8,847 10,813 12,002 型/次比 3.42 3.41 3.66 4.54 4.92 标准型/次比 36.53 31.55 32.75 38.56 40.7 平均词长 3.76 4.05 4.02 4.2 4.46 句子 17,066 14,246 12,289 12,049 13,701 句长 14.73 16.05 18.17 17.51 17.74 句长标准差 12.62 11.16 13.93 12.35 10.99 1-字母词 29,850 16,869 19,805 18,926 13,605 2-字母词 39,119 40,243 41,076 38,392 41,709 3-字母词 66,123 60,259 61,271 55,850 53,794 4-字母词 45,888 38,131 45,198 42,464 38,730 5-字母词 24,492 26,478 23,912 23,989 26,778 6-字母词 17,135 15,765 16,339 17,525 19,547 7-字母词 13,215 14,554 13,445 15,434 17,580 8-字母词 7,737 8,142 6,870 9,973 10,945 9-字母词 4,520 5,927 6,124 7,729 9,115 10-字母词 2,100 4,148 4,168 3,976 6,929 11-字母词 827 1,209 2,915 2,292 2,830 12-字母词 175 430 530 698 1,408 13-字母词 136 275 240 534 667 14(+)-字母词 27 52 60 197 222 图3.9 以Flob为参照点的CLEC五类学生词长分布80,000数60,000St2频40,00020,000St30St4词词词词词词词St5母母母母母母母字字字字字字字St6-------135791311Flob字母
b) 句长
24
Brown对各种类型的语料的句长作了很详尽的分析。Francis & Ku?era (1982)认为,Brown中的语体可分为两大类:信息性散文(informative prose),如新闻报道,社论,学术性、宗教性、技术性文章;想象性散文(imaginative prose),如一般性、科幻、爱情、惊险、侦探小说等。第一类语料的平均句长要大于第二类。LC有其自身的特点,学习者在学习英语过程中不可能写出那么多类型不同的语料。他们的语料以描述性的和议论性的居多。
我们使用了Wordsmith对5个语料库的统计作同样的处理,因此它们的数据是可比的。Wordsmith使用的标准是:凡在“.?!”后出现大写字母,就算是句子。别的语料库也可能采取别的判断方法,因此会出现不同的结果。例如根据Brown的报告,整个语料库的平均句长是19.26。
表3.10 五个语料库的平均句长比较 Brown Frown Lob Flob CLEC St2 St3 St4 St5 St6 从数据上看,st3和st4(大学英语的学习者)的平均句长比st5和st6(专业英语学习者)的要长,见图3.10。这可能是由大学英语的特点决定的,根据大学课程的教学目标,学习者接触得比较多的正是信息性散文,这一点也必然要反映到他们的写作上。另一方面,也要注意的是中国学习者受汉语的影响,出现英语不断句(run-on sentences)的失误很多,而这种失误的结果会影响句子的长度。
平均句长 27.84 21.84 31.34 23.49 16.91 14.66 17.92 19.31 16.46 17.16 图3.10 5类学生和X的平均句长比较302520151050 XSt2 St3St4 St5 St6学生类型
平均句长(4) 超用词和少用词
25
我们在一开始就引用过Leech的说法,建立LC的其中一个目的是把LC和以目标语为母语的语料库比较,看哪些语言特征是超用(overused),哪些是少用的(underused)。Mike Scott所编写的软件Wordsmith里提供一种“关键词”(Keywords)的程序,可以把某一个语料和一个参照语料库来比较分析,给出该语料中哪些词是超用的,哪些词是少用的。Scott认为,“关键词”指两种意思:一是它在文本中出现的次数超过用户所规定最低频数;二是在和一个参照语料库比较时,它在文本中出现的次数统计概率小于或等于用户所规定p-值。经过比较后,如果一个词的出现超出所期望的机率我们就把它叫做“正关键词”(positive keyword),少于所期望的机率时,我们就把它叫做“负关键词”(negative keyword)。程序提供了两种检验p-值的统计方法供用户选用:一种是卡方检验,一种是Ted Dunning的对数似然性检验(Log likelihood test)。在比较体积大的语料库时,Scott认为后者更为精确。
我们首先把Flob作为参照点,因为它的语料来自90年代的英国英语。然后把它和Lob比较。最后把CLEC 和Flob比较。比较的结果符合我们起初设定的假设:
1. Flob和Lob都是英国英语的语料库。两者的差别应该少于Flob和CLEC 的差别,
这应该反映在超用词和少用词的数量上面。结果证实了这种想法:和Lob相比较,Flob的超用词为198,少用词为227,共425;而CLEC 的超用词为943,少用词为900,共1843。
2. 超用词和少用词主要体现了语料的来源。例如不同语料中专用名词有明显差别,
中国学习者的汉语拼音的专有名词都成了超用词,而英语中一些常用的专有名词又成为少用词。题材不同也会形成差别,例如中国学习者写的很多是和个人和学校生活有关的作文,所以life, school, college, campus, English, friends, knowledge, we, I, teachers, students等等都是超用词。有些试卷作文题目如Haste Makes Waste, My View on Job-hopping, A Healthy Diet, Global Shortage of Fresh Water, My View on Fake Commodities, Euthanasia should be Legalized in China也使water, fresh, health, mortality, fake, society, jobs, money, countries, eat, harm, pollution, births, shortage, river, euthanasia,等等成为CLEC 的超用词。相反,在英国英语中经常出现的一些词,如British,church,European,community,bullet,Labour,UK, England, minister, religious, Christian, tax, committee,等等,却成为中国学习者的少用词。这也从另一方面说明用词在很大程度上受到题材的影响(topic-dependency):同样容量的语料,题材越小,所用的词汇量一般来说就越小。 3. LC和ECNS的比较,主要是看其少用词,这可以暴露LC使用英语中的一些问题。
表3.10列出头50个少用词。
表3.11 CLEC 中头50个少用词(和Flob比较) 编号 词 1843 OF 1842 HER 1841 HAD 1840 SHE 1839 BEEN 1838 WAS 1837 AN 1836 BRITISH
CLEC 频数 FLOB 关键性 P 频数 23,214 1.92 34,147 2.76 1,885.10 0 1,677 0.14 4,095 0.33 989.6 0 2,466 0.2 4,926 0.4 778.5 0 1,940 0.16 4,086 0.33 732.1 0 1,156 0.1 2,845 0.23 696.8 0 6,488 0.54 10,039 0.81 690.3 0 1,882 0.16 3,708 0.3 565.6 0 27 507 0.04 515.1 0 26
1835 LOCAL 1834 HIS 1833 CENT 1832 ITS 1831 WITHIN 1830 MR 1829 WHERE 1828 ACUTE 1827 BY 1826 WHICH 1825 E 1824 CHURCH 1823 WERE 1822 MIGHT 1821 PARTICULAR 1820 AS 1819 COMMUNITY 1818 EUROPEAN 1817 BULLET 1816 OFF 1815 BETWEEN 1814 JAMES 1813 MILLION 1812 SERVICES 1811 NON 1810 ROYAL 1809 CENTURY 1807 PARTICULARLY 1806 LABOUR 1805 ST 1804 JOHN 1803 HE'D 1802 SECTION 1801 DE 1800 UK 1799 MAJOR 1798 TERMS 1797 AUTHORITY 1796 EUROPE 1795 HE 1794 ENGLAND
39 3,569 27 705 38 205 308 3 3,443 2,424 107 13 1,910 161 20 5,471 12 10 5 245 379 4 31 41 20 4 109 23 54 8 85 4 5 8 18 125 42 37 14 5,909 45 0.3 0.06 0.02 0.03 0.29 0.2 0.16 0.01 0.45 0.02 0.03 0.01 0.49 545 5,837 466 1,784 488 872 1,056 326 5,418 4,052 588 294 3,209 641 305 7,511 262 250 226 747 965 206 290 316 255 193 453 250 331 199 400 174 176 183 217 456 278 265 195 7,631 276 0.04 0.47 0.04 0.14 0.04 0.07 0.09 0.03 0.44 0.33 0.05 0.02 0.26 0.05 0.02 0.61 0.02 0.02 0.02 0.06 0.08 0.02 0.02 0.03 0.02 0.02 0.04 0.02 0.03 0.02 0.03 0.01 0.01 0.01 0.02 0.04 0.02 0.02 0.02 0.62 0.02 511.1 500.9 463.7 458.4 445.6 428.9 416.1 414.2 399 376.3 355 311.2 303.3 296.1 293.5 276 275.3 269.9 266.7 254.3 250.5 246.7 235 233.8 232.3 229.5 218 215.2 214.9 214.7 214.7 204.4 201.1 194.2 194 192.5 189.2 188.6 182.7 181 179.3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 第一列为编号。第二列为词。第三列为该词在CLEC 中的频数。第四列为该频数的百
27
分比。第五列为参照语料库(这里是Flob)的频数。第六列为该频数的百分比。第七列为“关键性”(keyness)。第八列为p值,少于0.01者有非常显著意义。
从表3.11看出,除了一些实义词外,中国学习者对有些功能词用得较少(参看表3.2:CLEC和Brown、Flob的语法标注比较中的限定词、介词、连词、Wh-关系词的频数)。这反映了中国学习者英语的一些特点:
a) 英语代词第三人称的he,she,his, her,he’d,he’s,him,she’s,itself(举
例不限于表3.10,读者可以到总表查到,下同)都少用,这可能是因为汉语的“他、她、它”没有声音的差别,说汉语的人往往在口语中倾向于避免使用它们。这个习惯也影响到中国学习者的英语写作。 b) 汉语中被动语态不象英语那样有明确的形态特征,所以学英语的中国学习
者使用被动语态也较少,by,been都成了少用词。
c) 汉语不象英语使用那么多的从属句,所以where,who,whose,whom,
which也是少用词。
d) 有些英语介词如of,as, off,between,within,under,at,below,towards,
until,动词的过去时态如had,was,were,冠词an,the都是学习者少用的,可能是因为害怕用错。
(5) 常用词
在讨论到词汇分布模型时,我们已经谈到常用词。下面我们再拿出最常用的50个和100个词型来做对比研究。 其方法也是先把CLEC 和其他ECNS来交叉比较,然后再分析CLEC 内部的几个子语料库。
Kennedy(1998)曾经把Birmingham、Brown、Lob、Wellington、AHI、London-Lund几个语料库的头50个常用词型的次序进行排列(以收录了两千万词的Birmingham语料库为参照点),发现除了一些语料库本身的性质所带来的特点(如London-Lund是口语语料库,所以I和were 排在前)外,各个语料库的最常用的50个词型是十分一致的,除了said外,都是功能词。我们把他的表加以扩充,增加了CLEC、Flob和Frown,如表3.12。表中所给的是排列次序:
表3.12 9个语料库的头50个常用词的排列次序 THE OF AND TO A IN THAT I IT
1 2 3 4 5 6 7 15 11 1 4 3 2 6 5 11 8 9 28
Birminghan Brown Lob Well AHI London Flob Frown CLEC 1 2 3 4 5 6 7 8 9 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 5 5 5 5 4 6 6 6 6 7 7 10 9 20 17 12 24 12 10 9 10 1 1 5 2 3 3 4 4 6 5 9 6 8 7 2 17 10 11 WAS IS HE FOR YOU ON WITH AS BE HAD BUT THEY AT HIS HAVE NOT THIS ARE OR BY WE SHE FROM ONE ALL THERE HER WERE WHICH AN SO WHAT THEIR IF WOULD ABOUT NO SAID UP WHEN BEEN
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 9 8 10 11 33 16 13 14 17 22 25 30 18 15 28 23 21 24 27 19 41 37 26 32 36 38 35 34 31 29 52 54 40 50 39 57 49 53 55 45 43 9 8 12 11 32 16 14 13 15 21 24 33 19 18 26 23 22 27 31 20 40 30 25 38 39 36 29 35 28 34 46 58 41 45 46 54 47 48 52 44 37 8 7 16 11 31 13 14 15 17 23 26 27 18 27 29 25 22 20 32 19 36 28 21 40 41 35 33 30 39 34 48 58 38 56 44 54 51 49 46 45 43 13 7 11 12 8 14 17 16 21 29 31 19 20 18 25 30 22 15 26 27 36 54 23 28 33 37 64 34 41 39 57 32 42 44 59 48 71 43 50 35 75 13 11 18 20 7 16 32 29 21 55 15 24 26 85 19 35 14 42 44 65 23 72 53 36 33 38 96 64 43 81 30 34 112 48 51 37 25 76 61 67 68 9 8 12 10 33 15 14 13 16 21 22 34 20 18 26 23 24 25 32 19 42 29 27 36 37 42 28 35 30 31 47 53 38 44 45 55 50 56 52 48 39 10 8 13 9 30 16 14 12 18 24 22 33 20 17 31 23 26 21 28 19 36 29 25 34 38 52 27 35 42 32 51 48 37 47 40 46 55 39 54 44 49 21 7 25 12 14 17 33 27 30 71 23 15 38 48 19 29 44 13 53 49 10 83 39 47 35 40 103 85 72 89 22 80 36 52 107 73 86 140 82 46 147 为了展示它们之间的相互关系,我们运用了相关系数和聚类分析的统计方法。表3.13是各个语料库头50个最常用词型的相关矩阵,显示出比较高的相关系数,特别是采取了相
29
同采样方案的Brown、Lob、Frown和Flob,都在0.95以上。CLEC 和其他语料库的相关系数则没有那么高,平均有0.772。用因子分析的方法来分析,都属于一个因子。但聚类分析法却可以揭示它们之间的层次关系,如图3.11。
表3.13 9个语料库的最常用50个词的相关矩阵
CLEC Birminghan Brown Lob Well AHI London Flob Frown
CLEC Birminghan Brown 1 0.78431 0.663359 0.6487 0.685133 0.802954 0.708305 0.659662 0.649944 Lob Well AHI London Flob 1 0.919912 0.921981 0.928009 0.87599 0.724091 0.924134 0.924729 1 0.981914 0.964537 0.832946 0.543473 0.98386 0.95675 1 0.971752 0.788739 0.545288 0.991197 0.950892 1 0.815434 1 0.556107 0.635805 1 0.965705 0.790346 0.530838 0.952019 0.836356 0.509195 1 0.95957 图3.11 9个语料库的50个最常用词的聚类分析
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Tree Diagram for 9 VariablesSingle LinkageEuclidean distancesBIRMINGH BROWN LOB FLOB WELLING FROWN AHI LONDON CLEC020040060080010001200Linkage Distance
从图3.11中可见,CLEC是单独一类的,和London-Lund的口语语料库最接近,其次是AHI。这说明中国学习者的写作基本上是“写话”,没有很多书面语的语体特征。Lob, Flob, Brown, Wellington, Frown, Birmingham 都属于一类,因为它们的采样方案都是一样的。
我们把常用词型的范围扩充到100个,先把Lob和Flob比较。两个语料库中有94个词型列入头100个词里,不一致的只有6个。然后再比较CLEC 和Flob,有76个词型列入头
30
100个词里,不一致的24个。 表3.14 在三个语料库中没有列入头100个常用词型的词 Lob Flob CLEC be between, how, just, people d, down, man, must, 和对方相比,不too 在头100 常用词里面的词型 e, China, day, English, fresh, get, go, b been, being, between, good, job, know, life, make, could, even, her, him, how, makes, must, school, society, into, just, made, may, new, students, us, work, world, water over, said, such, than, these, two, well, where, would 从那些不一致的常用词看,在CLEC 中出现的头100个词型(也就是Flob所没有出现的)大多数为一些和题材有关的实义词,如English, school, students, life, day; work, job, society, work, world; fresh, water; 而在Flob中出现的(也就是CLEC 所没有出现的)大多数是功能词,如any, back, between, her, him, into, just, over, these, where, how,such和一些使用面较广的实义词,如new, been,being,could, said,would,may, well等。
另外一种检验方法是做卡方(χ2)检验(如Brown),但是Kilgarriff(见Oakes,1998a)指出,用卡方检验,样本体积越大,就越容易推翻无效假设。他建议采用按自由度的卡方检验(chi by degrees of freedom,CBDF)。如果我们检验的是头100个常用词型,其自由度就是100-1=99。查卡方值表,p=.010的值为135.81。我们可以用这种方法来检验语料库之间或一个语料库的子语料库之间的常用词型分布情况,如果某一个常用词型的卡方值大于135.81,我们就可以说这个词型的分布在两个语料库之间是有差异的。我们先比较Flob和Lob,发现头100个常用词型的分布非常均匀和一致,只有1个词型(he)是有显著差异的。再看CLEC 和Flob,不一致的地方多达86个词型。用这个办法也可以检验CLEC 内部的几个子语料库的头100个常用词的情况,其结果如表3.15。
表3.15 CLEC 中五类学习者头100个常用词型的发生频数的分布 第一行为发生频数 第二行为期望频数 *号表示在0.99的水平上有显著差异 (p=0.01) 词 THE TO AND OF IN
频数 St2 61787 St3 St4 St5 St6 卡方值 p 32260 27264 23596 23129 13094 11956.7 5386 6242.8 5204 5276 3211 4566.2 4131 12306 13126.6 5900 6853.6 5373 5792.2 5162 5012.9 4905 11547 12045 13053.7 11629.5 7186 6532 6815.6 6072 4567 5780 5760.1 5131.6 4089 4583 4985.1 4441.2 4617 4659 12795 12020.4 108.1763 7256 6276.1 117.5905 6340 5304.1 0.982335 6551 4590.5 402.1983 4817 * 31
A IS I IT 21760 19042 16250 13797 4475.8 4238 4210.9 3084 3684.9 6370 3144.6 2887 2669.9 4913.7 3395 4622.9 4230 4045.4 2485 3452.3 2823 2931.2 4886.5 4035 4597.2 3340 4023 2669 3433.1 3168 2914.9 4353.3 4983 4095.7 3538 3584.1 3888 3058.6 2354 2596.9 4499.7 26.56327 5109 4233.3 0.174596 4850 3704.6 97.99281 838 3161.4 3308.22 2565 2684.2 17.64889
* WE THAT FOR ARE YOU THEY CAN ON
PEOPLE HAVE MY WAS SO BUT WILL HE DO AS
13360 9678 9219 8746 8687 8470 8364 7056 7040 6911 6867 6487 6437 6231 5999 5909 5658 5474 2330 4809 2585.4 2838.3 1502 1830 1872.8 2056.1 1456 1787 1784 1958.6 1409 1503 1692.5 1858.1 1555 1653 1681.1 1845.5 1414 926 1639.1 1799.4 779 2736 1618.6 1776.9 1426 1183 1365.4 1499 826 1340 1362.3 1495.6 1245 1129 1337.4 1468.2 2407 870 1328.9 1458.9 2963 805 1255.3 1378.2 1506 1441 1245.7 1367.5 1415 1054 1205.8 1323.8 988 1217 1160.9 1274.5 1919 649 1143.5 1255.4 652 1390 1094.9 1202 542 1114 3551 1333 2822.6 2514.6 2085 2005 2044.7 1821.6 1884 1862 1947.7 1735.2 1636 1735 1847.8 1646.2 2381 2362 1835.3 1635.1 2667 1231 1789.5 1594.2 1930 1390 1767.1 1574.3 1806 1550 1490.7 1328.1 1717 1481 1487.3 1325.1 1344 1608 1460.1 1300.8 1656 1624 1450.8 1292.5 807 1290 1370.5 1221 1407 1129 1359.9 1211.6 1379 1107 1316.4 1172.8 1485 1141 1267.4 1129.1 1447 1030 1248.4 1112.2 2263 664 1195.4 1064.9 967 1237 1337 2599.1 25.22225 2256 1882.8 73.429 2230 1793.5 60.30972 2463 1701.5 47.4817 736 1690 9.453669 2232 1647.8 30.90606 1529 1627.2 435.4857 1091 1372.7 2.685822 1676 1369.6 211.1552 1585 1344.5 6.381424 310 1336 874.7078 622 1262 2322.997 954 1252.3 54.41241 1276 1212.2 36.29825 1168 1167.1 25.75001 864 1149.6 525.966 689 1100.7 179.1632 1614 * * * * * *
32
MORE NOT BE SOME 5452 5310 5001 4906 1059.3 449 1055 628 1027.6 718 967.8 985 949.4 1162.9 1156.5 1030.3 1064.9 252.6196 * 1588 1215 926 1274 1158.3 1151.8 1026.2 1060.7 348.1266 * 822 1133 1041 1686 1128.1 1121.8 999.4 1033 155.369 * 1149 0 1017 2117 1062.5 1056.6 941.3 972.9 64.46191 756 1284 883 998 1042.3 1036.5 923.4 954.4 1.336102 OUR WITH WAY ALL THEIR
WATER AT FROM THERE TIME VERY JOB THIS MANY WHEN ONE HIS BY
4804 4598 4571 4504 4475 4361 4355 4070 4035 4008 3956 3864 3791 3769 3767 3628 3570 3445 1078 1387 929.6 1020.6 856 1134 889.8 976.8 467 1672 884.6 971.1 877 786 871.6 956.9 432 386 866 950.7 155 3886 843.9 926.5 1466 565 842.8 925.2 525 931 787.6 864.7 1033 786 780.8 857.2 934 716 775.6 851.5 1717 777 765.5 840.4 25 209 747.7 820.9 1276 649 733.6 805.4 792 962 729.4 800.7 942 709 729 800.3 779 484 702.1 770.8 756 500 690.8 758.4 484 577 1010 703 1014.9 904.2 0 1346 971.4 865.4 1370 722 965.7 860.4 985 869 951.6 847.7 1300 729 945.4 842.3 183 69 921.3 820.8 666 934 920.1 819.7 889 813 859.9 766.1 682 817 852.5 759.5 1141 732 846.8 754.4 516 668 835.8 744.6 2847 655 816.3 727.3 0 888 800.9 713.5 723 723 796.3 709.4 910 668 795.9 709 1069 635 766.5 682.9 758 710 754.2 671.9 615 802 626 934.6 23.67457 1262 894.5 1.282569 340 889.3 197.1085 987 876.2 0.033563 1628 870.6 217.4857 68 848.4 562.3871 724 847.3 460.9049 912 791.8 87.55881 717 785 81.43649 485 779.7 32.34631 278 769.6 1182.512 128 751.7 698.5776 978 737.5 401.0022 569 733.2 5.380129 538 732.9 62.25411 661 705.8 8.429161 846 694.5 6.144235 967 * * * * * * *
33
LIFE GOOD IF OR
3388 3382 3343 3287 666.7 196 655.6 818 654.5 365 646.9 327 636.1 731.9 833 719.8 951 718.5 696 710.2 552 698.3 727.8 1147 715.8 532 714.5 1084 706.3 651 694.4 648.4 284 637.7 650 636.6 533 629.2 719 618.7 670.2 50.04704 928 659.1 322.2228 431 658 40.86201 665 650.4 122.8577 1038 639.5 150.1889
* * BECAUSE THEM KNOW
SHOULD LIKE ME THINK
WORLD FRESH HAS MAKE MUST ALSO US GET HAD WORK
WHICH
3039 3019 2943 2804 2790 2715 2683 2662 2636 2634 2626 2608 2584 2546 2494 2466 2459 2431 753 455 588.1 645.6 683 366 584.2 641.4 269 1404 569.5 625.2 159 1212 542.6 595.7 635 236 539.9 592.7 1038 390 525.4 576.8 364 659 519.2 570 220 1154 515.1 565.5 12 2483 510.1 560 401 433 509.7 559.6 325 724 508.2 557.9 611 815 504.7 554.1 326 632 500 549 679 760 492.7 540.9 262 766 482.6 529.8 1108 242 477.2 523.9 255 408 475.9 522.4 405 291 840 490 642 572 716 560 637.8 568.2 688 379 621.8
553.9 1 288 592.4 527.8 1113 468 589.4 525.1 403 755 573.6 511 974 386 566.8 505 458 212 562.4 501 101 17 556.9 496.1 501 492 556.5 495.8 860 375 554.8 494.3 786 198 551 490.9 480 607 545.9 486.4 474 326 537.9 479.2 704 378 526.9 469.4 335 459 521 464.2 1089 416 519.5 462.8 474 606 501 591.2 46.24221 694 587.3 16.70114 203 572.6 158.5718 1144 545.5 271.2069 338 542.8 16.7487 129 528.2 500.1319 300 522 46.39292 618 517.9 169.0924 23 512.8 486.3877 807 512.4 23.18866 342 510.9 66.02382 198 507.4 22.39498 539 502.7 60.57651 307 495.3 70.45369 384 485.2 100.8564 322 479.8 833.8059 291 478.4 102.5025 655 * * * * * *
34
ABOUT
SOCIETY
OTHER ONLY 2340 2334 2258 2242 470.4
541 452.8 17 451.7 351 437 288 433.9 516.5 524 497.1 970 495.9 485 479.7 454 476.3 513.6 427 494.4 439 493.1 500 477 617 473.7 457.6 555 440.4 116 439.3 482 425 324 422 472.9 9.101619 293 455.2 17.16962 792 454.1 418.3038 440 439.3 16.90914 559 436.2 49.03717
* AGE YOUR MUCH WHAT DAY UP SHE AFTER WERE NO CHINA FIRST AN OUT THEN GO MOST
STUDENTS
2169 2120 2047 2043 2016 1994 1940 1939 1917 1916 1890 1889 1888 1874 1840 1837 1832 1826 342 814 419.7 460.8 280 337 410.3 450.4 489 488 396.1 434.9 300 521 395.4 434 704 302 390.1 428.3 442 453 385.9 423.6 688 105 375.4 412.2 642 324 375.2 411.9 984 131 371 407.3 305 250 370.8 407.1 269 110 365.7 401.5 416 499 365.5 401.3 357 205 365.4 401.1 411 419 362.6 398.1 536 325 356.1 390.9 667 296 355.5 390.3 233 342 354.5 389.2 378 601 972 0 458.2 408.2 403 900 447.9 399 412 379 432.5 385.3 389 334 431.6 384.5 243 609 425.9 379.5 382 368 421.3 375.3 244 613 409.9 365.1 281 405 409.7 365 216 316 405 360.8 222 395 404.8 360.6 81 634 399.3 355.7 504 271 399.1 355.5 268 426 398.9 355.4 289 370 395.9 352.7 418 335 388.7 346.3 285 378 388.1 345.8 313 479 387 344.8 165 485 41 422 14.39618 200 412.4 41.35389 279 398.2 21.77531 499 397.5 22.99683 158 392.2 252.5255 349 387.9 8.165237 290 377.4 260.2609 287 377.2 189.669 270 372.9 1013.047 744 372.8 11.66828 796 367.7 25.58969 199 367.5 6.962742 632 367.3 0.191119 385 364.6 6.447071 226 358 90.92574 211 357.4 272.9787 465 356.4 41.65347 197 * * * * *
35
SCHOOL MAKES ENGLISH WHO YEARS 1813 1805 1785 353.4 1014 350.8 34 349.3 612 345.4 235 341.6 260 339 387.9 196 385.2 524 383.5 546 379.2 166 375 489 372.2 385.8 143 383 1091 381.3 224 377.1 309 372.9 480 370.1 343.7 373 341.2 78 339.7 347 336 426 332.2 267 329.8 355.2 1.718407 87 352.7 1253.49 78 351.2 284.604 56 347.3 205.7258 629 343.4 33.2414 256 340.8 18.42576 1765 1752 在CLEC 内部,有显著意义差别的词型有35个。这说明它们还是比较一致的(CLEC 和Flob相比,有86个词型);但是另一方面这也说明,在本语料库中不同类型学习者的常用词也受到题材的影响。例如St2学习者用school,English,St3学习者用water,fresh,world,society,St4学习者用job, work,life,age的频数都较大,这和写作题目有关,使常用词的分布不均匀。
* * *
(6)
词的搭配
建立语料库的一个重要目的是研究词语。词义是我们注意的焦点,但是词义的标注却又是一个难点。因为一般语料库收词都较多,而常用词大多数是多义词;使用计算机目前还难以判断一个多义词在特定语境中是什么意义。人工标注又需要大量的资源。在计算机上使用词语检索器(concordancer)来查阅语料库的词语,可以提供词语所出现的语境,让用户根据语境自行分析词语的意义。所以语料库加上词语检索器是目前研究词义的主要手段。在建设语料库的早期,限于技术条件(如计算机尚未普及,储存大量数据的介质尚未很好发展),语料库不能走进千家万户,词义的研究只限于少数研究机构或高等学府。今天这个问题已经解决,所以CLEC 不仅是提供一些整个语料库的统计结果,而且还提供语料库和词语检索器。这样用户只要有一台计算机就能开展各种研究。Sinclair(1991)的专著《语料库,词语检索器,搭配》可供我们研究的参考。
词语检索器所提供的语境就是一个词语所出现的上下文。通过上下文我们可以观察到哪些词语和目标词一起使用,这就是词的搭配(collocations)——一些经常在相同语境中出现的词组。一起使用的词语叫做搭配词(collocates)。
要判断搭配的强弱通常使用几种手段:一种是Berry-Rogghe所提出的Z分,一个搭配要在0.01的水平上有显著意义,Z分必须等于或超过2.576。TACT软件包提供了这个指标。Geffory等人(见Oakes,1988b)在研究法语政治文献的词的搭配时又提出C分,既考虑到搭配的频数,又考虑到搭配之间的相近程度。较常用的是计算搭配词的相互信息值(Mutual Information Score,MI),其公式是:
I(e,f)?log2p(e,f)
p(e)p(f) 36
p(e,f,)是在句子里同时出现的e和f在语料库中的概率。p(e) 和p(f) 分别是e和f在语料库中的概率。如果结果在0附近,表示搭配词之间没有什么联系。正值表示有联系,值越大,关系越密切。负值表示搭配词互相“排斥”:一个词出现,另一个词则倾向于不会出现。我们在下面研究词的搭配词时,使用相互信息值。
词的搭配可以从两个不同的角度来看:一个是搭配不当,这是用词失误的问题。在言语失误里,我们专门有一组标注用词不当的语码。另一个是搭配本身不见得有很大问题,但从中可以看到一些语料库特征。这里讨论的是后者。这方面的考察有广阔的空间,难以穷尽。我们仅举三个例子来说明。
(a) Great,large 和big
Biber等人(2000)专门讨论了Longman-Lancaster语料库中不同语体的语料中使用great, large, big的情况,他们认为在学术性语体里,使用large的居多(605),而在小说里,使用great的居多(490)。受到他们的启发,我们也比较了这三个词在Brown, Frown, Flob, Lob和CLEC 五个语料库里的频数:
表3.16 Great,large,big在几个语料库中的频数 词 Great Large Big Brown 659 376 367 Frown 450 389 330 Lob 743 476 213 Flob 533 386 255 CLEC 1354 388 514 由此看来,三个同义词在几个ECNS的频数很一致,great最多,large次之,big最少。但CLEC的great特别多,big次之,large最少。
图3.12 great、large、big在五个语料库的频数比较150010005000GreatLarge词
BrownFrownLobFlobClecBig
频数37
在这种情况下,就有必要看一看它们和别的词的搭配,找出中国学习者超用great的原因。我们通过Wordsmith的检索软件(Concord),找出它们和别的词的搭配。为了操作的方便,我们只拿Flob来和CLEC 比较。
a) 从表3.175看到,两个语料库中和large搭配的词比较一致,都是一些表示体积、数量、含量的词,如number, part,amount,sum,scale。它们的相互信息值也比较高,说明相互在一起的概率比较高,例如在CLEC 中,large quantities的频数为3,而quantities的频数也是3,large的频数为388,按上述公式计算,相互信息值便是11.6。如果large的频数只有3,也就是它和quantities总是在一起,相互信息值最高可达18.62。
表3.17 CLEC和Flob中large的搭配词 CLEC 搭配词 Flob 395 * 16 6.76 12 8.48 8 7.84 8 5.49 7 7.61 7 9.81 5 9.38 5 0 5 9.32 4 5.4 4 11.65 4 9.74 4 5.13 3 6.56 3 0.36 3 7.95 3 4.68 3 0.04 3 3 3 508 4.66 4.27 -0.73 总计 相互信息值 搭配词 388 * LARGE 41 8.99 NUMBER 36 9.88 SCALE 29 10.25 NUMBERS 23 7.26 PART 12 10.19 EXTENT 7 9.46 QUANTITIES 6 4.8 AMOUNTS 5 6.76 IN 4 6.72 SACCADES 4 6.46 BLACK 4 6.67 DEFORMATIONS 3 4.92 DISCREPANCIES 3 2.74 FAMILY 3 9.19 AMOUNT 3 1.29 AS 3 9.87 CITIES 3 11.6 ENOUGH 3 -0.08 FOR 580 总计 相互信息值 LARGE NUMBER AMOUNT SUM POPULATION SCALE QUANTITY PART ROLE AREAS CITIES PLAYGROUND CITY COUNTRY FORTUNE ONE PROPORTION QUANTITIES THAT 总计 GROUP HOUSE TO 总计 词搭配也可以反映语料库的特点,CLEC 中有些词在Flob中没有和large一起出现,有 5
在搭配词中,最高频数中通常是检索的词本身,这是它们出现在句首的频数,无须计算其相互
信息值。有些搭配词(如and)的频数也很多,因为它本身的频数很高,组合能力很强,在big and后面可以出现各种并列的词或字句,无甚意义,故予以删除。另外,总计中也包括了这个检索词本身,所以要了解其搭配词的频数应该减去它本身的频数,例如CLEC总计为580,真正的搭配词的频数应为580-388=192。而这只是指频数在3以上的搭配词。下面的计算与此相同,请留意。
38
三种不同情况:一种是题材需要,如population、playground、country、areas、proportion;第二种是中国学习者选词可能不当,如说large role、和large fortune。在Flob里,有important role和major role,也有good fortune,但却没有中国学习者的那种用法。最后一种是相互信息值很低,甚至是负值,如large that和large one,实际上是没有什么搭配意义的。相反的,Flob中一些搭配如large discrepancies,large deformations、large family、large enough,在中国学习者的语料库中未见出现,说明中国学习者尚不熟悉这些搭配。这可以为我们英语教学提供有用的信息。
b) big的使用情况在两个语料库中大致相同,大都是用来修饰有形的物体。CLEC 的频数(514)多于Flob的(255),故搭配词数目也多于Flob的。搭配词的类型不一,和写作的题目有密切关系。
表3.18 CLEC和Flob中big的搭配词 CLEC 搭配词 Flob 总计 相互信息值 搭配词 521 25 25 21 18 13 11 9 6 6 6 6 6 5 4 4 4 4 3 3 3 3 3 3 3 3 * BIG 8.7 MAN 8.28 BUSINESS 8.24 ENOUGH 7.79 PART 8.47 AS 7.88 DAY 8.68 HOUSE 4.83 总计 5.78 4.21 8.01 7.49 1.48 7.62 7.96 5.43 6.52 6.9 6.4 3.22 7.46 5.59 2.19 6.36 3.73 总计 相互信息值 263 8 6 6 4 3 3 3 296 * 5.72 6.58 6.28 5.09 0.95 4.57 4.87 BIG CITIES PROBLEM PLAYGROUND DINNER CITY BOY CAT ENOUGH EYES FAMILY MEAL TREE AS BAG BOTTLE FIRE STATE BUILDING CAKE COUNTRY DESK FISH MONEY PIECE PLAY
39
POPULATION 总计 3 721 3.63 c) Great的情况最特别,CLEC 中的频数特别高(1354),所以搭配词也特别多(2310)。在Brown和LOB里,和great搭配的词都相当一致,它们是and, deal, Britain, many, interest。 Brown语料库里还多了importance,help和power。如果拿Flob来和CLEC比较,前者的搭配词有296,而后者的搭配词却有721。从这些搭配词看,有些词的频数大都是受题材影响的(如Great Wall,great poet,甚至great changes,great progress,great achievements,great success,great improvement等等都和谈论中国社会有关),但是也有一些搭配似乎是中国学习者爱用的,如great harm,great pain,great benefit,great relief,great attention,great noise等等,而在说英语的人中是较少用;就算用,也是带有感情色彩。但中国学习者似乎把great看成是一个自由的加强语气词(intensifier),在他们没有把握使用合适的形容词时,就用great。这可能是他们超用great的一个原因,如说great space,great speed,great noise,great tree,great bag,great cake,great bottle,great desk,great piece,都表示简单的“大”。
表3.19 CLEC CLEC和Flob中great的搭配词 Flob 词 总计 相互信息值 词 总计 相互信息值 GREAT 1354 * GREAT 546 * HARM 74 7.42 DEAL 34 9.05 DEAL 71 8 BRITAIN 16 6.87 WALL 64 8.35 HALL 8 7.18 CHANGES 63 7.68 MANY 5 3.61 PROGRESS 45 7 CARE 4 5.18 CHANGE 37 4.93 MAN 4 3.65 BENEFIT 36 7.4 WAR 4 4.39 PAIN 31 6.33 BRITISH 3 3.78 RELIEF 24 8.34 EXHIBITION 3 7.48 POET 19 8.27 FUN 3 7.15 HELP 18 3.93 GRANDFATHER 3 7.64 ACHIEVEMENTS 16 7.94 LENGTH 3 6.01 EFFORT 16 7.36 PART 3 3.61 THING 16 3.57 PLEASURE 3 6.6 BURDEN 15 6.2 STRIDES 3 9.77 IMPORTANCE 15 6.22 THINGS 3 4.07 SUCCESS NEED NUMBER VALUE IMPROVEMENT MAN PLEASURE TROUBLE DEVELOPMENT
15 14 14 14 12 12 11 11 10 5.07 总计 4 5.64 6.23 6.94 3.2 6.82 5.74 3.47 648 40
ACHIEVEMENT AMOUNT SCIENTIST EFFECT EXTENT LOSS MANY PAINS SURPRISE USE
CONTRIBUTIONSCOUNTRY COURAGE PATRIOTIC PERSON SHORTAGE WORKS
ADVANTAGE ATTENTION CHINESE
CONTRIBUTION DAMAGE DEMAND DIFFERENCE EFFORTS HALL HARMS INFLUENCE INVENTION MEN NOISE PEOPLE SUFFERING THREAT
ACHIVEMENT CONCERN
CONTROVERSY DIFFICULTY EMOTIONAL FUN IN
INTEREST MENTAL POWER
9 6.48 9 6.08 9 7.61 8 5.65 8 7.34 7 6.4 7 0.73 7 6.54 7 6.17 6 2.04 5 8.12 5 1.67 5 2.75 5 7.54 5 2.53 5 3.32 5 4.77 4 5.28 4 3.51 4 1.67 4 4.91 4 6.89 4 6.25 4 5.61 4 4.99 4 6.41 4 7.63 4 5.8 4 4.57 4 2.21 4 5.19 4 -1.13 4 3.92 4 7.55 3 4.89 3 5.8 3 7.58 3 5.16 3 7.22 3 5.3 3 -2.58 3 4.05 3 5.28 3 3.74
41
PROFIT SPACE SPEED STRENGTH TORTURE WASTE WEALTH WRITER 总计
3 3 3 3 3 3 3 3 2315 6.06 5.74 3.71 5.22 6.86 1.24 4.85 6.3 (b) Get
Get在CLEC中是超用词,列入头100个常用词之中。众所周知,get是一个活用程度和组合能力都很高的动词。中国学习者用得很多,是否就意味全面地掌握了这个动词?我们也可通过观察它的搭配词来了解。我们首先分别找出get在CLEC和Flob中的搭配词,然后再找出在另一个语料库的搭配词的频数,例如get information的搭配在CLEC有12次,然后到Flob里检索这个搭配,其频数为0。在Flob中,get involved的频数为7;在CLEC中却没有列入,因为我们设定最少的频数为3。到CLEC再检索它,频数为1。然后我们计算各种搭配的相互信息值,再按它来归类。放在第一类的是CLEC的相互信息值高于Flob,放在第二类的是Flob高于CLEC的。其结果如表3.20。 表3.20 使用相互信息来观察get的搭配词 词 get information get success get (to) know get fresh(water) get along get money get knowledge get well get more get from get up get (in) touch get together get off get better get down get it get out get in get rid get to get into
CLEC频数 相互信息 Flob频数 相互信息 12 4.409953 13 3.73281 344 45 33 19 8 12 87 17 97 10 35 7 10 80 29 25 130 57 24 5.764105 3.036558 6.223357 2.367379 1.707657 1.634863 2.75676 0.826056 4.36432 5.493196 5.285285 3.596574 2.790397 1.295718 2.712703 -1.10684 8.462823 -0.39021 2.752399 0 0 3 0 2 0 0 0 4 2 11 1 5 4 1 5 19 14 10 10 25 15 0 0 2.588167 0 3.772506 0 0 0 1.3449 -0.52485 3.051365 4.376834 4.43654 3.041322 1.91033 3.102471 1.690194 3.375442 -0.44169 9.323252 0.506375 3.747503 42
21 2.145913 get some get back get their get used(to) get involved get through get a job get me get him get your get on get home get them get that get at get my get away 35 1.594809 9 17 7 1 4 55 0 0 12 40 5 5 2 1 5 6 2.428177 0.685648 1.969063 3.440455 1.379343 2.737379 0 0 1.260971 2.602699 1.163615 -0.51207 -3.51464 -3.3626 -1.69768 3.140895 10 3.165064 11 10 5 7 8 5 5 9 10 26 9 9 8 5 16 16 4.041498 2.392023 3.794473 5.816213 3.77411 5.180295 2.555068 2.812964 4.226977 5.612564 4.586287 3.154441 0.229697 0.516166 3.967901 9.509757 1159 300
从结果看,CLEC有15种搭配高于Flob,这些搭配以实义词居多,如information,success, know,water,money,knowledge,touch,well,more,better,together。和介词一起构成动词词组的只有along,off,up(其实在get up中,up也可算是副词)。而在Flob中则有24种,以虚词和习语居多。由此可见,中国学习者虽然超用get,但并不意味着他们已经掌握由get组成的各种动词词组。
(c) 关系词
Biber等人(1999)在使用语料库来研究关系分句时指出,在标准英语里,构成关系分句的关系词有which, who, whom, whose, that, where, when, why八种。语料库的数据显示,使用得最多的关系词是who,which和that。而且各种语体的关系词的使用也略有差别。受汉语的影响,中国学习者的关系分句用得较少。我们有必要比较这些关系词在CLEC和Flob两个语料库种的使用情况。
从表3.21可见,Biber所表3.21 两个语料库的关系词及其搭配词的频数 说的几个常用的关系词Flob CLEC 关系词 搭配词 搭配词 who,that)在CLECWhich 4052 947 2424 655 (which,
Who 2210 466 1777 480 中的频数均低于Flob。但是Whom 117 58 39 16 when却又明显的高,如图
为什么会特别高?whenWhose 252 50 72 23 3.13。
That 10489 2186 9883 1654 既可以在关系分句中做关系
但也可以用来构成状语分Where 1069 232 314 107 词,
When 2180 488 3762 808 句。那么中国学习者使用Why 504 140 770 221 when的频数高,是用于哪一
20873 4567 19041 3964 种功能,这是我们感兴趣的。总计 43
图3.13 Clec和Flob的关系词频数12000100008000频数6000400020000FlobClecwhichwhowhomwhosethatwherewhenwhy关系词
[wh-word to verb] [wh-word clause]
我们通过观察两个语料库的when的搭配词了解到作为关系词的when通常都是和time,year,day这样的词搭配在一起,所以我们专门把这类搭配专门拿出来比较,如表3.22。
表3.22 Time Times day Days Year Years evening Morning holiday Period Era 总计 两个语料库中作为关系词的when相互信息值 Flob 相互信息值 39 14 7 9 6 1 4 1 2 2 2 87 CLEC 相互信息值 3.69 3.86 2.7 3.92 2.04 -0.84 3.82 1.58 4.06 2.24 4.66 18 4 14 5 1 5 1 2 0 0 0 50 0.53 1.93 1.15 1.58 -1.66 -0.12 0.66 0.3 0 0 0 这当然不是全面的比较,但我们可以看出Flob的when用在这些搭配中的频数为87,而CLEC只有50。如果观察它们的相互信息值,CLEC也远远低于Flob,而且还出现0和负值。0表示CLEC中没有这样的搭配,而负值表示搭配相互“排斥”,例如??year(s)when??。所以我们可以说,中国学习者虽然用when的时候较多,但都是用于状语分句里。作为一种佐证,在CLEC里when用于句首的频数为3848,而在Flob里,却是2271。我们知道用于句首的when都是用来引导状语分句的。
四. 中国学习者英语失误统计分析
本语料库的一大特点是对学习者的言语失误进行标注。有人说,言语失误是学习者“走
44
向完善的路标”,言语失误可以根据标注检索从纵向和横向两个方面来了解学习者的英语发展。对学习者的言语失误首先进行定量分析,然后再作定性分析,更易于找到失误的原因和纠正失误的办法。对中国学习者英语失误的分析,我们将在《中国学习者英语失误分析》一书作更详尽的讨论,这里仅是做一些总的介绍。
1. 中国学习者英语言语失误汇总表
表4.1
五类学习者各种言语失误汇总表
分类 f D U SFI st2 st3 st4 st5 st6 fm1 12567 0.98 10239 80.1 2424 3349 2556 2175 2063 fm2 2167 0.98 1766 72.47 439 522 531 270 405 fm3 4234 0.91 3260 75.13 1853 851 491 826 213 vp1 1677 0.96 1345 71.29 326 379 603 123 246 vp2 614 0.93 481 66.82 225 162 74 124 29 vp3 2756 0.97 2228 73.48 470 610 950 325 401 vp4 635 0.99 522 67.18 177 185 134 76 63 vp5 609 0.99 500 66.99 176 138 130 107 58 vp6 2971 0.92 2306 73.63 1465 414 377 452 263 vp7 591 0.98 482 66.83 217 121 119 76 58 vp8 107 0.93 82 59.14 34 19 10 30 14 vp9 953 0.93 734 68.66 140 319 338 51 105 np1 167 0.98 135 61.3 59 39 35 20 14 np2 104 0.93 80 59.03 31 26 21 23 3 np3 1325 0.98 1075 70.31 254 288 302 251 230 np4 234 0.97 188 62.74 84 65 32 27 26 np5 450 0.95 354 65.49 74 114 87 72 103 np6 2675 0.98 2170 73.36 470 761 582 427 435 np7 815 0.93 627 67.97 300 125 108 209 73 np8 203 0.94 158 61.99 44 76 58 16 9 np9 87 0.89 64 58.06 8 48 15 9 7 pr1 837 0.9 624 67.95 103 275 248 107 24 pr2 84 0.77 54 57.32 21 91 28 5 0 pr3 461 0.91 347 65.4 66 63 209 34 74 pr4 233 0.91 176 62.46 94 43 25 58 13 pr5 134 0.92 102 60.09 33 62 17 9 16 pr6 20 0.63 10 50 12 3 6 4 0 aj1 66 0.95 52 57.16 8 22 19 6 11 aj2 44 0.94 34 55.31 12 4 12 7 9 aj3 305 0.81 205 63.12 48 47 39 52 119 aj4 73 0.91 55 57.4 21 3 27 15 7 45
aj5 ad1 ad2 ad3 pp1 pp2 cj1 cj2 wd1 wd2 wd3 wd4 wd5 wd6 wd7 cc1 cc2 cc3 cc4 cc5 cc6 sn1 sn2 sn3 sn4 sn5 sn6 sn7 sn8 sn9 总计 总词次 16 258 132 43 603 621 122 43 449 3002 6856 3251 2390 187 1686 363 345 1566 472 128 49 2115 1617 74 91 59 253 236 3869 3327 0.71 0.96 0.93 0.95 0.89 0.87 0.98 0.96 0.94 0.96 0.98 0.98 0.99 0.95 0.98 0.96 0.81 0.93 0.98 0.93 0.89 0.9 0.97 0.93 0.93 0.94 0.86 0.91 0.96 0.96 9 205 102 34 444 447 99 34 349 2386 5562 2638 1959 147 1368 288 231 1206 383 99 36 1576 1298 57 70 46 180 178 3075 2644 49.54 63.12 60.09 55.31 66.47 66.5 59.96 55.31 65.43 73.78 77.45 74.21 72.92 61.67 71.36 64.59 63.64 70.81 65.83 59.96 55.56 71.98 71.13 57.56 58.45 56.63 62.55 62.5 74.88 74.22 1 46 53 9 171 44 35 5 55 410 1385 737 517 34 329 95 44 213 84 31 22 527 535 13 22 12 106 62 1392 1083 4 9 112 48 44 15 15 12 120 52 313 175 24 22 9 16 176 138 1081 935 1901 2196 965 537 713 627 49 27 501 316 76 95 207 60 598 505 114 163 47 36 14 8 694 699 459 367 24 21 29 8 17 21 48 48 65 77 527 1045 668 408 2 33 11 2 205 51 26 7 30 270 902 480 316 41 272 28 8 90 50 6 3 141 158 3 24 3 49 28 587 773 0 19 9 5 55 38 15 6 50 306 472 532 217 36 268 69 26 160 61 8 2 54 98 13 8 6 2 4 318 395 72421 1207952 17760 18838 16869 10585 8343 251353 232575 241979 238020 244025 6 7.07 8.1 6.97 4.45 3.42 失误率(%)
*参见P5脚注3
读者不难看出,表中的总词次和分类词次和上面表格中所给的不一样,这是未经处理的原始语料库数据。
a) 汇总表仍然和词频表一样提供了D,U,SFI几个参数。实际上,对了解失误而言,主要是看其D值(分布值)。我们看到大多数失误的D值都相当高,在0.90以上。这说明各种失误分布均匀,各类学习者都会犯。只有3个在0.80以下:pr2(0.77),pr6(0.63),和aj5(0.71)。
46
b) 总失误率为6%,即每100个词有6个失误。各类学习者的失误率渐次减低,只有st3比st2略高,其原因和语料来自试卷作文有很大关系。这也影响到St4的失误率,实际上它还会更低些。在下面纵向分析的总体观察第3点里,我们还要专门讨论大学英语语料和中学学习者语料的问题。
c) 因为写作任务不尽相同,各类学习者的言语失误不能绝对地从数量上加以比较。它只能提供一些基本的概念,作为我们进一步分析言语失误的依据。言语失误的多寡取决于两种情况:一种是写作任务的要求,例如拼写失误(fm1)在中国学习者的言语失误中为数最多,不管哪一类学习者都一样,值得我们注意。但是st2的拼写失误数是2424,而st3的是3349,st4的是2556,我们却不能简单地比较,认为中学学习者的拼写失误反而比大学英语学习者的少。因为大学英语学习者的语源来自试卷作文,对用词有特定要求,而且在考场里不能翻阅词典。中学学习者的语源多为自由作文,对用词没有特定要求,而且还可以翻阅词典。第二种情况是有些言语失误少是因为用得少,例如中学学习者的语气词和助动词的失误少,可能是由于他们未能真正掌握其用法,采取了回避的策略。
d) 对中国学习者的言语失误可以从横向和纵向两个方面进行分析。
2. 横向分析
横向分析(Horizontal Analysis)以言语失误作为中心来进行分析,目的在于了解失误之间的关系。
首先,我们必须对言语失误汇总表的频数进行标准化处理(norming frequency counts)。表4.1报告的是实际的失误频数,但是5类学习者的词次虽然大致相同,它们的原始词次不是绝对一样的(见该表倒数第二行)。标准化处理的做法很简单,首先求出每种失误与词次的比率,然后再乘以200,000。因为我们假定这是一个1,000,000词的语料库,每类学习者的词次应为200,000。例如st2的fm1(拼写)失误为2424,总词次为251353,其标准化的失误频数应为2424/251353*200,000=1928.8。标准化后的各种失误频数虽不是实际频数,但它们可以比较。
表4.2
失误类型 st2 标准化处理后的各种失误频数及其比例
st3 1929 349 1474 259 179 374 141 140 1166 st3 2880 449 732 326 139 525 159 119 356 st4 st5 总计 百分比(%) fm1 fm2 fm3 vp1 vp2 vp3 vp4 vp5 vp6 2113 1828 1691 439 227 332 406 694 175 498 103 202 61 104 24 785 273 329 111 64 52 107 90 48 312 380 216 10440 1796 3481 1389 507 2285 526 504 2429 17.4 2.99 5.8 2.31 0.85 3.81 0.88 0.84 4.05 47
vp7 vp8 vp9 np1 np2 np3 np4 np5 np6 np7 np8 np9 pr1 pr2 pr3 pr4 pr5 pr6 aj1 aj2 aj3 aj4 aj5 ad1 ad2 ad3 pp1 pp2 cj1 cj2 wd1 wd2 wd3 wd4 wd5 wd6 wd7 cc1 cc2 cc3 cc4 cc5 cc6 sn1
173 104 27 16 111 274 47 34 25 22 202 248 67 56 59 98 374 654 239 107 35 65 6 41 82 236 17 78 53 54 75 37 26 53 10 3 6 19 10 3 38 40 17 3 1 3 37 96 42 38 7 13 136 103 35 269 28 21 4 8 44 151 326 930 1102 1635 586 830 411 613 27 42 262 431 76 65 35 178 169 514 67 98 25 40 18 12 419 597 98 64 8 25 279 43 29 17 17 19 250 211 26 23 72 60 481 359 89 176 48 13 12 8 205 90 23 4 173 29 21 49 14 8 5 3 16 5 10 6 32 44 22 13 7 2 40 28 12 9 10 2 43 172 145 43 18 22 13 6 114 25 773 227 758 444 403 518 266 22 34 261 229 79 24 50 7 417 76 135 42 30 5 7 3 578 118 48 486 11 88 86 794 11 138 2 86 189 1099 21 193 84 374 357 2225 60 671 7 169 6 73 20 633 0 122 61 369 11 192 13 114 0 20 9 55 7 36 98 252 6 60 0 13 16 216 7 109 4 36 45 500 31 523 12 101 5 36 41 375 251 2506 387 5697 436 2699 178 1986 30 155 220 1402 57 300 21 291 131 1308 50 392 7 106 2 40 44 1757 0.81 0.15 1.32 0.23 0.14 1.83 0.32 0.62 3.71 1.12 0.28 0.12 1.05 0.2 0.61 0.32 0.19 0.03 0.09 0.06 0.42 0.1 0.02 0.36 0.18 0.06 0.83 0.87 0.17 0.06 0.63 4.18 9.49 4.5 3.31 0.26 2.34 0.5 0.48 2.18 0.65 0.18 0.07 2.93 48
1815 sn2 sn3 sn4 sn5 sn6 sn7 sn8 sn9 总计 426 10 18 10 84 49 1108 862 395 21 25 15 41 56 453 574 303 17 7 17 40 64 864 337 133 3 20 3 41 24 493 650 80 11 7 5 2 3 261 324 1337 62 76 49 208 196 3178 2747 2.23 0.1 0.13 0.08 0.35 0.33 5.3 4.58 100 14132 16200 13943 8894 6838 60006 由此可见,各种失误的比例很不一样的。这61种失误可以归为11类,按类别所占的百分比的高低排列,结果如下: 表4.3 st2 按大类区分言语失误排列表 st3 st4 4061 4632 2177 2018 1326 908 462 372 69 147 28 16200 0.27 st5 2957 3947 2227 2261 1025 717 441 188 88 62 31 13943 0.23 3752 2759 2985 2570 1053 389 262 171 72 86 32 14132 0.24 st6 2749 1942 1484 1146 886 155 182 215 69 39 28 8894 0.15 总计 百分比 累积百分比 词形 词汇 句法 动词 名词 搭配 代词 介词 形容词 副词 连词 总计 百分比 2197 1542 736 1014 738 267 104 76 120 27 17 6838 0.11 15716 14821 9608 9009 5028 2436 1451 1022 417 361 137 60006 26.191 24.7 16.013 15.013 8.379 4.06 2.417 1.704 0.694 0.601 0.228 100 26.299 50.999 67.012 82.025 90.404 94.464 96.881 98.585 99.279 99.88 100.108
从表中看出,词形、词汇、句法、动词词组和名词词组前5种言语失误占了90.404%。
图4.1 中国学生言语失误比例图其他10%名词8%动词15%词形26%句法16%词汇25%词形词汇句法动词名词其他
49
其次,我们对这11大类言语失误进行因子分析,表4.4显示它们可以区分为两大因子,这两个因子可解释87.681%的方差,头一个因子可解释49.426%,第二个因子可解释38.254%。表4.5告诉我们这两个因子是由什么成分组成的。如果以0.6作为划分的标准,词形、词汇、名词、搭配、代词、副词、介词属于一个因子,而词形、句法、动词、连词、形容词属于另一个因子。很明显,第一个因子是语义性的,而第二个因子是句法性的。我们可以说,这11大类言语失误可以归纳为这两个因子。
表 4.4 因子分析所能解释的所有方差 Initial Eigenvalues E xtraction Sums of Squared Loadings Component 1 8.238 2 1.407 3 .904 74.888 74.888 12.792 87.681 8.222 95.903 8.238 1.407 74.888 12.792 74.888 87.681 5.437 49.426 4.208 38.254 49.426 87.681
Total % of CumulaVariance tive % Total % of CumulativVariance e % Rotation Sums of Squared Loadings Total % of Cumulative % e Varianc
表 4.5 经旋转后的成分 Componentnt 词形 词汇 句法 动词 名词 搭配 代词 介词 1 .653 .909 .285 .378 .863 .947 .848 .829 -.307 .863 .221 2 .674 .342 .930 .797 .483 .138 .387 .299 -.783 .384 .931 形容词 副词 连词 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a Rotation converged in 3 iterations.
50
为了更清楚观察这两个因子的相互关系,我们作了一幅平面图(surface plot),以加强直观性。
图4.2 言语失误两个因子的示意图24002200200018001600140012001000800600450040003500300025002000150010002400220020001800160014001200100080060040003800360034003200300028002600240022002000
如果要进一步了解这几大类失误的层次关系,则可使用聚类分析的手段,其结果如图4.3:
51
Tree Diagram for 11 Variables图4.3 11大类言语失误的聚类分析Single LinkageEuclidean distances 词形 词汇 句法 动词 名词 搭配 代词 介词 形容词 副词 连词050010001500200025003000 Linkage Distance
从图中可见,词形和词汇关系最密切,句法和动词次之;名词和搭配以及其下的代词、介词、形容词、副词和连词相连,然后再与句法、动词联系。应该指出的是,这不仅是词类的联系,而是词类失误的联系。这对我们改善中国学习者写作水平甚有启发,例如教学习者使用动词,不能离开句法;教学习者使用名词,既要考虑搭配,也要考虑联系句法和动词。
3. 纵向分析
(1)
总体观察
纵向分析以学习者作为中心来进行分析,观察代表着不同水平的5类学习者的言语失误的关系。真正意义的纵向研究(longitudinal study)是追踪同一批学习者的言语失误在不同阶段的变化和发展。 我们的五类学习者虽然代表了不同水平,但他们不是同一批学习者。我们的观察实际上是一种垂直的(vertical)观察,目的是了解不同发展阶段的中国学习者言语失误的变化情况。但在进行比较时要注意试卷作文和自由作文两种不同类型的语料之间的明显差异,不能就五类学习者作简单的比较,只有在同类学习者之间进行比较,才能说明不同发展阶段言语失误的变化。
首先我们看到,他们的言语失误相当一致,以表2.2的61种失误为基础,五类学习者的相关系数矩阵如下: 表4.6 st2
五类学生言语失误的相关矩阵 st2 1 st3 st4 st5 st6 52
st3 st4 st5 st6 0.831924 1 0.80778 0.949511 1 0.923814 0.931175 0.865299 1 0.781353 0.924314 0.84675 0.933733 1
用因子分析的形心法来分析,只有一个因素,占90.425%的方差。这说明中国学习者是同质性的,他们的言语失误有很密切的相关。如果要进一步了解几类学习者的内部关系,可用聚类分析法和多维图示(multidimensional scaling)法:
Tree Diagram for 5 Variables图4.4 五类学习者言语失误的层次图 Single LinkageEuclidean distances ST2 ST5 ST6 ST3 ST48001000120014001600180020002200Linkage Distance
53
图4.5 五类学习者言语失误的两维分析图 Derived Stimulus ConfigurationEuclidean distance model2.0st21.51.0.5st5Dimension 20.0st6-.5-1.0-1.5st3st4-1.0-.50.0.51.01.52.0Dimension 1其次我们再比较各个阶段的5大类言语失误的情况。
图4.6 5类学生按前5大类失误的走势图500040003000200010000st2st3st4st5学生类型st6
*参见P5脚注3
从这几幅图可见:
a) 各类学习者的言语失误基本走势是语言水平越高,失误越少。图4.6按失误最多的5大
类(占90.404%)作图,各类学习者的走势基本上从高到低;但也不完全一致,如句法和动词走势中的st4、词形中的st3。
b) 另外,各类学习者中也略有区分,st3和st4(大学英语学习者),st5和st6(英语专业学
习者)比较接近,而st2(中学学习者)则是另一类(见图4.5)。
c) 有些失误不一定按这个走势发展,最明显的是因子分析中所提到的语义性因子(包括词
形、词汇、名词、搭配等)。这些言语失误都和写作的题材,特别是和试卷作文有关。
词形词汇句法动词名词
频数54
在考试现场写作,有各种限制,如在一定时间内完成题目所要求的写作任务,不能查词典,考试中的焦虑等等。而中学学习者的自由写作并没有这些限制,通常在课外进行,可以查词典。而且写作题往往和他们的阅读材料有关。所以写作要求(往往体现在题目上)越高,就越容易出现语义性失误。St3和S4这方面的失误较多,主要是这个原因。读者可参看表4.2,语义性失误中的用词不当(wd3,替代)的频数在所有失误中占第二位(其百分比为9.49%),仅次于拼写(fm1,拼写),其百分比为17.4%。这两种失误都和试卷作文的题目要求有关的。我们还可以进一步看wd3失误中各类学习者所占的比例:St2为19%,St3为29%,St4为32%,St5为13%,St6为7%。图4.7把表4.3的言语失误分为语义性和句法性两大类,比较中学学习者和大学英语学习者的情况。从图中可见,由于试卷作文,大学英语学习者的语义性失误多于中学学习者,但句法性失误则比中学学习者少。这是因为语法失误受题材影响较少。图4.4的层次图和图4.5的两维分析图都显示大学英语学习者的语料是单独一类的,正是反映了这种情况。要想进一步了解这个问题,读者还可以参看下面分体观察中的词形分析(图4.8)和词汇分析(图4.12和图4.13)。所以就语义性失误而言,不宜把各类学习者放在一起来做纵向比较,因为语源不同。把St3和St4单独进行比较,较为可取。
图4.7 St2与St3、St4的主要言语失误比较6000500040003000200010000词形词汇名词搭配句法动词 连词言语失误类型
*参见P5脚注3
st2st3st4频数(2) 分体观察
根据上述的讨论,我们可以把言语失误随着学习者水平提高而降低作为“正常”现象,反之我们就作为“逆常”现象。“逆常”现象并非不正常,它仅提示我们需要对失误的原因做进一步的观察,以找出失误的原因。下面我们举几个个案来说明。更多的发现有赖于读者进一步的观察。
a) 词形
中国学习者失误最多的是词形,有三种:拼写、构词和大小写。从图4.8看,st3和st4的拼写失误都比st2多,原因是用词(特别是没有把握的词)多,拼写失误也多,所以拼写和词汇有密切关系(参看图4.6)。但是从st3到st6的走势却是正常的。从构词看,st3和st4
55
的失误比其他类学习者的略高,这可能反映大学英语学习者的一些特点:他们多是理工科学习者,喜欢使用推理的方法通过构词规则来构成一些不存在的词。 例如st3学习者造了booktexts, millionman, increasement, fearness, childness, home-teaching, limitful, respection, couragely, shortlessness, st4造了societism, nationed, stimulatous, changements, sickful, normy, enwide, effection, maken, valueness等等说法。这里也反映了试卷作文的特点,如果学习者有时间在写完后多校阅几遍,或者允许查阅词典,这类言语失误都是可以避免的,此外从大小写失误来看,其走势应该也是正常的,但st5比st4的多,和st2持平。
这三种失误中拼写失误的频数最多,是英语教学应该注意克服的重点。为了帮助学习者克服这种失误,我们专门把拼写失误列表。请参看表V. 拼写失误表。
图4.8 5类学生词形失误的走势图3500300025002000150010005000st2st3st4st5学生类型st6
*参见P5脚注3
Tree Diagram for 3 Variables图4.9 词形失误层次关系图Single LinkageEuclidean distances拼写构词大小写 拼写 构词 大小写频数100015002000250030003500Linkage Distance 56
b) 动词词组
动词词组是中国学习者学习英语的一个难点。图4.10显示时态、及物性、主谓一致性和定式是最常见的失误。时态失误以st2最多,然后逐步呈下降趋势,st3和st4较稳定,但st5略有反弹。主谓一致性失误也是中国学习者常犯的失误,大学英语的学习者逐步攀升,然后在st5和st6回落。及物性型式的走势大致相同。这两种失误具有很密切的关系,其相关系数为0.977%。
图4.10 5类学生动词失误走势图1400120010008006004002000st2st3st4st5学生类型st6及物性词组一致性定式不定式时态语态语气情态
*参见P5脚注3
Single Linkage图4.11 动词失误的层次关系图Euclidean distances 及物性 词组 定式 不定式 语态 语气 情态 一致性 时态02004006008001000频数Linkage Distance
从图4.11看来,时态的频数最多,这是中国学习者最常见的动词失误。它首先和一致
57
性有密切关系,然后一致性又和其他的失误有关,其中最重要的是及物性。在及物性这个组别里,情态又和其他失误有关。时态、一致性和及物性是中国学习者动词中需要掌握的重点。
c) 词汇
上面已经指出,词汇失误往往受写作题目影响,是属于“逆常”现象。我们再进一步考察几种词汇失误的走势。St3在所有7种词汇失误中都略高于st2。“替换”(即用词不当)是全体学习者犯得最多的失误,st3和st4犹为厉害。这大概是因为考试试题制约了学习者的用词,而在考场上又不允许翻看词典。同样的原因也使他们犯了较多词类失误。
图4.12 5类学生词汇失误走势20001500词序词类替换缺少冗余重复歧义
图4.12和图4.13反映了几种词汇失误的关系,替换是频数最高的,它和词类的关系密切,而词类又和缺少、冗余、歧义有关。词序和重复有关系,它们又和替换联系起来,但是频数不如词类组多。所以它对英语教学的启发是,教会学习者正确用词,而且注意词类。
图4.13 词汇失误层次关系图Single LinkageEuclidean distances频数10005000st2st3st4st5学生类型st6 词序 重复 词类 缺少 冗余 歧义 替换02004006008001000120014001600Linkage Distance
58
d) 句法
句法失误一共有11种,其中有4种占的比例最大,它们是结构缺陷、不断句、不完全句和标点符号。总的来说,st2的句法失误都较多于其他学习者。不完全句失误是符合正常走势的。不断句失误在st3和st4,而标点符号失误在st5和st6中最为严重。根据聚类分析,结构缺陷和标点符号有密切关系,而不断句和不完全句又有较密切的关系。其他句法失误则聚合成一小类,和不断句与不完全句组有联系。可见不断句是中国学习者句法中常出现的失误,这种失误和汉语的表达方式很有关系。例如汉语说“这个攻击的形势,简直是急风暴雨,顺之者存,违之者灭。”(毛选第1卷),翻译到英语就必须说“In force and momentum the attack is tempestuous; those who bow before it survive and those who resist perish.” (英译本) 。如果在tempestuous后,象汉语那样用逗号,就是不断句(run-on sentences)。象下面的句子,在中国学习者里是非常典型的:When we learn English, we must have met some new words, sometimes we can memorize them./ It is used not only in studying English but also in many ways, dancing is a good exercise, when I begin to learn, I feel it difficult to do, but I do every day, little by little, I master it and I learn lots of knowledge, now, I dance perfectly.(省去失误标注)在某个意义上说,这也和标点符号的使用有很大联系,所以图4.14正确地表示了这种关系。主题突出本来也和汉语有很大关系,但在CLEC中使用的频数没有如我们所期望的那么高。对我国英语教学而言,学习者应该注意写完整的句子,注意用标点符号分句,避免使用由一连串逗号组成的不断句。
图4.14 5类学生句法失误走势图12001000800频数6004002000st2st3st4st5st6学生类型不断句不完全句垂悬修饰语比较不合逻辑主题突出并列主从结构缺陷标点符号
59
图4.15 句法失误层次关系图Single LinkageEuclidean distances 不断句不完全句垂悬修饰主题突出 比较 并列 主从结构缺陷标点符号0100200300400500600700800Linkage Distance
五. 结论和问题
1. 把CLEC来和其他ECNS进行对比分析是有可能的,因为语料库的分布都符
合对数正态模型。但是要使对比建立在可靠的基础上,必须对LC进行加工处理(改正词表中的拼写失误,删去汉语专有名词的英语拼音)。在CLEC内部进行比较,则必须对频数进行标准化处理。CLEC和ECNS的采样方案不相同,而方案不同会影响词汇的使用,CLEC内部的语料来源也不尽相同(如试卷作文和自由作文),所以对词汇的对比研究应该慎重小心。
2. 语料库方法提供了一个定量和定性分析的接口。定量分析着眼于数字(figures),定性分析着眼于语词(words)。语料库分析立足于语词的频数(word frequencies),必须结合使用定性和定量两种方法,即既要依赖于词频分析的手段,也要依赖词语检索的手段。
3. 中国学习者语料库在型/次比、平均词长和平均句长等方面均低于ECNS。但是水平越高的学习者越接近说英语的人的水平。
4. 就词型而言,CLEC头5000个常用词型中,31.51%的词型占了97.65%。就词目而言,47%占了99.1%。这意味着中国学习者在更多的场合里使用更少的词型,也可以说是趋向于超用最常用的词。这导致了常用词,特别是多义常用词的误用。这意味着我们在教学中不要仅注意到增加学习者的词汇量,而且要注意帮助学习者掌握多义常用词和词语用法。
60
5. 中国学习者的言语失误反映在语义性和句法性两个方面,语义性失误包括词汇、名词、搭配、代词、介词、连词;而句法性失误包括句法、动词、形容词和连词。这两个因素都和拼写有关。除了词汇以及相关的词形失误以外,言语失误一般是随着言语能力提高而减少。但是也应注意,言语失误多意味着学习者掌握得不好,言语失误少却不一定意味着学习者掌握得好。言语失误少可能因为他们用得少。
6. 在各种词汇失误中,替换(用词不当)最多,占了38.84%,用词不当往往取决于写作任务。所以词汇失误不一定反映学习者的水平,它也可能反映写作的要求。
7. 有些言语失误不一定是随着语言能力提高而减少的。这些“逆常”现象往往有助于我们观察不同语言能力学习者的写作特点:例如st2学习者的时态失误特别多,而st3和st4的学习者又容易犯一致性失误;st3和st4的学习者犯较多的构词失误;st3和st4写出较多的不断句,而st5和st6又在标点符号方面失误较多。当然,st3和st4主要是试卷作文,这里没有考虑这一点。
8. 我们在CLEC中注意到在学习者类型上进行抽样,但却未能做到在题材方面抽样。由于写作能力的局限,LC不能象其他ECNS那样按文体类型来进行抽样。学习者写作大都是描写性或叙述性的文体。这使语料库的对比分析产生一定的困难。此外,也有必要将试卷作文和自由作文分别建库,使对比分析更具说服力。
9. LC的写作基本上是“写话”,所以较接近于英语的口语语料库。但因为是写下来的,又缺乏一些口语的特征。这也是CLEC的一个特点。
10. CLEC反映的是学习者的语言能产性(productive)技能,并不能反映学习者的语言接受性(perceptive)技能。要全面理解学习者的语言能力,还必须采取其他办法。
11. 对失误进行标注的最大问题是难于统一,参加标注的人越多就越容易不一致。但是人力太少,又使标注旷日持久。目前的失误标注的分类表也有许多有待改进的地方,例如有的标注是描写性的,如“时态”表示在时态方面的失误,但有的标注却是分析性的,如“替换”不是表示在替换方面失误,而是表示应该进行替换,即用词不当。 文献
Biber, D. et al(1999). Longman Grammar of Spoken and Written English. Pearson Education Limited.
Biber, D. et al(2000). Corpus Linguistics. Cambridge: Cambridge University Press. Bongers,H.(1947). The History and Principles of Vocabulary Control. Woerden:Wocopi
Carroll, J. (1967). Statistical Analysis of the Corpus, Carroll,J. et al. Word Frequency Book,IX-XL,
61
Boston: Houghton Mifflin Company.
Carroll, J. et al (1971). The American Heritage Word Frequency Book. Boston: Houghton Mifflin Co.
Francis & Ku?era (1982). Frequency Analysis of English Usage: Lexicon and Grammar. Boston: Houghton Mifflin.
Granger, S.(1998)Learner English on Computer, Essex: Addison Wesley Longman Limited Herdan, G. (1960a) Type-Token Mathematics, 42-58, The Hague: Mouton & Co. Herdan, G.(1960b)Type-Token Mathematics, 25, The Hague: Mouton & Co.
Hofland et al (1999). ICAME Collection of English Language Corpora, 2nd Edition Norway: The HIT Centre, University of Bergen.
Hundt, M. et al (1998). The Freiburg Lob Corpus of British English. Hofland et al (1999).
Hundt, M. et al (1999). The Freiburg Brown Corpus of American English. Hofland et al (1999). Johansson, S. et al (1978). The Lancaster-Oslo/Bergen Corpus of British English, Hofland et al (1999).
Johansson, S. et al (1989). Frequency Analysis of English Vocabulary and Grammar: Based on the LOB Corpus. Volume I. Oxford: Clarendon Press.
Juilland,A., et al (1970). Frequency Dictionary of French Words, The Hague:Mouton.
Kennedy, G.(1998).An Introduction to Corpus Linguistics. Essex: Addison Wesley Longman Limited.
Kucera, H. & Francis, W. (1967) Computational Analysis of Present-day American English. Providence, Rhode Island: Brown University Press
Leech, G. (1997). Teaching and Language Corpora: A Convergence. Wichman, A. et al (1997). Teaching and Language Corpora. 1-23, Essex: Addison Wesley Longman Limited
Leech,G. (1998a) Preface, Granger, S.(1998). Learner English on Computer, XVII, Essex: Addison Wesley Longman Limited.
Leech,G. (1998b). Preface, Granger, S.(1998). Learner English on Computer, XIV, Essex: Addison Wesley Longman Limited.
Lyne, A.A.(1985). The Vocabulary of French Business Correspondence, Geneva and Paris: Slatkine-Champion.
McEnery,T. & Wilson, A.(1996). Corpus Linguistics, 18, Edinburgh: Edinburgh University Press. Oakes,M.(1998a). Statistics for Corpus Linguistics,28-29, Edinburgh: Edinburgh University Press.
Oakes,M. (1998b). Statistics for Corpus Linguistics,166-168, Edinburgh: Edinburgh University Press.
Rosengren, I. (1971). The Quantitative Concept of Language and its relation to the structure of Frequency dictionaries. études de Linguistique Appliquée(Nlle Sér.) 1:pp.103-27.
Sinclair, J.(1991).Corpus, Concordance, Collocation, Oxford: Oxford University Press. Yule, G(.1944).The Statistical Analysis of Literary Vocabulary. Cambridge: Cambridge University Press.
62
相关推荐: