像其他的社会科学一样,语言学同样充满了争论。基于不同的观点语言学家形成了多种不同的学派,各自对语言做出自己的解释。前面二节对英文与中文的论述只是基于现有的语言学观点,从本书视角组织的一个简单说明。目前全世界约有4000个语种(各种说法不一),只就英文与中文进行简单的说明,当然不能反映人类自然语言的全貌。以今天语言学界达到的认知,对常见语种进行归类划分都是困难的,没有一种分类能让每一语种只归属在一个类型下。常见的一种划分是将语言划分为分析型与综合型:
分析型。现今主要的语种都是分析型的,特点是:构造不同类型的语法实体,通过不同类型语法实体配置来表达复杂的语义,句子是表达的核心。
综合型。主要指美洲印弟安语系的一些语种,特点是:分析型语言里用多个词汇组成的句子,对应到综合型语言里是用一个词来表达,这个词以动词成分为中心,再附加众多不同的词缀,词缀同时有实指的意义与语法的意义。
在典型的分析型语言与典型的综合型语言间还可进一步细分一些中间类型的语言。分析型的语言则可进一步划分为:
孤立语。如现代汉语、越南语,特点是:没有形态的变化,语法意义表达主要借助于词序与虚词,虚词如汉语里的“着”“了”“过”“的”“地”“得”
黏着语。如现代日语、朝鲜语、土耳其语,特点是:应用多种词缀,词缀与语法意义基本是一一对应,表达时需要多种语法意义时就附上多种词缀,词根与词缀,词缀与词缀之间是在表达中动态结合的,通常词缀是后附加方式。
屈折语。如英语、阿拉伯语,特点:可以附加词缀(外部屈折),如goodness=good +ness,也可以内部语音变化(内部屈折),如drink、drank,来形成不同形态,表达不同语法意义。一种词缀可对应多种语法意义。词根词缀结合相对紧密。内部的屈折可以看作外部屈折因结合程度过于紧密发生的变化,词缀可以从前附加,也可以从后附加。
符号组合
虽然举例与说明都不会是没有争论的,每一门语言也有着无数的细节,但从媒介的视角,在命名的基础上,如果只用一个词汇来说明自然语言最根本的机制,本书认为会是“组合”一词。前面的二节直接说明自然语言的组合是如何逐层向上进行的。言语活动输出单位是语句,组合的观点意味着语句应该是可以分解的。语言学家经常用直接成分分析法对语句单位进行层次、结构、成分的分析,效果是线性的字符串语句可显示为树形的展开,叶子结点为一个个词汇。直接成分分析法用其创始人美国语言学家布龙菲尔德Leonard Bloomfield,1887.4-1949.4)所举的例子,Poor John ran away这一句子最终分析为(((Poor)( John))((ran)(away)))四个单词。拆分的过程如下:
(图3-1:句子的直接成分分析)
直接成分分析又称为二分法。在本例中,句子首先二分为:(Poor John)与(ran away),这样划分的理由是 John替换 Poor John,ran 替换ran away,语句仍然成立。然后Poor John二分为(Poor )(John);ran away二分为(ran)(away)。从常识我们也能知道:每一次表达,所发出的声音可以拆分成多个不同的音段;书写出的语句,最终可拆分为多个不同的字或词。困难在于怎么拆分。
创造更多的形态
符号的组合最初的发生可能只是偶然的:把二个声音放在一起说出来,直观上很容易联想到组合意义。一旦这种方法被触发,对其使用可能性的尝试就不会停止。也正是对组合的使用,以及符号组合与意义的互配,塑造了各自然语言的格局,产生了语言的使用规则,今天所说的语法。
前面讲到符号使用的核心问题是:语言要表现的内容是无限的。我们不可能像动物那样,为每一个需要表达的内容直接构造一串声音或其他媒介形式,并且表达不同内容的声音或其他媒介形式相互间没有什么关系,它们各自独立地存在,每次的使用都是一个独立的操作。这样做就算可能,也将是记忆力上的灾难。有了组合的方式,我们就可以给各种事物的类别赋予名称,利用组合的方式来指称子类别,如“吃草动物”。也可以对类别下的某一具体事物通过组合符号来指称,如可以用“距离太阳最近的行星”来指称水星。一个家族从祖先x、y开始,理论上其绵延不绝的后代都可以由“儿子”“女儿”二个词,再加上序数词以递归的方式来指称,如:第一(儿子(x、y)),、第二(女儿(x、y))、第二(女儿(第一(儿子(x、y))))、第一(儿子(第二(女儿(x、y))))……对于汉语,构造新的汉字实际已不太容易,新的构造或者太复杂,或者与已有汉字相互区别上很难有清晰的辨识度。有了组合的方法,我们就可以跨过此局限,通过汉字组合出新词来满足使用上的需要。从使用的角度,对我们没有特别意义的子类或实例,都可以采用组合来指称,避免直接命名。对于动作、关系、属性等要素,我们都只是在类别上命名,在组合中直接应用这些抽象的符号,并通过上下文语境得到具体语义。这形成一个重要的分工:给各种要素的类别赋予名称,通过组合来描写各要素参与的具体现象或事件。现象、事件这一层的意义,本身并不适合直接命名,它们随时发生,不断重复,同一现象每一次出现都不尽相同。组合才是更适合的描写方式。
最后的效果是我们可以以有限的基础符号构造出更多的符号形态来表示更多的意义,自然语言的符号使用的主要手段就是命名与组合。一门具体的自然语言有选择权,不一定按照上面描述的方式使用。不这样选择,那它就需要其他方式来达到同样的效果,这并不容易想象。英文与中文有着明显的不同,从组合性来分析,它们又有着太多的相似之处。组合就是目前自然语言的表现力所在。
层次
我们把组合性看作自然语言的一个根本特征,后面章节的内容会显示这也是所有符号使用中都具有的特征。本书采用一种层次方式来解释自然语言的组合物理上是如何发生的,前面二节已分别就英文与中文进行了这样的解释,现在我们可以合并这二节的内容做一个说明:
5句子(包括:小句、单句、复合句)
4复合词/词组
3字/词(包括基础字、词、合成词、派生词)
2语素/偏旁
1视觉构件(字母、笔划)
视觉构件层次以上,每一层次的语言单位为不同的语法实体。2至4层的语法实体中,除了词组外,其他固定组合的语言单位都可视为通过命名得到。在语素或偏旁上组合出的语法实体是一种直接的命名,其他的视为一种组合命名。词组,或者可重复出现的更大语言单位是否视为一种命名,更多也只是一个定义问题。分层机制实现了表达形式潜在数量几何级数的增长,自然语言到了语句一层,可组合出的形式是无限的。这可以让我们更容易应对所要表现内容的无限性。
使用分层的方式,我们可虚拟出一种让语言系统尽量经济的模型。我们先忽略第1、2层次的内容,然后重新定义语法实体的层级。我们把字或词作为0阶的单位。把0阶的单位通过组合、复合(后一节会讲到)得到的单位作为1阶单位。把0阶、1阶的单位通过组合、复合得出的单位作为2阶单位,以此类推。整体最好是有5阶层级,最高一阶是表述层。阶层系统应该这样构造:阶层数越低,其语法实体的数量越少,其语法单位统计意义上使用频率越高。从低阶层到高阶层,组合的规则是一样的,即同样的规则在各个阶层之间通用(注:汉语基本做到了这一点),且规则数量越少越好。每一阶的单位加上表述性都可成为表述层级的语句。如果需要,表述层级可再附加尽量少的规则。设计出这样的系统,学习记忆的负载将最小化,语言的使用也可更高效。只是这种设计的现实意义不大。自然语言是一种意义的发生系统,比如说词汇的出现更多是由人类的认知决定的,不单是语言上的设计。组合的规则同时也兼有意义模式的作用,不可简单地增加或弃用。另外,语言是一种文化的载体,惰性是其特征。语言也经常类比为一种制度,制度的特性是各个方面的此消彼长,比如减少某些层级上命名词汇的数量,反过来不一定能控制复合的阶数,即在一个向度的强化就可能弱化另一向度。
在句子层次以上按习惯还可以划分成如下的层次:
9丛书
8分册(书)
7章节
6段落(也称:句群)
这些层次也称为语篇层级,这一范围内没有对应的语法规则,也不再形成某些类别的语法实体。虽然也能看到一些关于句群的观点,目前这些语言学观点说服力有限。
递归
递归的使用在自然语言符号组合时很常见,这使自然语言语法实体的分布并不是典型的层次分布。在所有的符号使用中,递归都是一个关键的方法。同样的一些规则,有了递归的方式,它们的生成能力就可上升到一个新台阶。
递归一词在自然语言里的用法与在软件里的用法是不一样的,后者是指函数或过程在内部又调用了自身;自然语言里主要指结构上的嵌套使用。我们先举个例子,比如说这一句:“今年山东产的新品种苹果”,可以分析为(今年(山东产的(新品种(苹果))))就是偏正结构的三次复加应用,第一次是(新品种(苹果)),第二次是(山东产的(新品种苹果)),第三次是(今年(山东产的新品种苹果))。递归结果是大结构里套着子结构,子结构里套着孙结构……父、子、孙的结构类型可以是一样的,也可以是不一样的。递归使用方式的出现也使“组合”一词变得不充分,我们还得加上“复合”一词,表示通过递归方式进行的组合。
规则
人类的婴幼儿在开始学习说话一段时间后,就会不断给父母带来惊喜,幼儿会时不时说出父母未预料似乎也未教过他的话语。小孩会在所有的环境中学习,积累一定的样本后,小孩可以从所学到的语句举一反三地组合出新的语句。幼儿对母语的学习显示语言是有规则的,语言的习得就是能够自由地运用这些规则来表达自己的所想。
今天,对语言规则的总结主要体现为语法知识。语法主要是抽象出结构来描述组合的规则,这是一种相对容易的做法。英语的语法经常区分为词法与句法。词法主要研究的是词的结构,如词缀的附加方式,词的内部变动, 词的复合方式等,句法部分主要研究语句结构,如句子的构成成分,语序等。对汉语来说,一些学者认为:从初级语法实体到最后的复合语句,汉语都是应用同样的结构进行组合。除了英语与汉语外,还有数千种自然语言,它们的组合规则又各自有着自己的方法体系与特色。
无论什么学派,目前对语言语法规则的总结都是不充分的。研究最多的语言——英语,在计算机理解自然语言以及机器生成自然语言语句的研究中,总能发现总结出的规则不够,还需不断补充。也不太确定能否补充到完整,这样的研究路径目前也不受追捧。自然语言复杂且不规范,规则之外总有例外,细节性的规则也容易忽略。最关键的,自然语言是表义的系统,语言里的组合会受到语义的牵引,自然语言在语法侧面本身并不自足。人类语言不是静态的,而是在不停演化,其在时间某一截面上所呈现的规则性,本质上没有物理学规律那样的客观与确定性。就像其他的人类制度一样,语言是带有人类社群主观选择的产物,所谓约定俗成。
从本书所带有的物理主义出发,对语法构建可有一些简单想法交流。只从书面语的形式来考察,英语与中文有着不同的特征,语法的构建也会适用不同路径。像英语这样的屈折语言,词汇形态上的变化提供了可识别的特征,并自然地将多数词汇归了类。在这基础上去抽象上层结构与组合规则时,就可以进行较明确的描述,建立起相应的句法。然后可以用已建立的句法功能来分析那些不参与屈折变化的词汇。英语语法构建的路径更适合从词法到句法。或许可以发展一种以各类单位间可接合性为基础的描述方式。汉语里的字、词并没有什么特征的标识,语句的成分与字、词等语言单位也没有清晰的对应关系。另一方面,汉语里虚词的使用很大程度上起到了标识所用结构的作用。这也提供了一个基础,可以借助于虚词,先去识别并明确句法的结构,再去分析下级单位。即汉语语法的构建路径更适合从句法到词法。这是相当初步的想法,这些想法实际实践中也多少可以看到。这里想提出的问题是:上述二种路径及它们的结合是否具有更普遍意义?
离散与重用
前面论述中包含的一个重要概念是离散性。从意义的角度来说,基础词、合成词、复合词、甚至词组,它们是离散存在的。这些语法实体可作为一个单位参与不同的组合,就如积木游戏里的木块一样。对于外在的观察者,离散性并不是一开始就明显的事实,说话时人的发音是连续的,语言分析中断句与分词也一直是个难点。
与离散性相关的另一个重要概念是重用性。重用性意味着一个语法实体可以重复地参与不同的、通常是更上层更大的语法实体的组合,重复的次数不受限制。语言学家主要就是通过重用性分析,从语言流中分离出语言的语言单位。重用性本身是塑造语言面貌的重要驱动力。在一次具体的表述中,按需要我们把二个单位A与B排列在一起,后来发现其他的很多表述中A与B也被排列在一起,那么我们会倾向于认为AB是一固定的组合,并将其作为一个语法实体,如作为一个复合词。扩散地,如果C的应用格局类似于A,D的应用格局类似于B,也可观察到应用中CD的组合,那么我们可能尝试将CD作为类似于AB这样固定语法实体的可能。反过来的过程也存在,如果AB的重用性太差,或语言整体风格上的转向,AB作为一个固定语法实体就可能被取消,还原为A与B的临时组合。离散性与重用性不是对称的,这里的离散性是指用法上作为一个整体的那些语法实体,重用性可以指这些语法实体,也可包括更大的语言单位,如习语等。
离散性与重用性隐含着语法实体的同一性要求:相同形式的语法实体使用中始终是同一单位。这是从语法实体的意义来说的,意义角度每一语法实体可视为一个统一的整体。对汉语这样的孤立语言来说,同一性从心理到物理都是成立的。汉语里的一个语法实体在使用中不会发生形态上的变化,汉语里的组合都是机械的,仅仅把语言单位前后排列在一起。对英语这样存在形态变化的语言,事情就没这么明显。同一词不同时态上的变化,是否还可视为同一单位?这是个有争论的问题。英语里的句子要求变换各成分的形态以保持相互的一致,这样的组合也有了“化学”的性质。为避免混乱,理论上经常把同一形式具有多种意义的语言单位区分为不同的语法实体,比如一个多义词看作多个词。即便如此,同一语法实体在不同的组合使用中,我们仍可感受到其意义或功用上存在细微差别,只是这种次一级的区别不影响整体上的统一性。
组合与意义
符号的使用是为了达到媒介的不同形态与各种意义一致对应,符号的组合、复合方式,使得我们可以从有限的基础符号派生无限的媒介形态来满足符号使用的目标。从效果来说,符号组合、复合的方式也特别适合于对变幻的经验世界进行描写。我们可以说出或写下这样的语句:“三足兽展翅飞翔,回到了未来”;“暗物质在时空之外闪耀着黑色的光芒”,这不是我们见过的真实景象,但语句合乎语法,可以被理解。这是一个重要的特征,显示出自然语言虚拟、游戏的性质,言语不只是被动地由内容决定,它也受语言本身机制的驱动,可以主动地创造内容。符号上不受事实约束的积极组合,可以与人类心智上类比、联想、想象一类的发散性思维相配合。历史地看,人类心智这一方向的能力,可能因为有了符号的出口以及语言机制的配合而变得更活跃。
自然语言的非写实使用,也是人类文明的需要。从实用的方面来说,人类的活动需要事前计划的能力;商品的生产需要先进行设计;理论认知多从假设的前提开始,等等。精神生活的其他方面,情况同样如此。祭祀、宗教、神话,礼仪等。所有这些活动中,都依赖于符号虚拟构造,这里符号包括且不限于自然语言中的符号。往坏的方向说,在期望得到真正理解的努力中,虚拟的自由也经常让我们陷入不知所云中。
标签:下一代,语言,组合,符号,实体,语法,3.2,自然语言 From: https://www.cnblogs.com/CHARACTER2/p/16790639.html