叙词表无关联词分析与处理
常春/王星
2012-11-7 15:37:30 来源:《情报杂志》(西安)2011年8期
【英文标题】Analysis and Processing on Orphan Term in Thesauri
【作者简介】常春(1966-),男,中国科学技术信息研究所博士,研究馆员,研究方向:信息组织北京100038;王星(1977-),男,中国科学技术信息研究所学士,软件设计师,研究方向:程序开发、数据库等北京100038。
【内容提要】在网络环境下,丰富适用的叙词表词间关系是发挥其信息组织与知识服务功能的重要保障。通过抽样统计分析《汉语主题词表》中无关联词的特征,统计结果认为无关联词主要由普通事物名词术语及属性概念名称组成,数量大小与概念术语的属性分类没有关系。在叙词表修订和重新编制中,需要为无关联词建立和增加语义关系,还提出并讨论了两种增加词间关系的方法。
In web environment, the rich concept relationships in thesaurus play an important role of safeguard in information organization and knowledge service. The paper samples and analyzes the characteristics of orphan terms in Chinese Thesaurus, and finds out that the orphan terms are mainly general terminology and concepts of the name attribute, and there is no
relationship between the number of orphan terms and the terms of attributes of concept. For thesaurus revision and re-establishment, it is better to establish and increase semantic relationship for orphan terms, the article also raises and discusses two methods to increase concept relationships.
【关 键 词】无关联词/叙词表/词间关系Orphan term/Thesaurus/Concept relationship
0 引言
2009年,中国科学技术信息研究所在国内相关研究机构与专家参与下,启动了《汉语主题词表》(工程技术版)的修订与重编工作,修订的出发点是继承,重编的含义是编制适合网络环境下信息组织与信息检索的叙词表,这样的项目完全符合继承与发展的普遍规律。修订与重编的重要内容包括选词与建立词间关系。在选词方面,包括继承一些原《汉语主题词表》(以下简称《汉表》)的重要概念及增加一些新的概念;在词间关系方面,也包括继承以前一些重要的词间关系,并且建立更多新的关系。在项目开展与执行过程中,原《汉表》中一些特殊的叙词——无关联词,成为修订与编制重点讨论与处理的对象。本文通过对原《汉表》无关联词的调查,对无关联词进行了分析与归类。通过与其他80多部叙词表进行对比,分析了无关联词产生的原因,面向《汉表》(工程技术版)的修订与重新编制,提出了减少无关联词的方法。
1 减少无关联词的意义
叙词表中的无关联词,也叫非族中词,几乎在国内每部传统叙词表中都存在,1991年版《汉语主题词表》的无关联词占10%以上[1],2005年出版的《中国分类主题词表》,也有20%的无关联词[2]。传统叙词表无关联词普遍存在,只是所占比例大小不等。叙词表作为较为成熟完善的传统知识工具,词间关系,也可以理解为目前图书馆学、情报学领域概念间的语义关系,是叙词表发挥作用的重要措施,对于无关联词,意味着没有表达出概念间的语义关系,也就无从发挥这些概念的语义关系。这就引发人们思考,为什么传统叙词表中存在无关联词?在网络时代修订和重新编制叙词表时,应该如何面对无关联词?或如何处理无关联词?对于叙词表中无关联词的处理,已经存在的观点是尽量减少无关联词,甚至达到理想的无关联词不存在,即所有的叙词都入族[3],也有关于如何减少无关联词的方法和措施报道[4-5],但现实存在是几乎所有的传统叙词表都存在无关联词。在网络环境下,基于词频、基于文献保障等思想修订和重新编制的叙词表,将在文献的查全查准等方面发挥更加重要的作用[6],丰富的词间关系,将是新型叙词表的重要特征,也是发挥重要作用的基础与条件保障。
2 无关联词相关定义
与叙词表无关联词直接相关的概念,主要有以下几个,分别定义如下[7]:
无关联词(orphan term):如果一个叙词,属项(S)、分项(F)和参项(C)都不存在,则这个叙词就是无关联词。一些无关联词甚至没有代项(D),本文称其为“独词”。
关联比:等于(叙词总数-无关联词总数)/叙词总数。关联比越接近1,说明有语义关系的叙词所占比例越大;或者可以说,关联比越大,则无关联词越少,理想的结果是关联比等于1,即不存在无关联词。
参照度:(F项词数+S项词数+C项词数)/叙词总数,参照度越高,则语义关系越丰富;由于参照度是一个平均值,而单个叙词的参照关系数量存在不均衡特点,故参照度与无关联词数量没有直接关系。可以假设一个极端值,叙词表参照度等于“0”,即所有叙词没有任何F项、S项和C项,这时叙词总数等于无关联词总数,关联比等于0,无关联词的比例为100%,这样的叙词表也就不成其为叙词表了,更可能是一个词汇表,或者是同义词表。
属分参照度:(F项词数+S项词数)/叙词总数。
相关推荐: