第一范文网 - 专业文章范例文档资料分享平台

基于众包的大规模汉语语义知识库同义词的校对与获取 - 图文

来源:用户分享 时间:2025/6/14 0:20:04 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

2大规模汉语语义知识库资源整合2大规模汉语语义知识库资源整合为了建立规模庞大,内容全面的汉语语义知识库,就需要广泛吸纳各种不同的语义知识资源,但由于不同资源的知识结构存在着“缝隙”,这些“缝隙”就成为语义知识库之问进行相互融合的障碍n2|,因此大规模汉语语义知识库资源整合的关键是找到知识结构之间的“缝隙”和填充“缝隙”的方法。大规模汉语语义知识库资源整合的工作共分两个部分,首先进行自动整合,将词典资源结构化,在相同的结构基础上完成简单的整合。其次开发资源合并工具,利用人工整合的办法去解决机器无法解决的问题。2.1大规模汉语语义知识库自动整合2.1.1大规模汉语语义知识库自动整合思路把《词表》、《同义词词林(梅家驹版)》、《同义词词林(扩展版)》、《高频词》、《缺词表》、《现代汉语词典》、《语法信息词典》、《现代汉语语义词典》、《现代汉语虚词知识库》和词汇语义评测数据作为基础词典资源库。首先,将这十个词典转化到结构统一的Access数据库中,数据表结构如表2.1所示。表2.1Access数据表设计2大规模汉语语义知识库资源整合其中,《现代汉语词典》是从1978年正式出版至今已经历6次修订,广为认可的词典;《语法信息词典》是以朱德熙昭们先生倡导的“词组本位”语法体系为理论基础,构建的最合乎汉语语法特点的权威词典;《现代汉语虚词知识库》是优秀的现代虚词资源库瞳引,它采用“三位一体”的构建思路,主要包括三个组成部分:《现代汉语虚词用法词典》、《现代汉语虚词用法规则库》和《现代汉语虚词用法标注语料库》。因此,将《现代汉语词典》、《语法信息词典》和《现代汉语虚词知识库》作为基础核心库。此外,鉴于《同义词词林》、《现代汉语语义词典》、《词表》等词典中含有丰富的同义词、上位词、联想词和反义词资源,因此提取其中同义字段相应的同义词,上位词,联想词和反义词,补充到基础核心库中。2.1.2大规模汉语语义知识库自动整合方法整合的基本方法是首先将词典的电子版按表2.1所示结构抽取,将抽取的每个字段的值,放入统一的Access数据表中,无法抽取的字段留白。具体抽取方法以《现代汉语虚词知识库》为例,如表2.2所示。表2.2虚词词典抽取方法字段名称1D转换方法空白,资源整合后统一设置从原表的“词语”字段中获取词性代码标记统一记为“CFKB”,表示来源虚词词典从原表的“全拼音”字段中获取空白空白从原表的“释义”字段中获取从原表的“词族”字段中获取,且在抽取项前加<1>;从原表的“方言”‘‘口语”“书面”“文言”四字段判断,将不为空的一项的值传给“语用”字段:词语词性来源拼音短语频度义项同义语用备注从原表的“例句”字段获取;2大规模汉语语义知识库资源整合按以上示例完成十个基础资源的转化工作后,需要将《现代汉语虚词知识库》,《语法信息词典》和《现代汉语词典》的内容相互补充,采用机器自动补充的方式,来源为《现代汉语词典》的词条对于实词的解释更加详细,所以可以用来自《语法信息词典》的词条内容来补充来源为《现代汉语词典》的词条。对于《现代汉语虚词知识库》和《现代汉语词典》则正好相反,《现代汉语虚词知识库》的词条对于虚词的解释更加详细,所以根据《现代汉语词典》的词条补充《现代汉语虚词知识库》的词条,具体补充方法如下。以《现代汉语词典》和《语法信息词典》的补充为例:首先从数据表中将数据提取到文本文档中,用北大分词工具分词(分词的各个词记为口。),并统计各个词(口,)的词频,由于某些词在义项语句中不是主要成分(eg.非语素字,标点符号,助词,介词等)不会被统计。统计出来的格式为(口,,wD坩,,count,G尬,X伪,,X蛾,G肋。……)(count为口,的词频,ID为词条的编号,x表示为《现代汉语词典》,G表示为《语法信息词典》),将词频大于l且小于6(如果过多它将不可能是义项中的关键词)的统计作为下次统计的输入,然后根据统计结构进行再次统计以XID为关键字统计GID及其个数,并选取个数最多的GID,统计后的格式为(X伪,,G魍),其为一对更新对,根据G以,更新X仍,。更新字段为拼音,来源,词性,备注四个字段。利用上面得到的知识库,进行《现代汉语虚词知识库》和《现代汉语词典》的补充。得到更新对的步骤与上面相同。之后,将上述更新后的三个核心资源库合并到同一个数据库中,作为大规模汉语语义知识库的基础核心资源库。最后,需要将《同义词词林》、《现代汉语语义词典》、《词表》等词典中同义词、上位词、联想词和反义词根据词条义项,合并到基础核心资源库中,形成自动构建的基础资源库,但是,自动构建的基础资源库可能会存在机器合并不准确,不恰当的地方,因此,为保证大规模汉语语义知识库的质量,有必要进行人工合并与校对。2.2大规模汉语语义知识库人工合并与校对2.2.1大规模汉语语义知识库人工合并与校对思路自动构建的基础资源库以《现代汉语虚词知识库》、《语法信息词典》、《现代汉语词典》为基础,以《词表》、《同义词词林(梅家驹版)》、《同义词词林(扩92大规模汉语语义知识库资源整合展版)》、《高频词》、《缺词表》、《现代汉语语义词典》和词汇语义评测数据为补充,其关系图如图2.1所示。图2.1基础资源库关系图下一步的工作是将这些通过机器处理自动合并到一起基础资源库,进行人工二次合并和校对u川,形成大规模汉语语义知识库的雏形。人工合并的主要工作就是取所有资源的并集,以便整合出内容全面,规模庞大的汉语语义知识库,其中的核心问题,就是处理核心资源的交集部分,需要根据词语的义项,进行合并和去重。对于义项完全相同或者是关键词相近的词条,采用机器自动合并,同时做特殊标记,人工校对的方式处理;对于义项表述不同,但实际是指同一个意思的词条,涉及到语义范畴的相对性瞳引,就需要形成适当的形式化方法,结合例句上下文和常用的句法知识,进行人工判断。此外,人工校对的过程中,还需要对个别词条的空白处加以补充,对于其他资源补充后出现的明显错误进行纠正、统一词条的格式,对于有疑问的部分,还需要进行研究小组讨论。最后,对于合并后未统一的格式,采用Access内部宏10

基于众包的大规模汉语语义知识库同义词的校对与获取 - 图文.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c7ef045b3fg3ibqx7sinq_5.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top