龙源期刊网 http://www.qikan.com.cn
命名实体识别研究发展综述
作者:周玉新
来源:《科技风》2016年第16期
摘 要:随着互联网技术的飞速发展和极大普及,以及相关领域研究的不断深入,可用信息资源得到了极大丰富。人们迫切需要从海量的非结构化文本中获取有用的信息。在这一背景下,信息抽取技术应运而生。命名实体识别自诞生之日起,就被看作信息抽取系统的一个重要子任务,受到广大国内外学者的广泛关注。本文探讨了命名实体识别的基本概念和意义,并对现有的命名实体识别技术、特征、评估方法进行了总结。 关键词:命名实体识别;信息抽取;评估方法
目前广泛应用于自然语言处理领域的“命名实体”最初于1996年在第六届信息理解会议(MUC-6)上提出,那时,MUC主要侧重于信息抽取任务。信息抽取是从给定文本中抽取诸如公司活动和国防活动等特定的信息,这些文本可以是结构化、半结构化或非结构化的数据。在进行信息抽取任务时,人们发现识别文本中某些具有特殊意义的实体,如包括人名、机构名称和地名在内的名称和包括具有特殊意义的时间、日期及百分数在内的数字是必不可少的。在文本中识别这些实体的任务被称为“命名实体识别”,普遍被认为是信息抽取的一个重要子任务,它的主要任务是抽取文本中的专有名词、生物物种和有意义的时间、日期扥数量短语并进行分类。
早期的命名实体识别研究工作主要对文本中的“专有名词”进行识别,其中研究最多的三种“专有名词”是人名、地名和结构名称,这些名称可以被转换为更细化的类型,如地名可以被细化为:城市、州和国家。同样,人名可以细化为政治家和演员等。
近年来,除了识别一般文本中的专有名词外,一些生物医学语料库,如GENIA的出现引起了一些命名实体识别研究者对生物医学实体识别研究的兴趣,这些命名实体主要包括蛋白质、DNA、RNA和细胞类型等。大多数生物医学领域的命名实体识别研究主要集中于对蛋白质的识别,也有一些关于药品和化学名称实体识别的研究。
最近的一些研究并不局限于抽取这些可能的实体类型,一些细化的类如博物馆、河流或机场等引起了一些研究人员的兴趣,并且还增加了一些范围更广的类,如产品和事件,以及物质、动物、种族或颜色等。随着命名实体识别研究范围的进一步扩大,针对不同的特定领域,越来越多的实体类型得到了广大实体识别研究工作者的关注。 1 学习方法
相关推荐: