洪宇 等:话题跟踪中静态和动态话题模型的核捕捉衰减 1107
据TERN(TERN协会基于规则的标注规范覆盖了TIMEX2 2001指南中大部分时间类型(/ taggers/timex2\_taggers.himl))协会基于规则的标注规范进行抽取.
此外,时序事件链中的事件是从新闻报道中抽取出的内聚文本块,抽取方法是基于时间表达式的Textiling改进算法[28].该算法不仅能够按照不同文本块的内聚相似性以及块与块之间的互斥性对不同事件内容进行划分,同时借助文本块中的时间表达式,能使事件对应于它发生的时间.由此,选取文本块中频率最高的词特征构成事件描述,并使这一描述对应文本块中的时间表达式,便形成了时序事件链中的基本结构: 时间,事件 对. ij2,m=e21 (a) 匹配过程 (b) 更新过程
Fig.3 Examples for comparison and modification of temporal-event chain
图3 时序事件链匹配及更新样例
在此基础上,跟踪过程将话题和报道都描述为时序事件链,匹配两者相关性时,首先比对两者时序事件链中的时间索引,如果存在一致的时间,则进一步计算对应这一时间的事件相关度,如图3(a),报道Si包含的时间索引
jjiit2和话题Tj的时间索引t2jm相同,则分别计算事件e21与e21,e22的相关度.而话题与报道的相关性通过上述事件
ijij的相关度均值进行衡量,如图3(a)中,话题Tj和报道Si的相关度为Sim(e21,e21)和Sim(e21,e22)的加和取平均值.事
实上,基于时序事件链的相关性衡量策略可以有多种方式,比如,取对应相同时间的最大事件相关度;借助时间粒度粗糙系数进行加权的事件相关度线性加和.此外,事件描述方式的变化也可以引入不同的相关性度量方法,比如,事件被描述为名实体和动词组合成的 施事,受事,行为|状态 语义关系,则匹配事件特征时,需要兼顾特征的语义属性.上述事件描述及其相关性度量方式将有效地改进跟踪的精确性.但本文着力单纯地评估不同结构的话题模型在静态和动态属性下的核捕捉性能,因此实验部分仅采用未加改进的简易时序事件链话题模型.
与树状动态话题模型相比,时序事件链的动态变形方式简明、直接,且对话题模型中的其他子结构并无影响.跟踪过程一旦检测到相关于特定话题的报道,即可启动自适应学习机制,对该话题的时序事件链实施动态变形.自学习过程如下:首先检测相关报道中的所有时间表达式是否都出现于话题事件链的时间索引中,对于未出现的时间表达式,自学习机制将其按时序嵌入索引,同时将其在相关报道中对应的事件描述嵌入事件链,并对应于这一索引;其次,对于已出现的时间表达式,自学习机制遍历对应的时间索引下所有的事件描述,并锁定最大匹配事件;同时,融合报道与话题模型中最匹配的事件描述,基于TFIDF重估特征权重并排序,选取权重最高的特征作为新的事件描述.
事实上,无论是匹配过程或是自学习过程,都对时间索引的粒度进行扩展,即某些事件在话题样本中只对应
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新人文社科话题跟踪中静态和动态话题模型的核捕捉衰减(12)全文阅读和word下载服务。
相关推荐: