洪宇 等:话题跟踪中静态和动态话题模型的核捕捉衰减 1103
表话题的局部内容,而将事件贯穿为有机整体并形成话题发展脉络的特征是时序.然而,真正将时序和事件有效整合并形成话题模型的相关研究相对稀缺,相对地,时序往往作为特定话题的独有属性应用于增强相关话题的可匹配性[26 28].总之,话题结构特征和演化特性的发现开启了话题形态的研究,静态和动态话题模型是机器学习话题形态的两种重要路线,本文即重点针对这一问题展开探讨.
2 静态话题模型
静态话题模型构建过程可利用的资源仅仅是初期已知的有限相关报道,其性能优劣取决于模型本身是否充分描述了作为跟踪主线的种子事件.因此,针对初期相关报道的特征抽取及其权重估计,是决定话题模型性能优劣的关键,而这一点也恰是词包式文本描述关注的核心问题.本节首先给出一种基本的词包式话题模型,随后介绍以此为基础的各类变体.
2.1 基于词包的静态话题模型
向量空间模型(vector space model,简称VSM)[1]是基于词包描述静态话题的基本模型,其他模型往往是对其特征抽取和权重估计方法改进后得到的变体.针对任意新闻话题,向量空间模型采用Nt篇(Nt=4)时序最早的已知相关报道作为话题样本,抽取nt个(nt=50)在话题样本中出现频率最高的词特征构造特征向量,每个词特征基于改进的TFIDF获取权重.给定词特征i,其权重计算公式如下: tf ti= (1 logNdfi) (1) tf+2
其中,ti表示词特征i的权重,tf是特征i在话题样本中的频度,dfi是训练语料中出现特征i的新闻报道数,N表示训练语料中新闻报道的总数.这一权重估计函数是检索模型InQuery[1]中更为复杂的权重估计算法的简单形式,其假定语料中所有报道都粗略地具有相同长度,并且文档频率非零,即任意特征i的dfi≠0.在此基础上,话题T与报道D的相关性估算函数如下: r(T,D)t dn (2)
其中,ti表示特征i在话题模型T中的权重,di表示特征i在报道D中的权重.di与ti的估算方法相同,如公式(1),区别在于计算di时的tf为特征i在报道D中的频度.函数r(T,D)事实上计算了两个高维向量夹角的余弦值.因此,两个向量包含权重相似的相同特征越多,两者相关性越高.在此基础上,跟踪系统只需预先训练恰当的阈值,即可实现相关报道的截取:相关性高于阈值则判定报道D为相关.
2.2 静态话题模型中的词包变体
以向量空间模型为基础,面向静态话题建模的词包描述具有多种变体.按其侧重点不同,可粗略分为两类:一类变体侧重挖掘最能表述种子事件内容的特征;另一类侧重划分特征权重,借以体现不同特征在表述种子事件时的价值.表1列举了目前绝大部分词包变体(表中在所有模型后加“-STM”后缀,以区分实验中的“-DTM”).
(1) 侧重特征抽取的词包变体
就特征抽取而言,基本的尝试是依据词性选择构建词包的特征,比如,表1中的静态话题模型N-STM, V-STM和A-STM分别抽取话题样本中的名词、动词和形容词形成向量空间模型.这类变体的建模依据是:不同词性的特征对不同类别的话题内容,具有不同的表述能力.比如,动词更善于表述行为,有益于诸如军事行动、自然灾害和气象变迁类话题的描述;形容词更善于表述状态,有益于诸如股市、金融和经济类话题的描述;而名词更善于表述实体,有益于诸如竞选、会晤和国际关系类话题的描述.
事实上,实体往往是新闻类信息的重要风向标,比如,时间、地点、人、物和机构等.为此,在名词中萃取实体特征,并专门以实体形成的词包也是静态话题建模中的重要一员,如表1中的NE-STM.在此基础上,SR-STM则进一步融入了实体的语义学属性,即由“施事”和“受事”标记的语义角色.由此,基于SR-STM的跟踪系统不仅需要匹配实体,还需检验实体的角色以否一致.
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新人文社科话题跟踪中静态和动态话题模型的核捕捉衰减(6)全文阅读和word下载服务。
相关推荐: