1108 Journal of Software 软件学报 Vol.23, No.5, May 2012
jj一种时间粒度.为了提高召回率,则自发地赋予其他粒度.比如,图3(a)的e21,e22在样本中只对应粒度为“day”的
t2jd,匹配时则扩展了另外两种粒度:“month”的t2jm和“year”的t2jy,报道与话题的事件链实际可匹配的时间即是扩展后的t2jm.相对来说,自学习过程虽然扩展了时间索引的粒度,但在查询最大匹配事件时,被扩展出的时间粒度并不参与其中,比如图3(b)中,扩展粒度后的附加索引t2jm和t2jy不能用于最大匹配事件的查询与更新.但是,如 果扩展出的时间索引与相关报道中的某些时间存在一致性,则自学习机制切断这类索引与原有事件的对应关 系,然后将报道中一致时间对应的事件拉入事件链,同时将这类索引单独地指向这些事件.比如图3(b)中,t2jm与
jjii原有事件e21,e22的联系被切断,报道Si中的事件e21被嵌入事件链,同时,t2jm单独指向e21.这一更新的目的是尽
量保证真实的时序与事件对应关系,从而不同粒度的时间索引能够有效地反映事件描述的层次性(概括致具体).上述事件链的所有更新规则都参与了本文所涉的话题模型核捕捉实验.
4 核捕捉衰减比对策略
针对各类话题模型的性能,本文提出一种核捕捉衰减(capturing kernel attenuation,简称CKA)评价标准. CKA现象的直观体现是话题模型与相关报道的特征向量之间重叠的特征数呈现递减趋势.例如,图4显示的是TDT 2002评测中40003号话题(ID=40003)的CKA现象,该图横轴表示一系列按时间顺序排列的相关报道(相关于40003号话题),纵轴表示报道的核与静态话题模型重叠的特征比例.其中,话题模型的构造方法如第2.1节所述,即基本的静态词包向量Basic-STM(Nt=50);报道的核由高频特征向量构成(nt=50);特征重叠比为特征重叠数在报道核中所占的百分比.图4中,虚线上每个灰色点代表一个相关报道与静态话题模型的特征重叠比,整条虚线则描述了话题模型捕获相关报道核的CKA趋势,下文将其简称为CKA曲线.此外,为了直观表现CKA趋势,图4采用5阶多项式平滑策略近似地绘制了CKA曲线的平滑形式,如图中加粗的黑色实线.图中显示,虽然40003号话题的CKA曲线呈锯齿状分布,即重叠比例的增益与衰减交替出现,但是CKA的整体趋势呈现衰减.这一例证说明,话题后期的相关报道的核渐渐偏离话题初始的质心,但静态词包并没有适应这一偏离趋势.
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新人文社科话题跟踪中静态和动态话题模型的核捕捉衰减(13)全文阅读和word下载服务。
相关推荐: