洪宇 等:话题跟踪中静态和动态话题模型的核捕捉衰减 1117
因其对话题主线的收敛作用,不能随意武断地从话题模型中清除,借以避免话题描述的离散和偏差.由此,面向词包式话题模型的自学习机制往往陷入两难境地.
相对来说,结构化的话题模型HT-DTM和TEC-DTM则无须纠结于自学习过程的特征筛选问题.就HT-DTM而言,其相关性匹配过程通过深度遍历,查询最优的匹配路径,路径上的每个节点遍布于树状话题模型的各个层次,从而能够表述话题自宏观至具体的不同内容,因而话题不同层面的特征都能在匹配过程中发挥近似均衡的作用,避免了特征聚集于局部层次而导致的相关性匹配偏见性.尤其是,最优路径上每个节点的选择都以最大化相关性为目标,而不限制每个层次都有节点进入最优路径,从而实现了匹配过程的去冗余.因此,HT-DTM的自学习机制可以根据话题发展脉络任意地调整话题形态,而不用顾及是否需要鉴别和屏蔽冗余信息.比如,种子事件的特征可以始终存在于HT-DTM的树状结构中,匹配过程可以根据相关性最大化原则,自动决定是否在特定匹配中使用这些特征.
就TEC-DTM而言,话题模型由不同事件的具体描述构成,每个事件都对应着特定的时序索引.相关性匹配过程依据时间的一致性决定是否匹配事件内容,且TEC-DTM也遵循最大相关性原则,即具有一致时间的最相关事件参与话题与报道的相关度计算.时间一致性及最大相关性原则能够保证TEC-DTM准确地匹配相关事件,而在特征时段扮演冗余角色的事件能够被自动屏蔽于相关性度量之外.因此,TEC-DTM的自学习机制也可以根据话题发展趋势,自由地改变话题模型的形态,而不用顾及冗余特征的鉴别与屏蔽.从而,TEC-DTM和HT-DTM的自学习机制都在保证准确匹配的前提下维护了话题结构的完整性,从而不会大量损失召回率.值得说明的是,TEC-DTM使用了时间窗口(取值为5),即仅仅选择话题模型中时间最晚的5个相关事件参与相关度计算.由此,种子事件及前期事件在跟踪后期几乎不参与相关度计算.虽然这一限制过于严格,但TEC-DTM获得了测试最优结果,且优于HT-DTM近1个百分点.这一结果从侧面说明:新闻话题的核往往随着新颖相关事件的出现产生明显的漂移.增强新颖事件在相关性匹配中的作用,能够有效提高话题模型的核捕捉能力.
最后,与沿用词包式描述的动态话题模型IL-DTM相比,融入层次树型结构的动态话题模型HT-DTM[22]和本文提出的基于时序索引的链式动态模型TEC-DTM,分别获得2.3和3.3个百分点的性能改进(见表6).该结果进一步说明:话题的结构化特征(即话题内事件间的层次和时序关系)对于准确描述话题形态和演化趋势起着重要的辅助作用,有益于跟踪系统性能的改进.
7 结 论
本文重点分析了新闻话题的形态,包括结构特性和演变特性,并分类研究主流的静态和动态话题模型对新闻话题形态的拟合能力.尤其是,为了直观检验各类静态和动态话题模型跟踪话题发展脉络的性能,提出一种核捕捉衰减(CKA)观测及其数值比对分析(A3)的评价方法.实验验证,CKA能够直观体现话题模型的跟踪性能变化趋势,且A3可通过CKA近似度的数值分布横向比较多种话题模型的跟踪性能.实验通过CKA,A3和最小检测错误权衡系数,充分验证了动态话题模型在追踪话题演化过程中的优势.此外,本文分别提出突发式增量自学习机制(BIL)和时序事件链(TEC)动态更新方法,实验验证BIL和TEC分别获得0.4%和3.3%的跟踪性能改进.
目前,针对话题跟踪方向的研究已经取得显著成果,部分跟踪系统往往能够取得低于10%的检测错误代价,基本具备实用化的条件.然而不容忽视的问题是,这类跟踪性能往往产生于不完备的新闻语料.比如,LDC面向话题检测与跟踪任务提供的系列标准评测语料TDT pilot~TDT5,每一期语料的采集周期最多不超过12个月(TDT4由2000年10月~次年1月间的新闻报道构成).因此,语料中绝大部分话题的发展过程本身即不完整,从而上述低于10%的错误代价仅仅是相对指标.尤其是,本文提供的CKA观测结果显示,在这种不完备的新闻语料上,现有话题模型也普遍难以拟合话题的后期发展趋势,即难以追踪话题演化.事实上,话题演化已成为现阶段话题跟踪研究的焦点问题,其对话题模型的可变形结构以及自适应学习能力提出了更高要求.然而,话题的发展趋势并非仅仅存在演化现象,往往还具有变异现象.变异现象是指,话题发展趋势彻底抛弃种子事件的主线,而以新的焦点事件为话题主线.本文取得的两项改进,即基于突发事件进行自适应学习的改进以及时序事件链在毗邻窗口内进行自学习的改进,初步验证了话题变异现象.然而,如何有针对性地检测变异锚点、如何针对变
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新人文社科话题跟踪中静态和动态话题模型的核捕捉衰减(27)全文阅读和word下载服务。
相关推荐: