1106
3.2 结构化话题模型的动态变形
(1) 树状动态话题模型 Journal of Software 软件学报 Vol.23, No.5, May 2012
结构化话题模型中的典型代表是一种具有层次的树状模型(hierarchical-tree,简称为HT).区别于词包类话题模型中无组织的系列离散特征,树状话题模型中的所有特征都按照它们表述话题内容的层次进行了划分.基本的层次划分是宏观层次和具体层次,即善于表述话题宏观概念的特征集以及适于表述具体事件内容的特征集.在此基础上,利用层次聚类技术并结合特征在话题样本中的分布概率,可以将层次划分为更多种粒度.由此,树状话题模型可将不同特征散布于自根节点至叶节点的不同话题脉络上,每条脉络都具有自身内容的凝聚性,且自顶向下表述宏观至具体的话题属性.如图2中的树状话题模型样例,其中,根节点表示宏观的话题内容,即“9/11”,包含两条主干脉络,即“恐怖袭击”和“嫌犯调查”,每条脉络的叶节点部分可以具体到特定相关事件,比如“恐怖袭击”的叶节点包括“飞机劫持”、“世贸遇袭”和“五角大楼遇袭”事件.利用树状结构,跟踪过程在判定待测新闻报道是否相关时,可以按照深度遍历的路线,有针对性地匹配话题与报道的各个局部特性. Fig.2 An example of hierarchical-tree topic model and its modification
图2 层次树状话题模型及其更新样例
树状话题模型也可以借助自适应学习机制实现动态更新.区别于无结构的词包式话题模型,树状话题模型的自学习过程不仅对特征权重进行重新权衡,而且利用子结构的嵌入、剪枝与融合等步骤实现结构变形.基本的变形是:当跟踪系统识别出某一相关报道后,自学习机制将其作为叶节点嵌入树状结构,嵌入位置毗邻最相近的叶节点(即文本内容相似度最高的叶节点),同时融合邻居节点,抽取其中共性的特征形成新的父节点,原父节点从而升格为祖先节点.这一融合过程自底向上以此类推,使得与新叶节点最相关的话题脉络得以全面更新,如图2中,L23嵌入话题模型后,对脉络Venation(2)的直接影响,而不影响Venation(1).
树状话题模型动态自学习的关键问题是如何选择恰当的嵌入点,比如,某些相关报道本身就包含多个事件的论述,或其主要内容是对话题的宏观概述,显然,这类报道不适合作为具体的叶节点嵌入树状结构,而应作为特定脉络的中间节点,甚至多个脉络的连接点.不恰当的嵌入将导致话题变形的误差,尤其是嵌入中间节点往往需要对嵌入点上下的毗邻结构进行相应更新,因此,错误的嵌入将误导一片区域内的大量节点描述.
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新人文社科话题跟踪中静态和动态话题模型的核捕捉衰减(10)全文阅读和word下载服务。
相关推荐: