洪宇 等:话题跟踪中静态和动态话题模型的核捕捉衰减
1109
诸如图5所示的CKA曲线能够直观地反映不同话题模型是否存在近似的核捕捉衰减趋势.然而,针对大量新闻话题生成不同话题模型的CKA曲线,并借助人工观测获取比对结果,显然过于繁复.为此,本节提出一种CKA趋势的数值化对比策略,称为衰减趋近分析(attenuation approximation analysis,简称A3).针对某一新闻话题,两个话题模型取得的CKA曲线通过A3进行近似性评估的过程包含如下3个步骤:
(1) 对于CKA曲线上每个点doti(每个点对应横轴上某一新闻报道)建立衰减向量vi={ai,1,…,ai,i 1};向量
的每一维ai,j表示doti是否高于点dotj,相比于doti对应的新闻报道,dotj必须对应CKA曲线上更早发
生的报道,即i>j;如果doti高于dotj,则ai,j等于1,否则为0.例如图6,CKA曲线X的衰减向量v3(X),即
{a32,a31},的取值为{0,0},原因是dot3(X)既低于dot2(X)又低于dot1(X),由此a32和a31都为0.
(2)
(3) 针对两个CKA曲线上对应同一新闻报道的两个测试点,估算衰减向量的相似性,例如估算图6中测试点dot2(X)和dot2(Y)的衰减向量相似性.相似性的计算方法为向量空间夹角的余弦值. 两条CKA曲线整体衰减趋势的相似性通过两曲线上所有对应点的衰减相似度平均值进行估算,比
如图6中CKA曲线X和Y的衰减相似性计算公式如下(由于CKA曲线的首点不存在对应更早相关
报道的点dotj,因此该点不参与A3计算): 3
A(X,Y)=3∑sim(vi(X),vi(Y))i=22 (5)
Fig.6 An example of step (1) of A3
图6 A3算法步骤(1)的样例
A3指标衡量的是两条CKA曲线衰减趋势的相似性.换言之,A3指标越高,则两条CKA曲线的衰减趋势越相近.由此,A3可以从如下3方面辅助话题模型的性能评价:
(1) A3可缩小观测规模.换言之,如果一类话题模型之间的A3指标较高,则只需观测其中一种话题模型的
CKA趋势,即可估测出其他同类话题模型的CKA.
(2) 如果不同话题模型的A3较高,但是各自隶属的话题跟踪性能(即跟踪系统输出端的最小CDet指标)
差异较大,则可以判定劣势的跟踪系统并非在话题模型设计上相对较差,而是面向话题构建的特征
抽取或权重估算存在缺陷.例如,图5中的话题模型Basic-STM和N-STM有着一致的衰减趋势,然而
N-STM的CKA曲线整体低于Basic-STM,即Basic-STM与相关报道流的重叠比始终较高.显然, Basic-STM隶属的跟踪系统将更善于捕捉相关报道,降低漏检率,从而获得更优的最小检测错误权衡
系数CDet,而这一优势来自Basic-STM使用了全部词特征形式参与话题模型构建,而N-STM仅仅抽
取名词.
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新人文社科话题跟踪中静态和动态话题模型的核捕捉衰减(15)全文阅读和word下载服务。
相关推荐: