• • 下一篇
程梓洋1,2,黄瑞章1,薛菁菁3
摘要: 针对现有深度文档聚类方法应对动态文档数据时文档主题随时间演化过程中存在的主题混淆问题以及匹配对齐问题,提出了一种深度演化主题聚类模型(DETCM)。DETCM可以捕捉动态文档随时间演化的主题信息,结合历史主题信息与当前时间片文档特征,发掘事件主题演化脉络,生成动态文档主题表示。具体来说,为了解决主题随时间演变时的主题混淆问题,DETCM首先设计基于混合编码器的主题融合学习模块,借助前置时间片的主题信息,进一步明晰当前时间片的主题划分与主题提取。此外,DETCM设计了一种跨时间片的主题对比继承模块,通过将不同时间片上主题匹配对齐,巧妙地将历史时间片上的主题信息融入当前时间片的类簇划分过程中。这一设计使得DETCM学习主题时能够继承并借鉴历史时间片的主题信息,从而有效跟踪动态文本主题持续演化的过程。基于arXiv真实演化文本文档数据集的实验结果表明,相较于深度演化聚类模型DEDC-IMAE,DETCM模型在所有时间片上的标准化互信息(Nmi)指标平均提升了约3.08%,验证了DETCM模型在动态场景中具有更好的主题演化追踪能力,能够更准确地捕捉主题的时序变化特征,从而实现了更优的聚类性能。
中图分类号: