• • 下一篇
徐乐1,黄瑞章2,白瑞娜2,秦永彬3
摘要: 针对现有半监督文本聚类方法无法在表示学习和聚类过程中同时考虑用户意图的问题,提出了基于意图正则化的深度半监督文本聚类模型(IRDSTC-)。通过引入意图正则化策略,设计了意图正则化的表示学习(IRRL)模块和意图正则化的聚类(IRC)模块。首先,根据用户提供的意图约束信息构建意图矩阵,以捕获用户对文本之间关系的期望;其次,将该矩阵应用到表示学习阶段和聚类阶段。在表示学习阶段,将深度模型提取的中间层表示转换为表示关联性矩阵,并结合意图矩阵构造正则项,旨在利用用户意图驱动表示学习;在聚类阶段,根据聚类迭代得到的类簇分配概率构造分配一致性矩阵,并结合意图矩阵构造正则项,以实现用户意图对聚类过程的指导。最后,实验结果表明,所提出的模型在Reu-10k、BBC、ACM和Abstract数据集上相较于其他聚类方法在聚类准确率、标准化互信息和调整兰德指数评价指标上均具有更好的表现,相较于次优的SDEC, IRDSTC的聚类标准化互信息分别提升了36.39%、67.56%、28.95%、20.76%,表明了IRDSTC 具有更好的聚类效果。
中图分类号: