期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 面向热点新闻事件的层次化故事脉络生成方法
刘东, 林川, 任丽娜, 黄瑞章
《计算机应用》唯一官方网站    2023, 43 (8): 2376-2381.   DOI: 10.11772/j.issn.1001-9081.2022091377
摘要536)   HTML25)    PDF (1333KB)(362)    收藏

热点新闻事件的发展十分丰富,各个阶段的发展都有其独特的叙述,并且随着事件的发展呈现出层次化故事脉络演化的趋势。针对现有故事脉络生成方法存在脉络可解释性不佳以及缺乏层次性的问题,提出一种面向热点新闻事件的层次化故事脉络生成方法(HSGM)。首先,采用改进热词算法来挑选主干种子事件,以构建主干脉络;其次,挑选分支事件热词以增强分支可解释性;然后,在分支脉络中采用融合热词关联度与动态时间惩罚的脉络连贯度挑选策略来增强父子事件的连接,以构建层次化热词,进而构建多层次故事脉络;此外,考虑到热点新闻事件存在潜伏期,在脉络构建过程加入孵化池以解决因热度不够所产生的初始事件被忽略问题。在两个自建真实数据集上进行实验的结果表明,在事件追踪过程中,与分别基于singlePass和基于k-means的方法相比,HSGM的F值分别高出了4.51%、6.41%和20.71%、13.01%;而在脉络构建过程中,与Story Forest和Story Graph相比,HSGM在两个自建数据集上的准确性、可理解性、完整性方面表现良好。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 深度动态文本聚类模型DDDC
陆辉, 黄瑞章, 薛菁菁, 任丽娜, 林川
《计算机应用》唯一官方网站    2023, 43 (8): 2370-2375.   DOI: 10.11772/j.issn.1001-9081.2022091354
摘要332)   HTML14)    PDF (1962KB)(128)    收藏

互联网的飞速发展使得新闻数据呈爆炸增长的趋势。如何从海量新闻数据中获取当前热门事件的主题演化过程成为文本分析领域研究的热点。然而,常用的传统动态聚类模型处理大规模数据集时灵活性差且效率低下,现有的深度文本聚类模型则缺乏一种通用的方法捕捉时间序列数据的主题演化过程。针对以上问题,设计了一种深度动态文本聚类(DDDC)模型。该模型以现有的深度变分推断算法为基础,可以在不同时间片上捕捉融合了前置时间片内容的主题分布,并通过聚类从这些分布中获取事件主题的演化过程。在真实新闻数据集上的实验结果表明,在不同的数据集上,与动态主题模型(DTM)、变分深度嵌入(VaDE)等算法相比,DDDC模型在各时间片的聚类精度均至少提升了4个百分点,且归一化互信息(NMI)至少提高了3个百分点,验证了DDDC模型的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价
3. 基于多层语义融合的结构化深度文本聚类模型
马胜位, 黄瑞章, 任丽娜, 林川
《计算机应用》唯一官方网站    2023, 43 (8): 2364-2369.   DOI: 10.11772/j.issn.1001-9081.2022091356
摘要359)   HTML19)    PDF (1642KB)(240)    收藏

近年来,由于图神经网络(GNN)的结构信息在机器学习中的优势,人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用,这导致在数据生成部分出现语义信息的缺失。针对以上问题,提出了一种基于多层语义融合的结构化深度文本聚类模型(SDCMS)。该模型利用GNN将结构信息集成到解码器中,通过逐层语义补充增强了文本数据的表示,并通过三重自监督机制获得更好的网络参数。在Citeseer、Acm、Reutuers、Dblp、Abstract 这5个真实数据集上进行实验的结果表明,与目前最优的注意力驱动的图形聚类网络(AGCN)模型相比,SDCMS在准确率、归一化互信息(NMI)和平均兰德指数(ARI)上分别最多提升了5.853%、9.922%和8.142%。

图表 | 参考文献 | 相关文章 | 多维度评价
4. 融合内容特征和时序信息的深度注意力视频流行度预测模型
武维, 李泽平, 杨华蔚, 林川, 王忠德
计算机应用    2021, 41 (7): 1878-1884.   DOI: 10.11772/j.issn.1001-9081.2020101619
摘要532)      PDF (1092KB)(765)    收藏
针对视频流行度动态变化过程中的时序信息难以捕捉的问题,提出一种融合内容特征和时序信息的深度注意力视频流行度预测模型(DAFCT)。首先,根据用户的反馈信息,构建基于注意力机制的长短期记忆网络(Attention-LSTM)模型来捕捉流行趋势并挖掘时序信息;然后,采用神经网络因子分解机(NFM)处理多模态的内容特征,并采用嵌入技术对稀疏的高维特征进行降维处理,从而降低模型的计算复杂性;最后,采用concatenate方法融合时序信息和内容特征,并设计了一种深度注意力视频流行度预测(DAVPP)算法来求解DAFCT。实验结果表明,与Attention-LSTM模型和NFM模型相比,DAFCT的召回率分别提高了10.82和3.31个百分点,F1分数分别提高了9.80和3.07个百分点。
参考文献 | 相关文章 | 多维度评价
5. 基于pHash分块局部探测的海量图像查重算法
唐林川, 邓思宇, 吴彦学, 温柳英
计算机应用    2019, 39 (9): 2789-2794.   DOI: 10.11772/j.issn.1001-9081.2019020792
摘要830)      PDF (834KB)(437)    收藏

数据库中大量重复图片的存在不仅影响学习器性能,而且耗费大量存储空间。针对海量图片去重,提出一种基于pHash分块局部探测的海量图像查重算法。首先,生成所有图片的pHash值;其次,将pHash值划分成若干等长的部分,若两张图片的某一个pHash部分的值一致,则这两张图片可能是重复的;最后,探讨了图片重复的传递性问题,针对传递和非传递两种情况分别进行了算法实现。实验结果表明,所提算法在处理海量图片时具有非常高的效率,在设定相似度阈值为13的条件下,传递性算法对近30万张图片的查重仅需2 min,准确率达到了53%。

参考文献 | 相关文章 | 多维度评价
6. 基于对比学习增强双注意力机制的多标签文本分类方法
余明峰 秦永彬 黄瑞章 陈艳平 林川
《计算机应用》唯一官方网站    DOI: 10.11772/j.issn.1001-9081.2024070909
预出版日期: 2024-09-25

7. 结合边界信息的对比学习嵌套命名实体识别
范锦涛 陈艳平 杨采薇 林川
《计算机应用》唯一官方网站    DOI: 10.11772/j.issn.1001-9081.2024101525
预出版日期: 2025-02-26