数据科学与技术

Select

1. 实例簇驱动的图结构聚类参数计算算法

宗传玉, 宪超, 夏秀峰

《计算机应用》唯一官方网站 2023, 43 (2): 398-406. DOI: 10.11772/j.issn.1001-9081.2022010082

摘要（1625）

HTML （14）

PDF （2584KB）（71）

pSCAN算法的聚类结果受密度约束参数和相似度阈值参数的影响，如果用户提供的聚类参数得到的聚类结果无法满足需求，那么用户可以通过实例簇表达自己的聚类需求。针对实例簇表达聚类查询需求的问题，提出一种实例簇驱动的图结构聚类参数计算算法PART及其改进算法ImPART。首先，分析两个聚类参数对聚类结果的影响，并提取实例簇的相关子图；其次，对相关子图进行分析得到密度约束参数的可行区间，并根据当前密度约束参数和节点之间的结构相似度将实例簇内节点划分为核心节点和非核心节点；最后，依据节点划分结果计算出当前密度约束参数对应的最优相似度阈值参数，并在相关子图上对得到的参数进行验证和优化，直到得到满足实例簇需求的聚类参数。在真实数据集上的实验结果表明，所提算法能够为用户实例簇返回一组有效参数，且所提改进算法ImPART的运行时间比PART缩短了20%以上，能够快速有效地为用户返回满足实例簇要求的最优聚类参数。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 在线哈希算法研究综述

郭一村, 陈华辉

《计算机应用》唯一官方网站 2021, 41 (4): 1106-1112. DOI: 10.11772/j.issn.1001-9081.2020071047

摘要（756）

PDF （1188KB）（1082）

在当前大规模数据检索任务中，学习型哈希方法能够学习紧凑的二进制编码，在节省存储空间的同时能快速地计算海明空间内的相似度，因此近似最近邻检索常使用哈希的方式来完善快速最近邻检索机制。对于目前大多数哈希方法都采用离线学习模型进行批处理训练，在大规模流数据的环境下无法适应可能出现的数据变化而使得检索效率降低的问题，提出在线哈希方法并学习适应性的哈希函数，从而在输入数据的过程中连续学习，并且能实时地应用于相似性检索。首先，阐释了学习型哈希的基本原理和实现在线哈希的内在要求；接着，从在线条件下流数据的读取模式、学习模式以及模型更新模式等角度介绍在线哈希不同的学习方式；而后，将在线学习算法分为六类：基于主-被动算法、基于矩阵分解技术、基于无监督聚类、基于相似性监督、基于互信息度量和基于码本监督，并且分析这些算法的优缺点及特点；最后，总结和讨论了在线哈希的发展方向。

参考文献 | 相关文章 | 多维度评价

Select

3. 结合ALBERT和双向门控循环单元的专利文本分类

温超东, 曾诚, 任俊伟, 张

计算机应用 2021, 41 (2): 407-412. DOI: 10.11772/j.issn.1001-9081.2020050730

摘要（639）

PDF （979KB）（770）

随着专利申请数量的快速增长，对专利文本实现自动分类的需求与日俱增。现有的专利文本分类算法大都采用Word2vec和全局词向量（GloVe）等方式获取文本的词向量表示，舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对上述问题，提出了一种结合ALBERT和双向门控循环单元（BiGRU）的多层级专利文本分类模型ALBERT-BiGRU。该模型使用ALBERT预训练的动态词向量代替传统Word2vec等方式训练的静态词向量，提升了词向量的表征能力；并使用BiGRU神经网络模型进行训练，最大限度保留了专利文本中长距离词之间的语义关联。在国家信息中心公布的专利数据集上进行有效性验证，与Word2vec-BiGRU和GloVe-BiGRU相比，ALBERT-BiGRU的准确率在专利文本的部级别分别提高了9.1个百分点和10.9个百分点，在大类级别分别提高了9.5个百分点和11.2个百分点。实验结果表明，ALBERT-BiGRU能有效提升不同层级专利文本的分类效果。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于时间序列分解的交通流量预测模型

夏进, 王正群, 朱世明

《计算机应用》唯一官方网站 2023, 43 (4): 1129-1135. DOI: 10.11772/j.issn.1001-9081.2022030473

摘要（541）

HTML （21）

PDF （2485KB）（264）

短时交通流预测不仅与历史数据相关，而且也受相邻区域交通情况影响。针对传统时间序列分解（TSD）模型忽略交通流的趋势性和空间相关性的问题，提出了基于时间序列分解与时空特征（TSD-ST）结合的时间序列处理模型。首先，利用经验模态分解（EMD）和离散傅里叶变换（DFT）得到趋势分量和周期分量，利用互信息（MI）算法挖掘波动分量的时空（ST）相关性，并以此为根据重构状态向量；随后，通过长短期记忆（LSTM）网络利用状态向量对波动分量进行预测；最后，将序列的3部分的预测结果重构，得到最终预测值。利用美国华盛顿州I090号州际公路的真实数据验证模型的有效性。实验结果表明，与支持向量回归（SVR）、梯度提升回归树（GBRT）、LSTM相比，所提模型的均方根误差（RMSE）分别降低了16.5%、34.0%和36.6%。由此可见，所提模型在提升预测精度方面十分有效。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 基于改进的局部结构熵复杂网络重要节点挖掘

李鹏, 王世林, 陈光武, 闫光辉

《计算机应用》唯一官方网站 2023, 43 (4): 1109-1114. DOI: 10.11772/j.issn.1001-9081.2022040562

摘要（525）

HTML （27）

PDF （1367KB）（249）

识别复杂网络中的关键节点对优化网络结构以及信息的有效传播起着至关重要的作用。局部结构熵（LE）利用局部网络对整个网络的影响代替节点对整个网络的影响以识别重要节点，然而LE未考虑高聚集性网络和节点与邻居节点形成环的情况，存在一定的局限性。针对以上不足，首先，提出了改进LE的节点重要性评价方法PLE（Penalized Local structural Entropy），即在LE的基础上引入集聚系数（CC）作为惩罚项，从而适当惩罚网络中的高聚集性节点；其次，由于PLE的惩罚项对三元闭包结构上的节点惩罚力度过大，又提出了PLE的改进方法PLEA（Penalized Local structural Entropy Advancement），即在惩罚项前引入一个控制系数，以控制惩罚力度。对5个不同规模的真实网络进行选择性攻击实验，实验结果表明，在美国西部各州电网和美国航空网两个网络中，与LE方法相比，PLEA的识别准确率分别提升了26.3%和3.2%；与K-Shell（KS）方法相比，PLEA的识别准确率分别提升了380%和5.43%；与DCL（Degree and Clustering coefficient and Location）方法相比，PLEA的识别准确率分别提升了14.4%和24%。同时，PLEA识别的重要节点对网络造成的破坏更大，验证了引入CC作为惩罚项的合理性，以及PLEA的有效性和优越性。PLEA综合考虑了节点的邻居个数和节点的局部网络结构，计算简单，对于刻画大规模网络的可靠性与抗毁性具有十分重要的意义。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 自动确定聚类中心的比较密度峰值聚类算法

郭佳, 韩李涛, 孙宪龙, 周丽娟

计算机应用 2021, 41 (3): 738-744. DOI: 10.11772/j.issn.1001-9081.2020071071

摘要（517）

PDF （2809KB）（546）

针对密度峰值聚类算法（DPC）不能自动确定聚类中心，并且聚类中心点与非聚类中心点在决策图上的显示不够明显的问题，设计了一种自动确定聚类中心的比较密度峰值聚类算法（ACPC）。该算法首先利用距离的比较量来代替原距离参数，使潜在的聚类中心在决策图中更加突出；然后通过二维区间估计方法进行对聚类中心的自动选取，从而实现聚类过程的自动化。仿真实验结果表明，在4个合成数据集上ACPC取得了更好的聚类效果；而在真实数据集上的Accuracy指标对比表明，在Iris数据集上，ACPC聚类结果可达到94%，与传统的DPC算法相比提高了27.3%，ACPC解决了交互式选取聚类中心的问题。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于格拉斯曼流形子空间融合的多视图聚类

管娇娇, 钱雪忠, 周世兵, 姜凯彬, 宋威

《计算机应用》唯一官方网站 2022, 42 (12): 3740-3749. DOI: 10.11772/j.issn.1001-9081.2021101756

摘要（494）

HTML （8）

PDF （1806KB）（158）

现有的多视图聚类算法大多假设多视图数据点之间为线性关系，且在学习过程中无法保留原始特征空间的局部性；而在欧氏空间中进行子空间融合又过于单调，无法将学习到的子空间表示对齐。针对以上问题，提出了基于格拉斯曼流形融合子空间的多视图聚类算法。首先，将核技巧和局部流形结构学习结合以得到不同视图的子空间表示；然后，在格拉斯曼流形上融合这些子空间表示以得到一致性亲和矩阵；最后，对一致性亲和矩阵执行谱聚类来得到最终的聚类结果，并利用交替方向乘子法（ADMM）来优化所提模型。与核多视图低秩稀疏子空间聚类（KMLRSSC）算法相比，所提算法的聚类精度在MSRCV1、Prokaryotic、Not-Hill数据集上分别提高了20.83个百分点、9.47个百分点和7.33个百分点。实验结果验证了基于格拉斯曼流形融合子空间的多视图聚类算法的有效性和良好性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 基于动态和静态偏好的兴趣点推荐算法

杨丽, 王时绘, 朱博

计算机应用 2021, 41 (2): 398-406. DOI: 10.11772/j.issn.1001-9081.2020050677

摘要（469）

PDF （1355KB）（534）

针对大多数现有主流兴趣点（POI）推荐算法忽略了融合用户复杂动态偏好和一般静态偏好建模的复杂性问题，提出一个融合复杂动态用户偏好和一般静态用户偏好的POI推荐算法CLSR。首先，在复杂动态偏好建模过程中，基于用户的签到行为及其中的跳过行为设计一个混合神经网络，实现用户的复杂动态兴趣的建模；其次，在一般静态偏好建模过程中，利用高阶注意力网络学习用户与POI之间复杂的交互关系；然后，利用多层神经网络进一步学习和表示上述动态偏好和静态偏好；最后，基于统一的POI推荐框架对偏好进行整合。在真实数据集上的实验结果表明，与个性化马尔可夫链和用户位置受限的推荐方法FPMC-LR、基于个性化排名度量嵌入的推荐方法PRME、基于排名的地理分解兴趣点推荐方法Rank-GeoFM和基于时间和多级上下文注意力机制的下一个兴趣点推荐方法TMCA相比，CLSR的性能有了较大的提高，该算法的准确率、召回率和归一化折损累计增益（nDCG）和对比方法中较优的TMCA相比，在Foursquare数据集上分别提高了5.8%、5.1%和7.2%，在Gowalla数据集上分别提高了7.3%、10.2%和6.3%，可以有效地改善POI推荐的结果。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于有向无环图的倒排链等字长划分压缩算法

姜琨, 刘征, 朱磊, 李晓星

计算机应用 2021, 41 (3): 727-732. DOI: 10.11772/j.issn.1001-9081.2020060874

摘要（465）

PDF （905KB）（426）

在搜索引擎的倒排索引等字长（FWA）类型压缩算法中，倒排链的“贪心”分块划分策略和码字信息的交错存储使算法难以达到最优的压缩效果。针对上述问题，提出了一种基于有向无环图（DAG）的FWA划分压缩算法。首先，考虑到互联网网页聚类特性带来的倒排链小数字信息，设计了一种数据区为64位分块的新型FWA压缩格式。该压缩格式通过4位的指示区将数据区划分为16种适合于连续小数字压缩的存储模式，并将倒排链每个分块的指示位和数据位分类存储，从而保证了较好的批量解压性能。其次，在新压缩格式的基础上提出一种基于DAG描述的倒排链FWA划分压缩方法——固定字对齐划分（WAP）算法。该算法利用DAG将倒排链分块划分问题归结为单源最短路径（SSSP）问题，并考虑FWA压缩格式中数据区存储模式的限制条件来确定SSSP问题的结构形式和递归定义。然后，给出了采用动态规划求解SSSP问题并形成最优划分向量的伪码和算法复杂度，并对S9、S16、S8b等传统FWA算法的原有存储模式进行了基于DAG的划分优化，把优化前后的算法的计算复杂度进行比较分析。最后，使用仿真整数序列数据和文本检索会议（TREC） GOV2网页索引数据进行压缩性能实验。实验结果表明，相较于传统FWA类型算法，基于DAG的FWA划分算法在通过批量解压和划分优化技术提升算法的压缩率和解压速度同时，对连续小数字整数序列进行压缩时能够获得比传统参照框架（FOR）类型算法更高的压缩率。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于随机子空间的扩展隔离林算法

谢雨, 蒋瑜, 龙超奇

计算机应用 2021, 41 (6): 1679-1685. DOI: 10.11772/j.issn.1001-9081.2020091436

摘要（414）

PDF （1335KB）（459）

针对扩展隔离林（EIF）算法时间开销过大的问题，提出了一种基于随机子空间的扩展隔离林（RS-EIF）算法。首先，在原数据空间确定多个随机子空间；然后，在不同的随机子空间中通过计算每个节点的截距向量与斜率来构建扩展孤立树，并将多棵扩展孤立树集成为子空间扩展隔离林；最后，通过计算数据点在扩展隔离林中的平均遍历深度来确定数据点是否异常。在离群值检测数据库（ODDS）中的9个真实数据集与呈多元分布的7个人工数据集上的实验结果表明，所提RS-EIF算法对局部异常很敏感，相较EIF算法减少了约60%的时间开销；在样本数量较多的ODDS数据集上，该算法识别精度高出孤立森林（iForest）算法、轻型在线异常检测（LODA）算法和基于连接函数的异常检测（COPOD）算法2~12个百分点。RS-EIF算法在样本数量大的数据集中识别效率更高。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于社区优化的深度网络嵌入方法

李亚芳, 梁烨, 冯韦玮, 祖宝开, 康玉健

计算机应用 2021, 41 (7): 1956-1963. DOI: 10.11772/j.issn.1001-9081.2020081193

摘要（398）

PDF （1616KB）（429）

随着现代网络通信和社会媒体等技术的飞速发展，网络化的大数据由于缺少高效可用的节点表示而难以应用。将高维稀疏难于应用的网络数据转化为低维、紧凑、易于应用的节点表示的网络嵌入方法受到广泛关注。然而已有网络嵌入方法得到节点低维特征向量后，再将其作为其他应用（节点分类、社区发现、链接预测、可视化等）的输入来作进一步分析，没有针对具体应用构建模型，难以取得满意的结果。针对网络社区发现这一具体应用，提出结合社区结构优化进行节点低维特征表示的深度自编码聚类模型CADNE。首先基于深度自编码模型，通过保持网络局部及全局链接的拓扑特性来学习节点的低维表示，然后利用网络聚类结构对节点低维表示进一步优化。该方法同时学习节点的低维表示和节点所属社区的指示向量，使节点的低维表示不仅能保持原始网络结构中的拓扑结构特性，而且能保持节点的聚类特性。与已有的经典网络嵌入方法进行对比，结果显示CADNE模型在Citeseer和Cora上取得最优聚类结果，在20NewsGroup上准确率提升最高达0.525；分类性能在Blogcatalog、Citeseer数据集上取得最好结果，在Blogcatalog上训练比例20%时比基线方法提升最高达0.512；并且CADNE模型在可视化对比中能够得到类边界更加清晰的节点低维表示，验证了所提方法具有较好的节点低维表示能力。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于异构信息网络的混合推荐模型

林怿星, 唐华

计算机应用 2021, 41 (5): 1348-1355. DOI: 10.11772/j.issn.1001-9081.2020081340

摘要（396）

PDF （1265KB）（517）

个性化推荐平台具有数据来源广泛且数据类型丰富的特点，而其中的数据稀疏是影响推荐系统性能的重要原因。如何挖掘推荐平台结构化数据和非结构化数据以发现更多特征，在数据稀疏场景中提高推荐的准确率，缓解冷启动问题，并且使得推荐具有可解释性，是推荐系统面临的重大挑战。因此，针对为User推荐Item的个性化场景，利用异构信息网络（HIN）构建推荐平台中对象间的关联关系，以元路径（Meta-Graph）描述对象间的关联路径并计算不同路径下的User-Item相似度矩阵；用FunkSVD矩阵分解算法分解User以及Item的隐式特征，并针对以文本为例的非结构化数据以卷积神经网络（CNN）技术挖掘这些数据的文本特征；将两种方式获取的特征进行拼接后，使用融入User和Item历史平均分的因子分解机（FM）来预测User对Item的评分。实验过程基于公开数据集Yelp建立提出的混合推荐模型、基于Meta-Graph的单一推荐模型、因子分解机推荐（FMR）模型以及基于FunkSVD推荐模型并对它们进行训练。实验结果表明，所提出的混合推荐模型具有较好的有效性和可解释性，相较于几个对比模型，该模型的推荐精度均有较大的提升。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于HBase的工业时序大数据分布式存储性能优化策略

杨力, 陈建廷, 向阳

《计算机应用》唯一官方网站 2023, 43 (3): 759-766. DOI: 10.11772/j.issn.1001-9081.2022020211

摘要（383）

HTML （15）

PDF （2121KB）（165）

PDF（mobile）（619KB）（12）

在自动化的工业场景中，大量工业设备产生的时序性日志数据量呈爆炸式增长，业务场景对时序数据的访问需求进一步提升。虽然目前基于分布式列族的数据库HBase能够存储工业时序大数据，但由于未考虑特定业务场景中数据与访问行为特征的关联，现有策略无法较好地满足工业时序数据的特定访问需求。针对上述问题，基于分布式存储系统HBase，利用工业场景中数据与访问行为特征的关联性，提出面向海量工业时序数据的分布式存储性能优化策略。针对工业时序数据特点引发的负载倾斜问题，提出基于冷热数据分区及访问行为分类的负载均衡优化策略。使用逻辑回归模型（LR）对数据进行冷热分类，并将热数据分散存储在不同节点；同时，为进一步降低存储集群中跨节点的通信开销，以提升工业时序数据高维索引的查询效率，提出索引主数据同Region化策略，设计索引RowKey字段及拼接规则，将索引存放到与它对应的主数据相同的Region中。在真实工业时序数据上的实验结果表明，引入优化策略后的数据负载分布倾斜度降低28.5%，查询效率提升27.7%，验证了所提优化策略能够有效地挖掘特定时序数据的访问模式，合理地分配负载，降低数据访问开销，有能力满足对特定时序大数据的访问需求。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

14. 无人机飞行数据异常检测算法综述

祁超帅, 何文思, 焦毅, 马英红, 蔡伟, 任素萍

《计算机应用》唯一官方网站 2023, 43 (6): 1833-1841. DOI: 10.11772/j.issn.1001-9081.2022060808

摘要（359）

HTML （23）

PDF （3156KB）（416）

针对无人机（UAV）机载健康状态监测领域的UAV飞行数据异常检测问题，首先阐述了UAV飞行数据的特点、常见的飞行数据异常类型及对异常检测算法的要求；然后梳理了UAV飞行数据异常检测算法的研究现状，并归为3大类：基于先验知识的定性异常检测算法、基于模型的定量异常检测算法和基于数据驱动的异常检测算法，同时分析了各类算法的应用场景和优缺点；最后总结了UAV飞行数据异常检测算法目前存在的问题和挑战，展望了未来UAV飞行数据异常检测领域的重点发展方向，为新的研究提供了参考思路。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

15. 基于万有引力的自适应近邻传播聚类算法

王治和, 常筱卿, 杜辉

计算机应用 2021, 41 (5): 1337-1342. DOI: 10.11772/j.issn.1001-9081.2020071130

摘要（344）

PDF （1267KB）（402）

针对近邻传播（AP）聚类算法对参数偏向参数（Preference）敏感、不适用于稀疏数据、聚类结果中会出现错误聚类的样本点的问题，提出基于万有引力的自适应近邻传播聚类（GA-AP）算法。首先，在传统AP算法的基础上采用引力搜索机制对样本进行全局寻优；其次，在全局寻优的基础上利用信息熵和自适应增强（AdaBoost）算法找到每个簇内正确聚类和错误聚类的样本点，并计算出这些样本点的权值，用计算出的权值更新对应的样本点，从而更新相似度、Preference取值、吸引度和隶属度，并进行重新聚类。不断操作以上步骤直到达到最大的迭代次数。通过在9个数据集上的仿真实验得出，相比于基于自适应属性加权的近邻传播聚类（AFW_AP）算法、AP算法、K均值聚类（K-means）算法和模糊C均值（FCM）算法，所提算法的纯度（Purity）、F值（F-measure）和准确率（ACC）的平均值分别最高提升了0.69、71.74%和98.5%。实验结果表明，所提算法降低了对偏向参数的依赖，提高了聚类效果，特别是对于稀疏数据集的聚类结果的准确率。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于峰值网格改进的小波聚类算法

龙超奇, 蒋瑜, 谢雨

计算机应用 2021, 41 (4): 1122-1127. DOI: 10.11772/j.issn.1001-9081.2020071042

摘要（342）

PDF （1096KB）（576）

针对小波聚类算法在不同网格划分尺度下表现出的聚类效果差异，提出了一种基于峰值网格的改进方法。算法主要针对小波聚类中连通区域的检测方式进行改进：首先，将小波变换后的空间网格依网格值的大小进行排序；然后利用广度优先搜索的方式遍历每一个空间网格，以检测经小波变换后数据中的峰值连通区域；最后，标记连通区域并将其映射到原数据空间中，以得出聚类结果。在8个人工数据集（4个凸数据集与4个非凸数据集）和UCI数据库中的2个真实数据集上的实验结果表明，改进算法在低网格划分尺度下有着良好的表现，与原小波聚类算法相比，这个算法对网格划分尺度的需求降低了25%~60%，并且在相同的聚类效果下减少了14%的聚类所需时间。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于多尺度的时序数据部分周期模式增量挖掘

荀亚玲, 王林青, 蔡江辉, 杨海峰

《计算机应用》唯一官方网站 2023, 43 (2): 391-397. DOI: 10.11772/j.issn.1001-9081.2021122190

摘要（333）

HTML （8）

PDF （2226KB）（131）

针对动态时序数据部分周期模式挖掘过程存在的计算复杂度过高和扩展性差等问题，提出了一种结合多尺度理论的时间序列部分周期模式挖掘算法（MSI-PPPGrowth），所提算法充分利用了时序数据客观存在的时间多尺度特性，将多尺度理论引入时序数据的部分周期模式挖掘过程。首先，将尺度划分后的原始数据以及增量时序数据作为更细粒度的基准尺度数据集进行独立挖掘；然后，利用不同尺度数据间的相关性实现尺度转换，以间接获取动态更新后的数据集对应的全局频繁模式，从而避免了原始数据集的重复扫描和树结构的不断调整。其中，基于克里金法并考虑时序周期性设计了一个新的频繁缺失计数估计模型（PJK-EstimateCount），以有效估计在尺度转换过程中的缺失项支持度计数。实验结果表明，MSI-PPPGrowth具有良好的可扩展性和实时性，尤其是对于稠密数据集，其性能优势更为突出。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

18. 基于 k-means++的动态构建空间主题R树方法

邹志文, 秦程

计算机应用 2021, 41 (3): 733-737. DOI: 10.11772/j.issn.1001-9081.2020060851

摘要（331）

PDF （769KB）（413）

现有的R-树空间聚类技术在通常通过随机指定或者计算空间数据间的欧氏距离来选取聚类中心，而未考虑空间数据间的主题相关度。这些导致聚类结果受初始 k值影响，空间数据间的关联仅仅是基于地理位置的。针对此种情况，提出了一种基于 k-means++的动态构建空间主题R树（TR-tree）方法。首先，在传统的 k-means++算法上，通过聚类测度函数动态地确定 k个聚类簇，并在聚类测度函数中引入潜在狄利克雷分布（LDA）模型来计算每个空间数据文本的主题概率，从而加强空间数据间的主题关联度；其次，通过主题概率选取概率最大的聚类中心；最后，构建TR-tree，并且在构建时动态分配空间数据。实验结果表明：虽然构建R-树的时间略有增加，但该方法在索引效率及节点间关联度上较仅仅基于地理位置聚类构建R-树的算法有明显提升。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于聚类分析的差分隐私高维数据发布方法

陈恒恒, 倪志伟, 朱旭辉, 金媛媛, 陈千

计算机应用 2021, 41 (9): 2578-2585. DOI: 10.11772/j.issn.1001-9081.2020111786

摘要（329）

PDF （1281KB）（312）

针对已有差分隐私高维数据发布方法无法有效兼顾数据间复杂属性的关联关系和计算成本的问题，提出一种基于聚类分析技术的差分隐私高维数据发布方法PrivBC。首先，基于 K-means++设计属性聚类方法，引入最大信息系数量化属性间的关联关系，并对具有高度关联关系的数据属性进行聚类。其次，对聚类产生的各个数据子集进行如下操作：计算关系矩阵以缩减属性对的候选空间，并构建满足差分隐私的贝叶斯网络。最后，根据贝叶斯网络采样每个属性，并合成新的隐私数据集进行发布。与PrivBayes方法相比，PrivBC方法的误分类率和运行时间分别平均降低了12.6%和30.2%。实验结果表明，所提方法在有效保证数据可用性的基础上，可以显著提高计算效率，为高维数据的隐私发布提供了新思路。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于新的鲁棒相似性度量的时间序列聚类

李国荣, 冶继民, 甄远婷

计算机应用 2021, 41 (5): 1343-1347. DOI: 10.11772/j.issn.1001-9081.2020071142

摘要（328）

PDF （683KB）（345）

针对存在异常值的时间序列数据，提出了一种基于相关系数鲁棒估计的时间序列间的鲁棒广义互相关度量（RGCC）。首先，引入一种鲁棒相关系数代替Pearson相关系数来计算时间序列数据间的协方差矩阵；其次，用新的协方差矩阵的行列式构造两个时间序列间的相似性度量——RGCC；最后，基于该度量计算出序列间的距离矩阵，将其作为聚类算法的输入对数据进行聚类。时间序列聚类仿真实验表明，对存在异常值点的时间序列数据，与基于原始的广义互相关度量（GCC）得到的聚类结果相比，基于RGCC得到的聚类结果明显更接近真实的聚类结果。可见，所提出的新的鲁棒相似性度量完全适用于存在异常值的时间序列数据。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于自适应群组重排的长尾推荐模型

金苍宏, 邵育华, 何琴芳

《计算机应用》唯一官方网站 2023, 43 (4): 1122-1128. DOI: 10.11772/j.issn.1001-9081.2022030455

摘要（327）

HTML （10）

PDF （1249KB）（99）

针对传统推荐算法过度关注推荐的精度而导致的长尾问题，即热门项目拥有过高的推荐量的同时非热门项目长时间不被关注，提出一种基于欧氏距离构建二维加权相似度并融入自适应群组重排的多目标优化推荐模型（MDOM）——自适应群组重排的推荐模型（AGRM）。首先，利用欧氏距离构建二维加权相似度度量，根据个体历史行为记录动态设定替换比例，并利用融入群组的多目标优化算法解决长尾推荐问题；其次，设计两个简明的目标函数，并同时考虑流行度和长尾关注度，以降低目标函数的复杂性；然后，基于二维加权相似度度量，选择用户子集作为“最佳推荐用户组”，并计算帕累托最优解。在MovieLens 1M和Yahoo数据集上的实验结果表明，AGRM的覆盖率表现最优，与基于物品相似的协同过滤（ItemCF）算法相比，分别平均提升了4.11、25.38个百分点；与用于Top-N推荐的具有浅并行路径的深度变分自动编码器（VASP）模型相比，分别平均提升了8.38、33.19个百分点。在Yahoo数据集上，AGRM的推荐的平均流行度最低，表明AGRM能够推荐更多长尾项目。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

22. 多样性表示的深度子空间聚类算法

马志峰, 于俊洋, 王龙葛

《计算机应用》唯一官方网站 2023, 43 (2): 407-412. DOI: 10.11772/j.issn.1001-9081.2021122126

摘要（313）

HTML （15）

PDF （1851KB）（132）

针对深度子空间聚类问题中不同层次特征中互补信息挖掘困难的问题，在深度自编码器的基础上，提出了一种在编码器获取的低层和高层特征之间探索互补信息的多样性表示的深度子空间聚类（DRDSC）算法。首先，基于希尔伯特-施密特独立性准则（HSIC）建立了不同层次特征衡量多样性表示模型；其次，在深度自编码器网络结构中引入特征多样性表示模块，从而挖掘有利于提升聚类效果的图像特征；此外，更新了损失函数的形式，有效融合了多层次表示的底层子空间；最后，在常用的聚类数据集上进行了多次实验。实验结果表明，DRDSC在数据集Extended Yale B、ORL、COIL20和Umist上的聚类错误率分别达到1.23%、10.50%、1.74%和17.71%，与高效稠密子空间聚类（EDSC）相比，分别降低了10.41、16.75、13.12和12.92个百分点；与深度子空间聚类（DSC）相比，分别降低了1.44、3.50、3.68和9.17个百分点，说明所提出的DRDSC算法有更好的聚类效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

23. 面向分布式漂移数据流的集成分类模型

尹春勇, 张帼杰

计算机应用 2021, 41 (7): 1947-1955. DOI: 10.11772/j.issn.1001-9081.2020081277

摘要（312）

PDF （1255KB）（275）

针对大数据环境下分类精度不高的问题，提出了一种面向分布式数据流的集成分类模型。首先，使用微簇模式减少局部节点向中心节点传输的数据量，降低通信代价；然后，使用样本重构算法生成全局分类器的训练样本；最后，提出一种面向漂移数据流的集成分类模型，采用动态分类器和稳定分类器的加权组合策略，使用混合标记策略标记最具代表性的样本以更新集成模型。在两个虚拟数据集和两个真实数据集上的实验结果表明，该模型与DS-means、BDS-ensemble这两个分布式挖掘模型相比，受到概念漂移时的波动较小；而与在线主动学习集成模型（OALEnsemble）相比，准确率更高，在四个数据集上的准确率分别提高了1.58、0.97、0.77和1.91个百分点。该模型虽然在内存消耗上略高于DS-means和BDS-ensemble模型，但是可以在较小的内存代价下获得较大的分类性能的提升。因此，该模型适用于具有分布式和流动性特征的大数据的分类工作，如网络监控、银行业务系统等。

参考文献 | 相关文章 | 多维度评价

Select

24. 面向单记录的混合负载下物化视图异步增量维护任务生成

孙洋洋, 姚俊萍, 李晓军, 范守祥, 王自维

《计算机应用》唯一官方网站 2022, 42 (12): 3763-3768. DOI: 10.11772/j.issn.1001-9081.2021101725

摘要（311）

HTML （4）

PDF （660KB）（56）

针对已有的混合负载（HTAP）下物化视图异步增量维护任务生成算法主要面向多记录，无法面向单记录生成HTAP物化视图异步增量维护任务，导致磁盘IO开销的增加，进而降低HTAP物化视图异步增量维护性能的问题，提出面向单记录的HTAP物化视图异步增量维护任务的生成方法。首先，建立面向单记录的HTAP物化视图异步增量维护任务生成的效益模型；然后，基于Q-learning设计面向单记录的HTAP物化视图异步增量维护任务的生成算法。实验结果表明，所提算法在实现面向单记录生成HTAP物化视图异步增量维护任务的基础上，将平均每秒读写操作次数（IOPS）、平均CPU利用率（2核）和平均CPU利用率（4核）至少分别降低了8.49次、1.85个百分点和0.97个百分点。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

25. 基于改进的半监督聚类的不平衡分类算法

陆宇, 赵凌云, 白斌雯, 姜震

《计算机应用》唯一官方网站 2022, 42 (12): 3750-3755. DOI: 10.11772/j.issn.1001-9081.2021101837

摘要（308）

HTML （8）

PDF （706KB）（108）

不平衡分类的相关算法是机器学习领域的研究热点之一，其中的过采样通过重复抽取或者人工合成来增加少数类样本，以实现数据集的再平衡。然而当前的过采样方法大部分是基于原有的样本分布进行的，难以揭示更多的数据集分布特征。为了解决以上问题，首先，提出一种改进的半监督聚类算法来挖掘数据的分布特征；其次，基于半监督聚类的结果，在属于少数类的簇中选择置信度高的无标签数据（伪标签样本）加入原始训练集，这样做除了实现数据集的再平衡外，还可以利用半监督聚类获得的分布特征来辅助不平衡分类；最后，融合半监督聚类和分类的结果来预测最终的类别标签，从而进一步提高算法的不平衡分类性能。选择G-mean和曲线下面积（AUC）作为评价指标，将所提算法与TU、CDSMOTE等7个基于过采样或欠采样的不平衡分类算法在10个公开数据集上进行了对比分析。实验结果表明，与TU、CDSMOTE相比，所提算法在AUC指标上分别平均提高了6.7%和3.9%，在G-mean指标上分别平均提高了7.6%和2.1%，且在两个评价指标上相较于所有对比算法都取得了最高的平均结果。可见所提算法能够有效地提高不平衡分类性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

26. 基于有序事件列表的高效复杂事件匹配算法

邱涛, 丁建丽, 夏秀峰, 郗红梅, 谢沛良, 周清怡

《计算机应用》唯一官方网站 2023, 43 (2): 423-429. DOI: 10.11772/j.issn.1001-9081.2021122186

摘要（302）

HTML （13）

PDF （2336KB）（92）

针对现有的复杂事件匹配处理方法存在的匹配代价高的问题，提出了一种利用事件缓冲区（有序事件列表）进行递归遍历的复杂事件匹配算法ReCEP。不同于现有方法利用自动机在事件流上进行匹配，该算法将复杂事件查询模式中的约束条件分解为不同类型，再在有序列表上对不同约束分别进行递归校验。首先，根据查询模式将相关事件实例按照事件类型进行缓存；其次，在有序列表上对事件实例执行查询过滤操作，并给出了一种基于递归遍历的算法来确定初始事件实例并且获取候选序列；最后，对候选序列的属性约束进行进一步的校验。基于股票交易模拟数据进行的实验测试和分析的结果表明，与当前主流的匹配方法SASE和Siddhi相比，ReCEP算法能够有效地减少查询匹配的处理时间，总体性能上均更优，查询匹配效率提升了8.64%以上。可见，所提出的复杂事件匹配方法能够有效提高复杂事件匹配的效率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

27. 基于消极相似性的自适应社会化推荐

周寅莹, 周允升, 余敦辉, 孙军

《计算机应用》唯一官方网站 2023, 43 (8): 2439-2447. DOI: 10.11772/j.issn.1001-9081.2022071003

摘要（297）

HTML （6）

PDF （3245KB）（138）

社会化推荐旨在融合社会关系改善传统推荐算法的推荐效果。当前基于网络嵌入（NE）的社会化推荐算法面临两个问题：一是在构建网络时未考虑对象间的不一致性，并且倾向于利用获取难度大、约束条件多的积极对象来约束算法；二是这些算法未能依据评分数量消除算法训练中的过拟合。因此，提出一种基于消极相似性的自适应社会化推荐（ASRNS）算法。首先通过一致性分析构建具有正向相关性的同构网络；接着联合加权随机游走与Skip-Gram算法得到嵌入向量；然后计算相似度，并从消极相似性的角度来约束矩阵分解（MF）算法；最后基于自适应机制将评分数量映射到理想评分数量区间，并对算法偏置项施加不同的惩罚。在FilmTrust和CiaoDVD数据集上实验结果表明，与协同用户网络嵌入（CUNE）算法、一致性邻居聚合的推荐（ConsisRec）算法等算法相比，ASRNS的均方根误差（RMSE）分别至少降低了2.60%和5.53%，平均绝对误差（MAE）分别至少降低了1.47%和2.46%。可见，ASRNS不仅可以有效降低评分预测误差，还能显著改善算法训练过程中的过拟合问题，对不同评分数量的对象都具有较好的健壮性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

28. 距离-关键字相似度约束的双色反 k近邻查询方法

张豪, 朱睿, 宋栿尧, 方鹏, 夏秀峰

计算机应用 2021, 41 (6): 1686-1693. DOI: 10.11772/j.issn.1001-9081.2020091453

摘要（294）

PDF （1025KB）（294）

针对空间关键字双色反 k近邻查询返回结果质量较低的问题，提出了基于距离-关键字相似度约束的双色反 k近邻查询方法。首先，通过设置一个阈值将查询结果中质量较低的用户给过滤掉，从而避免了查询结果中出现空间距离相对较远的用户，保证了查询结果质量；然后，为支持该查询，提出了一种关键字多分辨率网格矩形树（KMG-Tree）索引来管理数据；最后，提出了基于Six-region算法的Six-region-optimize算法来提高查询处理效率。Six-region-optimize算法的查询效率相较baseline和Six-region算法分别平均提高了约85.71%和23.45%。基于真实时空数据进行实验测试和分析，实验结果验证了Six-region-optimize算法的有效性和高效性。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于Web of Science的PageRank人才挖掘算法

李翀, 王宇宸, 杜伟静, 何晓涛, 刘学敏, 张士波, 李树仁

计算机应用 2021, 41 (5): 1356-1360. DOI: 10.11772/j.issn.1001-9081.2020081206

摘要（287）

PDF （775KB）（431）

高水平论文是优秀科技人才的标志性成果之一。聚焦“Web Of Science（WOS）”热点研究学科，在构建学术论文语义Neo4j网络图和挖掘出活跃科研社区基础上，利用PageRank人才挖掘算法实现对科研社区中优秀科研人才的挖掘。首先，对现有的人才挖掘算法进行详细研究和分析；其次，结合WOS论文数据对PageRank人才挖掘算法进行了优化设计和实现，加入了论文发表的时间因子、作者署名排序递减模型、周围作者节点对当前节点的影响、论文被引用量等多维度考量因素。最后，基于热点学科计算机科学某社区近五年的论文数据进行了实验和验证。结果表明，基于社区的挖掘更具有针对性，能够快速定位各学科代表性优秀和潜在人才，且改进后的算法对人才的发现更加客观有效。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于亲和力与研究方向覆盖率的审稿人推荐算法

钟磊, 周允升, 余敦辉, 崔海波

《计算机应用》唯一官方网站 2023, 43 (2): 430-436. DOI: 10.11772/j.issn.1001-9081.2021122127

摘要（287）

HTML （13）

PDF （2659KB）（61）

针对现有审稿人推荐算法主要通过亲和力分数分配审稿人，而忽略了审稿人与论文研究方向匹配的问题，提出一种基于亲和力与研究方向覆盖率的审稿人推荐算法（ARDC）。首先，根据研究方向在待审论文和审稿人论文组中出现的频数，确定论文选择审稿人的次序；然后，综合审稿人和论文间的亲和力得分以及审稿人对论文的研究方向覆盖得分，来计算审稿人对待审论文的综合审阅得分，并依据轮询调度得到论文预分配审稿小组；最后，对预分配审稿小组进行利益冲突检查与消解以实现最终的审稿小组推荐。实验结果表明，与基于松弛迭代的分配算法（FairIR）和同行评审公平分配算法（PR4A）等基于分配的审稿人推荐算法相比，所提算法在牺牲少量亲和力的情况下，将研究方向覆盖得分平均提高了38%，从而确保推荐结果更加准确合理。

图表 | 参考文献 | 相关文章 | 多维度评价

虚拟专题文章