数据科学与技术

Select

1. 基于动态和静态偏好的兴趣点推荐算法

杨丽, 王时绘, 朱博

计算机应用 2021, 41 (2): 398-406. DOI: 10.11772/j.issn.1001-9081.2020050677

摘要（684）

PDF （1355KB）（1137）

针对大多数现有主流兴趣点（POI）推荐算法忽略了融合用户复杂动态偏好和一般静态偏好建模的复杂性问题，提出一个融合复杂动态用户偏好和一般静态用户偏好的POI推荐算法CLSR。首先，在复杂动态偏好建模过程中，基于用户的签到行为及其中的跳过行为设计一个混合神经网络，实现用户的复杂动态兴趣的建模；其次，在一般静态偏好建模过程中，利用高阶注意力网络学习用户与POI之间复杂的交互关系；然后，利用多层神经网络进一步学习和表示上述动态偏好和静态偏好；最后，基于统一的POI推荐框架对偏好进行整合。在真实数据集上的实验结果表明，与个性化马尔可夫链和用户位置受限的推荐方法FPMC-LR、基于个性化排名度量嵌入的推荐方法PRME、基于排名的地理分解兴趣点推荐方法Rank-GeoFM和基于时间和多级上下文注意力机制的下一个兴趣点推荐方法TMCA相比，CLSR的性能有了较大的提高，该算法的准确率、召回率和归一化折损累计增益（nDCG）和对比方法中较优的TMCA相比，在Foursquare数据集上分别提高了5.8%、5.1%和7.2%，在Gowalla数据集上分别提高了7.3%、10.2%和6.3%，可以有效地改善POI推荐的结果。

参考文献 | 相关文章 | 多维度评价

Select

2. 结合ALBERT和双向门控循环单元的专利文本分类

温超东, 曾诚, 任俊伟, 张

计算机应用 2021, 41 (2): 407-412. DOI: 10.11772/j.issn.1001-9081.2020050730

摘要（844）

PDF （979KB）（928）

随着专利申请数量的快速增长，对专利文本实现自动分类的需求与日俱增。现有的专利文本分类算法大都采用Word2vec和全局词向量（GloVe）等方式获取文本的词向量表示，舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对上述问题，提出了一种结合ALBERT和双向门控循环单元（BiGRU）的多层级专利文本分类模型ALBERT-BiGRU。该模型使用ALBERT预训练的动态词向量代替传统Word2vec等方式训练的静态词向量，提升了词向量的表征能力；并使用BiGRU神经网络模型进行训练，最大限度保留了专利文本中长距离词之间的语义关联。在国家信息中心公布的专利数据集上进行有效性验证，与Word2vec-BiGRU和GloVe-BiGRU相比，ALBERT-BiGRU的准确率在专利文本的部级别分别提高了9.1个百分点和10.9个百分点，在大类级别分别提高了9.5个百分点和11.2个百分点。实验结果表明，ALBERT-BiGRU能有效提升不同层级专利文本的分类效果。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于有向无环图的倒排链等字长划分压缩算法

姜琨, 刘征, 朱磊, 李晓星

计算机应用 2021, 41 (3): 727-732. DOI: 10.11772/j.issn.1001-9081.2020060874

摘要（638）

PDF （905KB）（563）

在搜索引擎的倒排索引等字长（FWA）类型压缩算法中，倒排链的“贪心”分块划分策略和码字信息的交错存储使算法难以达到最优的压缩效果。针对上述问题，提出了一种基于有向无环图（DAG）的FWA划分压缩算法。首先，考虑到互联网网页聚类特性带来的倒排链小数字信息，设计了一种数据区为64位分块的新型FWA压缩格式。该压缩格式通过4位的指示区将数据区划分为16种适合于连续小数字压缩的存储模式，并将倒排链每个分块的指示位和数据位分类存储，从而保证了较好的批量解压性能。其次，在新压缩格式的基础上提出一种基于DAG描述的倒排链FWA划分压缩方法——固定字对齐划分（WAP）算法。该算法利用DAG将倒排链分块划分问题归结为单源最短路径（SSSP）问题，并考虑FWA压缩格式中数据区存储模式的限制条件来确定SSSP问题的结构形式和递归定义。然后，给出了采用动态规划求解SSSP问题并形成最优划分向量的伪码和算法复杂度，并对S9、S16、S8b等传统FWA算法的原有存储模式进行了基于DAG的划分优化，把优化前后的算法的计算复杂度进行比较分析。最后，使用仿真整数序列数据和文本检索会议（TREC） GOV2网页索引数据进行压缩性能实验。实验结果表明，相较于传统FWA类型算法，基于DAG的FWA划分算法在通过批量解压和划分优化技术提升算法的压缩率和解压速度同时，对连续小数字整数序列进行压缩时能够获得比传统参照框架（FOR）类型算法更高的压缩率。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于 k-means++的动态构建空间主题R树方法

邹志文, 秦程

计算机应用 2021, 41 (3): 733-737. DOI: 10.11772/j.issn.1001-9081.2020060851

摘要（527）

PDF （769KB）（588）

现有的R-树空间聚类技术在通常通过随机指定或者计算空间数据间的欧氏距离来选取聚类中心，而未考虑空间数据间的主题相关度。这些导致聚类结果受初始 k值影响，空间数据间的关联仅仅是基于地理位置的。针对此种情况，提出了一种基于 k-means++的动态构建空间主题R树（TR-tree）方法。首先，在传统的 k-means++算法上，通过聚类测度函数动态地确定 k个聚类簇，并在聚类测度函数中引入潜在狄利克雷分布（LDA）模型来计算每个空间数据文本的主题概率，从而加强空间数据间的主题关联度；其次，通过主题概率选取概率最大的聚类中心；最后，构建TR-tree，并且在构建时动态分配空间数据。实验结果表明：虽然构建R-树的时间略有增加，但该方法在索引效率及节点间关联度上较仅仅基于地理位置聚类构建R-树的算法有明显提升。

参考文献 | 相关文章 | 多维度评价

Select

5. 自动确定聚类中心的比较密度峰值聚类算法

郭佳, 韩李涛, 孙宪龙, 周丽娟

计算机应用 2021, 41 (3): 738-744. DOI: 10.11772/j.issn.1001-9081.2020071071

摘要（737）

PDF （2809KB）（689）

针对密度峰值聚类算法（DPC）不能自动确定聚类中心，并且聚类中心点与非聚类中心点在决策图上的显示不够明显的问题，设计了一种自动确定聚类中心的比较密度峰值聚类算法（ACPC）。该算法首先利用距离的比较量来代替原距离参数，使潜在的聚类中心在决策图中更加突出；然后通过二维区间估计方法进行对聚类中心的自动选取，从而实现聚类过程的自动化。仿真实验结果表明，在4个合成数据集上ACPC取得了更好的聚类效果；而在真实数据集上的Accuracy指标对比表明，在Iris数据集上，ACPC聚类结果可达到94%，与传统的DPC算法相比提高了27.3%，ACPC解决了交互式选取聚类中心的问题。

参考文献 | 相关文章 | 多维度评价

Select

6. 在线哈希算法研究综述

郭一村, 陈华辉

《计算机应用》唯一官方网站 2021, 41 (4): 1106-1112. DOI: 10.11772/j.issn.1001-9081.2020071047

摘要（972）

PDF （1188KB）（1293）

在当前大规模数据检索任务中，学习型哈希方法能够学习紧凑的二进制编码，在节省存储空间的同时能快速地计算海明空间内的相似度，因此近似最近邻检索常使用哈希的方式来完善快速最近邻检索机制。对于目前大多数哈希方法都采用离线学习模型进行批处理训练，在大规模流数据的环境下无法适应可能出现的数据变化而使得检索效率降低的问题，提出在线哈希方法并学习适应性的哈希函数，从而在输入数据的过程中连续学习，并且能实时地应用于相似性检索。首先，阐释了学习型哈希的基本原理和实现在线哈希的内在要求；接着，从在线条件下流数据的读取模式、学习模式以及模型更新模式等角度介绍在线哈希不同的学习方式；而后，将在线学习算法分为六类：基于主-被动算法、基于矩阵分解技术、基于无监督聚类、基于相似性监督、基于互信息度量和基于码本监督，并且分析这些算法的优缺点及特点；最后，总结和讨论了在线哈希的发展方向。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于峰值网格改进的小波聚类算法

龙超奇, 蒋瑜, 谢雨

计算机应用 2021, 41 (4): 1122-1127. DOI: 10.11772/j.issn.1001-9081.2020071042

摘要（526）

PDF （1096KB）（707）

针对小波聚类算法在不同网格划分尺度下表现出的聚类效果差异，提出了一种基于峰值网格的改进方法。算法主要针对小波聚类中连通区域的检测方式进行改进：首先，将小波变换后的空间网格依网格值的大小进行排序；然后利用广度优先搜索的方式遍历每一个空间网格，以检测经小波变换后数据中的峰值连通区域；最后，标记连通区域并将其映射到原数据空间中，以得出聚类结果。在8个人工数据集（4个凸数据集与4个非凸数据集）和UCI数据库中的2个真实数据集上的实验结果表明，改进算法在低网格划分尺度下有着良好的表现，与原小波聚类算法相比，这个算法对网格划分尺度的需求降低了25%~60%，并且在相同的聚类效果下减少了14%的聚类所需时间。

参考文献 | 相关文章 | 多维度评价

Select

8. 主动容错副本存储系统的可靠性分析模型

李静, 罗金飞, 李炳超

计算机应用 2021, 41 (4): 1113-1121. DOI: 10.11772/j.issn.1001-9081.2020071067

摘要（387）

PDF （1396KB）（567）

主动容错机制通过预先发现即将故障的硬盘来提醒系统提前迁移备份危险数据，从而显著提高存储系统的可靠性。针对现有研究无法准确评价主动容错副本存储系统可靠性的问题，提出几种副本存储系统的状态转换模型，然后利用蒙特卡洛仿真算法实现了该模型，从而模拟主动容错副本存储系统的运行，最后统计系统在某个运行时期内发生数据丢失事件的期望次数。采用韦布分布函数模拟设备故障和故障修复事件的时间分布，并定量评价了主动容错机制、节点故障、节点故障修复、硬盘故障以及硬盘故障修复事件对存储系统可靠性的影响。实验结果表明，当预测模型的准确率达到50%时，系统的可靠性可以提高1~3倍；与二副本系统相比，三副本系统对系统参数更敏感。所提模型可以帮助系统管理者比较权衡不同的容错方式以及系统参数下的系统可靠性水平，从而搭建高可靠和高可用的存储系统。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于Web of Science的PageRank人才挖掘算法

李翀, 王宇宸, 杜伟静, 何晓涛, 刘学敏, 张士波, 李树仁

计算机应用 2021, 41 (5): 1356-1360. DOI: 10.11772/j.issn.1001-9081.2020081206

摘要（451）

PDF （775KB）（540）

高水平论文是优秀科技人才的标志性成果之一。聚焦“Web Of Science（WOS）”热点研究学科，在构建学术论文语义Neo4j网络图和挖掘出活跃科研社区基础上，利用PageRank人才挖掘算法实现对科研社区中优秀科研人才的挖掘。首先，对现有的人才挖掘算法进行详细研究和分析；其次，结合WOS论文数据对PageRank人才挖掘算法进行了优化设计和实现，加入了论文发表的时间因子、作者署名排序递减模型、周围作者节点对当前节点的影响、论文被引用量等多维度考量因素。最后，基于热点学科计算机科学某社区近五年的论文数据进行了实验和验证。结果表明，基于社区的挖掘更具有针对性，能够快速定位各学科代表性优秀和潜在人才，且改进后的算法对人才的发现更加客观有效。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于功效特征的专利聚类方法

马建红, 曹文斌, 刘元刚, 夏爽

计算机应用 2021, 41 (5): 1361-1366. DOI: 10.11772/j.issn.1001-9081.2020081203

摘要（442）

PDF （916KB）（623）

当前专利是按照领域划分的，而基于功效特征可以实现跨领域的专利聚类，这在企业创新设计中具有重要意义，而精确提取专利功效特征和快速获得最优聚类结果是其中的关键任务。为此提出一种信息实体语义增强表示（ERNIE）和卷积神经网络（CNN）相结合的功效特征联合提取（FEI-Joint）模型来提取专利文献的功效特征，并且改进自组织神经网络（SOM）算法，从而提出具有早期拒绝策略与类合并思想的自组织神经网络（ERCM-SOM）来实现基于功效特征的专利聚类。对FEI-Joint模型与TF-IDF、狄利克雷分布（LDA）、CNN在特征提取后的聚类效果上进行比较和分析，结果表明其F-measure值比其他模型有明显提高。ERCM-SOM算法与K-Means算法、SOM算法相比，在F-measure值提高的同时，其时间较SOM算法有明显缩短。对比使用专利分类号（IPC）的专利分类，采用基于功效特征的聚类方法可实现跨领域的专利聚类效果，为设计者借鉴其他领域的设计方法奠定了基础。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于异构信息网络的混合推荐模型

林怿星, 唐华

计算机应用 2021, 41 (5): 1348-1355. DOI: 10.11772/j.issn.1001-9081.2020081340

摘要（556）

PDF （1265KB）（675）

个性化推荐平台具有数据来源广泛且数据类型丰富的特点，而其中的数据稀疏是影响推荐系统性能的重要原因。如何挖掘推荐平台结构化数据和非结构化数据以发现更多特征，在数据稀疏场景中提高推荐的准确率，缓解冷启动问题，并且使得推荐具有可解释性，是推荐系统面临的重大挑战。因此，针对为User推荐Item的个性化场景，利用异构信息网络（HIN）构建推荐平台中对象间的关联关系，以元路径（Meta-Graph）描述对象间的关联路径并计算不同路径下的User-Item相似度矩阵；用FunkSVD矩阵分解算法分解User以及Item的隐式特征，并针对以文本为例的非结构化数据以卷积神经网络（CNN）技术挖掘这些数据的文本特征；将两种方式获取的特征进行拼接后，使用融入User和Item历史平均分的因子分解机（FM）来预测User对Item的评分。实验过程基于公开数据集Yelp建立提出的混合推荐模型、基于Meta-Graph的单一推荐模型、因子分解机推荐（FMR）模型以及基于FunkSVD推荐模型并对它们进行训练。实验结果表明，所提出的混合推荐模型具有较好的有效性和可解释性，相较于几个对比模型，该模型的推荐精度均有较大的提升。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于新的鲁棒相似性度量的时间序列聚类

李国荣, 冶继民, 甄远婷

计算机应用 2021, 41 (5): 1343-1347. DOI: 10.11772/j.issn.1001-9081.2020071142

摘要（507）

PDF （683KB）（463）

针对存在异常值的时间序列数据，提出了一种基于相关系数鲁棒估计的时间序列间的鲁棒广义互相关度量（RGCC）。首先，引入一种鲁棒相关系数代替Pearson相关系数来计算时间序列数据间的协方差矩阵；其次，用新的协方差矩阵的行列式构造两个时间序列间的相似性度量——RGCC；最后，基于该度量计算出序列间的距离矩阵，将其作为聚类算法的输入对数据进行聚类。时间序列聚类仿真实验表明，对存在异常值点的时间序列数据，与基于原始的广义互相关度量（GCC）得到的聚类结果相比，基于RGCC得到的聚类结果明显更接近真实的聚类结果。可见，所提出的新的鲁棒相似性度量完全适用于存在异常值的时间序列数据。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于万有引力的自适应近邻传播聚类算法

王治和, 常筱卿, 杜辉

计算机应用 2021, 41 (5): 1337-1342. DOI: 10.11772/j.issn.1001-9081.2020071130

摘要（530）

PDF （1267KB）（570）

针对近邻传播（AP）聚类算法对参数偏向参数（Preference）敏感、不适用于稀疏数据、聚类结果中会出现错误聚类的样本点的问题，提出基于万有引力的自适应近邻传播聚类（GA-AP）算法。首先，在传统AP算法的基础上采用引力搜索机制对样本进行全局寻优；其次，在全局寻优的基础上利用信息熵和自适应增强（AdaBoost）算法找到每个簇内正确聚类和错误聚类的样本点，并计算出这些样本点的权值，用计算出的权值更新对应的样本点，从而更新相似度、Preference取值、吸引度和隶属度，并进行重新聚类。不断操作以上步骤直到达到最大的迭代次数。通过在9个数据集上的仿真实验得出，相比于基于自适应属性加权的近邻传播聚类（AFW_AP）算法、AP算法、K均值聚类（K-means）算法和模糊C均值（FCM）算法，所提算法的纯度（Purity）、F值（F-measure）和准确率（ACC）的平均值分别最高提升了0.69、71.74%和98.5%。实验结果表明，所提算法降低了对偏向参数的依赖，提高了聚类效果，特别是对于稀疏数据集的聚类结果的准确率。

参考文献 | 相关文章 | 多维度评价

Select

14. 距离-关键字相似度约束的双色反 k近邻查询方法

张豪, 朱睿, 宋栿尧, 方鹏, 夏秀峰

计算机应用 2021, 41 (6): 1686-1693. DOI: 10.11772/j.issn.1001-9081.2020091453

摘要（483）

PDF （1025KB）（430）

针对空间关键字双色反 k近邻查询返回结果质量较低的问题，提出了基于距离-关键字相似度约束的双色反 k近邻查询方法。首先，通过设置一个阈值将查询结果中质量较低的用户给过滤掉，从而避免了查询结果中出现空间距离相对较远的用户，保证了查询结果质量；然后，为支持该查询，提出了一种关键字多分辨率网格矩形树（KMG-Tree）索引来管理数据；最后，提出了基于Six-region算法的Six-region-optimize算法来提高查询处理效率。Six-region-optimize算法的查询效率相较baseline和Six-region算法分别平均提高了约85.71%和23.45%。基于真实时空数据进行实验测试和分析，实验结果验证了Six-region-optimize算法的有效性和高效性。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于随机子空间的扩展隔离林算法

谢雨, 蒋瑜, 龙超奇

计算机应用 2021, 41 (6): 1679-1685. DOI: 10.11772/j.issn.1001-9081.2020091436

摘要（578）

PDF （1335KB）（594）

针对扩展隔离林（EIF）算法时间开销过大的问题，提出了一种基于随机子空间的扩展隔离林（RS-EIF）算法。首先，在原数据空间确定多个随机子空间；然后，在不同的随机子空间中通过计算每个节点的截距向量与斜率来构建扩展孤立树，并将多棵扩展孤立树集成为子空间扩展隔离林；最后，通过计算数据点在扩展隔离林中的平均遍历深度来确定数据点是否异常。在离群值检测数据库（ODDS）中的9个真实数据集与呈多元分布的7个人工数据集上的实验结果表明，所提RS-EIF算法对局部异常很敏感，相较EIF算法减少了约60%的时间开销；在样本数量较多的ODDS数据集上，该算法识别精度高出孤立森林（iForest）算法、轻型在线异常检测（LODA）算法和基于连接函数的异常检测（COPOD）算法2~12个百分点。RS-EIF算法在样本数量大的数据集中识别效率更高。

参考文献 | 相关文章 | 多维度评价

Select

16. 参数独立的加权局部均值伪近邻分类算法

蔡瑞光, 张德生, 肖燕婷

计算机应用 2021, 41 (6): 1694-1700. DOI: 10.11772/j.issn.1001-9081.2020091370

摘要（450）

PDF （895KB）（585）

针对局部均值伪近邻（LMPNN）算法对 k值敏感且忽略了每个属性对分类结果的不同影响等问题，提出了一种参数独立的加权局部均值伪近邻分类（PIW-LMPNN）算法。首先，利用差分进化算法的最新变体——基于成功历史记录的自适应参数差分进化（SHADE）算法对训练集样本进行优化，从而得到最佳 k值和一组与类别相关的最佳权重；其次，计算样本间的距离时赋予每类的每个属性不同的权重，并对测试集样本进行分类。在15个实际数据集上进行了仿真实验，并把所提算法与其他8种分类算法进行了比较，实验结果表明，所提算法的分类准确率和F1值分别最大提高了约28个百分点和23.1个百分点；同时Wilcoxon符号秩检验、Friedman秩方差检验以及Hollander-Wolfe两处理的比较结果表明，所提出的改进算法在分类精度以及 k值选择方面相较其他8种分类算法具有明显优势。

参考文献 | 相关文章 | 多维度评价

Select

17. 用户互动表示下的影响力最大化算法

张萌, 李维华

计算机应用 2021, 41 (7): 1964-1969. DOI: 10.11772/j.issn.1001-9081.2020081225

摘要（464）

PDF （952KB）（396）

影响力最大化问题旨在社交网络中选取一组有效的种子用户，使信息通过这些用户能够达到最大范围的传播。传统影响力最大化问题的研究依赖于特定的网络结构和扩散模型，而经过人工处理的简化网络和建立在假设之上的扩散模型在评估用户真实影响力时存在较大局限。为解决该问题，提出一种基于用户互动表示的影响力最大化算法（IMUIR）。首先，根据用户互动痕迹进行随机采样，构造用户上下文对，并经过SkipGram模型训练得到用户的向量表示；然后，利用贪婪策略，根据源用户自身的活跃度和这些用户与其他用户的交互联系度选择最佳种子集。为验证IMUIR的有效性，将其与Random、AC、Kcore和Imfector在2个拥有真实互动信息的社交网络上进行对比实验。结果表明，利用IMUIR选出的种子集质量更高，产生的影响传播范围较广，且在2个数据集上表现稳定。

参考文献 | 相关文章 | 多维度评价

Select

18. 基于社区优化的深度网络嵌入方法

李亚芳, 梁烨, 冯韦玮, 祖宝开, 康玉健

计算机应用 2021, 41 (7): 1956-1963. DOI: 10.11772/j.issn.1001-9081.2020081193

摘要（606）

PDF （1616KB）（542）

随着现代网络通信和社会媒体等技术的飞速发展，网络化的大数据由于缺少高效可用的节点表示而难以应用。将高维稀疏难于应用的网络数据转化为低维、紧凑、易于应用的节点表示的网络嵌入方法受到广泛关注。然而已有网络嵌入方法得到节点低维特征向量后，再将其作为其他应用（节点分类、社区发现、链接预测、可视化等）的输入来作进一步分析，没有针对具体应用构建模型，难以取得满意的结果。针对网络社区发现这一具体应用，提出结合社区结构优化进行节点低维特征表示的深度自编码聚类模型CADNE。首先基于深度自编码模型，通过保持网络局部及全局链接的拓扑特性来学习节点的低维表示，然后利用网络聚类结构对节点低维表示进一步优化。该方法同时学习节点的低维表示和节点所属社区的指示向量，使节点的低维表示不仅能保持原始网络结构中的拓扑结构特性，而且能保持节点的聚类特性。与已有的经典网络嵌入方法进行对比，结果显示CADNE模型在Citeseer和Cora上取得最优聚类结果，在20NewsGroup上准确率提升最高达0.525；分类性能在Blogcatalog、Citeseer数据集上取得最好结果，在Blogcatalog上训练比例20%时比基线方法提升最高达0.512；并且CADNE模型在可视化对比中能够得到类边界更加清晰的节点低维表示，验证了所提方法具有较好的节点低维表示能力。

参考文献 | 相关文章 | 多维度评价

Select

19. 面向分布式漂移数据流的集成分类模型

尹春勇, 张帼杰

计算机应用 2021, 41 (7): 1947-1955. DOI: 10.11772/j.issn.1001-9081.2020081277

摘要（482）

PDF （1255KB）（392）

针对大数据环境下分类精度不高的问题，提出了一种面向分布式数据流的集成分类模型。首先，使用微簇模式减少局部节点向中心节点传输的数据量，降低通信代价；然后，使用样本重构算法生成全局分类器的训练样本；最后，提出一种面向漂移数据流的集成分类模型，采用动态分类器和稳定分类器的加权组合策略，使用混合标记策略标记最具代表性的样本以更新集成模型。在两个虚拟数据集和两个真实数据集上的实验结果表明，该模型与DS-means、BDS-ensemble这两个分布式挖掘模型相比，受到概念漂移时的波动较小；而与在线主动学习集成模型（OALEnsemble）相比，准确率更高，在四个数据集上的准确率分别提高了1.58、0.97、0.77和1.91个百分点。该模型虽然在内存消耗上略高于DS-means和BDS-ensemble模型，但是可以在较小的内存代价下获得较大的分类性能的提升。因此，该模型适用于具有分布式和流动性特征的大数据的分类工作，如网络监控、银行业务系统等。

参考文献 | 相关文章 | 多维度评价

Select

20. 相似性特征对链路预测的影响与增强

蔡彪, 李蕊岑, 吴媛媛

计算机应用 2021, 41 (9): 2569-2577. DOI: 10.11772/j.issn.1001-9081.2020111744

摘要（402）

PDF （4634KB）（456）

链路预测的主要任务是设计一个能够更加准确地描述给定网络机制的预测算法，从而得到更准确的预测结果。在分析现有研究成果基础上发现，网络的相似性特征对采用的链路预测方法有较大的影响：在节点间标签相似性较低的网络中，提高标签的相似性可以提高预测的准确性；而在节点间标签相似性较高的网络中，则应更加关注结构信息对于链路预测的贡献来提高预测的准确性。随后，通过对标签进行加权处理，提出带权值的标签相似性算法，在低相似性网络中能够提高链路预测的准确性。同时，在较高相似性网络中，将网络的结构信息引入到节点的相似性计算中，并通过偏好链接机制来提升链路预测的准确性。在四个真实网络上的实验结果表明，所提算法相对于标签系统间的余弦相似性（CSTS）算法、偏好链接（PA）等算法取得了最高的准确率。根据网络相似性特征，采用所提出的对应算法进行链路预测能够得到更准确的预测结果。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于聚类分析的差分隐私高维数据发布方法

陈恒恒, 倪志伟, 朱旭辉, 金媛媛, 陈千

计算机应用 2021, 41 (9): 2578-2585. DOI: 10.11772/j.issn.1001-9081.2020111786

摘要（512）

PDF （1281KB）（505）

针对已有差分隐私高维数据发布方法无法有效兼顾数据间复杂属性的关联关系和计算成本的问题，提出一种基于聚类分析技术的差分隐私高维数据发布方法PrivBC。首先，基于 K-means++设计属性聚类方法，引入最大信息系数量化属性间的关联关系，并对具有高度关联关系的数据属性进行聚类。其次，对聚类产生的各个数据子集进行如下操作：计算关系矩阵以缩减属性对的候选空间，并构建满足差分隐私的贝叶斯网络。最后，根据贝叶斯网络采样每个属性，并合成新的隐私数据集进行发布。与PrivBayes方法相比，PrivBC方法的误分类率和运行时间分别平均降低了12.6%和30.2%。实验结果表明，所提方法在有效保证数据可用性的基础上，可以显著提高计算效率，为高维数据的隐私发布提供了新思路。

参考文献 | 相关文章 | 多维度评价

Select

22. 面向高速列车监测数据的并行解压缩算法

王周恺, 张炯, 马维纲, 王怀军

计算机应用 2021, 41 (9): 2586-2593. DOI: 10.11772/j.issn.1001-9081.2020111173

摘要（411）

PDF （1272KB）（403）

高速列车在运行时产生的实时监测数据通常用变长编码压缩技术进行处理，以便于传输和存储。然而这种方法会使得压缩数据内部结构复杂，导致相应的数据解压缩过程只能遵照压缩数据的组成顺序进行，效率较低。为提升高速列车监测数据的解压缩效率，借助推测技术，提出一种面向高速列车监测数据的并行解压缩算法。首先，研究高速列车监测数据的结构特征，分析影响数据划分的内部依赖；其次，利用推测技术消解内部依赖后，对数据进行试探性划分；然后在分布式计算环境中对划分结果并行地进行解压；最后将并行解压缩结果合并起来，从而提高针对高速列车监测数据的解压缩效率。实验结果表明，在由7个计算节点组成的计算集群上，与串行算法相比，所提推测并行算法的加速比为3左右，展现了该算法良好的性能，可见该算法能够显著提高针对列车监测数据的解压缩效率。

参考文献 | 相关文章 | 多维度评价

Select

23. 多样性表示的深度子空间聚类算法

马志峰, 于俊洋, 王龙葛

《计算机应用》唯一官方网站 2023, 43 (2): 407-412. DOI: 10.11772/j.issn.1001-9081.2021122126

摘要（513）

HTML （16）

PDF （1851KB）（194）

针对深度子空间聚类问题中不同层次特征中互补信息挖掘困难的问题，在深度自编码器的基础上，提出了一种在编码器获取的低层和高层特征之间探索互补信息的多样性表示的深度子空间聚类（DRDSC）算法。首先，基于希尔伯特-施密特独立性准则（HSIC）建立了不同层次特征衡量多样性表示模型；其次，在深度自编码器网络结构中引入特征多样性表示模块，从而挖掘有利于提升聚类效果的图像特征；此外，更新了损失函数的形式，有效融合了多层次表示的底层子空间；最后，在常用的聚类数据集上进行了多次实验。实验结果表明，DRDSC在数据集Extended Yale B、ORL、COIL20和Umist上的聚类错误率分别达到1.23%、10.50%、1.74%和17.71%，与高效稠密子空间聚类（EDSC）相比，分别降低了10.41、16.75、13.12和12.92个百分点；与深度子空间聚类（DSC）相比，分别降低了1.44、3.50、3.68和9.17个百分点，说明所提出的DRDSC算法有更好的聚类效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

24. 基于亲和力与研究方向覆盖率的审稿人推荐算法

钟磊, 周允升, 余敦辉, 崔海波

《计算机应用》唯一官方网站 2023, 43 (2): 430-436. DOI: 10.11772/j.issn.1001-9081.2021122127

摘要（463）

HTML （14）

PDF （2659KB）（86）

针对现有审稿人推荐算法主要通过亲和力分数分配审稿人，而忽略了审稿人与论文研究方向匹配的问题，提出一种基于亲和力与研究方向覆盖率的审稿人推荐算法（ARDC）。首先，根据研究方向在待审论文和审稿人论文组中出现的频数，确定论文选择审稿人的次序；然后，综合审稿人和论文间的亲和力得分以及审稿人对论文的研究方向覆盖得分，来计算审稿人对待审论文的综合审阅得分，并依据轮询调度得到论文预分配审稿小组；最后，对预分配审稿小组进行利益冲突检查与消解以实现最终的审稿小组推荐。实验结果表明，与基于松弛迭代的分配算法（FairIR）和同行评审公平分配算法（PR4A）等基于分配的审稿人推荐算法相比，所提算法在牺牲少量亲和力的情况下，将研究方向覆盖得分平均提高了38%，从而确保推荐结果更加准确合理。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

25. 基于多尺度的时序数据部分周期模式增量挖掘

荀亚玲, 王林青, 蔡江辉, 杨海峰

《计算机应用》唯一官方网站 2023, 43 (2): 391-397. DOI: 10.11772/j.issn.1001-9081.2021122190

摘要（514）

HTML （9）

PDF （2226KB）（168）

针对动态时序数据部分周期模式挖掘过程存在的计算复杂度过高和扩展性差等问题，提出了一种结合多尺度理论的时间序列部分周期模式挖掘算法（MSI-PPPGrowth），所提算法充分利用了时序数据客观存在的时间多尺度特性，将多尺度理论引入时序数据的部分周期模式挖掘过程。首先，将尺度划分后的原始数据以及增量时序数据作为更细粒度的基准尺度数据集进行独立挖掘；然后，利用不同尺度数据间的相关性实现尺度转换，以间接获取动态更新后的数据集对应的全局频繁模式，从而避免了原始数据集的重复扫描和树结构的不断调整。其中，基于克里金法并考虑时序周期性设计了一个新的频繁缺失计数估计模型（PJK-EstimateCount），以有效估计在尺度转换过程中的缺失项支持度计数。实验结果表明，MSI-PPPGrowth具有良好的可扩展性和实时性，尤其是对于稠密数据集，其性能优势更为突出。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

26. 基于有序事件列表的高效复杂事件匹配算法

邱涛, 丁建丽, 夏秀峰, 郗红梅, 谢沛良, 周清怡

《计算机应用》唯一官方网站 2023, 43 (2): 423-429. DOI: 10.11772/j.issn.1001-9081.2021122186

摘要（484）

HTML （14）

PDF （2336KB）（125）

针对现有的复杂事件匹配处理方法存在的匹配代价高的问题，提出了一种利用事件缓冲区（有序事件列表）进行递归遍历的复杂事件匹配算法ReCEP。不同于现有方法利用自动机在事件流上进行匹配，该算法将复杂事件查询模式中的约束条件分解为不同类型，再在有序列表上对不同约束分别进行递归校验。首先，根据查询模式将相关事件实例按照事件类型进行缓存；其次，在有序列表上对事件实例执行查询过滤操作，并给出了一种基于递归遍历的算法来确定初始事件实例并且获取候选序列；最后，对候选序列的属性约束进行进一步的校验。基于股票交易模拟数据进行的实验测试和分析的结果表明，与当前主流的匹配方法SASE和Siddhi相比，ReCEP算法能够有效地减少查询匹配的处理时间，总体性能上均更优，查询匹配效率提升了8.64%以上。可见，所提出的复杂事件匹配方法能够有效提高复杂事件匹配的效率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

27. 基于BCU-Tree与字典的高效用挖掘快速脱敏算法

尹春勇, 李荧

《计算机应用》唯一官方网站 2023, 43 (2): 413-422. DOI: 10.11772/j.issn.1001-9081.2021122161

摘要（452）

HTML （11）

PDF （2958KB）（145）

针对隐私保护效用挖掘（PPUM）中脱敏时间长、计算复杂度高，以及算法副作用大等问题，提出一种基于BCU-Tree和字典（BCUTD）的高效用挖掘快速脱敏算法。该算法提出了一种新的树结构BCU-Tree来存储敏感项信息，基于按位运算符编码模型降低树的构建时间并减小搜索空间。采用字典表存储树结构中的所有节点，修改敏感项时只需访问字典表，最终达到数据库脱敏目的。在4个不同的数据集上进行的实验中，BCUTD算法在脱敏时间和副作用上的表现要明显优于经典的优先隐藏高效用项（HHUIF）算法、最大敏感效用-最大项效用（MSU-MAU）算法和使用树与表结构的快速扰动（FPUTT）算法。实验结果表明，BCUTD算法能够有效减少脱敏时间，降低算法副作用以及计算复杂度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

28. 实例簇驱动的图结构聚类参数计算算法

宗传玉, 宪超, 夏秀峰

《计算机应用》唯一官方网站 2023, 43 (2): 398-406. DOI: 10.11772/j.issn.1001-9081.2022010082

摘要（1820）

HTML （19）

PDF （2584KB）（109）

pSCAN算法的聚类结果受密度约束参数和相似度阈值参数的影响，如果用户提供的聚类参数得到的聚类结果无法满足需求，那么用户可以通过实例簇表达自己的聚类需求。针对实例簇表达聚类查询需求的问题，提出一种实例簇驱动的图结构聚类参数计算算法PART及其改进算法ImPART。首先，分析两个聚类参数对聚类结果的影响，并提取实例簇的相关子图；其次，对相关子图进行分析得到密度约束参数的可行区间，并根据当前密度约束参数和节点之间的结构相似度将实例簇内节点划分为核心节点和非核心节点；最后，依据节点划分结果计算出当前密度约束参数对应的最优相似度阈值参数，并在相关子图上对得到的参数进行验证和优化，直到得到满足实例簇需求的聚类参数。在真实数据集上的实验结果表明，所提算法能够为用户实例簇返回一组有效参数，且所提改进算法ImPART的运行时间比PART缩短了20%以上，能够快速有效地为用户返回满足实例簇要求的最优聚类参数。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

29. 分布式环境下大规模移动对象范围查询算法

马永强, 陈晓萌, 于自强

《计算机应用》唯一官方网站 2023, 43 (1): 111-121. DOI: 10.11772/j.issn.1001-9081.2021101853

摘要（384）

HTML （11）

PDF （3320KB）（84）

移动对象的连续范围查询是许多基于位置的服务的核心问题。针对该问题，提出一种面向大规模移动对象并发范围查询的分布式搜索方法。首先，设计了一种由全局网格索引（GGI）和局部弹性四叉树构成的移动对象分布式动态索引（DDI）结构。其次，提出了一种基于DDI结构的分布式查询算法（DSA），该算法首先引入了一种在移动对象和查询点的位置连续变化的情况下的查询结果增量更新策略；然后，在增量更新过程中引入一种面向多并发查询的共享计算优化策略，该策略能够根据已有计算结果对移动对象范围查询结果进行增量搜索。最后，基于德国路网模拟了3个具有不同空间分布的移动对象数据集，将DSA与NS（Naive Search）、GI（Grid Index）和分布式混合索引（DHI）进行对比。实验结果表明，与性能最好的对比算法DHI相比，DSA的初始查询时间减少了22.7%，增量查询时间减少了15.2%，性能优于对比算法。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于Monte-Carlo迭代求解策略的局部社区发现算法

李占利, 李颖, 罗香玉, 罗颖骁

《计算机应用》唯一官方网站 2023, 43 (1): 104-110. DOI: 10.11772/j.issn.1001-9081.2021111942

摘要（381）

HTML （12）

PDF （1690KB）（128）

针对现有的局部社区发现算法因采用贪心策略进行社区扩张而导致的过早收敛和查全率低的问题，提出一种基于Monte-Carlo迭代求解策略的局部社区发现算法。首先，在每轮迭代的社区扩张阶段，根据节点对社区紧密度增益的贡献比例为所有邻接候选节点赋予选择概率，并结合此概率，再随机选择一个节点加入社区。然后，为避免随机选择导致扩张方向偏离目标社区，根据社区质量变化情况判断本轮迭代中是否触发节点淘汰机制。若触发，计算各个已加入社区节点与社区内其他节点的相似度和，根据相似度和的倒数赋予淘汰概率，并结合此概率，再随机淘汰一个节点。最后，在给定数量的最近迭代轮次中，根据社区规模是否增加判断是否继续迭代。在三个真实的网络数据集上进行实验，相较于局部紧密度扩展（LTE）算法、Clauset算法、加权共同邻居节点（CNWNN）算法和模糊相似关系（FSR）算法，所提算法的局部社区发现结果的F-score值分别提升了32.75、17.31、20.66和25.51个百分点，且能够有效避免查询节点在社区中所处位置对局部社区发现结果的影响。

参考文献 | 相关文章 | 多维度评价

虚拟专题文章