数据科学与技术

Select

1. 基于模糊粗糙集的无监督动态特征选择算法

马磊, 罗川, 李天瑞, 陈红梅

《计算机应用》唯一官方网站 2023, 43 (10): 3121-3128. DOI: 10.11772/j.issn.1001-9081.2022101543

摘要（147）

HTML （9）

PDF （511KB）（91）

动态特征选择算法能够大幅提升处理动态数据的效率，然而目前基于模糊粗糙集的无监督的动态特征选择算法较少。针对上述问题，提出一种特征分批次到达情况下的基于模糊粗糙集的无监督动态特征选择（UDFRFS）算法。首先，通过定义伪三角范数和新的相似关系在已有数据的基础上进行模糊关系值的更新过程，从而减少不必要的运算过程；其次，通过利用已有的特征选择结果，在新的特征到达后，使用依赖度判断原始特征部分是否需要重新计算，以减少冗余的特征选择过程，从而进一步提高特征选择的速度。实验结果表明，UDFRFS相较于静态的基于依赖度的无监督模糊粗糙集特征选择算法，在时间效率方面能够提升90个百分点以上，同时保持较好的分类精度和聚类表现。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 融合局部结构学习的大规模子空间聚类算法

任奇泽, 贾洪杰, 陈东宇

《计算机应用》唯一官方网站 2023, 43 (12): 3747-3754. DOI: 10.11772/j.issn.1001-9081.2022111750

摘要（126）

HTML （4）

PDF （768KB）（105）

常规的大规模子空间聚类算法在计算锚点亲和矩阵时忽略了数据之间普遍存在的局部结构，且在计算拉普拉斯（Laplacian）矩阵的近似特征向量时存在较大误差，不利于数据聚类。针对上述问题，提出一种融合局部结构学习的大规模子空间聚类算法（LLSC）。所提算法将局部结构学习嵌入锚点亲和矩阵的学习，从而能够综合利用全局和局部信息挖掘数据的子空间结构；此外，受非负矩阵分解（NMF）的启发，设计一种迭代优化方法以简化锚点亲和矩阵的求解过程；其次，根据Nystr?m近似方法建立锚点亲和矩阵与Laplacian矩阵的数学联系，并改进Laplacian矩阵特征向量的计算方法以提升聚类性能。相较于LMVSC（Large-scale Multi-View Subspace Clustering）、SLSR（Scalable Least Square Regression）、LSC-k（Landmark-based Spectral Clustering using k-means）和k-FSC（k-Factorization Subspace Clustering），LLSC在4个广泛使用的大规模数据集上显示出明显的提升，其中，在Pokerhand数据集上，LLSC的准确率比k-FSC高28.18个百分点，验证了LLSC的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 无人机飞行数据异常检测算法综述

祁超帅, 何文思, 焦毅, 马英红, 蔡伟, 任素萍

《计算机应用》唯一官方网站 2023, 43 (6): 1833-1841. DOI: 10.11772/j.issn.1001-9081.2022060808

摘要（362）

HTML （23）

PDF （3156KB）（417）

针对无人机（UAV）机载健康状态监测领域的UAV飞行数据异常检测问题，首先阐述了UAV飞行数据的特点、常见的飞行数据异常类型及对异常检测算法的要求；然后梳理了UAV飞行数据异常检测算法的研究现状，并归为3大类：基于先验知识的定性异常检测算法、基于模型的定量异常检测算法和基于数据驱动的异常检测算法，同时分析了各类算法的应用场景和优缺点；最后总结了UAV飞行数据异常检测算法目前存在的问题和挑战，展望了未来UAV飞行数据异常检测领域的重点发展方向，为新的研究提供了参考思路。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 基于邻域容差互信息和鲸鱼优化算法的非平衡数据特征选择

孙林, 黄金旭, 徐久成

《计算机应用》唯一官方网站 2023, 43 (6): 1842-1854. DOI: 10.11772/j.issn.1001-9081.2022050691

摘要（190）

HTML （6）

PDF （1713KB）（206）

针对大多数特征选择算法未充分考虑数据的类不均匀分布、特征之间的相关性和不同参数对特征选择结果的影响等问题，提出一种基于邻域容差互信息和鲸鱼优化算法（WOA）的非平衡数据特征选择方法。首先，在不完备邻域决策系统中，针对二分类数据集和多分类数据集，基于上、下边界域定义两种非平衡数据的特征重要度；然后，为充分反映特征的决策能力和特征之间的相关性，构建邻域容差互信息；最后，通过将非平衡数据特征重要度和邻域容差互信息相结合，提出基于邻域容差互信息的非平衡数据特征选择（FSIDN）算法，该算法采用WOA获取特征选择算法中的最优参数，并引入非线性收敛因子和自适应惯性权重来改进WOA，以解决WOA易陷入局部最优的问题。在8个基准函数上进行实验，结果表明改进的WOA具有较好的优化性能；在13个二分类和4个多分类的非平衡数据集上进行特征选择实验，实验结果表明，与其他相关算法相比，所提算法能够有效地选择出具有良好分类性能的特征子集。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 基于犹豫模糊集的凝聚式层次聚类算法

李文全, 毛伊敏, 彭新东

《计算机应用》唯一官方网站 2023, 43 (12): 3755-3763. DOI: 10.11772/j.issn.1001-9081.2023010094

摘要（205）

HTML （5）

PDF （626KB）（84）

针对犹豫模糊聚类分析存在信息失真、属性权重客观性差、时间复杂度高的问题，提出一种基于犹豫模糊集的凝聚式层次聚类算法（AHCHF）。首先，采用犹豫模糊元的平均值扩充犹豫度小的数据对象；其次，利用原始信息熵和内部最大差异计算数据对象扩充前后的权重，并根据两个权重向量之间的最小鉴别信息确定属性的综合权重；最后，以加权距离和更小为目标，给出犹豫度恒定的中心点构造方法。在具体实例和人造数据集上进行的实验结果表明，相较于经典的犹豫模糊层次聚类算法（HFHC）和较新的模糊层次聚类算法（FHCA），AHCHF的轮廓系数（SC）均值分别提高了23.99%和9.28%，运行时间分别平均减少了27.18%和6.40%。以上结果验证了所提算法可以有效解决信息失真、属性权重客观性差的问题，并较好地提升聚类效果和聚类性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 基于相似和差异双视角的高维数据属性约简

李元江, 权金升, 谭阳奕, 杨田

《计算机应用》唯一官方网站 2023, 43 (5): 1467-1472. DOI: 10.11772/j.issn.1001-9081.2022081154

摘要（201）

HTML （4）

PDF （464KB）（75）

针对数据维度过高、冗余信息过多导致维度灾难的问题，提出一种基于异同矩阵的高维属性约简算法（ARSDM）。该算法在区分矩阵的基础上加入对同类样本的相似度衡量，形成对所有样本的综合评估。首先，计算样本在每个属性下的距离，并基于这些距离得到同类相似度和异类差异度；其次，建立异同矩阵，形成对整个数据集的评价；最后，进行属性约简，即将异同矩阵的每一列求和，依次选择值最大的特征进行约简，并将相应样本对的行向量置为零向量。实验结果表明，与经典属性约简算法DMG（Discernibility Matrix based on Graph theory）、FFRS（Fitting Fuzzy Rough Sets）以及GBNRS（Granular Ball Neighborhood Rough Sets）相比，在分类回归树（CART）分类器下，ARSDM的平均分类准确率分别提高了1.07、6.48、8.92个百分点；在支持向量机（SVM）分类器下，ARSDM的平均分类准确率分别提高了1.96、11.96、12.39个百分点；运行效率上ARSDM优于GBNRS和FFRS。可见，ARSDM能够有效去除冗余信息，提高分类准确率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

7. 基于Seeds集和成对约束的半监督三支聚类集成

姜春茂, 吴鹏, 李志聪

《计算机应用》唯一官方网站 2023, 43 (5): 1481-1488. DOI: 10.11772/j.issn.1001-9081.2022071094

摘要（191）

HTML （5）

PDF （1442KB）（76）

聚类集成使用合适的策略融合多个具有差异性的基聚类成员，能够有效提高聚类结果的稳定性、鲁棒性和准确率。当前聚类集成的研究较少利用已知的先验信息，面对复杂数据时难以刻画对象与类簇之间明确的归属关系。因此，提出一种基于Seeds集和成对约束的半监督三支聚类集成方法。首先，基于已有的标签信息提出一种新的三支标签传播算法构造基聚类成员；其次，提出一种半监督三支聚类集成框架集成基聚类成员，构造出一致性相似矩阵，并利用成对约束信息对该矩阵进行优化调整；最后，将三支谱聚类作为一致性函数对相似矩阵进行聚类，得到最终集成结果。在多个UCI真实数据集上的实验结果表明，与基于类簇的相似分区算法（CSPA）、超图分区算法（HGPA）、元类簇算法（MCLA）、标签传播算法（LPA）、Cop-Kmeans等半监督聚类集成算法相比，所提方法的归一化互信息（NMI）、调整兰德系数（ARI）和F测度在绝大多数据集上取得了最优值，获得了相对更好的聚类集成结果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 基于节点多关系的社团挖掘算法及其应用

周琳, 肖玉芝, 刘鹏, 秦有鹏

《计算机应用》唯一官方网站 2023, 43 (5): 1489-1496. DOI: 10.11772/j.issn.1001-9081.2022081218

摘要（289）

HTML （14）

PDF （4478KB）（136）

为度量多关系节点相似性、挖掘具有多关系节点的社团结构，提出基于节点多关系的社团挖掘算法LSL-GN。首先基于节点相似性和节点可达性刻画具有多关系的节点相似性度量指标LHN-ISL；然后利用该指标重构目标网络的低密度模型，并结合GN（Girvan-Newman）算法完成社团划分。将LSL-GN算法与多个经典社团挖掘算法在模块度（Q）、标准化互信息（NMI）和调整兰德指数（ARI）上进行对比，结果显示LSL-GN算法在3个指标上均优于经典算法，说明它的社团划分质量相对较好。将LSL-GN应用于“用户-应用”的移动漫游网络模型中，划分出了以携程旅行、高德地图、滴滴出行等为基础应用的社团结构，而这些社团划分结果可为设计个性化套餐业务提供策略参考信息。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

9. 基于谱聚类的社交网络动态社区发现算法

杨煜, 段威威

《计算机应用》唯一官方网站 2023, 43 (10): 3129-3135. DOI: 10.11772/j.issn.1001-9081.2022101517

摘要（250）

HTML （10）

PDF （2785KB）（149）

动态社区发现研究是社交网络分析（SNA）的重要研究领域。随着节点加入或离开社交网络，节点间的关系也随之建立或消失，进而影响着社区结构的变化。针对社交网络静态社区发现算法缺少必要的社区节点历史信息而导致的网络结构分析、聚类信息不足和计算开销过大的问题，基于社区网络演化事件的划分并根据主要社区事件的分析，提出一种基于谱聚类的动态社区发现算法（SC-DCDA）。首先，根据实验观察使用谱映射的方法将高维数据降维，并采用改进的模糊C-均值聚类（FCM）算法确定动态社交网络中的节点与待发现社区的关联度；其次，根据演化相似度矩阵分析社区结构。通过使用真实网络数据集以及模块度得分、轮廓系数等社区发现算法衡量指标，评估所提算法的效果。实验结果表明，SC-DCDA的计算开销相较于传统谱聚类降低了8.37%，在所有数据集上的平均模块度得分是0.49，其他衡量指标的定性分析结果也较好，验证了所提算法在信息交互、聚类效果和精确度上表现较好。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

10. 基于协同训练与Boosting的协同过滤算法

杨晓菡, 郝国生, 张谢华, 杨子豪

《计算机应用》唯一官方网站 2023, 43 (10): 3136-3141. DOI: 10.11772/j.issn.1001-9081.2022101489

摘要（169）

HTML （11）

PDF （1305KB）（113）

协同过滤（CF）算法基于物品之间或用户之间的相似度能实现个性化推荐，然而CF算法普遍存在数据稀疏性的问题。针对用户?物品评分稀疏问题，为使预测更加准确，提出一种基于协同训练与Boosting的协同过滤算法（CFCTB）。首先，利用协同训练将两种CF集成于一个框架，两种CF互相添加置信度高的伪标记样本到对方的训练集中，并利用Boosting加权训练数据辅助协同训练；其次，采用加权集成预测最终的用户评分，有效避免伪标记样本所产生的噪声累加，进一步提高推荐性能。实验结果表明，在4个公开数据集上，所提算法的准确率优于单模型；在稀疏度最高的CiaoDVD数据集上，与面向推荐系统的全局和局部核（GLocal-K）相比，所提算法的平均绝对误差（MAE）降低了4.737%；与ECoRec（Ensemble of Co-trained Recommenders）算法相比，所提算法的均方根误差（RMSE）降低了7.421%。以上结果验证了所提算法的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

11. 基于动态加权张量距离的多聚类算法

薛状状, 李鹏, 樊卫北, 张宏俊, 孟凡朔

《计算机应用》唯一官方网站 2023, 43 (11): 3449-3456. DOI: 10.11772/j.issn.1001-9081.2022101626

摘要（168）

HTML （1）

PDF （2437KB）（99）

基于张量的多聚类算法（TMC）在衡量属性重要性时忽略了对象张量内部属性组合的关联性，而且在不同的特征空间选择下，固定权重策略导致所选与未选择特征空间没有完全分离。针对上述问题，提出一种基于动态加权张量距离（DWTD）的多聚类算法（DWTD-MC）。首先，为提升各特征空间属性重要性衡量的准确性，建立了自-关联张量模型；其次，构建多视图权重张量模型，在不同特征空间选择下通过动态加权策略满足多聚类分析的需求；最后，使用DWTD衡量数据点的相似性，生成最终的多聚类结果。在真实数据集上的仿真实验结果表明，DWTD-MC在杰卡德指数（JI）、邓恩指数（DI）、DB指数（DB）和轮廓系数（SC）评价指标上均优于TMC等对比算法，而且可以在获得较高质量的聚类结果的同时，使各聚类结果之间保持较低的冗余度，满足多聚类分析的任务需求。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

12. 图结构表示下的药物数据增强方法

蔡引江, 许光俊, 马喜波

《计算机应用》唯一官方网站 2023, 43 (4): 1136-1141. DOI: 10.11772/j.issn.1001-9081.2022040489

摘要（273）

HTML （6）

PDF （1966KB）（87）

小样本数据会导致机器学习模型出现过拟合问题，而药物研发中的数据往往都具有小样本特性，这极大地限制了机器学习技术在该领域的应用。针对上述问题，提出了图结构下的药物数据增强方法。所提方法通过对样本微扰生成新的相似样本，以扩充数据集。所提方法包含4个子方法，分别是：基于分子骨干的节点丢弃法、基于分子骨干的边丢弃法、多样本拼接法以及混合策略法。其中，基于分子骨干的节点丢弃和边丢弃法通过少量删减药物分子的组成与结构完成对药物分子的微扰；多样本拼接法则使用一种增添性操作，通过组合不同分子完成微扰；混合策略法按一定比例配比删减性和增添性操作提升数据增强结果的多样性。在公开数据集BACE、BBBP、ToxCast和ClinTox上，所提方法为药物属性预测基线模型MG-BERT（Molecular Graph Bidirectional Encoder Representations from Transformer）的受试者工作特征曲线下面积（AUC）带来了1.94%~12.49%的提升。实验结果验证了所提方法在小样本药物数据增强上的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

13. 结合异构关系增强图神经网络的社交推荐

王永贵, 时启文

《计算机应用》唯一官方网站 2023, 43 (11): 3464-3471. DOI: 10.11772/j.issn.1001-9081.2022111774

摘要（133）

HTML （2）

PDF （1897KB）（81）

社交推荐旨在利用用户的社会属性推荐潜在的感兴趣项目，有效缓解了数据稀疏性和冷启动问题。然而现有的社交推荐算法主要面向单一社交关系进行研究，社会属性难以充分参与计算，存在未能合理利用社会异构关系和节点特征表示质量不高的问题，为此提出一种结合异构关系增强图神经网络的社交推荐模型（HR-GNN）。HR?GNN利用图卷积网络（GCN）聚合用户和项目节点信息，生成查询嵌入以查询节点信息；通过将抽样概率与邻居节点之间的一致性分数相结合的邻居抽样策略挖掘社会异构关系；用自注意力机制聚合节点信息以提高用户和项目特征表示的质量。在两个真实数据集上进行的实验结果表明，所提算法在平均绝对误差（MAE）和均方根误差（RMSE）两个指标上相较于基准算法均有明显改进，在Ciao数据集上它们分别至少降低了1.80%和1.35%，在Epinions数据集上则分别至少降低了2.80%和3.18%，验证了HR-GNN的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

14. 基于社区改变量估计的非均匀时间片划分方法

罗香玉, 闫克, 卢琰, 王甜, 辛刚

《计算机应用》唯一官方网站 2023, 43 (11): 3457-3463. DOI: 10.11772/j.issn.1001-9081.2022111736

摘要（131）

HTML （2）

PDF （1001KB）（67）

动态网络时间片划分方法对社区演化分析结果的准确性具有重要影响，但社区随时间及网络拓扑改变呈现非线性的变化，现有均匀时间片划分以及基于网络拓扑改变量的非均匀时间片划分方法在捕捉社区演化事件方面均效果不佳。为此，提出一种基于社区改变量估计的非均匀时间片划分方法，其中社区改变量通过变化后网络期望达到的社区模块度与直接应用网络变化前的社区发现结果获得的社区模块度之差来定量描述。首先，基于时间序列分析建立社区模块度预测模型；其次，使用该模型预测变化后网络期望达到的社区模块度，并求得社区改变量的估计值；最后，当该估计值超过预先设置的阈值时即生成一个新的时间片。在两个真实网络数据集上的实验结果显示，相较于传统的均匀时间片划分方法和基于网络拓扑改变量的非均匀时间片划分方法，所提方法在动态网络数据集Arxiv HEP-PH上的识别社区消失事件方面分别提早1.10 d和1.30 d，识别社区形成事件方面分别提早8.34 d和3.34 d，识别出的社区缩小、扩大事件总数分别增加10个和1个；在Sx-MathOverflow数据集上的识别社区消失事件方面分别提早3.30 d和1.80 d，识别社区形成事件方面分别提早6.41 d和2.97 d，识别出的社区缩小、扩大事件总数分别增加15个和7个。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

15. 基于马尔可夫优化的高效用项集挖掘算法

钟新成, 刘昶, 赵秀梅

《计算机应用》唯一官方网站 2023, 43 (12): 3764-3771. DOI: 10.11772/j.issn.1001-9081.2022121844

摘要（192）

HTML （3）

PDF （1476KB）（95）

基于树型和链表结构的高效用项集挖掘（HUIM）算法通常需要指数量级的搜索空间，而基于进化类型的挖掘算法未能充分考虑变量间的相互作用，因此提出一种基于马尔可夫优化的HUIM算法（HUIM-MOA）。首先，采用位图矩阵表示数据库和使用期望向量编码，以实现对数据库的快速扫描和效用值的高效计算；其次，通过计算优势个体间的互信息估计马尔可夫网络（MN）结构，并根据它们的局部特性使用吉布斯采样以产生新的种群；最后，为防止算法过快陷入局部最优和减少高效用项集的缺失，分别采用种群多样性保持策略和精英策略。在真实数据集上的实验结果表明，相较于次优的基于粒子群优化（PSO）的生物启发式HUI框架（Bio-HUIF-PSO）算法，在给定较大最小阈值的情况下，HUIM-MOA可以找到全部的高效用项集（HUI），收敛速度平均提升12.5%，挖掘HUI数平均提高2.85个百分点，运行时间平均减少14.6%。HUIM-MOA较进化型HUIM算法有更强的搜索性能，能有效减少搜索时间和提高搜索质量。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

16. 基于潜在因子模型在子空间上的缺失值注意力聚类算法

王啸飞, 鲍胜利, 陈炯环

《计算机应用》唯一官方网站 2023, 43 (12): 3772-3778. DOI: 10.11772/j.issn.1001-9081.2022121838

摘要（163）

HTML （0）

PDF （1364KB）（60）

针对传统聚类算法在对缺失样本进行数据填充过程中存在样本相似度难度量且填充数据质量差的问题，提出一种基于潜在因子模型（LFM）在子空间上的缺失值注意力聚类算法。首先，通过LFM将原始数据空间映射到低维子空间，降低样本的稀疏程度；其次，通过分解原空间得到的特征矩阵构建不同特征间的注意力权重图，优化子空间样本间的相似度计算方式，使样本相似度的计算更准确、泛化性更好；最后，为了降低样本相似度计算过程中过高的时间复杂度，设计一种多指针的注意力权重图进行优化。在4个按比例随机缺失的数据集上进行实验。在Hand-digits数据集上，相较于面向高维特征缺失数据的K近邻插补子空间聚类（KISC）算法，在数据缺失比例为10%的情况下，所提算法的聚类准确度（ACC）提高了2.33个百分点，归一化互信息（NMI）提高了2.77个百分点，在数据缺失比例为20%的情况下，所提算法的ACC提高了0.39个百分点，NMI提高了1.33个百分点，验证了所提算法的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

17. 对比保序模式挖掘算法

孟玉飞, 武优西, 王珍, 李艳

《计算机应用》唯一官方网站 2023, 43 (12): 3740-3746. DOI: 10.11772/j.issn.1001-9081.2022121828

摘要（184）

HTML （2）

PDF （909KB）（100）

针对现有的对比序列模式挖掘方法主要针对字符序列数据集且难以应用于时间序列数据集的问题，提出一种对比保序模式挖掘（COPM）算法。首先，在候选模式生成阶段，采用模式融合策略减少候选模式数；其次在模式支持度计算阶段，利用子模式的匹配结果计算超模式的支持度；最后，设计了动态最小支持度阈值的剪枝策略，以进一步有效地剪枝候选模式。实验结果表明，在6个真实的时间序列数据集上，在内存消耗方面，COPM算法至少比COPM-o（COPM-original）算法降低52.1%，比COPM-e（COPM-enumeration）算法低36.8%，比COPM-p（COPM-prune）算法降低63.6%；同时在运行时间方面，COPM算法至少比COPM-o算法降低30.3%，比COPM-e算法降低8.8%，比COPM-p算法降低41.2%。因此，在算法性能方面，COPM算法优于COPM-o、COPM-e和COPM-p算法。实验结果验证了COPM算法可以有效挖掘对比保序模式，发现不同类别的时间序列数据集间的差异。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

18. 基于Fisher score与模糊邻域熵的多标记特征选择算法

孙林, 马天娇, 薛占熬

《计算机应用》唯一官方网站 2023, 43 (12): 3779-3789. DOI: 10.11772/j.issn.1001-9081.2022121841

摘要（169）

HTML （2）

PDF （1222KB）（91）

针对Fisher score未充分考虑特征与标记以及标记之间的相关性，以及一些邻域粗糙集模型容易忽略边界域中知识粒的不确定性，导致算法分类性能偏低等问题，提出一种基于Fisher score与模糊邻域熵的多标记特征选择算法（MLFSF）。首先，利用最大信息系数（MIC）衡量特征与标记之间的关联程度，构建特征与标记关系矩阵；基于修正余弦相似度定义标记关系矩阵，分析标记之间的相关性。其次，给出一种二阶策略获得多个二阶标记关系组，以此重新划分多标记论域；通过增强标记之间的强相关性和削弱标记之间的弱相关性得到每个特征的得分，进而改进Fisher score模型，对多标记数据进行预处理。再次，引入多标记分类间隔，定义自适应邻域半径和邻域类并构造了上、下近似集；在此基础上提出了多标记粗糙隶属度函数，将多标记邻域粗糙集映射到模糊集，基于多标记模糊邻域给出了上、下近似集以及多标记模糊邻域粗糙集模型，由此定义模糊邻域熵和多标记模糊邻域熵，有效度量边界域的不确定性。最后，设计基于二阶标记相关性的多标记Fisher score特征选择算法（MFSLC），从而构建MLFSF。在多标记K近邻（MLKNN）分类器下11个多标记数据集上的实验结果表明，相较于ReliefF多标记特征选择（MFSR）等6种先进算法，MLFSF的平均分类精度（AP）的均值提高了2.47~6.66个百分点；同时，在多数数据集上，MLFSF在5个评价指标上均能取得最优值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

19. 基于地理偏好排序的兴趣点混合推荐模型

彭诗杰, 陈红梅, 王丽珍, 肖清

《计算机应用》唯一官方网站 2023, 43 (8): 2448-2455. DOI: 10.11772/j.issn.1001-9081.2022071029

摘要（218）

HTML （11）

PDF （1284KB）（122）

随着基于位置的社交网络（LBSN）迅速发展，作为缓解信息过载的有效手段，兴趣点（POI）推荐备受关注。由于用户签到数据是隐式反馈数据，且十分稀疏，为了有效地从用户签到数据中捕获用户POI偏好，提出了一个基于地理偏好排序的POI混合推荐模型。首先，考虑用户签到数据的隐式反馈特性及用户活动的空间约束，利用传统贝叶斯个性化排序（BPR）模型计算POI距离对POI排序的影响，提出加权BPR（GWBPR）模型；然后，针对用户签到数据的稀疏性，融合GWBPR模型和逻辑矩阵分解（LMF）模型，提出混合模型GWBPR-LMF。在两个真实数据集Foursquare和Gowalla上的实验结果表明，GWBPR-LMF模型的性能优于BPR、LMF、SAE-NAD（Self-Attentive Encoder and Neighbor-Aware Decoder）等对比模型。与较优的对比模型SAE-NAD相比，GWBPR-LMF模型的POI推荐的精确率、召回率、F1值、平均精度均值（mAP）、归一化折损累积增益（NDCG）在数据集Foursquare上分别平均提升了44.9%、57.1%、78.4%、55.3%和40.0%，在数据集Gowalla上分别平均提升了3.0%、6.4%、4.6%、11.7%和4.2%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

20. 融合空间和文本信息的兴趣点类别表征模型

徐则林, 杨敏, 陈勐

《计算机应用》唯一官方网站 2023, 43 (8): 2456-2461. DOI: 10.11772/j.issn.1001-9081.2022071037

摘要（231）

HTML （11）

PDF （2357KB）（84）

准确表征兴趣点（POI）类别（如大学、餐厅等）是理解城市空间、辅助城市计算的关键。现有的POI类别表征模型通常只挖掘用户在POI之间的移动行为并学习序列特征，而忽视了POI数据的空间特征和文本语义特征。为了解决上述问题，提出一种融合空间和文本信息的POI类别表征学习模型Cat2Vec。首先，利用POI的空间共现关系构建POI类别共现点互信息（PMI）矩阵；然后，基于预训练的文本表征模型学习POI的文本语义特征；最后，引入新的映射矩阵，并基于矩阵分解技术将PMI矩阵分解为POI类别表征矩阵、文本语义特征矩阵以及映射矩阵的内积。在两个真实世界的数据集Yelp和高德上进行的POI语义重叠度评测中，相较于基准模型中表现最好的Doc2Vec模型，所提模型的性能分别平均提高了5.53%和8.17%。实验结果表明所提模型能更有效地嵌入POI语义。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

21. 轻量级缓存策略的关系型数据库全文搜索加强与扩展

杨婷, 莫若玉, 张秀娟, 朱洲森

《计算机应用》唯一官方网站 2023, 43 (8): 2431-2438. DOI: 10.11772/j.issn.1001-9081.2022071108

摘要（220）

HTML （12）

PDF （1891KB）（141）

针对关系型数据库（RDB）现有的全文搜索方案存在的效率低下、资源占用高的问题，提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先，该模型构建基于Redis的倒排索引，并利用缓存索引缩小搜索范围，从而用内存高效的数据处理能力解决关系型数据库I/O瓶颈，并提升系统整体性能；其次，为保证搜索结果的准确性和时效性，进一步提出索引同步策略，而且设计并实现了增量索引组件来隐藏索引处理细节，从而提高模型的易用性和通用性；最后，对于热点数据提供一种基于访问热度的索引更新机制，以降低倒排索引的内存占用。实验结果表明，所提模型在保证关系型数据库全文搜索响应速度和准确度的前提下，空间资源消耗比MySQL全文索引降低了48.8%~60.9%，比Elasticsearch降低了85.2%~96.2%，证明所提模型在实际应用中可行且有效。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

22. 基于消极相似性的自适应社会化推荐

周寅莹, 周允升, 余敦辉, 孙军

《计算机应用》唯一官方网站 2023, 43 (8): 2439-2447. DOI: 10.11772/j.issn.1001-9081.2022071003

摘要（297）

HTML （6）

PDF （3245KB）（140）

社会化推荐旨在融合社会关系改善传统推荐算法的推荐效果。当前基于网络嵌入（NE）的社会化推荐算法面临两个问题：一是在构建网络时未考虑对象间的不一致性，并且倾向于利用获取难度大、约束条件多的积极对象来约束算法；二是这些算法未能依据评分数量消除算法训练中的过拟合。因此，提出一种基于消极相似性的自适应社会化推荐（ASRNS）算法。首先通过一致性分析构建具有正向相关性的同构网络；接着联合加权随机游走与Skip-Gram算法得到嵌入向量；然后计算相似度，并从消极相似性的角度来约束矩阵分解（MF）算法；最后基于自适应机制将评分数量映射到理想评分数量区间，并对算法偏置项施加不同的惩罚。在FilmTrust和CiaoDVD数据集上实验结果表明，与协同用户网络嵌入（CUNE）算法、一致性邻居聚合的推荐（ConsisRec）算法等算法相比，ASRNS的均方根误差（RMSE）分别至少降低了2.60%和5.53%，平均绝对误差（MAE）分别至少降低了1.47%和2.46%。可见，ASRNS不仅可以有效降低评分预测误差，还能显著改善算法训练过程中的过拟合问题，对不同评分数量的对象都具有较好的健壮性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

23. 基于可审计多副本的云存储差错副本恢复机制

谢振杰, 付伟

《计算机应用》唯一官方网站 2023, 43 (4): 1102-1108. DOI: 10.11772/j.issn.1001-9081.2022030477

摘要（196）

HTML （6）

PDF （1642KB）（61）

针对具备可审计特性的多副本云存储系统的差错副本恢复问题，在多副本云存储完整性审计方案的基础上，从总体流程、影响因素、恢复策略、故障定位和计算模型5个方面阐述差错副本恢复机制，将差错副本恢复策略归纳为全副本下载上传、全副本差值上传、故障块上传和故障段上传4种，并对影响恢复效率的因素进行了量化，提出通信开销、计算开销和总开销的计算模型。针对一个具体的多副本云存储完整性审计方案，对不同策略和参数下纠正一个数据块随机差错的开销进行量化分析。实验结果表明，当带宽分别为1 Mb/s、10 Mb/s、100 Mb/s和1 Gb/s时，实验中最优策略的耗时分别只有全副本差值上传策略的0.34%、2.44%、15.27%和46.93%。可见所提模型可用于为可审计多副本云存储系统选择合适的策略与参数，以提高差错副本恢复效率，尤其适用于网络带宽受限的情况。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

24. 基于时间序列分解的交通流量预测模型

夏进, 王正群, 朱世明

《计算机应用》唯一官方网站 2023, 43 (4): 1129-1135. DOI: 10.11772/j.issn.1001-9081.2022030473

摘要（543）

HTML （21）

PDF （2485KB）（266）

短时交通流预测不仅与历史数据相关，而且也受相邻区域交通情况影响。针对传统时间序列分解（TSD）模型忽略交通流的趋势性和空间相关性的问题，提出了基于时间序列分解与时空特征（TSD-ST）结合的时间序列处理模型。首先，利用经验模态分解（EMD）和离散傅里叶变换（DFT）得到趋势分量和周期分量，利用互信息（MI）算法挖掘波动分量的时空（ST）相关性，并以此为根据重构状态向量；随后，通过长短期记忆（LSTM）网络利用状态向量对波动分量进行预测；最后，将序列的3部分的预测结果重构，得到最终预测值。利用美国华盛顿州I090号州际公路的真实数据验证模型的有效性。实验结果表明，与支持向量回归（SVR）、梯度提升回归树（GBRT）、LSTM相比，所提模型的均方根误差（RMSE）分别降低了16.5%、34.0%和36.6%。由此可见，所提模型在提升预测精度方面十分有效。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

25. 基于自适应群组重排的长尾推荐模型

金苍宏, 邵育华, 何琴芳

《计算机应用》唯一官方网站 2023, 43 (4): 1122-1128. DOI: 10.11772/j.issn.1001-9081.2022030455

摘要（327）

HTML （10）

PDF （1249KB）（101）

针对传统推荐算法过度关注推荐的精度而导致的长尾问题，即热门项目拥有过高的推荐量的同时非热门项目长时间不被关注，提出一种基于欧氏距离构建二维加权相似度并融入自适应群组重排的多目标优化推荐模型（MDOM）——自适应群组重排的推荐模型（AGRM）。首先，利用欧氏距离构建二维加权相似度度量，根据个体历史行为记录动态设定替换比例，并利用融入群组的多目标优化算法解决长尾推荐问题；其次，设计两个简明的目标函数，并同时考虑流行度和长尾关注度，以降低目标函数的复杂性；然后，基于二维加权相似度度量，选择用户子集作为“最佳推荐用户组”，并计算帕累托最优解。在MovieLens 1M和Yahoo数据集上的实验结果表明，AGRM的覆盖率表现最优，与基于物品相似的协同过滤（ItemCF）算法相比，分别平均提升了4.11、25.38个百分点；与用于Top-N推荐的具有浅并行路径的深度变分自动编码器（VASP）模型相比，分别平均提升了8.38、33.19个百分点。在Yahoo数据集上，AGRM的推荐的平均流行度最低，表明AGRM能够推荐更多长尾项目。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

26. 基于生成对抗网络的数据不确定性量化方法

王昊, 王子成, 张超, 马韵升

《计算机应用》唯一官方网站 2023, 43 (4): 1094-1101. DOI: 10.11772/j.issn.1001-9081.2022030383

摘要（258）

HTML （10）

PDF （2018KB）（111）

针对直接使用高维、高频、含有噪声的现实世界数据进行数据处理时会导致估计器不可靠的问题，提出一种基于生成对抗网络（GAN）的数据不确定性量化方法。首先，通过GAN重构原始数据分布，构建噪声空间到原始数据空间的映射分布；其次，使用马尔可夫链蒙特卡洛（MCMC）方法抽取样本，从而得到基于原始数据分布的新样本；然后，基于指定的函数定义样本的不确定性置信区间；最后，使用置信区间对原始数据进行不确定性估计，并选择置信区间内的数据作为估计器使用的数据。实验结果表明，与使用原始数据相比，使用置信区间内的数据进行估计器训练达到性能上限所需要的样本数减少了50%；同时，对比原始训练数据，置信区间内的数据在达到相同测试精度时所需要的样本数平均降低了30%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

27. 形式背景的内积约简

王清, 高秀巍, 谢业海, 刘贵龙

《计算机应用》唯一官方网站 2023, 43 (4): 1079-1085. DOI: 10.11772/j.issn.1001-9081.2022030328

摘要（150）

HTML （7）

PDF （1082KB）（52）

形式概念分析是知识表示与挖掘的重要工具，而形式背景是形式概念分析中的基本概念之一。针对形式背景中对象集在给定属性集内是否拥有相同属性的问题，同时也为解决如何在计算中消除无关属性的问题，提出了新的属性约简类型，即内积约简。首先在形式背景中给出了内积概念；然后利用关系系统的约简理论和方法定义内积约简，并提出了基于差别矩阵的内积约简算法，以得到形式背景下的全部约简，在此基础上，通过交运算可以得到约简核；当属性增加时，设计了增量内积约简算法。最后结合传染病网络探索内积约简的应用，在模拟案例中属性数量从6个约简到2个。模拟结果表明，内积约简具有可行性和可解释性，达到了知识约简目的。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

28. 基于改进的局部结构熵复杂网络重要节点挖掘

李鹏, 王世林, 陈光武, 闫光辉

《计算机应用》唯一官方网站 2023, 43 (4): 1109-1114. DOI: 10.11772/j.issn.1001-9081.2022040562

摘要（525）

HTML （27）

PDF （1367KB）（250）

识别复杂网络中的关键节点对优化网络结构以及信息的有效传播起着至关重要的作用。局部结构熵（LE）利用局部网络对整个网络的影响代替节点对整个网络的影响以识别重要节点，然而LE未考虑高聚集性网络和节点与邻居节点形成环的情况，存在一定的局限性。针对以上不足，首先，提出了改进LE的节点重要性评价方法PLE（Penalized Local structural Entropy），即在LE的基础上引入集聚系数（CC）作为惩罚项，从而适当惩罚网络中的高聚集性节点；其次，由于PLE的惩罚项对三元闭包结构上的节点惩罚力度过大，又提出了PLE的改进方法PLEA（Penalized Local structural Entropy Advancement），即在惩罚项前引入一个控制系数，以控制惩罚力度。对5个不同规模的真实网络进行选择性攻击实验，实验结果表明，在美国西部各州电网和美国航空网两个网络中，与LE方法相比，PLEA的识别准确率分别提升了26.3%和3.2%；与K-Shell（KS）方法相比，PLEA的识别准确率分别提升了380%和5.43%；与DCL（Degree and Clustering coefficient and Location）方法相比，PLEA的识别准确率分别提升了14.4%和24%。同时，PLEA识别的重要节点对网络造成的破坏更大，验证了引入CC作为惩罚项的合理性，以及PLEA的有效性和优越性。PLEA综合考虑了节点的邻居个数和节点的局部网络结构，计算简单，对于刻画大规模网络的可靠性与抗毁性具有十分重要的意义。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

29. 噪声鲁棒的动态时间规整算法

邱莲鹏, 宋承云

《计算机应用》唯一官方网站 2023, 43 (6): 1855-1860. DOI: 10.11772/j.issn.1001-9081.2022060885

摘要（232）

HTML （9）

PDF （3337KB）（77）

动态时间规整（DTW）算法通过寻找两个时间序列的最佳匹配衡量序列之间的相似性。针对序列中存在的噪声容易导致时间序列匹配时局部出现过度拉伸和压缩问题，提出了一种噪声鲁棒的动态时间规整（NoiseDTW）算法。首先，在原始的信号中引入额外噪声，解决序列对齐中存在的一个点对齐多个点的问题；然后，通过在两个时间序列之间多条可能的匹配路径中找到一条最优的匹配路径，减少噪声的随机性对时间序列相似性度量的影响；最后，将匹配路径映射到原始序列上。实验结果表明，相较于欧氏距离（ED）、DTW、Sakoe-Chiba窗口动态时间规整（Sakoe-Chiba DTW）和加权动态时间规整（WDTW）算法，所提算法结合K-近邻（KNN）分类器得到的分类准确率在8个时间序列数据集上分别比次优算法提高了1~15个百分点。可见所提算法具有较好的分类性能，且对噪声具有鲁棒性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

30. 基于motif连通性的社区搜索方法

杜明, 顾万里, 周军锋, 王志军

《计算机应用》唯一官方网站 2023, 43 (7): 2190-2199. DOI: 10.11772/j.issn.1001-9081.2022060941

摘要（155）

HTML （4）

PDF （2711KB）（65）

社区搜索的目标是从数据图中得到包含查询顶点的紧密子图，在社会学、生物学等领域有着广泛应用。针对现有基于子图连通性的社区模型的基础连通结构都是完全连通图，无法满足实际应用中用户对社区结构多样性的需求的问题，提出一种基于motif连通性的社区搜索方法，其中包括基于motif连通性的社区（MCC）模型以及两个相应的社区搜索算法——MPCS （Motif-Processed Community Search）算法和基于MP-index的社区搜索算法。MCC模型可以协助用户自由指定社区的基础连通结构，MPCS算法可以用来解决MCC的搜索问题。此外，提出两个分别针对motif实例搜索过程及所属社区判断过程的剪枝优化技术。最后，设计了MP-index以避免社区搜索过程中的冗余遍历操作。在多个真实数据集上进行实验的结果表明：剪枝优化可以使MPCS算法的耗时减少60%~85%，而基于MP-index的社区搜索算法相较于加入剪枝优化的MPCS算法，效率提升普遍达到了2~3个数量级。可见，所提方法在商品推荐和社交网络等问题上有着实际应用价值。

图表 | 参考文献 | 相关文章 | 多维度评价

虚拟专题文章