栏目文章

Select

1. 无人机飞行数据异常检测算法综述

祁超帅, 何文思, 焦毅, 马英红, 蔡伟, 任素萍

《计算机应用》唯一官方网站 2023, 43 (6): 1833-1841. DOI: 10.11772/j.issn.1001-9081.2022060808

摘要（358）

HTML （23）

PDF （3156KB）（410）

针对无人机（UAV）机载健康状态监测领域的UAV飞行数据异常检测问题，首先阐述了UAV飞行数据的特点、常见的飞行数据异常类型及对异常检测算法的要求；然后梳理了UAV飞行数据异常检测算法的研究现状，并归为3大类：基于先验知识的定性异常检测算法、基于模型的定量异常检测算法和基于数据驱动的异常检测算法，同时分析了各类算法的应用场景和优缺点；最后总结了UAV飞行数据异常检测算法目前存在的问题和挑战，展望了未来UAV飞行数据异常检测领域的重点发展方向，为新的研究提供了参考思路。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于消极相似性的自适应社会化推荐

周寅莹, 周允升, 余敦辉, 孙军

《计算机应用》唯一官方网站 2023, 43 (8): 2439-2447. DOI: 10.11772/j.issn.1001-9081.2022071003

摘要（293）

HTML （6）

PDF （3245KB）（136）

社会化推荐旨在融合社会关系改善传统推荐算法的推荐效果。当前基于网络嵌入（NE）的社会化推荐算法面临两个问题：一是在构建网络时未考虑对象间的不一致性，并且倾向于利用获取难度大、约束条件多的积极对象来约束算法；二是这些算法未能依据评分数量消除算法训练中的过拟合。因此，提出一种基于消极相似性的自适应社会化推荐（ASRNS）算法。首先通过一致性分析构建具有正向相关性的同构网络；接着联合加权随机游走与Skip-Gram算法得到嵌入向量；然后计算相似度，并从消极相似性的角度来约束矩阵分解（MF）算法；最后基于自适应机制将评分数量映射到理想评分数量区间，并对算法偏置项施加不同的惩罚。在FilmTrust和CiaoDVD数据集上实验结果表明，与协同用户网络嵌入（CUNE）算法、一致性邻居聚合的推荐（ConsisRec）算法等算法相比，ASRNS的均方根误差（RMSE）分别至少降低了2.60%和5.53%，平均绝对误差（MAE）分别至少降低了1.47%和2.46%。可见，ASRNS不仅可以有效降低评分预测误差，还能显著改善算法训练过程中的过拟合问题，对不同评分数量的对象都具有较好的健壮性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于节点多关系的社团挖掘算法及其应用

周琳, 肖玉芝, 刘鹏, 秦有鹏

《计算机应用》唯一官方网站 2023, 43 (5): 1489-1496. DOI: 10.11772/j.issn.1001-9081.2022081218

摘要（287）

HTML （14）

PDF （4478KB）（133）

为度量多关系节点相似性、挖掘具有多关系节点的社团结构，提出基于节点多关系的社团挖掘算法LSL-GN。首先基于节点相似性和节点可达性刻画具有多关系的节点相似性度量指标LHN-ISL；然后利用该指标重构目标网络的低密度模型，并结合GN（Girvan-Newman）算法完成社团划分。将LSL-GN算法与多个经典社团挖掘算法在模块度（Q）、标准化互信息（NMI）和调整兰德指数（ARI）上进行对比，结果显示LSL-GN算法在3个指标上均优于经典算法，说明它的社团划分质量相对较好。将LSL-GN应用于“用户-应用”的移动漫游网络模型中，划分出了以携程旅行、高德地图、滴滴出行等为基础应用的社团结构，而这些社团划分结果可为设计个性化套餐业务提供策略参考信息。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 基于谱聚类的社交网络动态社区发现算法

杨煜, 段威威

《计算机应用》唯一官方网站 2023, 43 (10): 3129-3135. DOI: 10.11772/j.issn.1001-9081.2022101517

摘要（245）

HTML （10）

PDF （2785KB）（143）

动态社区发现研究是社交网络分析（SNA）的重要研究领域。随着节点加入或离开社交网络，节点间的关系也随之建立或消失，进而影响着社区结构的变化。针对社交网络静态社区发现算法缺少必要的社区节点历史信息而导致的网络结构分析、聚类信息不足和计算开销过大的问题，基于社区网络演化事件的划分并根据主要社区事件的分析，提出一种基于谱聚类的动态社区发现算法（SC-DCDA）。首先，根据实验观察使用谱映射的方法将高维数据降维，并采用改进的模糊C-均值聚类（FCM）算法确定动态社交网络中的节点与待发现社区的关联度；其次，根据演化相似度矩阵分析社区结构。通过使用真实网络数据集以及模块度得分、轮廓系数等社区发现算法衡量指标，评估所提算法的效果。实验结果表明，SC-DCDA的计算开销相较于传统谱聚类降低了8.37%，在所有数据集上的平均模块度得分是0.49，其他衡量指标的定性分析结果也较好，验证了所提算法在信息交互、聚类效果和精确度上表现较好。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 基于长度约束的蝙蝠高效用项集挖掘算法

袁泉, 唐成亮, 徐雲鹏

《计算机应用》唯一官方网站 2023, 43 (5): 1473-1480. DOI: 10.11772/j.issn.1001-9081.2022040622

摘要（237）

HTML （3）

PDF （1493KB）（107）

为了挖掘满足用户特殊需求，如含指定项目数量的高效用项集（HUI），提出一种基于长度约束的蝙蝠高效用项集挖掘算法（HUIM-LC-BA）。该算法融合蝙蝠算法（BA）和长度约束构建高效用项集挖掘（HUIM）模型，首先将数据库转换为位图矩阵，实现高效的效用计算和数据库扫描；其次，采用重新定义的事务加权效用（RTWU）策略缩减搜索空间；最后，对项集进行长度修剪，使用深度优先搜索和轮盘赌注选择法确定修剪项目。在4个数据集的仿真实验中，当最大长度为6时，与HUIM-BA相比，HUIM-LC-BA挖掘的模式数量分别减少了91%、98%、99%与97%，同时运行时间也少于HUIM-BA；且在不同长度约束条件下，与FHM+ （Faster High-utility itemset Ming plus）算法相比运行时间更稳定。实验结果表明，HUIM-LC-BA能有效挖掘具有长度约束的HUI，并减少挖掘模式的数量。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 融合空间和文本信息的兴趣点类别表征模型

徐则林, 杨敏, 陈勐

《计算机应用》唯一官方网站 2023, 43 (8): 2456-2461. DOI: 10.11772/j.issn.1001-9081.2022071037

摘要（228）

HTML （10）

PDF （2357KB）（84）

准确表征兴趣点（POI）类别（如大学、餐厅等）是理解城市空间、辅助城市计算的关键。现有的POI类别表征模型通常只挖掘用户在POI之间的移动行为并学习序列特征，而忽视了POI数据的空间特征和文本语义特征。为了解决上述问题，提出一种融合空间和文本信息的POI类别表征学习模型Cat2Vec。首先，利用POI的空间共现关系构建POI类别共现点互信息（PMI）矩阵；然后，基于预训练的文本表征模型学习POI的文本语义特征；最后，引入新的映射矩阵，并基于矩阵分解技术将PMI矩阵分解为POI类别表征矩阵、文本语义特征矩阵以及映射矩阵的内积。在两个真实世界的数据集Yelp和高德上进行的POI语义重叠度评测中，相较于基准模型中表现最好的Doc2Vec模型，所提模型的性能分别平均提高了5.53%和8.17%。实验结果表明所提模型能更有效地嵌入POI语义。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

7. 动态异构信息融合的科研合作潜力预测

马国帅, 钱宇华, 张亚宇, 李俊霞, 刘郭庆

《计算机应用》唯一官方网站 2023, 43 (9): 2775-2783. DOI: 10.11772/j.issn.1001-9081.2022081266

摘要（223）

HTML （15）

PDF （1968KB）（65）

现有的科研合作潜力预测方法使用特征工程来人工提取科研合作网络中作者的浅层静态属性，忽略了科研合作网络中异构实体间的关联关系。针对以上不足，提出融合科研合作网络中的多种实体潜在属性信息的动态合作潜力预测（CPP）模型，在提取异构实体的属性的同时考虑了学者与学者之间合作关系的结构特征，并且通过协同优化的方式优化模型，实现了在为学者进行科研合作者推荐的同时预测科研合作潜力的目标。为验证所提模型的有效性，搜集整理了发表在中国计算机学会（CCF）推荐期刊中的50余万篇论文信息以及相关实体的完整属性信息，并采用滑窗法构建了不同时间段的时序合作异构网络，以提取科研合作网络演化过程中的各实体的动态属性信息。此外，为提高所提模型的泛化性以及实用性，随机输入不同时段的数据对模型进行训练。实验结果表明，相较于次优的多层采样聚合图神经网络（GraphSAGE），CPP模型在合作者推荐任务上的分类精确度提高了1.47个百分点；在合作潜力预测任务上的测试误差降低了1.23%。说明了CPP模型能更精准地为学者推荐优质合作者。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 噪声鲁棒的动态时间规整算法

邱莲鹏, 宋承云

《计算机应用》唯一官方网站 2023, 43 (6): 1855-1860. DOI: 10.11772/j.issn.1001-9081.2022060885

摘要（223）

HTML （8）

PDF （3337KB）（76）

动态时间规整（DTW）算法通过寻找两个时间序列的最佳匹配衡量序列之间的相似性。针对序列中存在的噪声容易导致时间序列匹配时局部出现过度拉伸和压缩问题，提出了一种噪声鲁棒的动态时间规整（NoiseDTW）算法。首先，在原始的信号中引入额外噪声，解决序列对齐中存在的一个点对齐多个点的问题；然后，通过在两个时间序列之间多条可能的匹配路径中找到一条最优的匹配路径，减少噪声的随机性对时间序列相似性度量的影响；最后，将匹配路径映射到原始序列上。实验结果表明，相较于欧氏距离（ED）、DTW、Sakoe-Chiba窗口动态时间规整（Sakoe-Chiba DTW）和加权动态时间规整（WDTW）算法，所提算法结合K-近邻（KNN）分类器得到的分类准确率在8个时间序列数据集上分别比次优算法提高了1~15个百分点。可见所提算法具有较好的分类性能，且对噪声具有鲁棒性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

9. 轻量级缓存策略的关系型数据库全文搜索加强与扩展

杨婷, 莫若玉, 张秀娟, 朱洲森

《计算机应用》唯一官方网站 2023, 43 (8): 2431-2438. DOI: 10.11772/j.issn.1001-9081.2022071108

摘要（218）

HTML （12）

PDF （1891KB）（134）

针对关系型数据库（RDB）现有的全文搜索方案存在的效率低下、资源占用高的问题，提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先，该模型构建基于Redis的倒排索引，并利用缓存索引缩小搜索范围，从而用内存高效的数据处理能力解决关系型数据库I/O瓶颈，并提升系统整体性能；其次，为保证搜索结果的准确性和时效性，进一步提出索引同步策略，而且设计并实现了增量索引组件来隐藏索引处理细节，从而提高模型的易用性和通用性；最后，对于热点数据提供一种基于访问热度的索引更新机制，以降低倒排索引的内存占用。实验结果表明，所提模型在保证关系型数据库全文搜索响应速度和准确度的前提下，空间资源消耗比MySQL全文索引降低了48.8%~60.9%，比Elasticsearch降低了85.2%~96.2%，证明所提模型在实际应用中可行且有效。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

10. 基于地理偏好排序的兴趣点混合推荐模型

彭诗杰, 陈红梅, 王丽珍, 肖清

《计算机应用》唯一官方网站 2023, 43 (8): 2448-2455. DOI: 10.11772/j.issn.1001-9081.2022071029

摘要（215）

HTML （11）

PDF （1284KB）（121）

随着基于位置的社交网络（LBSN）迅速发展，作为缓解信息过载的有效手段，兴趣点（POI）推荐备受关注。由于用户签到数据是隐式反馈数据，且十分稀疏，为了有效地从用户签到数据中捕获用户POI偏好，提出了一个基于地理偏好排序的POI混合推荐模型。首先，考虑用户签到数据的隐式反馈特性及用户活动的空间约束，利用传统贝叶斯个性化排序（BPR）模型计算POI距离对POI排序的影响，提出加权BPR（GWBPR）模型；然后，针对用户签到数据的稀疏性，融合GWBPR模型和逻辑矩阵分解（LMF）模型，提出混合模型GWBPR-LMF。在两个真实数据集Foursquare和Gowalla上的实验结果表明，GWBPR-LMF模型的性能优于BPR、LMF、SAE-NAD（Self-Attentive Encoder and Neighbor-Aware Decoder）等对比模型。与较优的对比模型SAE-NAD相比，GWBPR-LMF模型的POI推荐的精确率、召回率、F1值、平均精度均值（mAP）、归一化折损累积增益（NDCG）在数据集Foursquare上分别平均提升了44.9%、57.1%、78.4%、55.3%和40.0%，在数据集Gowalla上分别平均提升了3.0%、6.4%、4.6%、11.7%和4.2%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

11. 基于相似和差异双视角的高维数据属性约简

李元江, 权金升, 谭阳奕, 杨田

《计算机应用》唯一官方网站 2023, 43 (5): 1467-1472. DOI: 10.11772/j.issn.1001-9081.2022081154

摘要（199）

HTML （4）

PDF （464KB）（74）

针对数据维度过高、冗余信息过多导致维度灾难的问题，提出一种基于异同矩阵的高维属性约简算法（ARSDM）。该算法在区分矩阵的基础上加入对同类样本的相似度衡量，形成对所有样本的综合评估。首先，计算样本在每个属性下的距离，并基于这些距离得到同类相似度和异类差异度；其次，建立异同矩阵，形成对整个数据集的评价；最后，进行属性约简，即将异同矩阵的每一列求和，依次选择值最大的特征进行约简，并将相应样本对的行向量置为零向量。实验结果表明，与经典属性约简算法DMG（Discernibility Matrix based on Graph theory）、FFRS（Fitting Fuzzy Rough Sets）以及GBNRS（Granular Ball Neighborhood Rough Sets）相比，在分类回归树（CART）分类器下，ARSDM的平均分类准确率分别提高了1.07、6.48、8.92个百分点；在支持向量机（SVM）分类器下，ARSDM的平均分类准确率分别提高了1.96、11.96、12.39个百分点；运行效率上ARSDM优于GBNRS和FFRS。可见，ARSDM能够有效去除冗余信息，提高分类准确率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

12. 基于犹豫模糊集的凝聚式层次聚类算法

李文全, 毛伊敏, 彭新东

《计算机应用》唯一官方网站 2023, 43 (12): 3755-3763. DOI: 10.11772/j.issn.1001-9081.2023010094

摘要（198）

HTML （5）

PDF （626KB）（83）

针对犹豫模糊聚类分析存在信息失真、属性权重客观性差、时间复杂度高的问题，提出一种基于犹豫模糊集的凝聚式层次聚类算法（AHCHF）。首先，采用犹豫模糊元的平均值扩充犹豫度小的数据对象；其次，利用原始信息熵和内部最大差异计算数据对象扩充前后的权重，并根据两个权重向量之间的最小鉴别信息确定属性的综合权重；最后，以加权距离和更小为目标，给出犹豫度恒定的中心点构造方法。在具体实例和人造数据集上进行的实验结果表明，相较于经典的犹豫模糊层次聚类算法（HFHC）和较新的模糊层次聚类算法（FHCA），AHCHF的轮廓系数（SC）均值分别提高了23.99%和9.28%，运行时间分别平均减少了27.18%和6.40%。以上结果验证了所提算法可以有效解决信息失真、属性权重客观性差的问题，并较好地提升聚类效果和聚类性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

13. 基于数据索引结构的跨级高效用项集挖掘算法

蒋华, 李星, 王慧娇, 韦静海

《计算机应用》唯一官方网站 2023, 43 (7): 2200-2208. DOI: 10.11772/j.issn.1001-9081.2022060907

摘要（191）

HTML （5）

PDF （1910KB）（69）

针对现有的跨级高效用项集挖掘（HUIM）算法非常耗时且占用大量内存的问题，提出一种基于数据索引结构的跨级高效用项集挖掘算法（DISCH）。首先，为了高效存储和快速检索到搜索空间中的所有项集，拓展带有分类信息和索引信息的效用链表为数据索引结构（DIS）；然后，为了提高内存利用率，对不满足条件的效用链表所占的内存进行回收再分配；最后，在构建效用链表时使用提前结束策略，以减少效用链表的产生。基于真实零售数据集和合成数据集进行的实验结果表明，与CLH-Miner （Cross-Level High utility itemsets Miner）算法相比，DISCH在运行时间上平均降低了77.6%，同时在内存消耗上平均降低了73.3%，可见该算法能高效完成跨级高效用项集的搜索，并且降低算法的内存消耗。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

14. 基于马尔可夫优化的高效用项集挖掘算法

钟新成, 刘昶, 赵秀梅

《计算机应用》唯一官方网站 2023, 43 (12): 3764-3771. DOI: 10.11772/j.issn.1001-9081.2022121844

摘要（190）

HTML （3）

PDF （1476KB）（93）

基于树型和链表结构的高效用项集挖掘（HUIM）算法通常需要指数量级的搜索空间，而基于进化类型的挖掘算法未能充分考虑变量间的相互作用，因此提出一种基于马尔可夫优化的HUIM算法（HUIM-MOA）。首先，采用位图矩阵表示数据库和使用期望向量编码，以实现对数据库的快速扫描和效用值的高效计算；其次，通过计算优势个体间的互信息估计马尔可夫网络（MN）结构，并根据它们的局部特性使用吉布斯采样以产生新的种群；最后，为防止算法过快陷入局部最优和减少高效用项集的缺失，分别采用种群多样性保持策略和精英策略。在真实数据集上的实验结果表明，相较于次优的基于粒子群优化（PSO）的生物启发式HUI框架（Bio-HUIF-PSO）算法，在给定较大最小阈值的情况下，HUIM-MOA可以找到全部的高效用项集（HUI），收敛速度平均提升12.5%，挖掘HUI数平均提高2.85个百分点，运行时间平均减少14.6%。HUIM-MOA较进化型HUIM算法有更强的搜索性能，能有效减少搜索时间和提高搜索质量。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

15. 基于邻域容差互信息和鲸鱼优化算法的非平衡数据特征选择

孙林, 黄金旭, 徐久成

《计算机应用》唯一官方网站 2023, 43 (6): 1842-1854. DOI: 10.11772/j.issn.1001-9081.2022050691

摘要（187）

HTML （6）

PDF （1713KB）（202）

针对大多数特征选择算法未充分考虑数据的类不均匀分布、特征之间的相关性和不同参数对特征选择结果的影响等问题，提出一种基于邻域容差互信息和鲸鱼优化算法（WOA）的非平衡数据特征选择方法。首先，在不完备邻域决策系统中，针对二分类数据集和多分类数据集，基于上、下边界域定义两种非平衡数据的特征重要度；然后，为充分反映特征的决策能力和特征之间的相关性，构建邻域容差互信息；最后，通过将非平衡数据特征重要度和邻域容差互信息相结合，提出基于邻域容差互信息的非平衡数据特征选择（FSIDN）算法，该算法采用WOA获取特征选择算法中的最优参数，并引入非线性收敛因子和自适应惯性权重来改进WOA，以解决WOA易陷入局部最优的问题。在8个基准函数上进行实验，结果表明改进的WOA具有较好的优化性能；在13个二分类和4个多分类的非平衡数据集上进行特征选择实验，实验结果表明，与其他相关算法相比，所提算法能够有效地选择出具有良好分类性能的特征子集。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

16. 基于Seeds集和成对约束的半监督三支聚类集成

姜春茂, 吴鹏, 李志聪

《计算机应用》唯一官方网站 2023, 43 (5): 1481-1488. DOI: 10.11772/j.issn.1001-9081.2022071094

摘要（186）

HTML （5）

PDF （1442KB）（73）

聚类集成使用合适的策略融合多个具有差异性的基聚类成员，能够有效提高聚类结果的稳定性、鲁棒性和准确率。当前聚类集成的研究较少利用已知的先验信息，面对复杂数据时难以刻画对象与类簇之间明确的归属关系。因此，提出一种基于Seeds集和成对约束的半监督三支聚类集成方法。首先，基于已有的标签信息提出一种新的三支标签传播算法构造基聚类成员；其次，提出一种半监督三支聚类集成框架集成基聚类成员，构造出一致性相似矩阵，并利用成对约束信息对该矩阵进行优化调整；最后，将三支谱聚类作为一致性函数对相似矩阵进行聚类，得到最终集成结果。在多个UCI真实数据集上的实验结果表明，与基于类簇的相似分区算法（CSPA）、超图分区算法（HGPA）、元类簇算法（MCLA）、标签传播算法（LPA）、Cop-Kmeans等半监督聚类集成算法相比，所提方法的归一化互信息（NMI）、调整兰德系数（ARI）和F测度在绝大多数据集上取得了最优值，获得了相对更好的聚类集成结果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

17. 低编译复杂度的双容错阵列码

解峥, 王子豪, 唐聃, 张航, 蔡红亮

《计算机应用》唯一官方网站 2023, 43 (9): 2766-2774. DOI: 10.11772/j.issn.1001-9081.2022091344

摘要（184）

HTML （9）

PDF （2691KB）（60）

纠删码技术是独立磁盘冗余阵列-6（RAID-6）的双容错能力的底层实现技术，它的性能是左右RAID-6性能的重要因素。针对RAID-6中常用阵列纠删码的I/O不平衡和数据恢复速度慢的问题，提出一种基于异或（XOR）的混合阵列码——J码（J-code）。J-code采用新的校验生成规则，首先，利用原始数据构造的二维阵列计算出对角校验位并构造新的阵列；然后，利用新阵列中数据块之间的位置关系计算得到反对角校验位。此外，J-code将原始数据与部分校验位存储于同一磁盘，能减少编译码过程中的异或（XOR）操作次数和单盘恢复过程中读取数据块的个数，从而降低编译码复杂度和单盘故障修复的I/O成本，缓解磁盘热点集中现象。仿真实验结果表明，相较于RDP（Row-Diagonal Parity）、EaR（Endurance-aware RAID-6）等阵列码，J-code的编码时间减少了0.30%~28.70%，单磁盘故障和双磁盘故障的修复用时分别减少了2.23%~31.62%和0.39%~36.00%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

18. 对比保序模式挖掘算法

孟玉飞, 武优西, 王珍, 李艳

《计算机应用》唯一官方网站 2023, 43 (12): 3740-3746. DOI: 10.11772/j.issn.1001-9081.2022121828

摘要（179）

HTML （2）

PDF （909KB）（99）

针对现有的对比序列模式挖掘方法主要针对字符序列数据集且难以应用于时间序列数据集的问题，提出一种对比保序模式挖掘（COPM）算法。首先，在候选模式生成阶段，采用模式融合策略减少候选模式数；其次在模式支持度计算阶段，利用子模式的匹配结果计算超模式的支持度；最后，设计了动态最小支持度阈值的剪枝策略，以进一步有效地剪枝候选模式。实验结果表明，在6个真实的时间序列数据集上，在内存消耗方面，COPM算法至少比COPM-o（COPM-original）算法降低52.1%，比COPM-e（COPM-enumeration）算法低36.8%，比COPM-p（COPM-prune）算法降低63.6%；同时在运行时间方面，COPM算法至少比COPM-o算法降低30.3%，比COPM-e算法降低8.8%，比COPM-p算法降低41.2%。因此，在算法性能方面，COPM算法优于COPM-o、COPM-e和COPM-p算法。实验结果验证了COPM算法可以有效挖掘对比保序模式，发现不同类别的时间序列数据集间的差异。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

19. 基于协同训练与Boosting的协同过滤算法

杨晓菡, 郝国生, 张谢华, 杨子豪

《计算机应用》唯一官方网站 2023, 43 (10): 3136-3141. DOI: 10.11772/j.issn.1001-9081.2022101489

摘要（169）

HTML （11）

PDF （1305KB）（112）

协同过滤（CF）算法基于物品之间或用户之间的相似度能实现个性化推荐，然而CF算法普遍存在数据稀疏性的问题。针对用户?物品评分稀疏问题，为使预测更加准确，提出一种基于协同训练与Boosting的协同过滤算法（CFCTB）。首先，利用协同训练将两种CF集成于一个框架，两种CF互相添加置信度高的伪标记样本到对方的训练集中，并利用Boosting加权训练数据辅助协同训练；其次，采用加权集成预测最终的用户评分，有效避免伪标记样本所产生的噪声累加，进一步提高推荐性能。实验结果表明，在4个公开数据集上，所提算法的准确率优于单模型；在稀疏度最高的CiaoDVD数据集上，与面向推荐系统的全局和局部核（GLocal-K）相比，所提算法的平均绝对误差（MAE）降低了4.737%；与ECoRec（Ensemble of Co-trained Recommenders）算法相比，所提算法的均方根误差（RMSE）降低了7.421%。以上结果验证了所提算法的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

20. 基于动态加权张量距离的多聚类算法

薛状状, 李鹏, 樊卫北, 张宏俊, 孟凡朔

《计算机应用》唯一官方网站 2023, 43 (11): 3449-3456. DOI: 10.11772/j.issn.1001-9081.2022101626

摘要（163）

HTML （1）

PDF （2437KB）（95）

基于张量的多聚类算法（TMC）在衡量属性重要性时忽略了对象张量内部属性组合的关联性，而且在不同的特征空间选择下，固定权重策略导致所选与未选择特征空间没有完全分离。针对上述问题，提出一种基于动态加权张量距离（DWTD）的多聚类算法（DWTD-MC）。首先，为提升各特征空间属性重要性衡量的准确性，建立了自-关联张量模型；其次，构建多视图权重张量模型，在不同特征空间选择下通过动态加权策略满足多聚类分析的需求；最后，使用DWTD衡量数据点的相似性，生成最终的多聚类结果。在真实数据集上的仿真实验结果表明，DWTD-MC在杰卡德指数（JI）、邓恩指数（DI）、DB指数（DB）和轮廓系数（SC）评价指标上均优于TMC等对比算法，而且可以在获得较高质量的聚类结果的同时，使各聚类结果之间保持较低的冗余度，满足多聚类分析的任务需求。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

21. 基于Fisher score与模糊邻域熵的多标记特征选择算法

孙林, 马天娇, 薛占熬

《计算机应用》唯一官方网站 2023, 43 (12): 3779-3789. DOI: 10.11772/j.issn.1001-9081.2022121841

摘要（163）

HTML （2）

PDF （1222KB）（87）

针对Fisher score未充分考虑特征与标记以及标记之间的相关性，以及一些邻域粗糙集模型容易忽略边界域中知识粒的不确定性，导致算法分类性能偏低等问题，提出一种基于Fisher score与模糊邻域熵的多标记特征选择算法（MLFSF）。首先，利用最大信息系数（MIC）衡量特征与标记之间的关联程度，构建特征与标记关系矩阵；基于修正余弦相似度定义标记关系矩阵，分析标记之间的相关性。其次，给出一种二阶策略获得多个二阶标记关系组，以此重新划分多标记论域；通过增强标记之间的强相关性和削弱标记之间的弱相关性得到每个特征的得分，进而改进Fisher score模型，对多标记数据进行预处理。再次，引入多标记分类间隔，定义自适应邻域半径和邻域类并构造了上、下近似集；在此基础上提出了多标记粗糙隶属度函数，将多标记邻域粗糙集映射到模糊集，基于多标记模糊邻域给出了上、下近似集以及多标记模糊邻域粗糙集模型，由此定义模糊邻域熵和多标记模糊邻域熵，有效度量边界域的不确定性。最后，设计基于二阶标记相关性的多标记Fisher score特征选择算法（MFSLC），从而构建MLFSF。在多标记K近邻（MLKNN）分类器下11个多标记数据集上的实验结果表明，相较于ReliefF多标记特征选择（MFSR）等6种先进算法，MLFSF的平均分类精度（AP）的均值提高了2.47~6.66个百分点；同时，在多数数据集上，MLFSF在5个评价指标上均能取得最优值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

22. 基于潜在因子模型在子空间上的缺失值注意力聚类算法

王啸飞, 鲍胜利, 陈炯环

《计算机应用》唯一官方网站 2023, 43 (12): 3772-3778. DOI: 10.11772/j.issn.1001-9081.2022121838

摘要（158）

HTML （0）

PDF （1364KB）（58）

针对传统聚类算法在对缺失样本进行数据填充过程中存在样本相似度难度量且填充数据质量差的问题，提出一种基于潜在因子模型（LFM）在子空间上的缺失值注意力聚类算法。首先，通过LFM将原始数据空间映射到低维子空间，降低样本的稀疏程度；其次，通过分解原空间得到的特征矩阵构建不同特征间的注意力权重图，优化子空间样本间的相似度计算方式，使样本相似度的计算更准确、泛化性更好；最后，为了降低样本相似度计算过程中过高的时间复杂度，设计一种多指针的注意力权重图进行优化。在4个按比例随机缺失的数据集上进行实验。在Hand-digits数据集上，相较于面向高维特征缺失数据的K近邻插补子空间聚类（KISC）算法，在数据缺失比例为10%的情况下，所提算法的聚类准确度（ACC）提高了2.33个百分点，归一化互信息（NMI）提高了2.77个百分点，在数据缺失比例为20%的情况下，所提算法的ACC提高了0.39个百分点，NMI提高了1.33个百分点，验证了所提算法的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

23. 基于t检验和逐步网络搜索的有向基因调控网络推断算法

陈都, 李圆媛, 陈彧

《计算机应用》唯一官方网站 2024, 44 (1): 199-205. DOI: 10.11772/j.issn.1001-9081.2023010086

摘要（156）

HTML （1）

PDF （1783KB）（44）

为了克服基于条件互信息的路径一致算法（PCA-CMI）无法识别调控方向的缺陷，并进一步提高网络推断准确率，提出了一种基于t检验和逐步网络搜索的有向网络推断算法（DNI-T-SRS）。首先，对不同实验条件下的表达数据进行t检验以辨别基因调控的上下游关系，指导路径一致（Path Consensus）算法中条件基因的选取，根据CMI2（Conditional Mutual Inclusive Information）剔除网络中的冗余边，得到了基于t检验的有向调控关系推断算法CMI2NI-T（CMI2-based Network Inference guided by t-Test）；然后，建立有向调控关系对应的米氏微分方程模型对数据进行拟合，根据贝叶斯信息准则进行逐步网络搜索以修正网络推断结果。利用CMI2NI-T推断DREAM6挑战中的两个测试网络，所得到的曲线下面积（AUC）分别为0.767 9和0.979 6，相较于PCA-CMI分别提高了16.23%和11.62%；通过进一步的数据拟合后DNI-T-SRS的推断准确率分别达到了86.67%和100.00%，相较于PCA-CMI分别提高了18.19%和10.52%。实验结果表明，所提DNI-T-SRS算法能够有效剔除间接调控关系并保留直接调控连接，得到精确的基因调控网络推断结果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

24. 基于motif连通性的社区搜索方法

杜明, 顾万里, 周军锋, 王志军

《计算机应用》唯一官方网站 2023, 43 (7): 2190-2199. DOI: 10.11772/j.issn.1001-9081.2022060941

摘要（151）

HTML （4）

PDF （2711KB）（64）

社区搜索的目标是从数据图中得到包含查询顶点的紧密子图，在社会学、生物学等领域有着广泛应用。针对现有基于子图连通性的社区模型的基础连通结构都是完全连通图，无法满足实际应用中用户对社区结构多样性的需求的问题，提出一种基于motif连通性的社区搜索方法，其中包括基于motif连通性的社区（MCC）模型以及两个相应的社区搜索算法——MPCS （Motif-Processed Community Search）算法和基于MP-index的社区搜索算法。MCC模型可以协助用户自由指定社区的基础连通结构，MPCS算法可以用来解决MCC的搜索问题。此外，提出两个分别针对motif实例搜索过程及所属社区判断过程的剪枝优化技术。最后，设计了MP-index以避免社区搜索过程中的冗余遍历操作。在多个真实数据集上进行实验的结果表明：剪枝优化可以使MPCS算法的耗时减少60%~85%，而基于MP-index的社区搜索算法相较于加入剪枝优化的MPCS算法，效率提升普遍达到了2~3个数量级。可见，所提方法在商品推荐和社交网络等问题上有着实际应用价值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

25. 基于模糊粗糙集的无监督动态特征选择算法

马磊, 罗川, 李天瑞, 陈红梅

《计算机应用》唯一官方网站 2023, 43 (10): 3121-3128. DOI: 10.11772/j.issn.1001-9081.2022101543

摘要（140）

HTML （9）

PDF （511KB）（89）

动态特征选择算法能够大幅提升处理动态数据的效率，然而目前基于模糊粗糙集的无监督的动态特征选择算法较少。针对上述问题，提出一种特征分批次到达情况下的基于模糊粗糙集的无监督动态特征选择（UDFRFS）算法。首先，通过定义伪三角范数和新的相似关系在已有数据的基础上进行模糊关系值的更新过程，从而减少不必要的运算过程；其次，通过利用已有的特征选择结果，在新的特征到达后，使用依赖度判断原始特征部分是否需要重新计算，以减少冗余的特征选择过程，从而进一步提高特征选择的速度。实验结果表明，UDFRFS相较于静态的基于依赖度的无监督模糊粗糙集特征选择算法，在时间效率方面能够提升90个百分点以上，同时保持较好的分类精度和聚类表现。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

26. 基于社区改变量估计的非均匀时间片划分方法

罗香玉, 闫克, 卢琰, 王甜, 辛刚

《计算机应用》唯一官方网站 2023, 43 (11): 3457-3463. DOI: 10.11772/j.issn.1001-9081.2022111736

摘要（129）

HTML （2）

PDF （1001KB）（61）

动态网络时间片划分方法对社区演化分析结果的准确性具有重要影响，但社区随时间及网络拓扑改变呈现非线性的变化，现有均匀时间片划分以及基于网络拓扑改变量的非均匀时间片划分方法在捕捉社区演化事件方面均效果不佳。为此，提出一种基于社区改变量估计的非均匀时间片划分方法，其中社区改变量通过变化后网络期望达到的社区模块度与直接应用网络变化前的社区发现结果获得的社区模块度之差来定量描述。首先，基于时间序列分析建立社区模块度预测模型；其次，使用该模型预测变化后网络期望达到的社区模块度，并求得社区改变量的估计值；最后，当该估计值超过预先设置的阈值时即生成一个新的时间片。在两个真实网络数据集上的实验结果显示，相较于传统的均匀时间片划分方法和基于网络拓扑改变量的非均匀时间片划分方法，所提方法在动态网络数据集Arxiv HEP-PH上的识别社区消失事件方面分别提早1.10 d和1.30 d，识别社区形成事件方面分别提早8.34 d和3.34 d，识别出的社区缩小、扩大事件总数分别增加10个和1个；在Sx-MathOverflow数据集上的识别社区消失事件方面分别提早3.30 d和1.80 d，识别社区形成事件方面分别提早6.41 d和2.97 d，识别出的社区缩小、扩大事件总数分别增加15个和7个。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

27. 一次性条件下top- k高平均效用序列模式挖掘算法

杨克帅, 武优西, 耿萌, 刘靖宇, 李艳

《计算机应用》唯一官方网站 2024, 44 (2): 477-484. DOI: 10.11772/j.issn.1001-9081.2023030268

摘要（128）

HTML （1）

PDF （519KB）（58）

针对传统序列模式挖掘（SPM）不考虑模式重复性且忽略各项的效用（单价或利润）与模式长度对用户兴趣度影响的问题，提出一次性条件下top-k高平均效用序列模式挖掘（TOUP）算法。TOUP算法主要包括两个核心步骤：平均效用计算和候选模式生成。首先，提出基于各项出现位置与项重复关系数组的CSP（Calculation Support of Pattern）算法计算模式支持度，从而实现模式平均效用的快速计算；其次，采用项集扩展和序列扩展生成候选模式，并提出了最大平均效用上界，基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明，相较于TOUP-dfs和HAOP-ms算法，TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%；运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优，能更高效地挖掘用户感兴趣的模式。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

28. 结合异构关系增强图神经网络的社交推荐

王永贵, 时启文

《计算机应用》唯一官方网站 2023, 43 (11): 3464-3471. DOI: 10.11772/j.issn.1001-9081.2022111774

摘要（125）

HTML （2）

PDF （1897KB）（75）

社交推荐旨在利用用户的社会属性推荐潜在的感兴趣项目，有效缓解了数据稀疏性和冷启动问题。然而现有的社交推荐算法主要面向单一社交关系进行研究，社会属性难以充分参与计算，存在未能合理利用社会异构关系和节点特征表示质量不高的问题，为此提出一种结合异构关系增强图神经网络的社交推荐模型（HR-GNN）。HR?GNN利用图卷积网络（GCN）聚合用户和项目节点信息，生成查询嵌入以查询节点信息；通过将抽样概率与邻居节点之间的一致性分数相结合的邻居抽样策略挖掘社会异构关系；用自注意力机制聚合节点信息以提高用户和项目特征表示的质量。在两个真实数据集上进行的实验结果表明，所提算法在平均绝对误差（MAE）和均方根误差（RMSE）两个指标上相较于基准算法均有明显改进，在Ciao数据集上它们分别至少降低了1.80%和1.35%，在Epinions数据集上则分别至少降低了2.80%和3.18%，验证了HR-GNN的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

29. 融合局部结构学习的大规模子空间聚类算法

任奇泽, 贾洪杰, 陈东宇

《计算机应用》唯一官方网站 2023, 43 (12): 3747-3754. DOI: 10.11772/j.issn.1001-9081.2022111750

摘要（121）

HTML （4）

PDF （768KB）（102）

常规的大规模子空间聚类算法在计算锚点亲和矩阵时忽略了数据之间普遍存在的局部结构，且在计算拉普拉斯（Laplacian）矩阵的近似特征向量时存在较大误差，不利于数据聚类。针对上述问题，提出一种融合局部结构学习的大规模子空间聚类算法（LLSC）。所提算法将局部结构学习嵌入锚点亲和矩阵的学习，从而能够综合利用全局和局部信息挖掘数据的子空间结构；此外，受非负矩阵分解（NMF）的启发，设计一种迭代优化方法以简化锚点亲和矩阵的求解过程；其次，根据Nystr?m近似方法建立锚点亲和矩阵与Laplacian矩阵的数学联系，并改进Laplacian矩阵特征向量的计算方法以提升聚类性能。相较于LMVSC（Large-scale Multi-View Subspace Clustering）、SLSR（Scalable Least Square Regression）、LSC-k（Landmark-based Spectral Clustering using k-means）和k-FSC（k-Factorization Subspace Clustering），LLSC在4个广泛使用的大规模数据集上显示出明显的提升，其中，在Pokerhand数据集上，LLSC的准确率比k-FSC高28.18个百分点，验证了LLSC的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

30. 有向图上基于层次树索引的最大cycle truss社区搜索

宗传玉, 张纯鹤, 夏秀峰

《计算机应用》唯一官方网站 2024, 44 (1): 190-198. DOI: 10.11772/j.issn.1001-9081.2023010071

摘要（120）

HTML （2）

PDF （2751KB）（34）

社区搜索旨在从信息网络中找出包含用户查询顶点的高内聚连通子图，cycle truss是一种基于cycle三角形的社区搜索模型，而现有的基于索引的cycle truss社区搜索方法存在索引空间大、搜索效率低、社区内聚性低的缺点。为了解决这一问题，提出一种基于层次树索引的最大cycle truss社区搜索方法。首先，提出了k-cycle truss分解算法，并引入了两个重要的概念：cycle三角连通与k-层次等价。基于k-层次等价设计了层次树索引TreeCIndex与表结构索引SuperTable，在此基础上，并基于这两个新的索引，提出了两个高效的cycle truss社区搜索算法。在4个真实数据集上与已有的基于TrussIndex与EquiTruss的社区搜索算法进行了比较，实验结果表明，TreeCIndex与SuperTable比TrussIndex与EquiTruss节省至少41.5%的空间，索引构建的时间节省8.2%至98.3%，且搜索最大cycle truss社区的效率分别高出了一个和两个数量级。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

31. 多路复用网络中的模体检测算法

薛舒红, 冯彪, 于海龙, 王力, 杨云云

《计算机应用》唯一官方网站 2024, 44 (3): 752-759. DOI: 10.11772/j.issn.1001-9081.2023030300

摘要（117）

HTML （8）

PDF （2299KB）（69）

多路复用网络可以形象地描述复杂系统中个体之间的相互作用关系，模体作为一种高阶结构在网络中频繁出现。与单层模体相比，多重模体具有数量多、种类繁、结构杂的特点。鉴于目前缺少针对多重模体的完整检测算法，提出一种适用于多路复用网络的快速多重模体检测算法（FAMMD）。首先，通过改进ESU（Enumerate SUbgraphs）算法进行多重子图枚举；其次，使用层标记和二进制字符串相结合的方法加速同构检测的过程，并且构造了保持度序列和层间依赖性不变的零模型进行多重子图测试；最后，在两层真实网络上进行了模体检测，多重模体表现出紧密相连的三联模式，且在社交网络中更加同质，在交通网络中则更加互补。实验结果表明，所提方法可以准确、快速地检测出反映网络结构特性和符合实际情况的多重模体。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

32. 基于证据理论的多层超网络影响力节点识别方法

田阔, 吴英晗, 胡枫

《计算机应用》唯一官方网站 2024, 44 (1): 182-189. DOI: 10.11772/j.issn.1001-9081.2023010021

摘要（114）

HTML （4）

PDF （2830KB）（39）

针对多层超网络研究多集中于拓扑结构，且影响力节点识别方法中涉及指标较为单一，无法全面准确识别影响力节点的情况，提出一种基于证据理论的多层超网络影响力节点识别方法。首先，在多层超网络拓扑结构基础上，根据聚合网络思想构建多层聚合超网络；其次，基于证据理论定义问题的辨识框架；最后，利用D-S（Dempster-Shafer）证据组合方法，融合网络的局部、位置和全局指标以识别网络影响力节点。将该方法应用于arXiv数据集构建的物理-计算机科学双层科研合作超网络（MAH），在基于RP（Reactive Process）和CP（Contact Process）策略的易感-感染-易感（SIS）超网络传播模型中，与超度中心性、K-shell、接近中心性方法等相比，传播速度最快，且最先达到稳态；隔离影响力排名前6%节点后，网络平均超度、聚类系数以及网络效率均减小；随着隔离影响力节点比例的增大，网络子图数量增速与接近中心性方法相近；通过单调性指标值度量识别结果粗粒度，达到0.999 8，识别结果具有较高区分度。综合多个实验结果，表明该多层超网络影响力节点识别方法准确有效。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

33. 基于新奇度量的社交事件推荐方法

孙滔, 段张甜, 朱浩楠, 郭沛豪, 孙鹤立

《计算机应用》唯一官方网站 2024, 44 (3): 760-766. DOI: 10.11772/j.issn.1001-9081.2023030362

摘要（111）

HTML （3）

PDF （919KB）（55）

在社交事件网络（EBSN）中，推荐工作都是从用户的历史喜好出发建模用户偏好，阻碍了用户接触新事物的范围和途径。针对上述问题，提出基于新奇度量的社交事件推荐模型UER（Unexpectedness-based Event Recommendation）。UER模型包括Base和Unexpected两个子模型，首先，Base子模型基于用户、事件以及用户历史事件交互序列特征，通过注意力机制衡量事件在用户历史喜好中的权重，最终预测用户参加事件的概率；其次，Unexpected子模型通过自注意力机制提取用户的多个兴趣表示来计算用户自身新奇度和候选事件对用户的新奇值，从而衡量推荐事件的新奇程度。在Meetup-加州数据集上，UER模型相较于DIN（Deep Interest Network）和PURS（Personalized Unexpected Recommender System）的推荐命中率（HR）分别提高22.9%和30.3%，归一化折损累积收益（NDCG）分别提高27.5%和42.3%，推荐事件的新奇程度分别提高54.5%和21.4%；在Meetup-纽约数据集上，UER模型相较于DIN和PURS的HR分别提高18.2%和21.8%，NDCG分别提高26.9%和32.0%，推荐事件的新奇程度分别提高52.6%和20.8%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

34. 最大相关和最大差异的高维数据特征选择算法

孟圣洁, 于万钧, 陈颖

《计算机应用》唯一官方网站 2024, 44 (3): 767-771. DOI: 10.11772/j.issn.1001-9081.2023030365

摘要（103）

HTML （4）

PDF （698KB）（64）

针对高维数据存在冗余信息且维度过高的问题，提出基于信息量的最大相关最大差异特征选择算法（MCD）。首先，利用互信息（MI）度量特征和标签之间的相关性，对特征进行排序，选择互信息最大的特征加入特征子集；然后，引入信息距离度量特征之间的信息冗余性及差异性，设计评价准则对每个特征进行评价，使特征子集中特征和标签的相关性、特征之间的差异性最大；最后，用前向搜索策略结合评价准则进行属性约简，最优化特征子集。采用2种不同的分类器，在6个数据集上和mRMR（minimal-Redundancy-Maximal-Relevance criterion）、RReliefF等5个经典算法进行对比实验，利用分类精度验证MCD的有效性。在支持向量机（SVM）分类器下，平均分类精度提高了5.67~23.80个百分点；在K-近邻（KNN）分类器下，平均分类精度提高了2.69~25.18个百分点。可见，MCD在绝大多数情况下，能有效去除冗余特征，分类精度有明显提高。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

35. 基于隐式信任和群体共识的群体推荐方法

李婷婷, 楚俊峰, 王燕燕

《计算机应用》唯一官方网站 2024, 44 (2): 460-468. DOI: 10.11772/j.issn.1001-9081.2023030267

摘要（102）

HTML （4）

PDF （1711KB）（42）

针对现有群体推荐方法较少考虑群体成员间社会化关系的隐式估计以及利用群体共识减少偏好冲突的问题，提出一种基于隐式信任和群体共识的群体推荐方法（GR-TC），所提方法分为推荐阶段和共识阶段。在推荐阶段根据成员间偏好信息和社交关系挖掘隐式信任值，估计成员的个人偏好、权重和初始群体偏好；在共识阶段通过共识测量和识别规则识别不一致成员，建立最大和谐度优化共识模型，调整更新群体偏好，传递群体推荐列表。实验结果表明，成员间社交关系影响群体推荐结果，合理选择隐式信任权值会提高不一致成员的和谐度；相较于传统共识反馈机制，隐式信任诱导的最大和谐共识反馈机制调整成本更小，对不一致成员的影响更小。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

36. 基于无监督语义哈希的高效相似题检索模型

佟威, 何理扬, 李锐, 黄威, 黄振亚, 刘淇

《计算机应用》唯一官方网站 2024, 44 (1): 206-216. DOI: 10.11772/j.issn.1001-9081.2023091260

摘要（96）

HTML （0）

PDF （1988KB）（63）

相似题检索旨在从数据库中找到与给定查询试题考查目标相似的试题。随着在线教育的不断发展，试题数据库日益庞大，且由于试题数据的专业属性使标注相关性非常困难，因此需要一种高效且无需标注的相似题检索模型。无监督语义哈希能在无监督信号的前提下将高维数据映射为低维且高效的二值表征。但不能简单地将语义哈希模型应用在相似题检索模型中，因为试题数据具有丰富的语义信息，而二值向量的表征空间有限。为此，提出一个能获取、保留关键信息的相似题检索模型。首先，设计了一个关键信息获取模块获取试题数据的关键信息，并引入去冗余目标损失去除冗余信息；其次，在编码过程中引入随时间变化的激活函数，减少编码信息损失；再次，为了最大化利用汉明空间，在优化过程中引入比特平衡目标和比特无关目标以优化二值表征的分布。在MATH和HISTORY数据集上的实验结果表明，相较于表现最好的文本语义哈希模型DHIM （Deep Hash InfoMax），所提模型在2个数据集的3个召回率设置上分别平均提升约54%和23%；在检索效率方面，所提模型比最优的相似题检索模型QuesCo具有明显的优势。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

37. 二阶段孪生图卷积神经网络推荐算法

荆智文, 张屿佳, 孙伯廷, 郭浩

《计算机应用》唯一官方网站 2024, 44 (2): 469-476. DOI: 10.11772/j.issn.1001-9081.2023020180

摘要（73）

HTML （2）

PDF （2896KB）（46）

针对推荐系统中双塔型神经网络难以学习用户侧和商品侧交互信息以及图连接信息的问题，提出一种二阶段孪生卷积神经网络推荐算法（TSN）。首先，以用户行为构建异质图；然后，在双塔型神经网络之间设计图卷积孪生网络，从而在学习异质图连接信息的同时进行信息交互；最后，通过设计特殊结构的二阶段孪生信息共享机制，使得用户侧和商品侧的神经网络在训练过程中能够动态地、双向地传输信息，且有效避免神经网络串联。在基于MovieLens和豆瓣电影数据集的对比实验中，NDCG@10、NDCG@50、NDCG@100相较于最优基准算法DAT（Dual Augmented Two-tower model for online large-scale recommendation）提升了11.39%~23.98%。结果表明，所提算法能够缓解双塔型神经网络缺乏信息交互的问题，较对比算法推荐性能提升显著。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

38. 面向源-目的地流的多元时空数据可视分析

周思艺, 李天瑞

《计算机应用》唯一官方网站 2024, 44 (2): 452-459. DOI: 10.11772/j.issn.1001-9081.2023020178

摘要（62）

HTML （2）

PDF （3328KB）（69）

交通智能（IC）卡可以记录居民的移动出行，反映居民的源-目的地（OD）信息；但智能卡记录的OD流数据规模大，直接可视化空间分布容易导致视觉杂乱，并且多元数据类型多，更难以和流数据结合对比分析。首先，针对直接可视化大规模OD数据的空间分布容易视觉遮挡的问题，提出基于正交非负矩阵分解（ONMF）的流聚类方法。所提方法对源-目的地数据聚类后再可视化，可以减少不必要的遮挡。然后，针对多元时空数据类型多难以结合对比分析的问题，设计了公交站点多元时序数据视图。该可视化方法将公交站点的流量大小和空气质量、空气温度、相对湿度、降雨量这四类多元数据在同一时间序列上编码，提高了视图的空间利用率并且可以对比分析。再次，为了辅助用户探索分析，开发了基于OD流和多元数据的交互式可视分析系统，并设计了多种交互操作提升用户探索效率。最后，基于新加坡交通智能卡数据集，从聚类效果和运行时间对该聚类方法评估。结果显示，在用轮廓系数评估聚类效果上，所提方法比原始方法提升了0.028，比用K均值聚类方法提升了0.253；在运行时间上比聚类效果较好的ONMFS（ONMF through Subspace exploration）方法少了254 s。通过案例分析和系统功能对比验证了系统的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

栏目文章信息