第十八届中国机器学习会议(CCML 2021)

Select

1. 优化三元组损失的深度距离度量学习方法

李子龙, 周勇, 鲍蓉, 王洪栋

《计算机应用》唯一官方网站 2021, 41 (12): 3480-3484. DOI: 10.11772/j.issn.1001-9081.2021061107

摘要（314）

HTML （5）

PDF （581KB）（102）

针对基于三元组损失的单一深度距离度量在多样化数据集环境下适应性差，且容易造成过拟合的问题，提出了一种优化三元组损失的深度距离度量学习方法。首先，对经过神经网络映射的三元组训练样本的相对距离进行阈值化处理，并使用线性分段函数作为相对距离的评价函数；然后，将评价函数作为一个弱分类器加入到Boosting算法中生成一个强分类器；最后，采用交替优化的方法来学习弱分类器和神经网络的参数。通过在图像检索任务中对各种深度距离度量学习方法进行评估，可以看到所提方法在CUB-200-2011、Cars-196和SOP数据集上的Recall@1值比之前最好的成绩分别提高了4.2、3.2和0.6。实验结果表明，所提方法的性能优于对比方法，同时在一定程度上避免了过拟合。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于动态概率抽样的标签噪声过滤方法

张增辉, 姜高霞, 王文剑

《计算机应用》唯一官方网站 2021, 41 (12): 3485-3491. DOI: 10.11772/j.issn.1001-9081.2021061026

摘要（262）

HTML （13）

PDF （1379KB）（121）

在机器学习问题中，数据质量对系统预测的准确性产生了深远的影响。由于信息获取的难度大，人类的认知主观且有限，导致了专家无法准确标记所有样本。而近年来出现的一些概率抽样方法无法避免样本人为划分不合理且主观性较强的问题。针对这一问题，提出一种基于动态概率抽样（DPS）的标签噪声过滤方法，充分考虑各个数据集样本间的差异性，通过统计各个区间内置信度分布频率，分析各个区间内置信度分布信息熵的走势，确定合理阈值。在UCI经典数据集中选取了14个数据集，将所提方法与随机森林（RF）、HARF、MVF、局部概率抽样（LPS）等方法进行了对比实验。实验结果表明，所提出的方法在标签噪声识别和分类泛化上均展示出了较高的能力。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于干净数据的流形正则化非负矩阵分解

李华, 卢桂馥, 余沁茹

《计算机应用》唯一官方网站 2021, 41 (12): 3492-3498. DOI: 10.11772/j.issn.1001-9081.2021060962

摘要（237）

HTML （5）

PDF （663KB）（122）

现有的非负矩阵分解（NMF）算法往往基于欧氏距离来设计目标函数，对噪声比较敏感。为了增强算法的鲁棒性，提出一种基于干净数据的流形正则化非负矩阵分解（MRNMF/CD）算法。在MRNMF/CD算法中，把低秩约束、流形正则化和NMF技术无缝地融为一体，使算法性能较为优异。首先，通过添加低秩约束，MRNMF/CD可以从噪声数据中恢复干净数据，并获得数据的全局结构；其次，为了利用数据的局部几何结构信息，MRNMF/CD把流形正则化融入目标函数中。此外，还提出了一种求解MRNMF/CD的迭代算法，并从理论上分析了该求解算法的收敛性。在ORL、Yale和COIL20数据集上的实验结果表明，MRNMF/CD算法比现有的k-means、主成分分析（PCA）、NMF和图正则化非负矩阵分解（GNMF）算法具有更好的识别准确性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 基于改进的倾向得分估计的无偏推荐模型

骆锦潍, 刘杜钢, 潘微科, 明仲

《计算机应用》唯一官方网站 2021, 41 (12): 3508-3514. DOI: 10.11772/j.issn.1001-9081.2021060910

摘要（408）

HTML （9）

PDF （567KB）（146）

现实中推荐系统通常遭受着各种各样的偏置问题，例如曝光偏置、位置偏置和选择偏置。一个忽略偏置问题的推荐模型不能反映推荐系统的真实性能，且对于用户而言可能是不可信任的。先前的工作已经表明基于倾向得分估计的推荐模型能够有效缓解隐式反馈数据的曝光偏置，但是通常只考虑通过物品信息来估计倾向得分，这可能导致倾向得分估计不准确。为了提高倾向得分估计的准确性，提出配对倾向得分估计（MPE）方法。具体来说，该方法引入了用户流行度偏好的概念，通过计算用户流行度偏好和物品流行度的配对程度来对样本曝光率进行更加精确的建模，最后将提出的估计方法和一个主流的传统推荐模型以及一个无偏推荐模型进行集成并和包括前两者的三个基线模型进行对比。在公开数据集上的实验结果表明，结合MPE方法后的模型分别相比对应的基线模型在召回率、折损累计增益（DCG）和平均准确率（MAP）这三个评估指标上均有显著的提升；此外，通过实验结果还观察到性能的增益有很大一部分来自长尾物品，可见所提方法有助于提升推荐物品的多样性与覆盖率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 融合显/隐式反馈的社会化协同排序推荐算法

李改, 李磊, 张佳强

《计算机应用》唯一官方网站 2021, 41 (12): 3515-3520. DOI: 10.11772/j.issn.1001-9081.2021060908

摘要（266）

HTML （8）

PDF （631KB）（98）

传统的基于评分预测的社会化协同过滤推荐算法存在预测值与真实排序不匹配的固有缺陷，而基于排序预测的社会化协同排序推荐算法更符合真实的应用场景。然而，现有的大多数基于排序预测的社会化协同排序推荐算法要么仅仅关注显式反馈数据，要么仅仅关注隐式反馈数据，没有充分挖掘这些数据的价值。为充分挖掘用户的社交网络和推荐对象的显/隐式评分信息，同时克服基于评分预测的社会化协同过滤推荐算法存在的固有缺陷，在xCLiMF模型和TrustSVD模型基础上，提出一种新的融合显/隐式反馈的社会化协同排序推荐算法SPR_SVD++。该算法同时挖掘用户评分矩阵和社交网络矩阵中的显/隐式信息，并优化排序学习的评价指标预期倒数排名（ERR）。在真实数据集上的实验结果表明，采用归一化折损累计增益（NDCG）和ERR作为评价指标，SPR_SVD++算法均优于最新的TrustSVD、MERR_SVD++和SVD++算法。可见SPR_SVD++算法性能好、可扩展性强，在互联网信息推荐领域有很好的应用前景。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 混合式的K-匿名特征选择算法

杨柳, 李云

《计算机应用》唯一官方网站 2021, 41 (12): 3521-3526. DOI: 10.11772/j.issn.1001-9081.2021060980

摘要（293）

HTML （8）

PDF （619KB）（167）

K-匿名算法通过对数据的泛化、隐藏等手段使得数据达到K-匿名条件，在隐藏特征的同时考虑数据的隐私性与分类性能，可以视为一种特殊的特征选择方法，即K-匿名特征选择。K-匿名特征选择方法结合K-匿名与特征选择的特点使用多个评价准则选出K-匿名特征子集。过滤式K-匿名特征选择方法难以搜索到所有满足K-匿名条件的候选特征子集，不能保证得到的特征子集的分类性能最优，而封装式特征选择方法计算成本很大，因此，结合过滤式特征排序与封装式特征选择的特点，改进已有方法中的前向搜索策略，设计了一种混合式K-匿名特征选择算法，使用分类性能作为评价准则选出分类性能最好的K-匿名特征子集。在多个公开数据集上进行实验，结果表明，所提算法在分类性能上可以超过现有算法并且信息损失更小。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

7. 融合句法信息的无触发词事件检测方法

汪翠, 张亚飞, 郭军军, 高盛祥, 余正涛

《计算机应用》唯一官方网站 2021, 41 (12): 3534-3539. DOI: 10.11772/j.issn.1001-9081.2021060928

摘要（240）

HTML （6）

PDF （697KB）（91）

事件检测（ED）是信息抽取领域中最重要的任务之一，旨在识别文本中特定事件类型的实例。现有的ED方法通常采用邻接矩阵来表示句法依存关系，然而邻接矩阵往往需要借助图卷积网络（GCN）进行编码来获取句法信息，由此增加了模型的复杂度。为此，提出了融合句法信息的无触发词事件检测方法。通过将依赖父词及其上下文转换为位置标记向量，并在模型源端以无参数的方式融入依赖子词的单词嵌入来加强上下文的语义表征，而不需要经过GCN进行编码；此外，针对触发词的标注费时费力的问题，设计了基于多头注意力机制的类型感知器，以对句子中潜在的触发词进行建模，实现无触发词的事件检测。为了验证所提方法的性能，在ACE2005数据集以及低资源越南语数据集上进行了实验。其中，在ACE2005数据集上与图变换网络事件检测（GTN-ED）方法相比，所提方法的F1值提升了3.7%；在越南语数据集上，与二分类的方法类型感知偏差注意机制神经网络（TBNNAM）相比，所提方法的F1值提升了9%。结果表明，通过在Transformer中融入句法信息能有效地连接句子中分散的事件信息来提高事件检测的准确性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 基于用户传播网络与消息内容融合的谣言检测模型

薛海涛, 王莉, 杨延杰, 廉飚

《计算机应用》唯一官方网站 2021, 41 (12): 3540-3545. DOI: 10.11772/j.issn.1001-9081.2021060963

摘要（302）

HTML （14）

PDF （697KB）（211）

针对社交媒体平台上消息内容普遍很短、传播结构中存在大量空转发、用户角色与内容间的失配等条件约束，提出了一种基于传播网络中的用户属性信息和消息内容的谣言检测模型GMB_GMU。首先以用户属性为节点、传播链为边构建用户传播网络，并引入图注意力网络（GAT）得到用户属性的增强表示；同时，基于此用户传播网络，利用node2vec得到用户的结构表征，并使用互注意机制对其进行增强。另外，引入BERT建立源帖内容表征。最后，利用多模态门控单元（GMU）对用户属性表征、结构表征和源帖内容表征进行融合，从而得到消息的最终表征。实验结果表明，GMB_GMU模型在公开的Weibo数据上的准确率达到0.952，能够有效识别谣言事件，效果明显优于基于循环神经网络（RNN）和其他神经网络基准模型的传播算法。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

9. 基于异构图注意力网络的微博谣言监测模型

毕蓓, 潘慧瑶, 陈峰, 隋京言, 高扬, 王耀君

《计算机应用》唯一官方网站 2021, 41 (12): 3546-3550. DOI: 10.11772/j.issn.1001-9081.2021060981

摘要（602）

HTML （13）

PDF （541KB）（210）

社交媒体方便了人们的日常交流和信息传播，同时也是谣言滋生和传播的温床，因此如何在谣言传播早期自动监测极具现实意义，而现有的检测方法没有充分利用微博信息传播图的语义信息。为了解决这个问题，基于异构图注意力网络（HAN）构建了谣言监测模型MicroBlog-HAN。该模型采用含有节点级注意力和语义级注意力的分层注意力机制。首先，节点级注意力结合微博节点的邻居生成两组具有特定语义的节点嵌入；然后，语义级注意力融合不同语义，得到最终的节点嵌入，并输入到分类器中执行二分类任务；最后，给出输入微博是谣言还是非谣言的分类结果。在两个真实的微博谣言数据集上的实验结果表明，MicroBlog-HAN模型可以实现微博谣言较准确的识别，准确率超过87%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

10. 基于改进Mask R-CNN的越南场景文字检测

俸亚特, 文益民

《计算机应用》唯一官方网站 2021, 41 (12): 3551-3557. DOI: 10.11772/j.issn.1001-9081.2021050821

摘要（259）

HTML （12）

PDF （1209KB）（88）

针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题，在改进的实例分割网络Mask R-CNN的基础上，提出一种针对越南场景文字的检测算法。为了准确地分割带声调符号的越南场景文字，该算法仅使用P2特征层来分割文字区域，并将文字区域的掩码矩阵大小从14×14调整为14×28以更好地适应文字区域。针对用常规非极大值抑制（NMS）算法不能剔除重复文字检测框的问题，设计了一个针对文字区域的文本区域过滤模块并添加在检测模块之后，以有效地剔除冗余检测框。使用模型联合训练的方法训练网络，训练过程包含两部分：第一部分为特征金字塔网络（FPN）和区域生成网络（RPN）的训练，训练使用的数据集为大规模公开的拉丁文字数据，目的是增强模型在不同场景下提取文字的泛化能力；第二部分为候选框坐标回归模块和区域分割模块的训练，此部分模型参数使用像素级标注的越南场景文字数据进行训练，使模型能对包括声调符号的越南文字区域进行分割。大量交叉验证实验和对比实验结果表明，与Mask R-CNN相比，所提算法在不同的交并比（IoU）阈值下都具有更好的准确率与召回率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

11. B样条曲线融合蚁群算法的机器人路径规划

李二超, 齐款款

《计算机应用》唯一官方网站 2021, 41 (12): 3558-3564. DOI: 10.11772/j.issn.1001-9081.2021060888

摘要（302）

HTML （19）

PDF （1368KB）（106）

针对蚁群算法在静态环境下全局路径规划存在无法找到最短路径、收敛速度慢、路径搜索盲目性大、拐点多等问题，提出一种改进蚁群算法。以栅格地图为机器人运行环境，对初始信息素进行非均匀分布，使路径搜索更倾向于起点和目标点的连线附近；把当前节点、下一节点和目标点的信息加入启发式函数，同时引入动态调节因子，促使启发函数在迭代前期起主导作用，而后期则加强信息素引导；引入伪随机转移策略，以减少路径选择的盲目性，加快找到最短路径；动态调整挥发系数，使得前期挥发系数大，后期较小，从而避免算法陷入早熟；在最优解的基础上，引入B样条曲线平滑策略，以进一步优化最优解，使得到的路径更短且更加平滑。对改进算法的主要参数进行敏感性分析，并对该算法的各改进环节的可行性与有效性进行了实验，而且在20×20和50×50环境下与传统蚁群算法及其他改进蚁群算法进行仿真对比，实验结果验证了改进算法的可行性、有效性和优越性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

12. 基于时空上下文信息增强的目标跟踪算法

温静, 李强

《计算机应用》唯一官方网站 2021, 41 (12): 3565-3570. DOI: 10.11772/j.issn.1001-9081.2021061034

摘要（282）

HTML （11）

PDF （915KB）（120）

充分利用视频中的时空上下文信息能明显提高目标跟踪性能，但目前大多数基于深度学习的目标跟踪算法仅利用当前帧的特征信息来定位目标，没有利用同一目标在视频前后帧的时空上下文特征信息，导致跟踪目标易受到邻近相似目标的干扰，从而在跟踪定位时会引入一个潜在的累计误差。为了保留时空上下文信息，在SiamMask算法的基础上引入一个短期记忆存储池来存储历史帧特征；同时，提出了外观显著性增强模块（ASBM），一方面增强跟踪目标的显著性特征，另一方面抑制周围相似目标对目标的干扰。基于此，提出一种基于时空上下文信息增强的目标跟踪算法。在VOT2016、VOT2018、DAVIS-2016和DAVIS-2017等四个数据集上进行实验与分析，结果表明所提出的算法相较于SiamMask算法在VOT2016上的准确率和平均重叠率（EAO）分别提升了4个百分点和2个百分点；在VOT2018上的准确率、鲁棒性和EAO分别提升了3.7个百分点、2.8个百分点和1个百分点；在DAVIS-2016上的区域相似度、轮廓精度指标中的下降率均分别降低了0.2个百分点；在DAVIS-2017上的区域相似度、轮廓精度指标中的下降率分别降低了1.3和0.9个百分点。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

13. 基于图割精细化和可微分聚类的无监督显著性目标检测

李小雨, 房体育, 夏英杰, 李金屏

《计算机应用》唯一官方网站 2021, 41 (12): 3571-3577. DOI: 10.11772/j.issn.1001-9081.2021061054

摘要（391）

HTML （12）

PDF （1317KB）（127）

针对传统显著性检测算法分割精度低以及基于深度学习的显著性检测算法对像素级人工注释数据依赖性过强等不足，提出一种基于图割精细化和可微分聚类的无监督显著性目标检测算法。该算法采用由“粗”到“精”的思想，仅利用单张图像的特征便可以实现精确的显著性目标检测。首先利用Frequency-tuned算法根据图像自身的颜色和亮度得到显著粗图，然后根据图像的统计特性进行二值化并结合中心优先假设得到显著目标的候选区域，进而利用基于单图像进行图割的GrabCut算法对显著目标进行精细化分割，最后为克服背景与目标极为相似时检测不精确的困难，引入具有良好边界分割效果的无监督可微分聚类算法对单张显著图做进一步的优化。所提出的算法在ECSSD和SOD数据集上进行测试并与现有的7种算法进行对比，结果表明得到的优化显著图更接近于真值图，在ECSSD和SOD数据集上分别实现了14.3%和23.4%的平均绝对误差（MAE）。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

14. 面向交通流量预测的时空超关系图卷积网络

张永凯, 武志昊, 林友芳, 赵苡积

《计算机应用》唯一官方网站 2021, 41 (12): 3578-3584. DOI: 10.11772/j.issn.1001-9081.2021060956

摘要（529）

HTML （18）

PDF （1112KB）（180）

交通流量预测是智能交通系统中的重要研究课题，然而，交通对象（如站点、传感器）之间存在的复杂局部时空关系使得这项研究颇具挑战。尽管以往的一些研究将流量预测问题转化为一个时空图预测问题从而取得了较大的进展，但是它们忽略了交通对象们跨时空维度的直接关联性。目前仍缺乏一种全面建模局部时空关系的方法。针对这一问题，首先提出一种新颖的时空超图建模方案，通过构造一种时空超关系来全面地建模复杂的局部时空关系；然后提出一种时空超关系图卷积网络（STHGCN）预测模型来捕获这些关系用于交通流量预测。在四个公开交通数据集上进行了大量对比实验，结果表明，相比ASTGCN、时空同步图卷积网络（STSGCN）等时空预测模型，STHGCN在均方根误差（RMSE）、平均绝对误差（MAE）、平均绝对百分比误差（MAPE）这三个评价指标上均取得了更优的结果，不同模型运行时间的对比结果也表明，STHGCN有着更高的推理速度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

15. 基于Transformer的多轨音乐生成对抗网络

汪涛, 靳聪, 李小兵, 帖云, 齐林

《计算机应用》唯一官方网站 2021, 41 (12): 3585-3589. DOI: 10.11772/j.issn.1001-9081.2021060909

摘要（764）

HTML （20）

PDF （639KB）（319）

符号音乐的生成在人工智能领域中仍然是一个尚未解决的问题，面临着诸多挑战。经研究发现，现有的多音轨音乐生成方法在旋律、节奏及和谐度上均达不到市场所要求的效果，并且生成的音乐大多不符合基础的乐理知识。为了解决以上问题，提出一种新颖的基于Transformer的多音轨音乐生成对抗网络（Transformer-GAN），以乐理规则为指导来产生具有高音乐性的音乐作品。首先，采用Transformer的译码部分与在Transformer基础之上改编的Cross-Track Transformer（CT-Transformer）分别对单音轨内部及多音轨之间的信息进行学习；然后，使用乐理规则和交叉熵损失相结合的方法引导生成网络的训练，并在训练鉴别网络的同时优化精心设计的目标损失函数；最后，生成具有旋律性、节奏性及和谐性的多音轨音乐作品。实验结果表明，与其他多乐器音乐生成模型相比，在钢琴轨、吉他轨及贝斯轨上，Transformer-GAN的预测精确度（PA）最低分别提升了12%、11%及22%，序列相似度（SS）最低分别提升了13%、6%及10%，休止符指标最低分别提升了8%、4%及17%。由此可见，Transformer-GAN在加入了CT-Transformer及音乐规则奖励模块之后能有效提升音乐的PA、SS等指标，使生成的音乐质量整体上有较大的提升。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

16. 基于灰度域特征增强的行人重识别方法

龚云鹏, 曾智勇, 叶锋

《计算机应用》唯一官方网站 2021, 41 (12): 3590-3595. DOI: 10.11772/j.issn.1001-9081.2021061011

摘要（272）

HTML （12）

PDF （932KB）（137）

在显著的类内变化中所学特征是否具有较好的不变性会决定行人重识别（ReID）模型的性能表现的上限，环境光线、图像分辨率变化、运动模糊等因素都会引起行人图像的颜色偏差，这些问题将导致模型对数据的颜色信息过度拟合从而限制模型的性能表现。而模拟数据样本的颜色信息丢失并凸显样本的结构信息可以促进模型学习到更稳健的特征。具体来说，在模型训练时，按照所设定的概率随机选择训练数据批组，然后对所选中批组中的每一个RGB图像样本随机选取图像的一个矩形区域或者直接选取整张图像，并将所选区域的像素替换为相应灰度图像中相同的矩形区域的像素，从而生成包含不同灰度区域的训练图像。实验结果表明，所提方法与基准模型相比在平均精度均值（mAP）评价指标上最高提升了3.3个百分点，并在多个数据集上表现良好。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

17. 基于联合损失胶囊网络的换衣行人重识别

刘乾, 王洪元, 曹亮, 孙博言, 肖宇, 张继

《计算机应用》唯一官方网站 2021, 41 (12): 3596-3601. DOI: 10.11772/j.issn.1001-9081.2021061090

摘要（307）

HTML （14）

PDF （610KB）（144）

目前的行人重识别（Re-ID）研究主要集中在短时间情形，即一个人的衣着不太可能发生改变的情况。然而现实中更常见的是长时间的情况，这时一个人有很大的机会更换衣服，Re-ID模型应该考虑这种情况。为此，研究了一种基于联合损失胶囊网络的换衣行人重识别方法。所提方法基于换衣行人重识别胶囊网络ReIDCaps，使用与传统的标量神经元相比包含更多信息的矢量胶囊，用其长度表示行人身份信息，用其方向表示行人衣着信息；采用软嵌入注意力（SEA）防止模型过拟合；使用特征稀疏表示（FSR）机制提取具有判别性的特征；增加标签平滑正则化交叉熵损失与Circle Loss的联合损失以提高模型的泛化能力和鲁棒性。在三个换衣行人重识别数据集Celeb-reID、Celeb-reID-light和NKUP上进行实验，实验结果表明所提方法与目前已有的Re-ID方法相比具有一定优势。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

18. 基于人体骨骼关键点的吸烟行为检测算法

徐婉晴, 王保栋, 黄艺美, 李金屏

《计算机应用》唯一官方网站 2021, 41 (12): 3602-3607. DOI: 10.11772/j.issn.1001-9081.2021061063

摘要（515）

HTML （14）

PDF （1345KB）（265）

针对公共场所的监控视频中烟头目标较小并且吸烟产生的烟雾易发散，仅依靠目标检测算法检测烟头或者烟雾来判定吸烟行为存在较大难度的问题，考虑到利用骨骼关键点来进行姿态估计的算法越来越成熟，提出一种利用人体骨骼关键点和吸烟行为之间的关系来进行吸烟行为检测的算法。该算法首先利用AlphaPose和RetinaFace分别检测出人体骨骼关键点和脸部关键点信息，根据手腕到两嘴角中点和手腕到同侧眼睛的距离之比，提出一种计算人体的吸烟动作比例（SAR）是否属于吸烟动作黄金比例（GRSA）的方法以区分吸烟与非吸烟行为；再利用YOLOv4检测视频中是否存在烟头；最后结合GRSA判定和YOLOv4的结果来确定视频中存在吸烟行为的可能性高低，作出是否有吸烟行为的判定。经过笔者录制的数据集测试，结果表明所提算法可以准确检测到吸烟行为，准确率达到92%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

19. 基于迁移成分分析和支持向量机的肝移植并发症预测方法

曹鸿亮, 张莹, 武斌, 李繁菀, 那绪博

《计算机应用》唯一官方网站 2021, 41 (12): 3608-3613. DOI: 10.11772/j.issn.1001-9081.2021060886

摘要（240）

HTML （5）

PDF （699KB）（68）

已有很多机器学习算法能够很好地应对预测分类问题，但这些方法在用于小样本、大特征空间的医疗数据集时存在着预测准确率和F1值不高的问题。为改善肝移植并发症预测的准确率和F1值，提出一种基于迁移成分分析（TCA）和支持向量机（SVM）的肝移植并发症预测分类方法。该方法采用TCA进行特征空间的映射和降维，将源领域和目标领域映射到同一再生核希尔伯特空间，从而实现边缘分布自适应；迁移完成之后在源领域上训练SVM，训练完成后在目标领域上实现并发症的预测分析。在肝移植并发症预测实验中，针对并发症Ⅰ、并发症Ⅱ、并发症Ⅲa、并发症Ⅲb、并发症Ⅳ进行预测，与传统机器学习和渐进式对齐异构域适应（HDA）相比，所提方法的准确率提升了7.8%~42.8%，F1值达到85.0%~99.0%，而传统机器学习和HDA由于正负样本不均衡出现了精确率很高而召回率很低的情况。实验结果表明TCA结合SVM能够有效提高肝移植并发症预测的准确率和F1值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

20. 基于表示学习和深度森林的长链非编码RNA编码短肽预测模型

纪腾其, 孟军, 赵思远, 胡鹤还

《计算机应用》唯一官方网站 2021, 41 (12): 3614-3619. DOI: 10.11772/j.issn.1001-9081.2021061082

摘要（243）

HTML （14）

PDF （891KB）（91）

长链非编码RNA（lncRNA）中的小开放阅读框（sORFs）能够编码长度不超过100个氨基酸的短肽。针对短肽预测研究中lncRNA中的sORFs特征不鲜明且高可信度数据尚不充分的问题，提出一种基于表示学习的深度森林（DF）模型。首先，使用常规lncRNA特征提取方法对sORFs进行编码；其次，通过自编码器（AE）进行表示学习来获得输入数据的高效表示；最后，训练DF模型实现对lncRNA编码短肽的预测。实验结果表明，该模型在拟南芥数据集上能够达到92.08%的准确率，高于传统机器学习模型、深度学习模型以及组合模型，且具有较好的稳定性；此外，在大豆与玉米数据集上进行的模型测试中，该模型的准确率分别能达到78.16%和74.92%，验证了所提模型良好的泛化能力。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

21. 基于局部敏感布隆过滤器的工业物联网隐性异常检测

肖如良, 曾智霞, 肖晨凯, 张仕

《计算机应用》唯一官方网站 2021, 41 (12): 3620-3625. DOI: 10.11772/j.issn.1001-9081.2021061115

摘要（263）

HTML （9）

PDF （580KB）（87）

工业物联网（IIoT）系统中的传感器由于持续使用和正常磨损出现损坏，导致收集和记录的传感数据出现隐性异常。为解决该问题，提出一种基于局部敏感Bloom Filter（LSBF）模型的异常检测算法LSBFAD。首先利用基于空间划分的快速Johnson-Lindenstrauss变换（SP-FJLT）对数据进行哈希映射，然后采用相互竞争（MC）策略进行除噪，最后利用0-1编码构建Bloom Filter。在SIFT、MNIST和FMA三个基准数据集上进行的仿真实验中，LSBFAD算法的误报率（FAR）均低于10%。实验结果表明，基于LSBF的异常检测算法与当前主流的异常检测算法相比，具有较高的检测率（RD）和较低的误报率，可有效应用于IIoT数据的异常检测。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

22. 基于图卷积网络的迁移学习轴承服役故障诊断

彭雪莹, 江永全, 杨燕

《计算机应用》唯一官方网站 2021, 41 (12): 3626-3631. DOI: 10.11772/j.issn.1001-9081.2021060974

摘要（349）

HTML （8）

PDF （561KB）（249）

深度学习方法被广泛应用于轴承故障诊断，但在实际工程应用中，轴承服役期间的真实服役故障数据不易收集，缺乏数据标签，难以进行充分的训练。针对轴承服役故障诊断困难的问题，提出了一种基于图卷积网络（GCN）的迁移学习轴承服役故障诊断模型。该模型从数据充足的人工模拟损伤故障数据中学习故障知识，并迁移到真实的服役故障上，以提高服役故障的诊断准确率。具体来说，通过将人工模拟损伤故障数据和服役故障数据的原始振动信号由小波变换转换为同时具有时间和频率信息的时频图，并将得到的时频图输入到图卷积层中进行学习，从而有效地提取源域和目标域的故障特征表示；然后计算源域和目标域的数据分布之间的Wasserstein距离来度量两个数据分布之间的差异，通过最小化数据分布差异，构建了一个能诊断轴承服役故障的故障诊断模型。在不同的轴承故障数据集和不同工作条件下设计了多种不同的任务进行实验，实验结果表明，该模型具有诊断轴承服役故障的能力，同时也能从一个工作条件迁移到另一工作条件，在不同组件类型和不同工作条件之间进行故障诊断。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

23. 结合公司财务报表数据的股票指数预测方法

王基厚, 林培光, 周佳倩, 李庆涛, 张燕, 蹇木伟

《计算机应用》唯一官方网站 2021, 41 (12): 3632-3636. DOI: 10.11772/j.issn.1001-9081.2021061006

摘要（341）

HTML （7）

PDF （580KB）（110）

股票市场参与者的所有市场活动综合影响着股票市场的变化，使股票市场的波动充满复杂性，也使得准确预测股票价格成为难题。在这些影响股市变化的活动中，财务披露是预测股票指数变化的一种吸引人的且具有潜在财务回报的手段。为了应对股票市场的复杂变化，提出一种结合公司披露的财务报表数据进行股票指数预测的方法。该方法首先对股票指数历史数据和公司财务报表数据进行预处理，主要是对公司财务报表数据生成的高维矩阵进行降维，然后用双通道的长短期记忆（LSTM）网络对归一化后的数据进行预测研究。在上证50指数和沪深300指数数据集上的实验结果表明，该方法的预测效果优于仅使用股票指数历史数据的预测效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

24. 基于空间收缩技术的约束多目标进化算法

李二超, 毛玉燕

《计算机应用》唯一官方网站 2021, 41 (12): 3419-3425. DOI: 10.11772/j.issn.1001-9081.2021060887

摘要（310）

HTML （28）

PDF （979KB）（145）

约束多目标进化算法在求解不可行域较大的优化问题时对不可行域的合理探索不仅有助于种群快速收敛于可行区域内的最优解，还能减少无潜力不可行域对算法性能的影响。因此，提出一种基于空间收缩技术的约束多目标进化算法（CMOEA-SST）。首先，提出自适应精英保留策略对PPS算法的Pull阶段初始种群进行改进，增加Pull阶段初始种群的多样性和可行性；其次，在进化过程中采用空间收缩技术逐渐缩小搜索空间，减少无潜力不可行域对算法性能的影响，使算法在兼顾收敛性和多样性的同时提高收敛精度。为验证所提算法性能，将该算法与四个代表性算法C-MOEA/D、ToP、C-TAEA、PPS在LIRCMOP系列测试问题上进行仿真对比。实验结果表明，CMOEA-SST在处理不可行域较大约束优化问题时具有更好的收敛性和多样性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

25. 基于深度神经网络和门控循环单元的动态图表示学习方法

李慧博, 赵云霄, 白亮

《计算机应用》唯一官方网站 2021, 41 (12): 3432-3437. DOI: 10.11772/j.issn.1001-9081.2021060994

摘要（313）

HTML （15）

PDF （869KB）（125）

学习图中节点的潜在向量表示是一项重要且普遍存在的任务，旨在捕捉图中节点的各种属性。大量工作证明静态图表示已经能够学习到节点的部分信息，然而，真实世界的图是随着时间的推移而演变的。为了解决多数动态网络算法不能有效保留节点邻域结构和时态信息的问题，提出了基于深度神经网络（DNN）和门控循环单元（GRU）的动态网络表示学习方法DynAEGRU。该方法以自编码器作为框架，其中的编码器首先用DNN聚集邻域信息以得到低维特征向量，然后使用GRU网络提取节点时态信息，最后用解码器重构邻接矩阵并将其与真实图对比来构建损失。通过与几种静态图和动态图表示学习算法在3个数据集上进行实验分析，结果表明DynAEGRU具有较好的性能增益。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

26. 基于一致图学习的鲁棒多视图子空间聚类

潘振君, 梁成, 张化祥

《计算机应用》唯一官方网站 2021, 41 (12): 3438-3446. DOI: 10.11772/j.issn.1001-9081.2021061056

摘要（351）

HTML （14）

PDF （781KB）（137）

针对多视图数据分析易受原始数据集噪声干扰，以及需要额外的步骤计算聚类结果的问题，提出一种基于一致图学习的鲁棒多视图子空间聚类（RMCGL）算法。首先，在各个视图下学习数据在子空间中的潜在鲁棒表示，并基于该表示得到各视图的相似度矩阵。随后，基于得到的多个相似度矩阵学习一个统一的相似度图。最后，通过对相似度图对应的拉普拉斯矩阵添加秩约束，确保得到的相似度图具有最优的聚类结构，并可直接得到最终的聚类结果。该过程在一个统一的优化框架中完成，能同时学习潜在鲁棒表示、相似度矩阵和一致图。RMCGL算法的聚类精度（ACC）在BBC、100leaves和MSRC数据集上比基于图的多视图聚类（GMC）算法分别提升了3.36个百分点、5.82个百分点和5.71个百分点。实验结果表明，该算法具有良好的聚类效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

27. 基于核非负矩阵分解的有向图聚类算法

陈献, 胡丽莹, 林晓炜, 陈黎飞

《计算机应用》唯一官方网站 2021, 41 (12): 3447-3454. DOI: 10.11772/j.issn.1001-9081.2021061129

摘要（312）

HTML （9）

PDF （653KB）（87）

现有的有向图聚类算法大多基于向量空间中节点间的近似线性关系假设，忽略了节点间存在的非线性相关性。针对该问题，提出一种基于核非负矩阵分解（KNMF）的有向图聚类算法。首先，引入核学习方法将有向图的邻接矩阵投影到核空间，并通过特定的正则项约束原空间及核空间中节点间的相似性。其次，提出了图正则化核非对称NMF算法的目标函数，并在非负约束条件下通过梯度下降方法推导出一个聚类算法。该算法在考虑节点连边的方向性的同时利用核学习方法建模节点间的非线性关系，从而准确地揭示有向图中潜在的结构信息。最后，在专利-引文网络（PCN）数据集上的实验结果表明，簇的数目为2时，和对比算法相比，所提算法将DB值和DQF值分别提高了约0.25和8%，取得了更好的聚类质量。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

28. 基于图学习正则判别非负矩阵分解的人脸识别

杜汉, 龙显忠, 李云

《计算机应用》唯一官方网站 2021, 41 (12): 3455-3461. DOI: 10.11772/j.issn.1001-9081.2021060979

摘要（359）

HTML （16）

PDF （790KB）（128）

基于图正则非负矩阵分解（NMF）算法充分利用了高维数据通常位于一个低维流形空间的假设从而构造拉普拉斯矩阵，但该算法的缺点是构造出的拉普拉斯矩阵是提前计算得到的，并没有在乘性更新过程中对它进行迭代。为了解决这个问题，结合子空间学习中的自表示方法生成表示系数，并进一步计算相似性矩阵从而得到拉普拉斯矩阵，而且在更新过程中对拉普拉斯矩阵进行迭代。另外，利用训练集的标签信息构造类别指示矩阵，并引入两个不同的正则项分别对该类别指示矩阵进行重构。该算法被称为图学习正则判别非负矩阵分解（GLDNMF），并给出了相应的乘性更新规则和目标函数的收敛性证明。在两个标准数据集上的人脸识别实验结果显示，和现有典型算法相比，所提算法的人脸识别的准确率提升了1% ~ 5%，验证了其有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

29. 基于神经正切核的多核学习方法

王梅, 许传海, 刘勇

《计算机应用》唯一官方网站 2021, 41 (12): 3462-3467. DOI: 10.11772/j.issn.1001-9081.2021060998

摘要（271）

HTML （16）

PDF （510KB）（88）

多核学习方法是一类重要的核学习方法，但大多数多核学习方法存在如下问题：多核学习方法中的基核函数大多选择传统的具有浅层结构的核函数，在处理数据规模大且分布不平坦的问题时表示能力较弱；现有的多核学习方法的泛化误差收敛率大多为 $O 1 / n$ ，收敛速度较慢。为此，提出了一种基于神经正切核（NTK）的多核学习方法。首先，将具有深层次结构的NTK作为多核学习方法的基核函数，从而增强多核学习方法的表示能力。然后，根据主特征值比例度量证明了一种收敛速率可达 $O 1 / n$ 的泛化误差界；在此基础上，结合核对齐度量设计了一种全新的多核学习算法。最后，在多个数据集上进行了实验，实验结果表明，相比Adaboost和K近邻（KNN）等分类算法，新提出的多核学习算法具有更高的准确率和更好的表示能力，也验证了所提方法的可行性与有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

30. 基于上界单纯形投影图张量学习的多核聚类算法

雷皓云, 任珍文, 汪彦龙, 薛爽, 李浩然

《计算机应用》唯一官方网站 2021, 41 (12): 3468-3474. DOI: 10.11772/j.issn.1001-9081.2021061393

摘要（368）

HTML （7）

PDF （6316KB）（124）

近年来，多核图聚类（MKGC）受到了广泛的关注，这得益于多核学习能有效地避免核函数与核参数的选择，而图聚类能充分挖掘样本间的复杂结构信息。然而现有的MKGC方法存在着如下问题：图学习技术使得模型复杂化，图拉普拉斯矩阵的高秩特性使其难以保证学到的关系图包含精确的c个连通分量（块对角性质），以及大部分方法忽略了候选关系图间的高阶结构信息，使得多核信息难以被充分利用。针对以上问题，提出了一种新的MKGC方法。首先，提出一种新的上界单纯形投影图学习方法，直接将核矩阵投影到图单纯形上，降低了计算复杂度；同时，引入一种新的块对角约束，使学到的关系图能保持精确的块对角属性；此外，在上界单纯形投影空间中引入低秩张量学习来充分挖掘多个候选关系图的高阶结构信息。在多个数据集上与现有的MKGC方法相比，所提出方法计算量小、稳定性高，在聚类精度（ACC）和标准互信息（NMI）指标上具有较大的优势。

图表 | 参考文献 | 相关文章 | 多维度评价

虚拟专题文章