《计算机应用》唯一官方网站

二进制代码相似性搜索研究进展

夏冰, 庞建民, 周鑫, 单征

2022, 42(4): 985-998. DOI: 10.11772/j.issn.1001-9081.2021071267

摘要 ( )

HTML ( )

PDF (841KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着物联网和工业互联网的快速发展，网络空间安全的研究日益受到工业界和学术界的重视。由于源代码无法获取，二进制代码相似性搜索成为漏洞挖掘和恶意代码分析的关键核心技术。首先，从二进制代码相似性搜索基本概念出发，给出二进制代码相似性搜索系统框架；然后，围绕相似性技术系统介绍二进制代码语法相似性搜索、语义相似性搜索和语用相似性搜索的发展现状；其次，从二进制哈希、指令序列、图结构、基本块语义、特征学习、调试信息恢复和函数高级语义识别等角度总结比较现有解决方案；最后，展望二进制代码相似性搜索未来发展方向与前景。

基于正负效用划分的高效用模式挖掘方法综述

张妮, 韩萌, 王乐, 李小娟, 程浩东

2022, 42(4): 999-1010. DOI: 10.11772/j.issn.1001-9081.2021071268

摘要 ( )

HTML ( )

PDF (1254KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

高效用模式挖掘（HUPM）是新兴的数据科学研究内容之一，通过考虑事务数据库中项的单位利润和数量，以提取出更有用的信息。传统的HUPM方法假定所有项的效用值均为正，但是在实际应用中，某些数据项的效用值可能为负（如商品因产生亏损而导致利润值为负），含负项的模式挖掘与仅含正项的模式挖掘同样重要。首先，阐述了HUPM的相关概念，并分别给出相应正负效用的实例；然后，以正与负角度划分了HUPM方法，其中带有正效用的模式挖掘方法进一步以动态与静态的数据库新颖角度划分，带有负效用的模式挖掘方法中包括了基于先验、基于树、基于效用列表和基于数组等关键技术，并从不同方面对这些方法进行了讨论和总结；最后，给出了现有HUPM方法的不足和下一步研究方向。

自然语言处理在文本情感分析领域应用综述

王颖洁, 朱久祺, 汪祖民, 白凤波, 弓箭

2022, 42(4): 1011-1020. DOI: 10.11772/j.issn.1001-9081.2021071262

摘要 ( )

HTML ( )

PDF (783KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

文本情感分析已经逐渐成为自然语言处理（NLP）的重要内容，并在系统推荐、用户情感信息获取，为政府、企业提供舆情参考等领域越来越占据重要地位。通过文献调研的方式，对情感分析领域的方法进行对比和综述。首先，从时间、方法等维度对情感分析的方法进行文献调研；然后，对情感分析的主要方法、应用场景进行归纳总结和对比；最后，在此基础上分析每种方法的优缺点。根据分析结果可以知道，在面对不同的任务场景，主要有三种情感分析的方法：基于情感字典的情感分析法、基于机器学习的情感分析法和基于深度学习的情感分析法，基于多策略混合的方法成为改进的趋势。文献调研表明，文本情感分析的技术方法还有改进的空间，在电子商务、心理治疗、舆情监控方面有较大市场和发展前景。

基于深度学习的聚类综述

董永峰, 邓亚晗, 董瑶, 王雅琮

2022, 42(4): 1021-1028. DOI: 10.11772/j.issn.1001-9081.2021071275

摘要 ( )

HTML ( )

PDF (623KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

聚类是一种寻找数据之间内在结构的技术，是许多数据驱动应用领域的一个基本问题，而聚类性能在很大程度上取决于数据表示的质量。近年来，深度学习因其强大的特征提取能力被广泛地应用于聚类任务，以学习更好的特征表示，显著提高了聚类性能。首先，介绍了传统的聚类任务；然后，根据网络结构介绍了基于深度学习的聚类及代表性方法，指出了当前存在的问题，并介绍了基于深度学习的聚类在不同领域的应用；最后，对基于深度学习的聚类发展进行了总结与展望。

可穿戴脑电图设备关键技术及其应用综述

秦静, 孙法莉, HUI Fang, 汪祖民, 高兵, 季长清

2022, 42(4): 1029-1035. DOI: 10.11772/j.issn.1001-9081.2021071277

摘要 ( )

HTML ( )

PDF (725KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

可穿戴脑电图（EEG）设备是一种用于日常实时监测的无线EGG系统，因其便携性、实时性、无创性及低成本等优势迅速发展并得到广泛应用。该系统主要由信号采集模块、信号处理模块、微控制模块、通信模块及电源模块等硬件部分以及移动终端模块和云存储模块等软件部分组成。就可穿戴EEG设备关键技术进行论述。首先，阐述了对EGG信号采集模块的改进，另外对可穿戴EEG设备信号预处理模块、信号的降噪、伪影处理及特征提取技术进行比较；然后，对机器学习、深度学习分类算法的优缺点进行分析，并对穿戴式EEG设备的应用领域进行总结；最后，提出可穿戴EEG设备的关键技术未来的发展趋势。

基于卷积神经网络的机械故障诊断技术综述

汪祖民, 张志豪, 秦静, 季长清

2022, 42(4): 1036-1043. DOI: 10.11772/j.issn.1001-9081.2021071266

摘要 ( )

HTML ( )

PDF (532KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对传统机械故障诊断方法难以解决人工提取不确定性的问题，提出了大量深度学习的特征提取方法，极大地推动了机械故障诊断的发展。作为深度学习的典型代表，卷积神经网络（CNN）在图像分类、目标检测、图像语义分割等领域都取得了重大的发展，在机械故障诊断领域也有大量文献发表。为了进一步了解利用CNN的方法进行机械故障诊断的问题，首先简单介绍了CNN的相关理论，然后从数据输入类型、迁移学习、预测等方面对CNN在机械故障诊断中的应用进行了归纳总结，最后展望了CNN及其在机械故障诊断应用中的发展方向。

基于卷积神经网络的图像分类算法综述

季长清, 高志勇, 秦静, 汪祖民

2022, 42(4): 1044-1049. DOI: 10.11772/j.issn.1001-9081.2021071273

摘要 ( )

HTML ( )

PDF (605KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

卷积神经网络（CNN）是目前基于深度学习的计算机视觉领域中重要的研究方向之一。它在图像分类和分割、目标检测等的应用中表现出色，其强大的特征学习与特征表达能力越来越受到研究者的推崇。然而，CNN仍存在特征提取不完整、样本训练过拟合等问题。针对这些问题，介绍了CNN的发展、CNN经典的网络模型及其组件，并提供了解决上述问题的方法。通过对CNN模型在图像分类中研究现状的综述，为CNN的进一步发展及研究方向提供了建议。

融合实体描述信息和邻居节点特征的知识表示学习方法

焦守龙, 段友祥, 孙歧峰, 庄子浩, 孙琛皓

2022, 42(4): 1050-1056. DOI: 10.11772/j.issn.1001-9081.2021071227

摘要 ( )

HTML ( )

PDF (671KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

知识图谱表示学习旨在将实体和关系映射到一个低维稠密的向量空间中。现有的大多数相关模型更注重于学习三元组的结构特征，忽略了三元组内的实体关系的语义信息特征和三元组外的实体描述信息特征，因此知识表达能力较差。针对以上问题，提出了一种融合多源信息的知识表示学习模型BAGAT。首先，结合知识图谱特征来构造三元组实体目标节点和邻居节点，并使用图注意力网络（GAT）聚合三元组结构的语义信息表示；然后，使用BERT词向量模型对实体描述信息进行嵌入表示；最后，将两种表示方法映射到同一个向量空间中进行联合知识表示学习。实验结果表明，BAGAT性能较其他模型有较大提升，在公共数据集FB15K-237链接预测任务的Hits@1与Hits@10指标上，与翻译模型TransE相比分别提升了25.9个百分点和22.0个百分点，与图神经网络模型KBGAT相比分别提升了1.8个百分点和3.5个百分点。可见，融合实体描述信息和三元组结构语义信息的多源信息表示方法可以获得更强的表示学习能力。

基于无采样协作知识图网络的推荐系统

蒋雯静, 熊熙, 李中志, 李斌勇

2022, 42(4): 1057-1064. DOI: 10.11772/j.issn.1001-9081.2021071255

摘要 ( )

HTML ( )

PDF (679KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

知识图谱（KG）可以通过高效组织海量数据实现信息的有效抽取，因而基于知识图谱的推荐方法得到了广泛的研究和应用。针对图神经网络在知识图谱建模中的采样误差问题，提出了一种无采样协作知识图网络（NCKN）的方法。首先，设计了无采样知识传播模块，通过在单个卷积层使用不同大小的线性聚合器来捕捉深层次的信息，实现高效的无采样预计算；然后，为了区分邻居节点贡献度，在传播过程中引入注意力机制；最后，协作传播模块将知识嵌入同用户交互中的协作信号相结合，以更好地描述用户偏好。基于三个真实数据集，评估了NCKN在CTR预测和Top-k预测中的性能。实验结果表明，与主流算法RippleNet、知识图卷积神经网络（KGCN）相比，NCKN在CTR预测中的准确率平均分别提升了2.71%、4.60%；Top-k预测中，NCKN的准确率平均分别提升了5.26%、3.91%。所提方法不仅解决了图神经网络在知识图谱建模中的采样误差问题，且提升了推荐模型的准确率。

基于改进Inception结构的知识图谱嵌入模型

余晓鹏, 何儒汉, 黄晋, 张俊杰, 胡新荣

2022, 42(4): 1065-1071. DOI: 10.11772/j.issn.1001-9081.2021071265

摘要 ( )

HTML ( )

PDF (570KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

知识图谱嵌入（KGE）将实体和关系映射到低维连续向量空间中，以利用机器学习方法实现关系数据的应用，如知识分析、推理、补全等。以ConvE为代表将卷积神经网络（CNN）应用于知识图谱嵌入中，以捕捉实体和关系的交互信息，但其标准卷积捕捉特征交互信息能力不足，特征表达能力低下。针对特征交互能力不足问题，提出了一种改进的Inception结构，在此基础上构建一个知识图谱嵌入模型InceE。首先，该结构使用混合空洞卷积替代标准卷积，以提高特征交互信息捕捉能力；其次，使用残差网络结构，以减少特征信息丢失。实验使用基准数据集Kinship、FB15k、WN18验证InceE链接预测有效性。在Kinship、FB15k数据集上，相较于ArcE和QuatRE模型，InceE的Hit@1分别提升了1.6和1.5个百分点；在三个数据集上，与ConvE对比，InceE的Hit@1分别提升了6.3、20.8和1.0个百分点。实验结果表明InceE具有更强的特征交互信息捕捉能力。

知识图谱增强的科普文本分类模型

唐望径, 许斌, 仝美涵, 韩美奂, 王黎明, 钟琦

2022, 42(4): 1072-1078. DOI: 10.11772/j.issn.1001-9081.2021071278

摘要 ( )

HTML ( )

PDF (1056KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

科普文本分类是将科普文章按照科普分类体系进行划分的任务。针对科普文章篇幅超过千字，模型难以聚焦关键信息，造成传统模型分类性能不佳的问题，提出一种结合知识图谱进行两级筛选的科普长文本分类模型，来减少主题无关信息的干扰，提升模型的分类性能。首先，采用四步法构建科普领域的知识图谱；然后，将该知识图谱作为距离监督器，并通过训练句子过滤器来过滤掉无关信息；最后，使用注意力机制对过滤后的句子集做进一步的信息筛选，并实现基于注意力的主题分类模型。在所构建的科普文本分类数据集（PSCD）上的实验结果表明，基于领域知识图谱的知识增强的文本分类算法模型具有更高的F1-Score，相较于TextCNN模型和BERT模型，在F1-Score上分别提升了2.88个百分点和1.88个百分点，验证了知识图谱对于长文本信息筛选的有效性。

基于知识图偏好注意力网络的长短期推荐模型及其更新方法

顾军华, 樊帅, 李宁宁, 张素琪

2022, 42(4): 1079-1086. DOI: 10.11772/j.issn.1001-9081.2021071242

摘要 ( )

HTML ( )

PDF (785KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

目前，知识图谱推荐的研究主要集中在模型建立和训练上。然而在实际应用中，需要使用增量更新方法定期更新模型来适应新用户和老用户偏好的改变。针对大部分该类模型仅利用用户的长期兴趣表示做推荐，而没有考虑用户的短期兴趣且聚合邻域实体得到项目向量表示时聚合方式的可解释性不足，以及更新模型的过程中存在灾难性遗忘的问题，提出基于知识图偏好注意力网络的长短期推荐（KGPATLS）模型及其更新方法。首先，通过KGPATLS模型提出偏好注意力网络的聚合方式以及结合用户长期兴趣和短期兴趣的用户表示方法；然后，为了缓解更新模型存在的灾难性遗忘问题，提出融合预测采样和知识蒸馏的增量更新方法（FPSKD）。将提出的KGPATLS模型和FPSKD方法在MovieLens-1M和Last.FM两个数据集上进行实验。相较于最优基线模型知识图谱卷积网络（KGCN），KGPATLS模型的曲线下面积（AUC）指标在两个数据集上分别有2.2%和1.4%的提升，准确率（Acc）指标分别有2.5%和2.9%的提升。在两个数据集上对比FPSKD与三个基线增量更新方法Fine Tune、Random Sampling、Full Batch，FPSKD在AUC和Acc指标上优于Fine Tune、Random Sampling，在训练时间指标上FPSKD分别降低到Full Batch的大约1/8和1/4。实验结果验证了KGPATLS模型的性能，而FPSKD在保持模型性能的同时可以高效地更新模型。

融合协同过滤信息的知识图注意力网络

顾军华, 王锐, 李宁宁, 张素琪

2022, 42(4): 1087-1092. DOI: 10.11772/j.issn.1001-9081.2021071269

摘要 ( )

HTML ( )

PDF (558KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

知识图谱（KG）能够缓解协同过滤算法存在的数据稀疏和冷启动问题，在推荐领域被广泛地研究和应用。现有的很多基于KG的推荐模型混淆了用户物品二部图中的协同过滤信息和KG中实体间的关联信息，导致学习到的用户向量和物品向量无法准确表达其特征，甚至引入与用户、物品无关的信息从而干扰推荐。针对上述问题提出一种融合协同信息的知识图注意力网络（KGANCF）。首先，为了避免KG实体信息的干扰，网络的协同过滤层从用户物品二部图中挖掘出用户和物品的协同过滤信息；然后，在知识图注意力嵌入层中应用图注意力机制，从KG中继续提取与用户和物品密切相关的属性信息；最后，在预测层将用户物品的协同过滤信息和KG中的属性信息融合，得到用户和物品最终向量表示，进而预测用户对物品的评分。在MovieLens-20M和Last.FM数据集上进行了实验，与协同知识感知注意力网络（CKAN）相比，KGANCF在MovieLens-20M数据集上的F1分数提升了1.1个百分点，曲线下面积（AUC）提升了0.6个百分点；而在KG相对稀疏的Last.FM数据集上，模型的F1分数提升了3.3个百分点，AUC提升了8.5个百分点。实验结果表明，KGANCF能够有效提高推荐结果的准确度，在KG稀疏的数据集上显著优于协同知识嵌入（CKE）、知识图谱卷积网络（KGCN）、知识图注意网络（KGAT）和CKAN模型。

融合多时间尺度和特征加强的知识图谱推荐模型

张素琪, 王鑫鑫, 佘世耀, 顾军华

2022, 42(4): 1093-1098. DOI: 10.11772/j.issn.1001-9081.2021071241

摘要 ( )

HTML ( )

PDF (582KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有的知识图谱推荐模型没有考虑到用户的周期特征以及待推荐项目会对用户近期兴趣产生影响的问题，提出一种融合多时间尺度和特征加强的知识图谱推荐模型（MTFE）。首先，采用长短期记忆（LSTM）网络在不同时间尺度上挖掘用户的周期特征并融入到用户表示中；然后，通过注意力机制挖掘待推荐项目中与用户近期特征相关性较强的特征，将其加强后融入项目表示中；最后，通过评分函数计算用户对待推荐项目的评分。在真实数据集Last.FM、MovieLens-1M和MovieLens-20M上把所提模型和个性化实体推荐（PER）、协同知识嵌入（CKE）、LibFM、RippleNet、知识图卷积网络（KGCN）、协同知识感知注意网络（CKAN）等知识图谱推荐模型进行对比。实验结果表明，在三个数据集上MTFE相较于表现最优的对比模型的F1性能分别提升了0.78、1.63和1.92个百分点，AUC指标在三个数据集上分别提升了3.94、2.73和1.15个百分点。可见，所提模型相较于对比图谱推荐模型有更好的推荐效果。

基于情感词典和堆叠残差的双向长短期记忆网络的情感分析

罗浩然, 杨青

2022, 42(4): 1099-1107. DOI: 10.11772/j.issn.1001-9081.2021071179

摘要 ( )

HTML ( )

PDF (887KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

情感分析作为自然语言处理（NLP）的细分研究方向经历了使用情感词典、机器学习和深度学习分析的发展过程。针对使用一般化的深度学习模型作为文本分类器对于特定领域的网络评论类型的文本的分析的精准度较低，训练时发生过拟合现象以及情感词典覆盖率低、编纂工作量大的问题，提出了基于情感词典和堆叠残差的双向长短期记忆（Bi-LSTM）网络的情感分析模型。首先，借助情感词典中情感词的设计覆盖“教育机器人”研究领域内的专业词汇，从而弥补Bi-LSTM模型在分析此类文本时精准度的不足；然后，使用Bi-LSTM和SnowNLP来降低情感词典的编纂体量。长短期记忆（LSTM）网络的“记忆门”“遗忘门”结构可以在保证充分考虑评论文本中的前后词语的关联性的同时，适时选择遗忘一些已分析词语，从而避免反向传播时的梯度爆炸问题。而在将堆叠残差的Bi-LSTM引入后，不仅使得模型的层数加深至8层，而且还使残差网络避免了叠加LSTM时会导致的“退化”问题；最后，通过适当设置和调整两部分的得分权重，并将总分使用Sigmoid激活函数标准化到［0，1］的区间上，按照［0，0.5］，（0.5，1］的区间划分分别表示负面和正面情绪，完成情感分类。实验结果表明，在“教育机器人”评论数据集中，所提模型对于情感分类准确率相较于标准的LSTM模型提升了约4.5个百分点，相较于BERT提升了约2.0个百分点。综上，所提模型将基于情感词典和深度学习模型的情感分类方法一般化；而通过修改情感词典中的情感词汇并适当调整深度学习模型的结构和层数，所提模型可以应用于电子商务平台中各类商品的购物评价的精确情感分析，从而帮助企业洞悉消费者的购物心理和市场需求，同时也可以为消费者提供商品质量的一种参考标准。

结合广义自回归预训练语言模型与循环卷积神经网络的文本情感分析方法

潘列, 曾诚, 张海丰, 温超东, 郝儒松, 何鹏

2022, 42(4): 1108-1115. DOI: 10.11772/j.issn.1001-9081.2021071180

摘要 ( )

HTML ( )

PDF (728KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

传统的机器学习方法在对网络评论文本进行情感极性分类时，未能充分挖掘语义信息和关联信息，而已有的深度学习方法虽能提取语义信息和上下文信息，但该过程往往是单向的，在获取评论文本的深层语义信息过程中存在不足。针对以上问题，提出了一种结合广义自回归预训练语言模型（XLNet）与循环卷积神经网络（RCNN）的文本情感分析方法。首先，利用XLNet对文本进行特征表示，并通过引入片段级递归机制和相对位置信息编码，充分利用了评论文本的语境信息，从而有效提升了文本特征的表达能力；然后，利用RCNN对文本特征进行双向训练，并在更深层次上提取文本的上下文语义信息，从而提升了在情感分析任务中的综合性能。所提方法分别在三个公开数据集weibo-100k、waimai-10k和ChnSentiCorp上进行了实验，准确率分别达到了96.4%、91.8%和92.9%。实验结果证明了所提方法在情感分析任务中的有效性。

结合BERT和特征投影网络的新闻主题文本分类方法

张海丰, 曾诚, 潘列, 郝儒松, 温超东, 何鹏

2022, 42(4): 1116-1124. DOI: 10.11772/j.issn.1001-9081.2021071257

摘要 ( )

HTML ( )

PDF (1536KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对新闻主题文本用词缺乏规范、语义模糊、特征稀疏等问题，提出了结合BERT和特征投影网络（FPnet）的新闻主题文本分类方法。该方法包含两种实现方式：方式1将新闻主题文本在BERT模型的输出进行多层全连接层特征提取，并将最终提取到的文本特征结合特征投影方法进行提纯，从而强化分类效果；方式2在BERT模型内部的隐藏层中融合特征投影网络进行特征投影，从而通过隐藏层特征投影强化提纯分类特征。在今日头条、搜狐新闻、THUCNews-L、THUCNews-S数据集上进行实验，实验结果表明上述两种方式相较于基线BERT方法在准确率、宏平均F1值上均具有更好的表现，准确率最高分别为86.96%、86.17%、94.40%和93.73%，验证了所提方法的可行性和有效性。

支持中文医疗问答的基于注意力机制的栈卷积神经网络模型

滕腾, 潘海为, 张可佳, 牟雪莲, 张锡明, 陈伟鹏

2022, 42(4): 1125-1130. DOI: 10.11772/j.issn.1001-9081.2021071272

摘要 ( )

HTML ( )

PDF (726KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

当前的中文问答匹配技术大多都需要先进行分词，中文医疗文本的分词问题需要维护医学词典来缓解分词错误对后续任务影响，而维护词典需要大量人力和知识，致使分词问题一直具有极大的挑战性。同时，现有的中文医疗问答匹配方法都是对问题和答案分开建模，并未考虑问题和答案中各自包含的关键词汇间的关联关系。因此，提出了一种基于注意力机制的栈卷积神经网络（Att-StackCNN）模型来解决中文医疗问答匹配问题。首先，使用字嵌入对问题和答案进行编码以得到二者各自的字嵌入矩阵；然后，通过利用问题和答案的字嵌入矩阵构造注意力矩阵来得到二者各自的特征注意力映射矩阵；接着，利用栈卷积神经网络（Stack-CNN）模型同时对上述矩阵进行卷积操作，从而得到问题和答案各自的语义表示；最后，进行相似度计算，并利用相似度计算最大边际损失以更新网络参数。所提模型在cMedQA数据集上的Top-1正确率比Stack-CNN模型高接近1个百分点，比Multi-CNNs模型高接近0.5个百分点。实验结果表明，Att-StackCNN模型可以提升中文医疗问答匹配效果。

改进的联邦加权平均算法

罗长银, 王君宇, 陈学斌, 马春地, 张淑芬

2022, 42(4): 1131-1136. DOI: 10.11772/j.issn.1001-9081.2021071264

摘要 ( )

HTML ( )

PDF (468KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对基于层次分析改进的联邦平均算法在计算其数据质量时存在主观因素的影响，提出改进的联邦加权平均算法，从数据质量的角度来处理多源数据。首先，将训练样本划分为预训练样本与预测试样本；然后，使用初始全局模型在预训练数据上的精度作为该数据源的质量权重；最后，将质量权重引入到联邦平均算法中，重新进行全局模型中权重更新。仿真结果表明，在均等分割的数据集与非均等分割的数据集上，改进的联邦加权平均算法训练的模型与传统联邦平均算法训练的模型相比，准确率最高分别提升了1.59%和1.24%；改进的联邦加权平均算法训练的模型与传统整合多方数据再训练的模型相比，虽然准确率略有下降，但数据与模型的安全性有所提升。

基于动态加权函数的集成分类算法

王乐, 韩萌, 李小娟, 张妮, 程浩东

2022, 42(4): 1137-1147. DOI: 10.11772/j.issn.1001-9081.2021071259

摘要 ( )

HTML ( )

PDF (838KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对数据流集成分类如何使分类器适应不断变化的数据流，调整基分类器的权重选择合适的分类器集合的问题，提出了一种基于动态加权函数的集成分类算法。首先，提出了一种加权函数调节基分类器的权重，使用不断更新的数据块训练分类器；然后，使用一个新的权重函数对候选分类器进行一个合理的选择；最后，在基分类器中应用决策树的增量性质，实现对数据流的分类。通过大量实验发现，基于动态加权函数的集成分类算法的性能不受块的大小影响，与AUE2算法相比，叶子数平均减少了681.3、节点数平均减少了1 192.8，树的深度平均减少了4.42，同时相对地提高了准确率，降低了消耗时间。实验结果表明该算法在对数据流进行分类时不但可以保证准确率还可以节省大量的内存空间和时间。

基于随机分块的稀疏子空间聚类方法

张琦, 郑伯川, 张征, 周欢欢

2022, 42(4): 1148-1154. DOI: 10.11772/j.issn.1001-9081.2021071271

摘要 ( )

HTML ( )

PDF (734KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对稀疏子空间聚类（SSC）方法聚类误差大的问题，提出了基于随机分块的SSC方法。首先，将原问题数据集随机分成几个子集，构建几个子问题；然后，采用交替方向乘子法（ADMM）分别求得几个子问题的系数矩阵，之后将几个系数矩阵扩充成与原问题一样大小的系数矩阵，并整合成一个系数矩阵；最后，根据整合得到的系数矩阵计算得到一个相似矩阵，并采用谱聚类（SC）算法获得原问题的聚类结果。相较于稀疏子空间聚类（SSC）、随机稀疏子空间聚类（S³COMP-C）、基于正交匹配追踪的稀疏子空间聚类（SSCOMP）、谱聚类（SC）和K均值（K-Means）算法中的最优算法，基于随机分块的SSC方法将子空间聚类误差平均降低了3.12个百分点，且其互信息、兰德指数和熵3个性能指标都明显优于对比算法。实验结果表明基于随机分块的SSC方法能降低子空间聚类误差，改善聚类性能。

融合节点覆盖范围和结构洞的影响力最大化算法

杨杰, 张名扬, 芮晓彬, 王志晓

2022, 42(4): 1155-1161. DOI: 10.11772/j.issn.1001-9081.2021071256

摘要 ( )

HTML ( )

PDF (829KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

影响力最大化是社交网络分析中的一个重要问题，旨在挖掘可以使得信息在网络中传播范围最大化的一小组节点（通常称为种子节点）。基于网络拓扑结构的启发式影响力最大化算法通常仅考虑某单一的网络中心性，没有综合考虑节点特性和网络拓扑结构，导致其效果受网络结构的影响较大。为了解决上述问题，提出了一种融合覆盖范围和结构洞的影响力最大化算法NCSH。该算法首先计算所有节点的覆盖范围和网格约束系数；然后通过覆盖范围增益最大原则选择种子节点；其次，若存在多个节点增益相同，则按照网格约束系数最小原则选取；最后，重复上述步骤直至选出所有种子节点。NCSH在不同种子数量和不同传播概率条件下，在六个真实网络数据集上均保持着优异的效果，在影响力传播范围方面，比同类的基于节点覆盖范围的算法（NCA）平均提高了3.8%；在时间消耗方面，比同类的基于结构洞和度折扣的最大化算法（SHDD）减少了43%。实验结果表明，NCSH能有效解决影响力最大化问题。

融合K-shell和标签熵的重叠社区发现算法

陈晶, 刘江川, 魏娜娜

2022, 42(4): 1162-1169. DOI: 10.11772/j.issn.1001-9081.2021071183

摘要 ( )

HTML ( )

PDF (616KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对标签传播算法稳定性不足、准确性较差的问题，提出了融合K-shell和标签熵的标签传播重叠社区发现算法OCKELP。首先，采用K-shell算法减少了标签初始化时间，并利用标签熵的更新序列提高了算法的稳定性；其次，引入综合影响力进行标签选择，并将社区层次信息和节点局部信息融合提高了算法的准确性。在真实网络数据集上，OCKELP相较于重叠社区发现算法（COPRA）、基于多核心标签传播的重叠社区识别方法（OMKLP）、SLPA的模块度最大提升分别约68.64%、53.99%、42.29%，在人工网络数据集的归一化互信息（NMI）值上，OCKELP相较于其他三种算法也有着明显优势，且随着重叠节点隶属社区数量的增加可以挖掘出社区的真实结构。

基于标签分层延深建模的企业画像构建方法

丁行硕, 李翔, 谢乾

2022, 42(4): 1170-1177. DOI: 10.11772/j.issn.1001-9081.2021071248

摘要 ( )

HTML ( )

PDF (1076KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

标签建模是标签体系建设和画像构建的基本任务。而传统标签建模方法存在模糊标签处理难、标签提取不合理，以及无法有效融合多模实体和多维关系等问题。针对以上问题提出了一种基于标签分层延深建模的企业画像构建方法EPLLD。首先，通过多源信息融合获取多特征信息，并对企业模糊标签（如批发、零售等行业中的不能完整概括企业特点的标签）进行统计和筛选；然后，建立专业领域词库进行特征拓展，并结合BERT语言模型进行多特征提取；其次，利用双向长短期记忆（BiLSTM）网络获取模糊标签延深结果；最后，通过TF-IDF、TextRank、隐含狄利克雷分布（LDA）模型提取关键词，从而实现标签的分层延深建模。在同一企业数据集上进行实验分析，结果表明在模糊标签延深任务中EPLLD的精确率达到91.11%，高于BiLSTM+Attention、BERT+Deep CNN等8种标签处理方法。

基于多属性综合评价的食品安全标准引用网络重要节点发现方法

郝志刚, 秦丽

2022, 42(4): 1178-1185. DOI: 10.11772/j.issn.1001-9081.2021071245

摘要 ( )

HTML ( )

PDF (838KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对如何利用食品安全标准引用网络来从众多的食品安全国家标准中找到对食品安全检验、检测影响较大的关键标准，提出了一种基于多属性综合评价的食品安全标准引用网络重要节点发现方法。首先，利用社交网络分析中的度中心性、紧密度中心性、介数中心性以及Web页面重要度评价算法PageRank，分别对标准节点的重要性进行评价；然后，使用层次分析法（AHP）计算各个评价指标在重要性评价中的权重，通过基于逼近理想解排序法（TOPSIS）的多属性决策方法综合评价标准节点的重要性并寻找到重要节点；其次，将基于综合评价得到的重要节点与基于度的评价得到的重要节点分别从各自的引用网络中删除，并检验重要节点删除后引用网络的连通性，连通性越差，说明节点越重要；最后，使用Louvain社区发现算法检验网络的连通性，即对网络节点进行社区发现，没有被划入社区的节点越多，说明网络的连通性越差。实验结果表明，相较于基于度的评价方法，基于多属性的综合评价方法发现的重要节点被删除后不能划入社区的节点更多，证明后者能更好地发现引用网络中的重要节点。可见所提方法有助于标准制定者在修改、更新标准时，快速把握核心内容与关键节点，对食品安全国家标准的体系构建起到指导作用。

基于趋化校正的哈里斯鹰优化算法

朱诚, 潘旭华, 张勇

2022, 42(4): 1186-1193. DOI: 10.11772/j.issn.1001-9081.2021071244

摘要 ( )

HTML ( )

PDF (786KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对哈里斯鹰优化（HHO）算法收敛速度慢、易陷入局部最优的缺点，提出了一种改进HHO算法，即基于趋化校正（CC）的哈里斯鹰优化（CC-HHO）算法。首先，通过计算最优解下降率和变化权重来识别收敛曲线的状态；其次，将细菌觅食优化（BFO）算法的CC机制引入局部搜索阶段来提高寻优的精确性；再次，将生物在运动时的能量消耗规律融入逃逸能量因子和跳跃距离的更新过程中，从而更好地平衡算法的探索与开发；然后，对最优解和次优解的不同组合进行精英选择来拓展算法全局搜索的广泛性；最后，当搜索陷入局部最优时，通过对逃逸能量施加扰动来实现强制跳出。通过10个基准函数对改进算法的性能进行测试，结果显示CC-HHO算法对单峰函数的搜索精度比引力搜索算法（GSA）、粒子群优化（PSO）算法、鲸优化算法（WOA）以及另外4种改进的HHO算法提升超过10个数量级；对多峰函数也有超过1个数量级的优势；在保证搜索稳定性平均提升超过10%的前提下，所提算法的收敛速度明显优于上述几种优化算法，收敛趋势更加明显。实验结果表明，CC-HHO算法有效地提高了原算法的搜索效率和鲁棒性。

深度强化学习解决动态旅行商问题

陈浩杰, 范江亭, 刘勇

2022, 42(4): 1194-1200. DOI: 10.11772/j.issn.1001-9081.2021071253

摘要 ( )

HTML ( )

PDF (795KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对未设计启发式算法的组合优化问题设计统一的解决方案已成为机器学习领域的一个研究热点，目前成熟的技术主要针对静态的组合优化问题，但是对于加入动态变化的组合优化问题还没有得到充分的解决。为了解决以上问题，提出一个将多头注意力机制与分层强化学习结合来求解动态图上的旅行商问题的轻量级模型Dy4TSP。首先，用以多头注意力机制为基础的预测网络处理来自图卷积神经网络的节点表征向量输入；然后，借助分布式强化学习算法训练来快速地预估图中每个节点被输出作为最优解的可能性，使得模型在不同的可能性中全面探索问题的最优解决方案空间；最后，训练后的模型将实时地生成满足具体目标奖励函数的动作决策序列。该模型在3个组合优问题上进行了评估，实验结果表明，该模型在经典旅行商系列问题中解的质量比开源求解器LKH3高0.15~0.37个单位，明显优于带有边嵌入的图注意网络（EGATE）等最新的算法；并且在其他的动态旅行商问题中可以达到0.1~1.05的最优路径差距，结果也略胜一筹。

基于麻雀搜索算法和改进粒子群优化算法的网络入侵检测算法

高兵, 郑雅, 秦静, 邹启杰, 汪祖民

2022, 42(4): 1201-1206. DOI: 10.11772/j.issn.1001-9081.2021071276

摘要 ( )

HTML ( )

PDF (616KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对网络入侵检测模型自适应能力不足的问题，将麻雀搜索算法（SSA）中的大范围快速搜索能力引入到粒子群优化（PSO）算法，提出基于麻雀搜索算法的改进粒子群优化（SSAPSO）算法。该算法通过对轻量级梯度提升机（LightGBM）算法中难以整定的参数进行寻优，使PSO算法在保证寻优精度的同时快速收敛，并得到最优的网络入侵检测模型。仿真实验结果表明，在4种基准函数上，SSAPSO比基本PSO算法收敛速度更快；在KDDCUP99数据集上，SSAPSO优化LightGBM后得到的SSAPSO-LightGBM算法比分类特征和梯度提升（CatBoost）算法的准确率、召回率、精确率和F1指数分别提升了15.12%、3.25%、21.26%和12.25%；SSAPSO-LightGBM算法在上述数据集中正常流量（Normal）、未授权远程访问（R2L）攻击、未授权本地访问（U2R）攻击、监听（PROBE）攻击的检测准确率比LightGBM算法分别提升了0.61%、3.14%、4.24%、1.04%和5.03%。

基于改进一维卷积和双向长短期记忆神经网络的故障诊断方法

董永峰, 孙跃华, 高立超, 韩鹏, 季海鹏

2022, 42(4): 1207-1215. DOI: 10.11772/j.issn.1001-9081.2021071243

摘要 ( )

HTML ( )

PDF (2185KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对工业领域中故障诊断数据存在时序性和夹杂强噪声的特点导致的收敛速度慢以及诊断精度低的问题，提出了一种基于改进一维卷积和双向长短期记忆（1DCNN-BiLSTM）神经网络融合的故障诊断方法。该方法包括故障振动信号的预处理、特征的自动提取以及振动信号的分类。首先，采用自适应白噪声的完整经验模态分解（CEEMDAN）技术对原始振动信号进行预处理；其次，构建1DCNN-BiLSTM双通道模型，将处理后信号输入双向长短期记忆（BiLSTM）神经网络模型和一维卷积神经网络（1DCNN）模型两个通道，从而对信号的时序相关性特征、局部空间的非相关性特征和弱周期性规律进行充分提取；然后，针对信号夹杂强噪声的问题，对压缩与激励网络（SENet）模块进行改进并将其作用于两个不同的通道；最后，输入全连接层将双通道提取的特征进行融合并借助Softmax分类器实现对设备故障的精确识别。使用凯斯西储大学轴承数据集进行实验，结果表明改进后的SENet模块同时作用于1DCNN通道和stacked BiLSTM通道，1DCNN-BiLSTM双通道模型在保证快速收敛的情况下有最高诊断精度96.87%，优于传统单通道模型，有效提高了机械设备故障诊断效率。

无线供能移动边缘计算系统的安全卸载优化

曾续玲, 李陶深, 巩健, 杜利俊

2022, 42(4): 1216-1224. DOI: 10.11772/j.issn.1001-9081.2021071254

摘要 ( )

HTML ( )

PDF (827KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对能量受限的多用户移动边缘计算（MEC）系统存在恶意窃听节点的问题，提出一种联合无线能量传输（WPT）和MEC的安全部分计算卸载方案。该方法以系统接入点（AP）能耗最小化为优化目标，在计算延迟、安全卸载和能量捕获约束条件下，联合优化AP能量传输协方差矩阵、本地CPU频率、用户卸载比特数、用户卸载时间分配以及用户传输功率。针对AP能耗最小化问题为非凸问题，首先采用凸差分算法（DCA）将原始非凸问题转换为凸问题，然后采用拉格朗日对偶法以半封闭形式获得问题最优解。当计算任务数为5×10⁵比特时，与本地计算和安全全部计算卸载方法相比，安全部分卸载方案的能量消耗分别降低了61.3%和84.4%；当窃听节点距离超过25 m时，安全部分卸载方案所消耗的能量远小于本地计算和安全全部计算卸载。仿真实验结果表明，在保证物理层安全卸载的情况下，所提方案能够有效降低AP能耗、提高系统性能增益。

基于场景变化的传输控制协议拥塞控制切换方案

赖涵光, 李清, 江勇

2022, 42(4): 1225-1234. DOI: 10.11772/j.issn.1001-9081.2021050722

摘要 ( )

HTML ( )

PDF (1097KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对轻量级基于学习的拥塞控制算法在某些场景下性能表现会出现断崖式下滑的问题，提出了一种基于场景变化的传输控制协议拥塞控制切换方案。首先，该方案模拟实时的网络环境；然后，根据实时的环境参数来识别场景；最后，将当前的拥塞控制算法切换至该场景下相对最优的轻量级基于学习的拥塞控制算法。实验结果表明，所提方案相较于原来使用单个拥塞控制算法的方案，例如测量瓶颈链路带宽和时延的拥塞控制（BBR）方案、面向性能的拥塞控制（PCC）方案等，可以使不同场景下的网络性能得到显著提升，总吞吐量增幅达到5%以上，总时延降幅达到10%以上。

基于联邦增量学习的工业物联网数据共享方法

刘晶, 董志红, 张喆语, 孙志刚, 季海鹏

2022, 42(4): 1235-1243. DOI: 10.11772/j.issn.1001-9081.2021071182

摘要 ( )

HTML ( )

PDF (763KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对工业物联网（IIOT）新增数据量大、工厂子端数据量不均衡的问题，提出了一种基于联邦增量学习的IIOT数据共享方法（FIL-IIOT）。首先，将行业联合模型下发到工厂子端作为本地初始模型；然后，提出联邦优选子端算法来动态调整参与子集；最后，通过联邦增量学习算法计算出工厂子端的增量加权，从而使新增状态数据与原行业联合模型快速融合。实验结果表明，在美国凯斯西储大学（CWRU）轴承故障数据集上，所提FIL-IIOT使轴承故障诊断精度达到93.15%，比联邦均值（FedAvg）算法和无增量公式的FIL-IIOT（FIL-IIOT-NI）方法分别提高了6.18个百分点和2.59个百分点，满足了基于工业增量数据的行业联合模型持续优化的需求。

基于局部冗余混合编码的故障快速恢复方法

刘靖宇, 牛秋霞, 李萧言, 史巧硕, 武优西

2022, 42(4): 1244-1252. DOI: 10.11772/j.issn.1001-9081.2021111917

摘要 ( )

HTML ( )

PDF (926KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

最大距离可分（MDS）码中校验块均为全局校验块，重构链长度随着存储系统规模扩大而增长，重构性能逐渐降低。针对上述问题提出一种新型的非最大距离可分（Non-MDS）码：局部冗余混合编码Code-LM（s，c）。首先，为缩小重构链长度，任意条带单元组内只有局部校验块，分别为组内水平校验块和水平对角校验块，并设计了局部冗余混合编码的校验布局；然后，根据不同校验块的生成规则，设计了失效数据块的4种重构方式，不同失效块的重构链具有公共块；最后，根据两个故障磁盘所在条带单元组距离不同，将双盘故障分为3种情况，并设计了对应的重构算法。理论分析和实验结果表明，存储规模相同时，与RDP相比，Code-LM（s，c）的单盘重构时间和双盘重构时间可减少84%和77%；与V²-Code相比，Code-LM（s，c）的单盘重构时间和双盘重构时间可减少67%和73%。因此局部冗余混合编码可支持故障磁盘快速恢复，提高存储系统可靠性。

基于改进卷积神经网络与支持向量机结合的面部表情识别算法

乔桂芳, 侯守明, 刘彦彦

2022, 42(4): 1253-1259. DOI: 10.11772/j.issn.1001-9081.2021071270

摘要 ( )

HTML ( )

PDF (1504KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对当前卷积神经网络（CNN）利用端层特征进行面部表情识别存在模型结构繁琐、训练参数过多、识别不够理想的问题，提出一种基于改进CNN与支持向量机（SVM）相结合的优化算法。首先，利用连续卷积的思想设计网络模型，以获取更多非线性激活；然后，采用自适应全局平均池化（GAP）层取代传统CNN中的全连接层，以减少网络参数量；最后，用SVM分类器代替传统Softmax函数实现表情识别，以提高模型泛化能力。实验结果表明，所提算法在Fer2013和CK+数据集上分别取得了73.4%和98.06%的识别准确率，与传统LeNet-5算法相比，在Fer2013数据集上提升了2.2个百分点，且该网络模型结构简单、参数量较少，具有良好的鲁棒性。

基于自注意力机制时频谱同源特征融合的鸟鸣声分类

刘志华, 陈文洁, 陈爱斌

2022, 42(4): 1260-1268. DOI: 10.11772/j.issn.1001-9081.2021071258

摘要 ( )

HTML ( )

PDF (1376KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点，提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先，使用卷积神经网络（CNN）提取鸟鸣声梅尔时频谱特征；然后，使用特定的卷积以及下采样操作，将同一梅尔时频谱特征的时域和频域维度分别压缩至1，得到仅包含鸟鸣声高低特性的频域特征以及连续特性的时域特征。基于上述提取频域以及时域特征的操作，在时域和频域维度上同时对梅尔时频谱特征进行提取，得到具有连续性以及高低特性的时频域特征。然后，将自注意力机制分别用于得到的时域、频域、时频域特征以加强其各自拥有的特性。最后，将这三类同源谱图特征决策融合后的结果用于鸟鸣声分类。所提模型用于Xeno-canto网站的8种鸟类音频分类，并在分类对比实验中取得了平均精确率（MAP）为0.939的较好结果。实验结果表明该模型能应对复杂背景噪声下的鸟鸣声分类效果较差的问题。

级联跨域特征融合的虚拟试衣

胡新荣, 张君宇, 彭涛, 刘军平, 何儒汉, 何凯

2022, 42(4): 1269-1274. DOI: 10.11772/j.issn.1001-9081.2021071274

摘要 ( )

HTML ( )

PDF (1058KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

基于图像合成蒙版策略的虚拟试衣技术在扭曲服装和人体融合时能较好地保留服装细节。然而由于在试衣过程中人体和服装的位置和结构难以对齐，试衣结果容易产生严重的遮挡，影响视觉效果。为解决试衣过程中的遮挡问题，提出了一种基于U-Net的生成器。该生成器在U-Net解码器上添加级联的空间和通道注意力模块，从而实现了着装人体的局部特征和扭曲服装的和全局特征的跨域融合。形式上，首先采用卷积网络预测薄板样条插值（TPS）变换的方法将服装根据目标人体姿态进行扭曲；然后，将着装人体解析信息和扭曲服装输入到提出的生成器中，并获取对应服装区域的掩码图像以渲染中间结果；最后，采用掩码合成的策略来通过掩码处理将扭曲服装与中间结果合成得到最终的试衣结果。实验结果表明，所提方法不仅可以减少遮挡，而且增强了图像细节，相较于CP-VTON方法，产生的图像的平均峰值信噪比（PSNR）提高了10.47%，平均FID减小了47.28%，平均结构相似性（SSIM）提高了4.16%。

基于自适应双阈值的地下目标自动检测算法

李海丰, 赵碧帆, 侯谨毅, 王怀超, 桂仲成

2022, 42(4): 1275-1283. DOI: 10.11772/j.issn.1001-9081.2021071263

摘要 ( )

HTML ( )

PDF (1999KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在使用探地雷达（GPR）生成的Bscan图像进行地下目标检测时，当前基于深度学习的目标检测网络模型存在训练样本需求量高、耗时长，不能区分目标显著程度，难以识别复杂目标等问题。针对以上问题，提出一种基于直方图的双阈值分割算法。首先，根据地下目标的GPR图像直方图分布特性，快速从直方图中计算出分割地下目标所需的两个阈值；然后，采用支持向量机（SVM）和LeNet的组合分类器模型对分割结果进行分类识别；最后，进行分类结果整合并统计精确度数值。相较于传统的最大类间方差法（Ostu）、迭代法等阈值分割算法，所提算法获得的地下目标分割结果结构更加完整，并且几乎不含噪声。在真实数据集上，所提算法的平均识别准确率达到了90%以上，比仅使用单一分类器的平均识别准确率提高40%以上。实验结果表明，所提算法能够同时有效分割显著和非显著性地下目标，且采用的组合分类器能够获得更好的分类结果，适用于小样本数据集的地下目标自动检测和识别。

结合长尾数据解决方法的野生动物目标检测

蔡前舟, 郑伯川, 曾祥银, 侯金

2022, 42(4): 1284-1291. DOI: 10.11772/j.issn.1001-9081.2021071279

摘要 ( )

HTML ( )

PDF (4784KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

基于红外相机图像的野生动物目标检测有利于研究和保护野生动物。由于不同种类的野生动物数量差别大，红外相机采集到的野生动物数据集存在种类数量分布不均的长尾数据问题，进而影响目标检测神经网络模型的整体性能提升。针对野生动物的长尾数据导致的目标检测精度低的问题，提出了一种基于两阶段学习和重加权相结合的长尾数据解决方法，并将该方法用于基于YOLOv4-Tiny的野生动物目标检测。首先，采集、标注并构建了一个新的野生动物数据集，该数据集具有明显的长尾数据特征；其次，采用基于迁移学习的两阶段方法训练神经网络，第一阶段在分类损失函数中采用无加权方式进行训练，而在第二阶段提出了两种改进的重加权方法，并以第一阶段所得权重作为预训练权重进行重加权训练；最后，对野生动物测试集进行测试。实验结果表明，在分类损失采用交叉熵损失函数和焦点损失函数下，所提出的长尾数据解决方法达到了60.47%和61.18%的平均精确率均值（mAP），相较于无加权方法在两种损失函数下分别提高了3.30个百分点和5.16个百分点，相较于所提改进的有效样本加权方法在焦点损失函数下提高了2.14个百分点，说明该方法能提升YOLOv4-Tiny网络对具有长尾数据特征的野生动物数据集的目标检测性能。

基于改进YOLOv5的安全帽佩戴检测算法

张锦, 屈佩琪, 孙程, 罗蒙

2022, 42(4): 1292-1300. DOI: 10.11772/j.issn.1001-9081.2021071246

摘要 ( )

HTML ( )

PDF (7633KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有安全帽佩戴检测干扰性强、检测精度低等问题，提出一种基于改进YOLOv5的安全帽检测新算法。首先，针对安全帽尺寸不一的问题，使用K-Means++算法重新设计先验框尺寸并将其匹配到相应的特征层；其次，在特征提取网络中引入多光谱通道注意力模块，使网络能够自主学习每个通道的权重，增强特征间的信息传播，从而加强网络对前景和背景的辨别能力；最后，在训练迭代过程中随机输入不同尺寸的图像，以此增强算法的泛化能力。实验结果表明，在自制安全帽佩戴检测数据集上，所提算法的均值平均精度（mAP）达到96.0%，而对佩戴安全帽的工人的平均精度（AP）达到96.7%，对未佩戴安全帽的工人的AP达到95.2%，相较于YOLOv5算法，该算法对佩戴安全帽的平均检测准确率提升了3.4个百分点，满足施工场景下安全帽佩戴检测的准确率要求。

软件定义网络环境下的低速率拒绝服务攻击检测方法

刘向举, 路小宝, 方贤进, 尚林松

2022, 42(4): 1301-1307. DOI: 10.11772/j.issn.1001-9081.2021061100

摘要 ( )

HTML ( )

PDF (610KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

低速率拒绝服务（LDoS）攻击是一种拒绝服务（DoS）攻击改进形式，因其攻击平均速率低、隐蔽性强，使得检测LDoS攻击成为难点。针对上述难点，提出了一种在软件定义网络（SDN）的架构下，基于加权均值漂移-K均值算法（WMS-Kmeans）的LDoS攻击检测方法。首先，通过获取OpenFlow交换机的流表信息，分析并提取出SDN环境下LDoS攻击流量的六元组特征；然后，利用平均绝对值百分比误差作为均值漂移聚类中欧氏距离的权值，以此产生的簇心作为K-Means的初始中心对流表进行聚类，从而实现LDoS攻击的检测。实验结果表明：在SDN环境下，所提方法对LDoS攻击具有较好的检测性能，平均检测率达到99.29%，平均误警率和平均漏警率分别为1.97%和0.69%。

基于卷积神经网络的时频域CT重建算法

李昆鹏, 张鹏程, 上官宏, 王燕玲, 杨婕, 桂志国

2022, 42(4): 1308-1316. DOI: 10.11772/j.issn.1001-9081.2021050876

摘要 ( )

HTML ( )

PDF (3307KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对采用时域滤波器解析重建后图像存在伪影和图像细节丢失等问题，提出了一种基于卷积神经网络（CNN）的时频域计算机断层扫描（CT）重建算法。首先，在频域中构建了基于卷积神经网络的滤波器网络，实现投影数据的频域滤波；其次，利用反投影操作算子对频域滤波后结果进行域转换得到重建图像；接着，在图像域构建网络对来自反投影层的图像进行处理；最后，在采用最小均方误差损失函数基础上引入多尺度结构相似度损失函数组成复合损失函数，减轻神经网络对结果图像的模糊效应，保留重建图像细节。图像域网络和投影域滤波网络联合作用，最终得到重建结果。在临床数据集上验证了所提算法的有效性，相较于滤波反投影（FBP）算法、全变分（TV）算法及图像域残差编解码CNN（RED-CNN）算法，当投影数目分别为180和90时，所提算法重建结果图像信噪比（PSNR）和结构相似度（SSIM）最高，且归一化均方根误差（NMSE）最小；当投影数目为360时，所提算法仅次于TV算法。实验结果表明，所提算法可以提高CT图像重建图像质量，是一种可行且有效的方法。

当期目录