《计算机应用》唯一官方网站

基于混合注意力机制的动态人脸表情识别

刘希未, 宫晓燕, 赵红霞, 边思宇, 邵帅, 戴亚平, 代文鑫

2023, 43(S1): 1-7. DOI: 10.11772/j.issn.1001-9081.2022101472

摘要 ( )

HTML ( )

PDF (1469KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对自然环境中存在人脸遮挡、姿势变化等复杂因素，以及卷积神经网络（CNN）中的卷积滤波器由于空间局部性无法学习大多数神经层中不同面部区域之间的长程归纳偏差的问题，提出一种用于动态人脸表情识别（DFER）的混合注意力机制模型（HA-Model），以提升DFER的鲁棒性和准确性。HA-Model由空间特征提取和时序特征处理两部分组成：空间特征提取部分通过两种注意力机制——Transformer和包含卷积块注意力模块（CBAM）的网格注意力模块，引导网络从空间角度学习含有遮挡、姿势变化的鲁棒面部特征并关注人脸局部显著特征；时序特征处理部分通过Transformer引导网络学习高层语义特征的时序联系，用于学习人脸表情特征的全局表示。实验结果表明，HA-Model在DFEW和AFEW基准上的准确率分别达到了67.27%和50.41%，验证了HA-Model可以有效提取人脸特征并提升动态人脸表情识别的精度。

基于马赛克自编码器的多场景行人检测优化方法

丁正彦, 尚岩峰, 王勇

2023, 43(S1): 8-14. DOI: 10.11772/j.issn.1001-9081.2022060936

摘要 ( )

HTML ( )

PDF (4492KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

现阶段多场景下的行人检测模型存在的主要问题在于训练数据样本多样性不足，在开放的测试环境下效果较差，不同场景之间存在数据鸿沟。针对上述问题，提出了一种基于马赛克自编码器（MAE）的多场景行人检测优化方法。首先，采用随机生成方法对原始训练数据进行自动扩充；然后，围绕数据、模型和结果等重要影响因素，分别对检测模型训练前中后三个阶段进行优化；最后，实现从通用大模型到专用小任务的自适应迁移。实验结果表明，在不增加额外标注数据的情况下，在多个公开数据集之间进行场景迁移，以常用的Caltech Pedestrian作为目标数据集，与当前最优结果Pedestron方法对比，在Reasonable、Small和Heavy子数据集上的每张图片误检率（FPPI）分别下降0.4个百分点、0.7个百分点和2.6个百分点，从而验证了模型泛化性的显著提升；另一方面，针对实际应用构建多场景行人检测数据集，验证集的平均准确率（AP）提升1.9个百分点，进一步验证MAE生成数据对模型准确性的提升作用。

基于Transformer时间特征聚合的步态识别模型

邓帆, 曾渊, 刘博文, 姜博源, 钟重阳, 夏时洪

2023, 43(S1): 15-18. DOI: 10.11772/j.issn.1001-9081.2022060836

摘要 ( )

HTML ( )

PDF (1097KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

步态识别是最有前途的基于视频生物识别技术之一。目前，大多数步态识别方法更着重于提升神经网络提取空间特征的能力，而忽视在时间维度上特征的聚合。针对步态识别中缺乏时间维度特征提取能力的问题，提出了一种基于Transformer时间特征聚合的步态识别模型。首先，步态剪影序列通过卷积神经网络提取特征，与位置编码结合；然后，在时间维度上使用Transformer编码器聚合时间特征；最后，连接线性分类层实现步态识别。在最流行的步态识别数据集CASIA-B上进行实验，所提模型比GaitSet模型识别准确度在NM#5-6上提升了3.4个百分点，BG#1-2上提升了1.5个百分点，CL#1-2上提升了11.6个百分点。实验结果表明，Transformer提升了网络对时间维度特征的聚合能力，并且降低了模型对外套和携带物的敏感性。

基于卷积神经网络和Adaboost的心脏病预测模型

谭朋柳, 徐光勇, 张露玉, 王润庶

2023, 43(S1): 19-25. DOI: 10.11772/j.issn.1001-9081.2022111686

摘要 ( )

HTML ( )

PDF (2809KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

借助计算机技术，使用年龄、性别等基本特征预测心脏病的易感性，对心脏病的早期预测和防治具有重要意义。针对基于机器学习的心脏病预测模型准确率不高的问题，提出一种基于卷积神经网络（CNN）和Adaboost的心脏病预测模型CNN-Adaboost。首先，对原始数据进行预处理，结合特征相关性与特征组合算法融合两两属性特征，并升维数据，使各属性特征充分融合；然后，通过CNN进行充分的特征提取；最后，结合Adaboost机器学习算法建立心脏病预测模型。UCI数据集上的测试结果表明，CNN-Adaboost预测模型优于K近邻（KNN）等传统机器学习模型和K近邻?随机森林（KNN-RF）等优化模型，准确率、AUC、查准率和查全率可达到0.917、0.95、0.924与0.85。CNN-Adaboost模型具有良好的分类效果，能为医患人员进行心脏病预测与预防提供帮助。

利用3D-RepVGG进行阿尔兹海默症诊断

胡众义, 张夏彬

2023, 43(S1): 26-32. DOI: 10.11772/j.issn.1001-9081.2022081240

摘要 ( )

HTML ( )

PDF (1709KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

阿尔兹海默症（AD）临床症状为失忆、失语与丧失行动能力等。AD暂无有效治疗方法，但早期干预已证明有效，因此，AD早期诊断至关重要。针对该问题，基于RepVGG网络架构中的结构重参数化技术，将训练阶段的多分支卷积网络等效转换为预测阶段的单分支卷积网络，获得多分支卷积网络性能高与单分支卷积网络速度快等优点；同时，利用3D卷积引入空间连续信息；最终，成功地将RepVGG网络架构与3D卷积融合，提出3D-RepVGG网络，以实现对AD、轻度认知障碍（MCI）和正常对照组（NC）的诊断。实验数据来自于公开数据库ADNI，原始的磁共振图像（MRI）使用SPM12进行预处理。预处理后数据输入3D-RepVGG进行AD/NC、MCI/NC、AD/MCI、AD/MCI/NC四种分类任务，分别获得了90.38%、85.90%、70.51%、62.50%的准确率。实验结果表明，3D-RepVGG在AD早期诊断任务上能获得较好的诊断结果。

面向长文本的两阶段文本匹配模型TP-TM

王佳睿, 彭程, 范敏

2023, 43(S1): 33-38. DOI: 10.11772/j.issn.1001-9081.2022111740

摘要 ( )

HTML ( )

PDF (1363KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对传统文本匹配方法无法学习文本间深度语义匹配特征，深度短文本匹配模型难以捕获长文本细粒度匹配信号等问题，提出一种面向长文本的两阶段文本匹配模型TP-TM（Two-Phase Text Matching）。首先使用句子级过滤器过滤噪声句并提取关键句，然后将所获关键句输入词语级过滤器，利用融入了改进版删减策略的BERT（Bidirectional Encoder Representations from Transformers）模型挖掘文本间深度交互特征，对关键句进行词语级噪声过滤和细粒度匹配操作，最终通过拼接BERT不同位置特征预测文本对关系。在中文长文本公开新闻数据集CNSE（Chinese News Same Event）和CNSS（Chinese News Same Story）上进行实验，结果显示，相较于基线模型，TP-TM模型在CNSE和CNSS数据集上的准确率分别提升了0.99和1.55个百分点，F1值分别提升了0.98和1.46个百分点，有效提升了长文本匹配任务的准确度。

基于BERT的图像和文本多模态融合分类模型

李佳欣, 苏曙光

2023, 43(S1): 39-44. DOI: 10.11772/j.issn.1001-9081.2022091362

摘要 ( )

HTML ( )

PDF (2446KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在临床诊断过程中，医生会同时结合医学图像和病理报告文本综合判定病情。针对现有的人工智能（AI）辅助诊断系统未充分利用文本检查内容的问题，提出一种基于BERT模型的图文多模态分类模型（ITMMB），在特征层实现医学图像和病理文本的多模态融合和分类。采用残差网络（ResNet）对图像预处理获得图像词嵌入向量，同时采用分词技术处理文本获得文本嵌入词向量，并将两类嵌入词向量送入BERT模型完成最终分类；此外，为适应BERT模型需要并获得更好的分类性能，优化了ResNet的残差模块、学习权重、损失函数和池化层。在Open Images数据集上的实验结果表明，与仅通过单一的医学图像或病理文本进行辅助诊断的模型相比，ITMMB的微平均F1分数分别提高38.76和4.66个百分点，能有效辅助医生临床诊断。

基于孪生网络的离线手写签名鉴别算法

尤庆丽, 李国勇

2023, 43(S1): 45-48. DOI: 10.11772/j.issn.1001-9081.2023010095

摘要 ( )

HTML ( )

PDF (529KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对通过伪造他人手写签名所带来的隐私安全问题，提出一种融合注意力机制和孪生网络的离线手写签名鉴别算法。首先，通过融合孪生网络与CBAM（Convolutional Block Attention Module）提取手写签名特征；然后，利用全局平均池化层直接实现特征图的降维，并防止网络过拟合；最后，采取一种自动确定阈值的方法来确定真伪手写签名鉴别时的最佳阈值。以SigNet为基础作出以上改进，并以CEDAR（the Center of Excellence for Document Analysisand Recognition）、Bangla和Hindi这3个手写签名数据集为例，对所提算法的准确率和泛化性能进行了实验验证。实验结果表明，与改进前算法SigNet相比，所提算法在数据集CEDAR上维持了100%的准确率，并在数据集Hindi和Bangla的鉴别准确率上分别提高了1.68个百分点和6.73个百分点，验证了所提算法的有效性。

基于图卷积神经网络的虚假新闻检测

倪铭远, 邓宏涛, 高望

2023, 43(S1): 49-55. DOI: 10.11772/j.issn.1001-9081.2022101606

摘要 ( )

HTML ( )

PDF (724KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

当前检测虚假新闻的方法往往依赖于人工设计的特征，并且需要提供大量如用户信息、传播路径等不宜获取的隐私信息，使得模型泛化性较差。针对上述问题，提出一种基于图卷积网络（GCN）和预训练ALBERT（A-Lite-Bidirectional Encoder Representations from Transformers）构建的新闻检测模型GCN-ALBERT。首先，利用GCN捕获文本全局信息，提取新闻文本的全局语义信息；其次，利用自注意力机制融合ALBERT生成的局部信息与全局信息；最后，建立包含局部信息和全局信息的分类表示，从而实现虚假新闻检测。实验结果表明，所提模型在两个真实的英文数据集上与预训练语言模型BERT（Bidirectional Encoder Representations from Transformers）相比，宏F1值分别提高了3.0%和4.2%。所提模型能够有效融合新闻文本的全局信息和局部信息，准确率更高。

面向金融网页数据的异构表格信息提取模型

徐宛扬, 李文根, 关佶红

2023, 43(S1): 56-60. DOI: 10.11772/j.issn.1001-9081.2022071112

摘要 ( )

HTML ( )

PDF (1723KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

从异构网页表格中提取实体、关系、属性等信息是构建金融知识图谱和知识库的一项重要任务。然而，现有网页表格信息提取方法大多高度依赖于维基百科、FreeBase等外部知识库，并且不能有效提取商品价格、公司总资产等动态变化的金融数值属性信息。因此，针对金融网页数据缺少外部知识库支撑，以及需要同时有效处理文本型信息和数值型信息这两个挑战，提出了面向金融网页数据的异构表格信息提取（HTIE）模型。HTIE主要由基于规则的无监督表格抽取模块和基于多核卷积神经网络的表格解释模块组成，在不使用外部知识库的情况下，可以有效地从网页中识别出异构表格所在位置并对它规范化，并且能基于少量标注数据同时处理表格中的文本型信息和数值型信息。根据在真实金融网页表格数据集上的实验评估，HTIE可以有效提取和识别金融网络表格中的实体、关系及数值类型的属性信息。与现有方法相比，HTIE在精度、召回率和F1值上分别至少提升了4.2%、2.5%和14.6%。

基于相互学习和SoftLexicon的中文命名实体识别模型

陈田, 黄泓毓, 杨东升, 董淑婷

2023, 43(S1): 61-66. DOI: 10.11772/j.issn.1001-9081.2022060921

摘要 ( )

HTML ( )

PDF (1568KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

中文自然语言文本中实体边界区分难、语法复杂度大，中文命名实体识别（NER）难度往往比英文命名实体识别大。针对中文NER中分词误差传播的问题，提出一种基于相互学习和SoftLexicon的中文命名实体识别模型MM-SLLattice。首先，向字级别表示的句子中加入词信息的模型；然后，在词信息的引入过程中通过结合开放词典与领域词典信息来提高模型的精度；最后，在训练过程中，引入了深度相互学习减小泛化误差提高模型的性能。实验结果表明，该模型在不同类型的中文数据集的实体识别能力有提升，MM-SLLattice在MSRA数据集上F1值为94.09%，比独立网络提高了0.41个百分点，对比实验中F1值也优于其他主流模型协同图形网络（CGN）、卷积注意力网络（CAN）、LR-CNN。所提模型可以更精确地提取中文实体。

面向法律判决文书的长文档抽取式文摘方法——BIGDCNN

赵嘉昕, 崔喆

2023, 43(S1): 67-74. DOI: 10.11772/j.issn.1001-9081.2022050710

摘要 ( )

HTML ( )

PDF (1874KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对法律判决文书信息点较多、结构化程度较高，传统的抽取式文摘方法容易产生冗余句子且无法覆盖全部关键信息的问题，提出BIGDCNN（BERT based Improved Gate Dilated Convolutional Neural Network）模型。首先将原始数据进行语料转换获取序列标注数据，再通过预训练语言模型BERT（Bidirectional Encoder Representations from Transformers）得到从词粒度到句子粒度的长文本表示；最后使用融合了改进门机制的膨胀卷积神经网络（DCNN）以及单模型融合方法，实现低冗余度提取原文关键信息的同时增强抗干扰性，并减小了梯度消失的风险。在法律判决文书自动文摘实验中，本模型的ROUGE-1、ROUGE-2、ROUGE-L评分为62.85%、46.56%、59.25%，较主流模型BERT+Transformer分别提升了15.10、15.75、12.97个百分点。BIGDCNN模型解决了传统抽取式文摘方法的问题，可以高效地运用在法律判决文书的自动文摘场景中。

基于知识图谱与BERT的安全领域汉字文本纠错模型

王子斌, 张全, 谢聪, 余沛, 余泓江, 李沣庭

2023, 43(S1): 75-80. DOI: 10.11772/j.issn.1001-9081.2022030474

摘要 ( )

HTML ( )

PDF (1953KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对安全领域所涉及的文本中存在大量人为混淆的文字的问题，提出一种基于汉字知识图谱的BERT（Bidirectional Encoder Representation from Transformers）预训练模型，表征汉字的读音、字形、语义三个维度的特征，构建纠错算法。首先，构建汉字知识图谱刻画汉字的读音、字形拆解、繁简转换、汉字与数字转换等属性和关系，并基于汉字知识图谱中的读音属性和node2vec模型训练得到汉字读音向量；其次，基于知识图谱中字形关系构建node2vec模型，得到node2vec字形向量，并结合卷积神经网络（CNN）方法训练字形向量，两者之和作为最终的字形向量；最后，基于BERT预训练模型，融合读音、字形、语义三维度的向量，并在不同维度间使用自注意力机制加权求和，发现错误字位置并选择正确的候选字。为验证所提模型的有效性，在安全领域诈骗短信数据集上，将所提模型与FASpell、SpellGCN、Soft-Masked BERT进行了对比。实验结果表明，所提模型的正确率和召回率比FASpell分别提升了24.7、21.6个百分点，比SpellGCN分别提升了22.2、13.7个百分点，比Soft-Masked BERT分别提升了20.8、32.7个百分点。可见该纠错模型能够有效识别安全领域文本的错字，在网络诈骗文本分类、要素提取等下游任务中有较好的效果。

基于可微分架构搜索的端到端场景文字检测及识别算法

刘嘉艺, 曹冬平, 钟勇

2023, 43(S1): 81-87. DOI: 10.11772/j.issn.1001-9081.2022081138

摘要 ( )

HTML ( )

PDF (2936KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在自然场景文字检测和识别任务中，现有大多数方法的文字检测和文字识别过程相对独立，导致这些方法处理速度较慢；此外，这些方法的训练和推理过程较为复杂，并且手工设计合理的架构比较困难。针对以上这些问题，基于可微分架构搜索方法提出了多分支自动选择网络（MBASNet），该网络由数个多分支自动选择块（MBASB）组成。MBASB能在不显著增加计算量的情况下通过自动搜索检测和识别性能较优的子分支结构，组合多个MBASB得到整个检测和识别网络。所提出的MBASNet可以同时训练检测子网络和识别子网络，降低文字检测和识别任务中网络的训练和推理难度，提高对文字的检测和识别速度。MBASNet在ICDAR2013数据集上取得了89.4%的精确率和91.4%的召回率，在ICDAR15数据集上取得了80.5%的精确率和86.8%的召回率，并且计算速度达到了每秒68帧。

基于文本挖掘的物流服务水平评价方法

陈清化, 薛书琦, 龚壮壮, 曹润康

2023, 43(S1): 88-94. DOI: 10.11772/j.issn.1001-9081.2022071087

摘要 ( )

HTML ( )

PDF (585KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

物流服务水平评价是物流企业及电商平台提高客户满意率、增加顾客忠诚度的重要基础。传统方法一般是基于评价指标体系结合权重设计对物流服务水平进行评价，这些方法往往存在指标不全面、评价过程主观性强的问题。为解决这些问题，提出基于文本情感计算模型的物流服务水平评价方法。在现有开源词典基础上，加入网络情感词典，通过词频-逆文档频率（TF-IDF）关键词提取算法及词频排序建立适用于物流服务评价的词典。语义规则部分，考虑句间关系和句型关系，优化情感单元及语义计算规则，从词语级、分句级到复句级的角度依次对物流服务关键句评论进行情感得分计算，根据得分作出评价。以京东和淘宝平台内电子产品、服装及生鲜3类产品的评论文本为对象进行实验验证。实验结果表明：1）所提方法在精确率、召回率及F值指标上均明显优于支持向量机（SVM）、卷积神经网络（CNN）分类的结果，分别平均提高约17%和33%；且比单独使用物流领域情感词典或优化后计算规则的结果分别平均提高约17%和18%；2）综合3类产品的评论，京东的平均物流服务满意率高于淘宝，两个平台的3类产品中生鲜类商品的平均物流服务满意率最高，服装类的平均满意率最低。

基于改进Wide&Deep的卷烟焦油指标预测模型

周涛, 谢立华, 王啸飞

2023, 43(S1): 95-99. DOI: 10.11772/j.issn.1001-9081.2022050736

摘要 ( )

HTML ( )

PDF (1676KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对卷烟焦油指标预测任务中历史卷烟数据样本具有小样本和高维度的特点，导致模型预测准确度偏低的问题，提出一种基于改进Wide&Deep的卷烟焦油指标预测模型。首先通过多个机器学习模型对数据样本进行预测，并将得到的结果作为模型新特征；然后将机器学习模型得到的新特征输入到Wide&Deep模型的Wide端，同时构建融合特征输入到Wide&Deep模型的Deep端，并在Deep端通过引入二阶特征和注意力机制构建注意力特征交叉层实现特征的高阶组合以提高模型预测的准确度。实验结果表明，所提模型与未经过改进的Wide&Deep模型相比，平均绝对误差（MAE）降低了23.4%，均方根误差（RMSE）降低了21.8%；与基于卷积神经网络提取特征的改进Wide&Deep模型相比，MAE降低了15.0%，RMSE降低了16.4%；有效提升了卷烟焦油指标预测任务的准确度。

Learned Index和B-Tree在不同分布数据上的性能对比及优化

沈怡琪, 蔡鹏, 刘松灵

2023, 43(S1): 100-106. DOI: 10.11772/j.issn.1001-9081.2022091372

摘要 ( )

HTML ( )

PDF (4188KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

Learned Index是一种通过训练模型来建立输入数据和存储位置之间映射关系的索引，它能学习到数据间分布的信息，而不同的数据分布将影响模型训练准确率和模型复杂度之间的平衡。为了探索Learned Index适用的场景，使用不同分布、不同数据量的数据对它和加以优化的可更新的自适应学习索引（ALEX）进行性能测试，并与B-Tree进行对比，最终发现Learned Index构建大批量数据的索引时间比B-Tree短，读操作性能、存储空间大小有明显的优势，但写操作性能较差，因此得出Learned Index更适用于大数据情景下的在线分析处理（OLAP）数据库，用于静态数据的存储和查询操作的结论。基于B-Tree的索引结构，对初版Learned Index的结构进行了优化和调整，最终使优化后Learned Index在大批量数据的读写操作性能上有明显提高，其中读操作最高达到原版Learned Index的2倍，写操作最高达到原版的3倍。

基于时空信息转换方程的药品销量预测模型

靳东辉, 杨小博, 郭炳晖

2023, 43(S1): 107-111. DOI: 10.11772/j.issn.1001-9081.2022121877

摘要 ( )

HTML ( )

PDF (1807KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对药品销售中高维短时间序列预测问题，利用时空信息转换方程及储备池计算方法构建了一种基于时空信息（STI）转换方程的药品销售量预测模型。首先针对药品销售时间序列数据样本量较小的特点，引入储备池计算方法拓展数据样本信息维度，将多个不同药品销售量时序数据中的动力学信息引入储备池。使用时空信息转换方程对时间信息与空间信息进行转化，最后在储备池运算的基础上对时空信息转化方程求解，对目标药品的销售量进行有效的时间序列预测。通过将提出的基于时空信息转换方程的时序预测模型与神经网络预测模型在特定药品销售数据集进行时序预测验证并进行横向对比，相较于GRU（Gated Recurrent Unit），所提模型在测试时间节点上的均方根误差（MSE）及运算时间分别减小了13.27%和95.60%、皮尔逊相关系数提高了34个百分点；相较于长短期记忆模型（LSTM），所提模型在测试时间节点上的均方根误差及运算时间分别减小了69.85%和98.00%，而皮尔逊相关系数提高了44个百分点；相较于卷积神经网络模型（CNN），在测试节点的均方根误差及运算时间分别减少了48.96%和88.53%，皮尔逊相关系数提高了33个百分点。证明了基于时空信息转换方程的药品销售预测模型在测试集时间节点上的预测效果要优于GRU、LSTM、CNN时序预测模型，同时也说明模型具有更高的运算效率。

基于经验模态分解与投资者情绪的Attention-BiLSTM股价趋势预测模型

赵帅斌, 林旭东, 翁晓健

2023, 43(S1): 112-118. DOI: 10.11772/j.issn.1001-9081.2022060863

摘要 ( )

HTML ( )

PDF (1605KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

股票价格的变动是投资者在股票市场关注的焦点，所以股价趋势预测一直是量化投资研究的热门话题。传统的机器学习预测模型难以处理非线性、高频率、高噪声的股价时间序列，使得股票价格趋势的预测精度低。为了提高预测精度，针对股票价格数据的时序性特征，提出用结合经验模态分解（EMD）、投资者情绪和注意力机制的双向长短期记忆神经网络来对股票价格进行涨跌预测。首先使用经验模态分解算法提取股票价格时间序列在不同时间尺度上的特征，并通过构建金融情感词典来提取上一个股票交易日收盘后至下一个交易日开盘前文本的投资者情绪指标，最后使用注意力机制优化的BiLSTM模型对下一个股票交易日进行涨跌预测。在股票价格序列的数据集上进行实验，结果表明，改进后的BiLSTM模型较改进前的BiLSTM模型，准确率从58.50%提升至71.26%；预测为涨的精确率从58.20%提升至70.06%，预测为跌的精确率从59.34%提升至72.36%；预测为涨的召回率从59.85%提升至73.41%，预测为跌的召回率从57.73%提升至69.11%；预测为涨的F1值从58.60%提升至71.61%，预测为跌的F1值从58.08%提升至70.53%；最终通过与长短期记忆（LSTM）网络、基于Attention机制的LSTM（Attention-LSTM）、支持向量机（SVM）、极端梯度提升（XGBoost）等4种典型的股价涨跌预测模型结果对比，验证了所提模型的准确有效性。

采用数据血缘的数据热度预测方法

金泳, 高扬华, 潘晓华, 沈诗婧, 朱心洲

2023, 43(S1): 119-125. DOI: 10.11772/j.issn.1001-9081.2022091450

摘要 ( )

HTML ( )

PDF (942KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

数据之间存在相互引用关系，在进行数据开发时，通常存在一些具有高热度的数据，此类数据被其他数据大量引用，它们的缺陷往往会给整个大数据平台产出的数据结果带来极大影响。因此，对高热度数据进行预测并予以相应保护至关重要。面向基于数据热度的数据分级治理需求，提出一种采用数据血缘的数据热度预测方法。首先通过构建数据系统中的数据血缘捕获数据节点之间的引用关系；然后，提取数据血缘的时间和结构特征，并采用图卷积网络（GCN）进行数据血缘图特征的学习；最后，提出一种数据血缘传播趋势分层读出的方法读出图特征，对数据热度进行预测。在浙江中烟营销系统数据集ZJZY-SL和高能物理现象学相关论文引文数据集（HEP-PH）上的实验结果表明，相较于DeepCCP等方法，所提方法的识别准确率分别提升7.64、2.88个百分点，平均F1分别提升4.7、4.34个百分点。所提方法能充分挖掘数据在被引用早期的数据血缘特征，并预测数据节点未来的热度。

基于BERT-CNN的Webshell流量检测系统设计与实现

江魁, 余志航, 陈小雷, 李宇豪

2023, 43(S1): 126-132. DOI: 10.11772/j.issn.1001-9081.2022050783

摘要 ( )

HTML ( )

PDF (2067KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

Webshell是一种网站后门程序，常被黑客用于入侵服务器后对服务器进行控制，给网站带来严重的安全隐患。针对以往基于流量的机器学习检测Webshell方法存在特征选择不全、向量化不准确、模型设计不合理导致的检测效果不佳问题，设计并实现了一种将基于变换器的双向编码器表示技术（BERT）与卷积神经网络（CNN）相结合的Webshell流量检测系统，通过分析超文本传输协议（HTTP）报文中各个字段信息，提取其中具有Webshell信息的特征字段，使用BERT模型对特征进行向量化编码，并结合一维CNN模型从不同空间维度检测特征建立分类模型，最后使用模型对流量数据进行检测调优。实验结果表明，与以往基于流量检测方法相比，该检测系统在准确率、召回率和F1值等性能指标上表现更好，分别达到99.84%、99.83%、99.84%。

基于联邦学习和深度残差网络的入侵检测

郑超, 邬悦婷, 肖珂

2023, 43(S1): 133-138. DOI: 10.11772/j.issn.1001-9081.2022081222

摘要 ( )

HTML ( )

PDF (1810KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

深度学习被广泛应用到入侵检测领域，但大多数研究的重点是通过改进算法提高入侵检测的准确率，却忽视了在实际应用中单个用户拥有的数据无法满足训练需求的问题。为了实现网络入侵检测模型在训练过程中保护用户隐私安全的同时，仍具有对网络流量数据检测异常的能力，提出一种基于联邦学习并融合深度残差网络（ResNet）和注意力机制的入侵检测模型FL-SEResNet（Federation Learning Squeeze-and-Excitation network ResNet）。在训练过程中，通过对数据压缩、解压、分发、加密和聚合等操作，可以在保护参与者数据隐私的同时，通过多方参与提供足够的训练数据。在NSL-KDD和UNSW-NB15数据集上，所提模型在多分类实验的识别准确率分别为84.22%和80.38%。在NSL-KDD上，与同属于联邦学习的CNN-FL相比，对多分类的识别准确率提升了1.82个百分点，对少数类R2L（Remote to Local）的识别准确率提升了24.94个百分点。

基于分布式异常检测的电网区块链安全防护方案

王栋, 张显, 李达, 郭庆雷, 常新, 冯景丽

2023, 43(S1): 139-146. DOI: 10.11772/j.issn.1001-9081.2022111747

摘要 ( )

HTML ( )

PDF (2818KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

区块链具有去中心化、可追溯和不可篡改等特点，与智能电网的设计需求相契合。虽然区块链为电力交易账本及操作提供了强大的加密保护，但底层的区块链网络仍然容易受到潜在攻击行为的威胁。为了进一步了解电网区块链网络生态的潜在运行规律，提升电网区块链网络针对非法交易行为及已知甚至未知攻击行为的安全防护能力，设计了一种基于实时数据分布式异常检测的电网区块链安全防护方案，将深度学习模型与区块链技术相结合，实时收集区块链网络中的多维度运行数据，并利用数据降维技术对所收集的多维样本数据进行数据特征降维；基于深度学习的异常检测技术构建电网区块链网络数据预测模型的分布式应用架构，通过超参数搜索方法多轮优化预测模型；将已降维样本数据通过预测模型，输出对应输入序列的时序预测结果，并将预测结果与实时数据通过分类器判定，对于判定结果为异常的节点进行访问控制权限限制，以达到安全防护目的。

边缘联邦学习的客户端选择机制

何常乐, 袁培燕

2023, 43(S1): 147-153. DOI: 10.11772/j.issn.1001-9081.2022111648

摘要 ( )

HTML ( )

PDF (1528KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对传统边缘联邦学习（FL）由于客户端资源异质性导致联邦学习模型性能低下等问题，提出面向边缘计算的联邦学习客户端选择机制。该机制综合考虑了客户端的计算资源、通信资源以及数据资源，在联邦学习每轮给定的时间阈值内，使得边缘服务器能够选取尽可能多的客户端数量的同时避免资源不足的客户端，保证参与到联邦学习过程中的客户端的质量，在一定程度上降低了联邦学习的训练成本。该联邦学习客户端选择机制在MNIST和CIFAR-10数据集上与现有的联邦学习客户端选择算法——联邦平均算法（FedCS）和基于多标准的联邦学习客户端选择算法（FedMCCS）进行了对比模拟实验，实验结果表明当所提方法达到FedCS和FedMCCS的最终精度时：在MNIST数据集上时间消耗分别减少了79.55%和72.73%，且最终精度分别提升了2.0%和1.8%；在CIFAR-10数据集上时间消耗分别减少了70.83%和70.83%，且最终精度分别提升了23.6%和27.8%。实验结果验证了提出的客户端选择算法能够有效提升联邦学习的效率。

基于自动快速密度峰值聚类的粒子群动态优化算法

李飞, 乐强, 潘紫微, 孙怡宁, 余晓流

2023, 43(S1): 154-162. DOI: 10.11772/j.issn.1001-9081.2022060815

摘要 ( )

HTML ( )

PDF (1903KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对常规多种群方法在求解动态优化问题时往往存在多样性缺失现象，提出一种基于自动快速密度峰值聚类的粒子群动态优化算法（DPCPSO）。首先，利用自动快速密度峰值聚类通过粒子的自身密度和相对距离创建无敏感参数子种群；然后，使用粒子群优化（PSO）来寻找最优解，在搜索过程中采用停滞计数器来判断粒子是否停滞，防止种群过早收敛；最后，采用最优粒子重定位策略响应环境变化。为了验证所提出算法的性能，在移动峰值基准（MPB）和广义动态基准生成器（GDBG）测试问题上进行了仿真实验。仿真实验中，所提算法性能与基于亲和传播聚类的动态优化算法（APCPSO）、基于聚类的动态优化（CPSO）算法等其他先进算法相比较，在峰值数大于20以及变化频率为2 000和3 000时均取得良好的结果。实验结果表明，所提算法更适合求解多模态和快变特性的动态优化问题。

基于蚁群数量动态调整的改进蚁群优化算法

白玮, 王成, 王彩玲, 詹熙, 张磊

2023, 43(S1): 163-168. DOI: 10.11772/j.issn.1001-9081.2022081155

摘要 ( )

HTML ( )

PDF (2059KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

蚁群优化（ACO）算法是一种常用的元启发式算法，它通过模拟蚁群寻找食物的过程，为求解多维背包问题（MKP）等NP难（Non-deterministic Polynomial hard）问题提供可行途径。原始ACO算法及其改进算法，通常分为多个轮次，每个轮次均会生成一个蚂蚁种群寻找可行解。在不同轮次中，每轮蚁群中蚂蚁的数量是固定的，因此，如果将其指定一个较大的值，会导致算法出现不必要的时间消耗；反之，如果指定的值较小，则会降低算法全局最优解搜索能力。为此，提出了一种基于蚁群数量动态调整的改进蚁群优化算法ACO-ANDA（ACO algorithm based on Ant Number Dynamic Adjustment），所提算法在可行解搜索过程中，引入了一种新的蚁群数量动态调整机制。在每轮可行解搜索结束后，均根据近几轮可行解和历史最优解之间的关系，调整下一轮蚁群数量，实现对算法时间耗费和最优解搜索能力的平衡。再基于MKP基准测试集SAC-94的多组实验结果表明，相较于原始ACO算法，所提算法能够在最优解利润平均降低0.02%的情况下，平均降低77.85%的时间耗费。

基于自适应权重调整与差分进化策略的并行式混合蛙跳算法

李彦苹, 孙广宇, 杨文轩, 李传宪, 赵文亮, 牛化昶, 于洋

2023, 43(S1): 169-176. DOI: 10.11772/j.issn.1001-9081.2022030435

摘要 ( )

HTML ( )

PDF (1818KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对标准混合蛙跳算法（SFLA）在复杂优化问题中出现的收敛速度慢、求解精度不高和运行效率低等问题，提出了一种基于自适应权重调整与差分进化（DE）策略的并行式混合蛙跳算法（P-DE-ASFLA）。在局部搜索过程中，采用邻近学习策略更新子群中的最优个体以加快算法的收敛；采用动态蛙跳规则更新子群中的最差个体以避免算法早熟收敛；在全局搜索过程中，采用DE策略对混合后的种群进行基因更新，增强算法的全局寻优能力。同时基于主从式并行架构，采用多进程技术使子群的局部搜索过程并行化，大幅提高了算法的运行效率。实验结果表明，所提算法在6个标准测试函数中的求解质量和运行效率要远优于标准SFLA和DE算法。

基于程序重写的浮点程序精度缺陷修复方法

王一卓, 王磊, 徐方洁, 张亚光

2023, 43(S1): 177-181. DOI: 10.11772/j.issn.1001-9081.2022101618

摘要 ( )

HTML ( )

PDF (1959KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对修复浮点程序中的精度缺陷的问题，从精度缺陷修复的基础理论和表达式变换方向，提出一种浮点程序精度缺陷修复方法，用以提升浮点计算的准确性。所提方法以浮点程序作为输入，首先，提出一种取样?替换?分类的方法，对特定精度的操作进行筛选隔离；然后，进行函数之间的嵌入，再通过一组表达式间的转换规则以及变量间的映射方法重组表达式，生成具有更多重写可能性的表达式；其次，使用FPtool处理生成的表达式，再使用Herbie重写处理后的浮点表达式；最后，经过多次迭代生成比初始程序浮点计算精度更高的目标程序。在GSL（GNU Scientific Library）的10个函数上进行实验，实验结果表明，以误差小于1 ULP（Unit at the Last Place）的比例为指标，所提方法优化后的平均占比提升了5.20%。

被动窃听环境中基于信道状态信息的物理层安全预编码设计

傅洪亮, 康超男, 韩伟良, 汪洋

2023, 43(S1): 182-186. DOI: 10.11772/j.issn.1001-9081.2022091383

摘要 ( )

HTML ( )

PDF (1450KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在被动窃听的多径信道场景下，窃听者（EaVEsdropper，Eve）仅被动窃听，不发射任何无线电信号，发射端（Alice）无法确定Eve的任何信息，给信息的安全传输带来了极大挑战。为了保障信息的安全传输，在Alice已知合法接收者（Bob）的信道状态信息（CSI）但是未知Eve的CSI的情况下，提出一种保障Bob的物理层安全的预编码方案，通过提高Bob接收信号的质量来提高系统的安全性能。首先，在不考虑Eve的情况下，仅根据已知的Bob的CSI给出可达Bob信道容量上界的预编码方案；利用Alice-Bob和Alice-Eve链路之间的信道特异性获得稳定的安全容量；然后，在瑞利平坦衰落环境下，通过Bob的中断概率推导出Bob的平均误码率（BER）准确的闭合表达式。仿真实验结果表明，所提方案在不改变接收机复杂度的基础上，能够保证Bob的信道容量始终优于Eve的信道容量。同时，所提方案能够在Eve的BER性能受到较大抑制的条件下，有效改善Bob的BER性能，即使Eve位置条件优于Bob也能保证安全容量始终存在。

工程管理数字化关键技术研究进展

张晨, 王建东, 罗宵, 赵鲲, 廖勇

2023, 43(S1): 187-195. DOI: 10.11772/j.issn.1001-9081.2022081271

摘要 ( )

HTML ( )

PDF (1023KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着建设工程规模的扩大与难度的不断提升，传统工程管理方法已无法满足其需要；同时建筑信息模型（BIM）、地理信息系统（GIS）和人工智能（AI）等数字化技术的出现，为工程管理的数字化与现代化发展提供了一种新思路。以数字化工程管理为出发点，从BIM+GIS、AI两个方面，对近年来数字化工程管理的技术与研究成果进行了详细的总结与归纳，包括BIM+GIS在建筑、基础设施、市区建设的综合应用，以及计算机视觉、自然语言处理（NLP）、信息融合、知识表示与推理、智能优化等AI技术与工程管理的有机融合，最后对工程管理数字化关键技术的发展趋势进行了展望。

基于PDCA循环与联合处置机制的网络安全监管平台

石洁, 李媛

2023, 43(S1): 196-200. DOI: 10.11772/j.issn.1001-9081.2021111972

摘要 ( )

HTML ( )

PDF (1522KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对企业经营过程中网络安全隐患解决缺少监管，网络安全管理不规范、不便捷、缺少信息化手段支撑，生产资料易受攻击等问题，提出了基于质量管理中的PDCA（Plan（计划）、Do（执行）、Check（检查）和Act（处理））循环理念和联合处置机制的网络安全监管平台建设方案。通过对四川中烟网络安全管理现状进行分析研究，结合PDCA循环理念以及联合处置机制，对四川中烟网络安全管理业务进行梳理重构；同时，通过实际使用探究了以PDCA循环及联合处置理念构建的信息系统在网络安全管理中的应用效果。经验证，所提平台有效地支撑了四川中烟网络安全管理工作，完善了网络安全管理体系，规范了网络安全业务流转流程，解决了网络安全管理时效性低、精细度较低、缺乏科学化数据支撑的问题。

基于实时Web技术的车间监测系统设计与实现

高志辉, 秦琦, 段暕, 沈旭, 计效园, 刘智勇, 廖广兰

2023, 43(S1): 201-206. DOI: 10.11772/j.issn.1001-9081.2022101479

摘要 ( )

HTML ( )

PDF (5245KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为推进传统铸造车间智能化、数字化转型，解决车间数据管理效率低、利用效率低等问题，引入WebSocket技术建立了一套实时在线的车间数据监测系统，实现了工业数据接入、数据实时监测、报警提示、历史数据分析等功能。首先，通过Modbus/TCP采集设备的参数实时值，将数据转储到MySQL数据库中；其次，利用Django服务器监听数据库更新事件，并创建服务器与浏览器之间的WebSocket双向数据通信通道，实现数据高效稳定传输；最后，通过Vue双向数据绑定技术将实时数据绑定到ECharts折线图、面积图等组件中，实现数据的科学展示。所提系统覆盖车间所有设备的126个参数，响应时间相较于传统Ajax轮询至少缩短了10 ms，数据同步周期可达到200 ms；所提系统在实际工程应用中已实现稳定运行，能有效降低前后端通信带宽，提高响应速度，为管理人员提供详细的生产信息，大幅提升了管理效率和生产效率。

基于子空间流形的图像集识别方法

赵译文, 刘云鹏

2023, 43(S1): 207-211. DOI: 10.11772/j.issn.1001-9081.2022121849

摘要 ( )

HTML ( )

PDF (454KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

近年来，基于黎曼流形将图像集在线性子空间中进行表征的图像集识别方法已经被证实有良好的效果，针对该领域存在的图像线性子空间大多高维所导致现有黎曼流形的图像集识别方法存在计算成本高、适用性有限的问题，提出一种基于子空间流形的图像集识别方法。首先，从线性子空间的几何结构出发，利用Grassmann流形对线性子空间进行建模，得到基于Grassmann流形的联合黎曼度量。然后，通过该联合黎曼度量，从高维的Grassmann流形中学习到一个低维的Grassmann流形。最后，对通过学习得到的低维流形上的图像集数据进行图像集识别。实验结果表明，在ETH-80数据集上该方法的识别准确率比投影度量学习（PML）和图嵌入Grassmann判别分析（GGDA）都分别提升了2.5个百分点。证明了在通过提出的度量与方法学习到的低维流形上，图像集数据具有更好的分类结构，从而降低图像集识别计算成本，扩大适用范围，提升识别准确率。

基于门控卷积和SENet的双判别生成对抗网络图像修复模型

傅继彬, 曹玉笠

2023, 43(S1): 212-216. DOI: 10.11772/j.issn.1001-9081.2022060949

摘要 ( )

HTML ( )

PDF (2599KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有模型修复带有随机不规则掩码且语义内容复杂的图片时细节不够真实这一问题，提出了一种基于门控卷积和SENet的双判别生成对抗网络图像修复模型。首先，将破损图片掩码输入由若干门控卷积堆叠成的粗网络中，在上采样时添加通道注意力（SE），结合L1重建损失，得到初步修复图；然后，将初步修复图输入精细网络，精细网络由若干门控卷积块和通道注意力块构成，结合重构损失、感知损失和对抗损失完善重要特征和细节，将破损图像的完好区域覆盖到精细网络的修复图上，得到完成修复的图片；最后，使用双判别网络结构进行训练，使精细网络的输出与完成修复的图片更加真实。在celebA数据集上进行实验，所提模型对带有大面积不规则掩码图片的修复结果在峰值信噪比（PSNR）上达到了27.39 dB，相较于部分卷积提升了6.74%，在结构相似性（SSIM）上达到了0.921 6，较部分卷积提升了2.95%。实验结果表明，引入通道注意力和双判别结构有助于提升图像修复的细节。

基于深度卷积神经网络的气液两相流图像分割方法

崔子良, 句媛媛, 刘冬冬, 戴琳, 肖清泰

2023, 43(S1): 217-223. DOI: 10.11772/j.issn.1001-9081.2022030376

摘要 ( )

HTML ( )

PDF (3760KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为解决气液两相流中气相与液相的精准识别问题，提出了一种基于深度卷积神经网络的图像分割方法。首先，对比研究了4种图像去噪和5种图像分割方法的优缺点；其次，采用图像去噪和图像分割的方法研究了人工合成图像，并采用图像分割评价指标量化分割结果；最后，采用图像去噪和图像分割方法对公开数据集图像和真实气液两相流图像进行实验。实验结果表明，各向异性扩散滤波器、中值滤波器、全变差滤波器和非局部均值滤波器对气泡图像的降噪性能略有差异，非局部均值滤波器的效果最优；采用卷积神经网络方法分割气泡图像时，像素精确度（PA）、平均像素精确度（MPA）、平均交并比（MIoU）、频率加权交并比（FWIoU）四个评估指标的值均超过0.84，其精度较高、分割效果较为优异，但其计算成本高于传统方法。通过对比研究气液两相流图像的处理技术，可以发现深度学习方法是未来气液两相流图像的一个重要研究方向。

结合注意力互斥正则的细粒度图像分类

陆靖桥, 宾炜, 卢永锵, 麦广柱, 陈银, 伍雁雄

2023, 43(S1): 224-228. DOI: 10.11772/j.issn.1001-9081.2022111662

摘要 ( )

HTML ( )

PDF (1885KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

细粒度图像分类（FGVC）具有类间差异小、类内差异大等特点，提升该任务效果的关键在于识别目标的判别性部位。目前基于注意力机制的方法一般会识别一个或者两个判别性部位，效果不佳。为此，提出一种注意力互斥正则机制的细粒度模型（AMEM），通过限制注意力图的不同通道关注不同目标部位，引导模型关注目标的多个判别性部位。在CUB-200-2011、FGVC-Aircraft、Stanford Cars和Stanford Dogs等4个公开数据集上进行评测，实验表明AMEM取得了90.5%、94.3%、95.5%和93.2%的准确率，效果优于对比实验中的其他细粒度模型；此外热力图显示可以识别出指定数目的判别性部位。AMEM在提升预测性能的同时，也能提供一定程度的预测可解释性。

基于YOLOv5s的轻量化乒乓球目标检测算法

赵英, 王琦, 沙捷, 郭倩玲

2023, 43(S1): 229-234. DOI: 10.11772/j.issn.1001-9081.2022081181

摘要 ( )

HTML ( )

PDF (2498KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对乒乓球目标检测方法易受环境、光线、速度等多种因素干扰导致精度和实时性不佳的问题，提出了一种基于YOLOv5s框架的轻量化乒乓球目标检测算法——SYOLO5（Shuffle-YOLOv5s）。首先，采用改进的ShuffleNetV2网络单元组合重构YOLOv5s主干网络，提高特征提取速度；其次，在特征融合的过程中引入高效通道注意力（ECA）机制，有效提升模型的检测性能；接着，采用SIoU Loss（S-Intersection over Union）作为定位损失函数提升网络的收敛速度和定位精度；最后，贴合乒乓球小尺寸的特点，采用双尺度目标检测，进一步提高模型推理速度。实验结果表明，所提算法与YOLOv5s相比，参数量和计算量分别减少了80%和60%，精确率提升了1.9个百分点。

基于改进YOLACT的金属滚动接触疲劳缺陷检测模型

杨长辉, 吕庆, 邹贵帆, 胡俊宇

2023, 43(S1): 235-242. DOI: 10.11772/j.issn.1001-9081.2022121891

摘要 ( )

HTML ( )

PDF (4097KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

滚动接触疲劳试验是获取金属材料力学性能的重要手段，针对在高速、光照变化的实验环境下，无法在线、准确地评估金属滚子试件表面失效状态的问题，提出了一种基于改进YOLACT的金属滚动接触疲劳缺陷检测模型。首先，针对疲劳缺陷误识别和分割掩码精度低的问题，引入基于自注意力机制的特征提取网络，增强疲劳缺陷特征的内部相关性和长距离学习能力；然后，设计了一种基于增强局部连接的信息传播链路AtRFP进行双向特征融合，平衡深层特征与浅层特征之间的信息差，对疲劳缺陷进行特征细化。实验结果表明，采用改进的YOLACT模型，试件表面疲劳缺陷的平均精度（AP）、dice系数和分割相对误差分别为74.5%、91.2%和3.98%，较原始YOLACT提升了6.0%、2.5%和降低了33.9%。两阶段模型Mask R-CNN的AP和dice系数为73.1%和91.5%，虽然所提模型的dice系数略有下降，但检测速度达到23.6帧/秒，比Mask R-CNN提升了247%，能够更好地满足金属滚动接触疲劳在线检测要求，为金属材料力学性能的精确获取提供技术支撑。

面向废钢回收业务需求的异物检测方法

李毅仁, 申培

2023, 43(S1): 243-249. DOI: 10.11772/j.issn.1001-9081.2022081228

摘要 ( )

HTML ( )

PDF (4389KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对实际的废钢回收业务场景，设计了一种旨在判识混杂在钢材中异物的类型与位置的方法。首先，在实际的废钢回收场地，通过架设高度合适的摄像头采集图像，并基于采集的原始图像构造了较大规模的数据集；然后，根据实际情况，定义了10个异物类别，并对所有数据集中的数据进行了详细的人工标注；最后，采用Mask R-CNN（Mask Region Convolutional Neural Network）对图像预处理，以有效减少无关背景的干扰，进一步采用Mosaic数据增强方案增强样本的多样性，提高小目标检测率。综合考虑效率与精度，设计了基于YOLOv5的特征抽取与目标检测方法。实验结果表明，所提方法能取得较高的检测精度，较好地解决了复杂的小目标检测难题，基本实现废钢异物检测。

U-Net在肺结节分割中的应用进展

沈权猷, 张小波, 李文豪, 李礼汉, 许荣德, 陈道花, 李静

2023, 43(S1): 250-257. DOI: 10.11772/j.issn.1001-9081.2022081216

摘要 ( )

HTML ( )

PDF (540KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

医学上实现自动肺结节精准分割具有十分重要的临床意义。随着计算机视觉的显著进步，深度学习作为人工智能的一部分，在医学图像自动分割中引起了越来越多的关注。U-Net由于在小样本数据集上的良好表现，在医学图像分割领域得到广泛应用。目前，研究人员正在尝试使用不同的U-Net结构，以提高计算机辅助诊断系统在医学图像的肺癌筛查中的性能。首先，围绕肺结节分割任务介绍了当下常用的数据集和评价指标；其次，调查与肺结节相关的U-Net分割技术网络；另外，基于U-Net分别分析与归纳编解码器、跳跃连接和整体结构的改进；最后，还讨论了基于深度学习的自动分割技术的挑战和限制。

基于类激活图的弱监督皮肤镜图像分割方法

郑粤铭, 彭博

2023, 43(S1): 258-262. DOI: 10.11772/j.issn.1001-9081.2022121830

摘要 ( )

HTML ( )

PDF (2505KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

皮肤镜图像中病灶区域的精确分割是实现皮肤病自动化检测的关键步骤。现存的皮肤镜图像分割方法主要基于全监督图像分割，这需要大量的像素标注，费时费力。针对此问题，提出一种基于类激活图（CAM）的弱监督皮肤镜图像分割方法。首先，对原始图像进行预处理，去除图像中的毛发并对图像进行颜色归一化处理；然后，结合图像的多尺度输入，并在显著图的引导下，通过特征提取网络得到图像的类激活图；之后，将得到的类激活图通过条件随机场得到伪掩膜；最后，使用伪掩膜训练分割网络。在ISIC2017数据集上评估所提方法，结果显示，所提方法生成的伪掩膜的Dice系数达到82.64%，相似性系数达到71.92%，灵敏度达到90.01%，表明所提方法能够在大量减少人工标注工作量的同时生成高质量的伪掩膜。

基于自监督预训练和有监督微调的伪造语音检测方法

夏翔, 方磊, 方四安, 柳林

2023, 43(S1): 263-268. DOI: 10.11772/j.issn.1001-9081.2022101615

摘要 ( )

HTML ( )

PDF (915KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着深度学习技术的发展，合成语音的质量和听感与真实自然语音越来越难以区分，这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测，取得了优异的效果。然而，当模型面对未知的伪造类型数据时，模型检测准确率急剧下降，特别是对于跨数据集评估测试场景。受到自监督学习框架在多种语音识别下游任务成功经验的启发，提出一种基于预训练和微调结合的伪造语音检测框架。预训练使用无标签数据学习通用的语音表征，之后利用有标签的真实伪造语音数据集来微调整个网络参数，达到区分真实自然音和伪造语音的目的。该方法在ASVspoof 2019逻辑攻击数据集上的联合检测代价函数值为0.006 1，等错误率（EER）值为0.19%，同时在ASVspoof 2015和Fake or Real跨数据集评测上也展现了良好的泛化能力。

基于RandLA-Net的3D点云牙颌分割与身份识别

钟侠骄, 张绍兵, 郭静, 王胜朝, 成苗, 何莲, 赵铱民

2023, 43(S1): 269-275. DOI: 10.11772/j.issn.1001-9081.2022050650

摘要 ( )

HTML ( )

PDF (2772KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对PointNet局部特征聚合不充分、保存模型较大、识别精度有待提升等问题，在三维（3D）点云牙颌身份的识别任务中，采用RandLA-Net的编码结构作为主干网络；在分割任务中采用原始RandLA-Net作为主干网络。针对RandLA-Net特征聚合模块聚合单一的问题，在识别任务中采用基于偏移注意力（OA）的特征聚合模块，在分割任务中增添了基于点云的Transformer block模块，相较于RandLA-Net的原始网络，新的网络模块能够更好地聚合局部特征。为了达到大规模开集数据集的身份再识别目的，将分类的交叉熵损失函数替换成了三元组损失函数。针对训练牙颌样本数据较少的问题，采用生成虚拟正样本的方式极大地拓展了数据集。实验结果表明：在识别任务中，相较于原始的RandLA-Net主干网络，识别任务的top-1平均精度提升了3.13个百分点；在分割任务中网络平均精度相较于原始RandLA-Net提升了3.06个百分点，平均交并比（MIoU）提升了6.05个百分点。

基于注意力机制的NewVGG16-BiGRU鼾声分类

邓志平, 王冬霞, 马晓冬, 曹玉东

2023, 43(S1): 276-280. DOI: 10.11772/j.issn.1001-9081.2022101497

摘要 ( )

HTML ( )

PDF (882KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对已有的鼾声分类模型因未考虑实际睡眠时的其他声音而导致的泛化能力差、准确率较低等问题，提出一种基于注意力机制的NewVGG16双向门控循环单元（NVGG16-BiGRU-Att）算法用于鼾声识别。首先，生成每个声段的谱图，采用NVGG16网络提取语谱图、梅尔（Mel）时频图和恒Q变换（CQT）时频图组成的谱图特征矩阵；其次，将提取的特征向量输入BiGRU，结合注意力机制，增加分类过程中的重要特征信息的权重，改善分类效果；最后，经过全连接层输出鼾声与非鼾声。在采集的鼾声数据集上进行实验，实验结果表明，所提算法取得了较好的分类效果，其中Mel时频图效果最优，识别准确率达到96.18%；相较于卷积神经网络（CNN）+长短期记忆（LSTM）网络、卷积CNNs-LSTMs-深度神经网络（DNNs）模型，在同特征输入下，所提算法的准确率提升了0.31%~2.39%，验证了所提算法具有较好的鲁棒性，能够提升分类性能。

基于深度学习和双目视觉的汽车油箱外盖定位

汪雪林, 杜丽学, 陈德近, 张夏清, 许涛, 陈亚新, 余章卫

2023, 43(S1): 281-287. DOI: 10.11772/j.issn.1001-9081.2022101563

摘要 ( )

HTML ( )

PDF (4271KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对机器人自动加油过程中定位汽车油箱外盖所面临的弱纹理、少特征、强反光以及环境倒影等问题，提出一种基于深度学习和双目视觉相结合的快速定位算法。通过YOLOv3对油箱盖进行粗定位，使数据量降低为原始的25%，有效减小干扰并提高匹配速度；引入一种边缘特征点对的提取方法，快速获取油箱外盖边缘特征点对的匹配信息，计算油箱盖中心的空间位置。实验结果表明，所提算法的中心点三维空间坐标的定位绝对误差分别为15 mm、15 mm和5 mm，能够有效解决油箱外盖的定位问题，满足项目实际需求；相较于半全局块匹配（SGBM）算法耗时945 ms，所提算法仅需165 ms，有效提高了算法匹配效率。

需求响应公交网络化运营优化模型

李欣, 林小敬, 许航, 袁昀

2023, 43(S1): 288-292. DOI: 10.11772/j.issn.1001-9081.2022050799

摘要 ( )

HTML ( )

PDF (727KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为提高需求响应公交（DRT）系统的运行效率，针对目前DRT线路与线路之间运营相对独立的现实问题，提出一种面向多车协同的DRT网络化运营新模式，通过多个车辆间的协同调度，实现其路径与时刻表的同步优化。在此模式下，以最小化系统成本为目标，考虑乘客出行时间偏好等约束条件，构建DRT网络化运营优化模型。针对模型求解难点，设计了改进的变邻域搜索算法，通过构造不同规模算例验证算法的有效性，并应用实际案例进行分析。结果表明：相较于传统非网络化运营模式，采用网络化运营策略可以显著降低系统总成本，节约最高可达42.67%，同时可以有效缩短车辆的运行时间61.9%，能够为DRT运营优化问题提供参考。

融合用户相似度与时间期望的长期车辆共乘匹配算法

郭羽含, 李文华, 李津宁, 于俊宇

2023, 43(S1): 293-301. DOI: 10.11772/j.issn.1001-9081.2022081210

摘要 ( )

HTML ( )

PDF (4162KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

长期车辆共乘可显著提升出行便利性和稳定性，对缓解城市交通拥堵、减少环境污染具有重要作用，但由于需同步进行分组规划和路径规划，其全局最优匹配方案难以获取且匹配结果的可行性无法保障。针对上述问题，基于行驶距离、行驶时间、出发抵达期望和整合熵权相似度，构建了带有时间窗和车容量约束的多目标混合整数规划模型，采用复合熵权法对独立相似度进行融合，并提出一种质心寻优小簇分割算法对共乘用户进行匹配划分。在用户分割过程中迭代优化共乘组质心，并采用减枝枚举法计算用户的最佳行驶路径，生成符合多元约束的共乘组划分方案。实验结果表明，所提算法与一般K-Means聚类算法相比，平均近似解提高了9.66%。平均时间减少了49.29%，且在处理大规模实例上效果明显，能够高效求解长期车辆共乘匹配问题。

基于改进连续型遗传算法的乡村垃圾站选址方法

彭阳, 余芳强, 张铭, 齐昊, 许璟琳

2023, 43(S1): 302-306. DOI: 10.11772/j.issn.1001-9081.2022060927

摘要 ( )

HTML ( )

PDF (2057KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

乡村的集中式垃圾站的选址关乎生态文明和居民日常生活，需要科学合理的设施选址方法来提高覆盖效率、降低环境影响。针对乡村地区广泛、垃圾站数量多、影响因素复杂、难以人工规划的问题，根据乡村环境特点，提出一种基于改进连续型遗传算法的乡村垃圾站选址方法。首先，提出基于二阶Voronoi图的确定垃圾站初始位点的算法，提高优化的针对性；然后，改进多输出遗传算法，引入连续变量来表达垃圾站规模；最后，实地采集福建省某行政村的地理数据，求解得到优化环境影响与覆盖率的方案，并验证了连续变量改进的效果。

基于收敛粒子群算法的重载铁路列车运行调整方法

王建华, 李乐, 孟学雷

2023, 43(S1): 307-313. DOI: 10.11772/j.issn.1001-9081.2022121866

摘要 ( )

HTML ( )

PDF (1371KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对施工天窗对重载铁路行车安全限速和行车安全产生的不良影响，提出了基于收敛粒子群算法的重载铁路列车运行调整方法。首先，在分析列车追踪间隔影响因素的基础上，推导出不同编组类型重载列车之间的追踪间隔计算公式，实现了重载列车追踪间隔计算。然后，考虑施工天窗后的限速要求，以重载列车总晚点时间为优化目标，以列车区间最少运行时分、追踪间隔时分、列车停站时分、天窗时间段内禁止行车、天窗后安全限速等为约束条件，建立了施工条件下重载铁路列车运行调整模型，刻画了考虑安全限速的重载列车运行调整问题。通过优化列车到站、离站以及通过车站时刻，实现重载列车运行调整。进而，针对模型特点，在经典粒子群算法中引入收敛因子，设计了收敛粒子群算法对模型进行求解。最后，以朔黄铁路运输生产数据为基础，对建立的重载铁路运行调整模型进行实例化处理，验证了模型和算法。实验结果表明，对于求解重载铁路运行调整问题，设计的收敛粒子群算法比经典粒子群算法在计算效率上提升了5.45%，而求解精度保持不变。该方法可压缩重载列车追踪间隔，提高重载铁路运输效率，保证行车安全，提高基于安全限速的列车运行调整效率，为施工条件下重载铁路列车运行调整工作提供决策支持。

机器人自主探索算法综述

王乐, 齐尧, 何滨兵, 章永进, 徐友春

2023, 43(S1): 314-322. DOI: 10.11772/j.issn.1001-9081.2022111706

摘要 ( )

PDF (1307KB) ( )

参考文献 | 相关文章 | 计量指标

随着机器人自主能力的提升和应用场景的多样化，机器人应用于未知复杂场景的需求不断增加，它在未知区域内自主完成环境全遍历并构建区域地图的探索算法成为研究热点。为了使更多研究者对机器人自主探索的研究现状有进一步的了解，首先对机器人自主探索的问题定义和运行框架进行介绍，其次根据相关文献研究，按照基于边界理论的自主探索算法、基于下一最优视角（NBV）思想的自主探索算法和其他自主探索算法三个方面展开综述，较为详细地介绍了基于边界理论和基于NBV思想这两种主流的自主探索算法，并对各类探索算法的优势以及局限性进行了分析，最后对未来自主探索的发展方向提出展望。

脑电信号情绪识别综述

陈旭东, 钟恒, 皇甫洁, 吕高冲, 王成, 王德良, 童凯

2023, 43(S1): 323-332. DOI: 10.11772/j.issn.1001-9081.2022091341

摘要 ( )

HTML ( )

PDF (1124KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

情绪识别在医疗领域和人机互动中越来越重要。当人们的情绪在外部刺激下发生变化时，人体的各种生理信号就会产生波动。脑电图（EEG）与大脑活动密切相关，因此可以通过EEG信号判断受试者的情绪变化。首先，从特点和采集、预处理、公开数据集等方面介绍了脑电情绪识别的相关理论；然后，从时域、频域和时频域特征介绍了EEG信号的特征提取；随后，对EEG信号情绪分类识别的效果进行评估；最后，总结了EEG信号情绪识别的相关工作并对未来工作进行了展望。

基于两阶段运动伪影消除的心率检测算法

李牧, 李倩, 柯熙政, 陶启婷

2023, 43(S1): 333-339. DOI: 10.11772/j.issn.1001-9081.2022101608

摘要 ( )

HTML ( )

PDF (3502KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对基于成像式光电容积描记术（IPPG）检测人体生命体征会产生运动伪影的问题，提出一种两阶段运动伪影消除的心率检测算法。所提算法使用基于特征点的人脸跟踪算法S-KLT（Scale invariant feature transform-Kanade Lucas Tomasi）稳定感兴趣区域（ROI），采用基于自相关的自适应滤波器抑制残余运动伪影。首先，采集视频，使用S-KLT追踪人脸ROI内的特征点，提取ROI内原始的IPPG脉搏波信号；其次，利用所提基于自相关的自适应信号滤波器对原始的IPPG信号进行噪声抑制，根据峰值检测算法计算心率（HR）值。实验结果表明，与腕式电子血压计实际测得的HR值相比，所提算法的均方根误差（RMSE）、平均错误率（EER）分别为2.98%、2.90%，符合美国医疗器械促进协会（AAMI）的标准，可以有效抑制运动伪影对HR值准确度的影响，为远程医疗和日常的健康检测提供了新的解决方法。

基于Raft算法的飞行控制系统余度管理应用

左力

2023, 43(S1): 340-345. DOI: 10.11772/j.issn.1001-9081.2022111791

摘要 ( )

HTML ( )

PDF (5156KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

飞机飞行控制系统的主要作用是保证飞机的稳定性和操纵性，提高飞机飞行性能和完成任务的能力，增强飞行的安全性和减轻驾驶员的工作负担，因此通常都会采用余度结构实现其容错能力。针对当前分布式余度结构具有复杂度和成本较高的故障检测和处理机制，使用Raft一致性算法实现飞控系统的容错。通过Raft算法在余度通道中达成一致，避免故障检测和处理机制带来的问题。除此之外，针对机载环境存在计算资源和通信资源有限的问题，采用门限签名技术降低Raft算法的计算开销和通信开销。通过实验测试验证算法能够有效应用到飞控系统中解决容错问题，并且门限签名方案可以降低Raft算法的计算开销和通信开销；而且模拟结果有效验证了Raft算法可以应用于飞控系统当中。

基于级联卷积网络的烟支外观检测系统

李学敏, 谢光桥, 黄卓, 余楚才

2023, 43(S1): 346-350. DOI: 10.11772/j.issn.1001-9081.2022030364

摘要 ( )

HTML ( )

PDF (1645KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对烟支在生产过程中可能出现的黑点、油渍、刺破、夹沫、褶皱、缺嘴、烟支长短不一等缺陷，提出一种基于深度学习的烟支图像对比分析方法。对烟支中的水松纸区域，基于级联卷积网络，搭建了一种满足现场需求的最佳权重分布的神经网络分类模型；对烟支中的卷烟纸区域，采用高低值的模型比对算法，两者相结合大幅提高了烟支检测的实时性和准确性；同时引入了多尺度的时空特征，利用图像序列实现了帧间前后烟支缺陷信息的关联标记，将剔除轮的烟支剔除率降低了约2/3。在自建烟支数据集的基础上，搭建的分类模型准确率较ResNet-18提高了8.64个百分点，较紧固件缺陷自动检测（ADDF）算法和自动织物缺陷检测（AFDD）算法提高了7个百分点以上。

当期目录