《计算机应用》唯一官方网站

融合多粒度社区信息的网络嵌入方法

胡军, 许正康, 刘立, 钟福金

2022, 42(3): 663-670. DOI: 10.11772/j.issn.1001-9081.2021040790

摘要 ( )

HTML ( )

PDF (758KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

现有大多数网络嵌入方法仅保留了网络的局部结构信息，而忽略了网络中的其他潜在信息。为了保留网络的社区信息，并体现网络社区结构的多粒度特性，提出一种融合多粒度社区信息的网络嵌入方法（EMGC）。首先，获得网络的多粒度社区结构，并初始化节点嵌入和社区嵌入；然后，根据上一粒度上的节点嵌入和本层粒度的社区结构，更新社区嵌入，进而调整相应的节点嵌入；最后，对不同粒度下的节点嵌入进行拼接，从而得到融合多粒度社区信息的网络嵌入结果。在4个真实网络数据集上进行实验，相较于未考虑社区信息的方法（DeepWalk、node2vec）和考虑了单一粒度社区信息的方法（ComE、GEMSEC），EMGC在链接预测上的AUC值和节点分类上的F1值总体上优于对比方法。实验结果表明EMGC能够有效提升后续链接预测和节点分类的准确率。

基于先验知识的非负矩阵半可解释三因子分解算法

陈露, 张晓霞, 于洪

2022, 42(3): 671-675. DOI: 10.11772/j.issn.1001-9081.2021040927

摘要 ( )

HTML ( )

PDF (600KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

非负矩阵三因子分解是潜在因子模型中的重要组成部分，由于能将原始数据矩阵分解为三个相互约束的潜因子矩阵，被广泛应用于推荐系统、迁移学习等研究领域，但目前还没有非负矩阵三因子分解的可解释性方面的研究工作。鉴于此，将用户评论文本信息当作先验知识，设计了一种基于先验知识的非负矩阵半可解释三因子分解（PE-NMTF）算法。首先利用情感分析技术提取用户评论文本信息的情感极性偏好；然后更改了非负矩阵三因子分解算法的目标函数和更新公式，巧妙地将先验知识嵌入到算法中；最后在推荐系统冷启动任务的Yelp和Amazon数据集以及图像零次识别任务的AwA和CUB数据集上与非负矩阵分解、非负矩阵三因子分解算法做了大量对比实验，实验结果表明所提算法在均方根误差（RMSE）、归一化折损累计增益（NDCG）、归一化互信息（NMI）和准确率（ACC）上都表现优异，且利用先验知识进行非负矩阵三因子分解的解释具有可行性和有效性。

基于随机素描方法的在线核回归

刘清华, 廖士中

2022, 42(3): 676-682. DOI: 10.11772/j.issn.1001-9081.2021040869

摘要 ( )

HTML ( )

PDF (628KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在线核回归学习中，每当一个新的样本到来，训练器都需要计算核矩阵的逆矩阵，这个过程的计算复杂度至少为关于回合数的平方级别。提出将素描方法应用于假设的更新，给出一个基于素描方法的更高效的在线核回归算法。首先，将损失函数设定为平方损失，应用Nystr?m近似方法来近似核，并借鉴跟导方法（FTL）的思想，提出一个新的梯度下降算法，称之为FTL-在线核回归（F-OKR）；然后，应用素描方法对其加速，使得F-OKR的计算复杂度降低到关于回合数和素描规模线性、关于数据维度平方的级别；最后，设计了一个高效的素描在线核回归算法（SOKR）。与F-OKR相比，SOKR的精度几乎没有影响，而同时在适当的数据集上，运行时间减少16.7%左右。在理论上证得了两种算法的亚线性后悔界。实验结果也验证了所提算法与Nystr?m在线梯度下降算法（NOGD）相比有更好的表现，平均损失降低约64%。

双重特征加权模糊支持向量机

邱云志, 汪廷华, 戴小路

2022, 42(3): 683-687. DOI: 10.11772/j.issn.1001-9081.2021040760

摘要 ( )

HTML ( )

PDF (434KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对当前基于特征加权的模糊支持向量机（FSVM）只考虑特征权重对隶属度函数的影响，而没有考虑在样本训练过程中将特征权重应用到核函数计算中的缺陷，提出了同时考虑特征加权对隶属度函数和核函数计算的影响的模糊支持向量机算法——双重特征加权模糊支持向量机（DFW-FSVM）。首先，利用信息增益（IG）计算出每个特征的权重；然后，在原始空间中基于特征权重计算出样本到类中心的加权欧氏距离，进而应用该加权欧氏距离构造隶属度函数，并在样本训练过程中将特征权重应用到核函数的计算中；最后，根据加权的隶属度函数和核函数构造出DFW-FSVM算法。该方法避免了在计算过程中被弱相关或不相关的特征所支配。在8个UCI数据集上进行对比实验，结果显示DFW-FSVM算法的准确率和F1值较5个对比算法（SVM、FSVM、特征加权SVM（FWSVM）、特征加权FSVM（FWFSVM）、基于中心核对齐的FSVM（CKA-FSVM））中的最好结果分别提升了2.33和5.07个百分点，具有较好的分类性能。

基于ReliefF的层次分类在线流特征选择算法

张小清, 王晨曦, 吕彦, 林耀进

2022, 42(3): 688-694. DOI: 10.11772/j.issn.1001-9081.2021040789

摘要 ( )

HTML ( )

PDF (860KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在图像标注、疾病诊断等实际分类任务中，数据标记空间的类别通常存在着层次化结构关系，且伴随着特征的高维性。许多层次特征选择算法因不同的实际任务需求而提出，但这些已有的特征选择算法忽略了特征空间的未知性和不确定性。针对上述问题，提出一种基于ReliefF的面向层次分类学习的在线流特征选择算法OH_ReliefF。首先将类别之间的层次关系融入ReliefF算法中，定义一种新的面向层次化数据的特征权重计算算法HF_ReliefF；其次，利用特征对决策属性的划分能力动态选择重要特征；最后，基于特征之间的独立性对特征进行动态冗余分析。实验结果表明，与五种先进的在线流特征选择算法作对比，OH_ReliefF算法在K最邻近（KNN）分类器和拉格朗日支持向量机（LSVM）分类器的各个评价指标中都取得较优的结果，准确率最少提高7个百分点。

混合伊藤算法求解多尺度着色旅行商问题

韩舒宁, 徐敏, 董学士, 林青, 沈凡凡

2022, 42(3): 695-700. DOI: 10.11772/j.issn.1001-9081.2021040776

摘要 ( )

HTML ( )

PDF (474KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

着色旅行商问题（CTSP）是多旅行商问题（MTSP）与旅行商问题（TSP）的一种扩展，主要应用于含重复区域的多机工程系统（MES）等工程问题。CTSP是NP完全问题，尽管相关研究尝试采用遗传算法（GA）、模拟退火（SA）等方法求解该问题，但它们求解的问题尺度有限，且速度和求解质量上不尽人意。基于此，尝试采用一种基于均匀设计（UD）融合蚁群（ACO）算法和伊藤算法（IT?）的混合伊藤算法（UDHIT?）来求解该问题。UDHIT?采用UD来选择合适的参数组合，借助ACO的概率图模型来产生可行解，并利用伊藤算法的漂移和波动算子进行优化。实验的结果表明，UDHIT?求解多尺度CTSP的最优解和平均解比传统GA、ACO和IT?有所改善。

基于基因交换的自适应人工鱼群算法

李宗正, 周恺卿, 欧云, 丁雷

2022, 42(3): 701-707. DOI: 10.11772/j.issn.1001-9081.2021040775

摘要 ( )

HTML ( )

PDF (571KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对人工鱼群算法（AFSA）不能完美地平衡局部寻优与全局寻优，且缺乏跳出局部最优能力等问题，提出了一种基于基因交换的自适应人工鱼群算法（AAFSA-GE）。首先利用自适应的视野和步长提高搜索的速度及精度，然后利用混乱行为和基因交换行为增强跳出局部最优的能力并提高搜索效率。为了证明算法的有效性，在实验中使用了10种经典的测试函数将所提算法与规范鱼群算法（NFSA）、基于扩展记忆粒子群优化算法的人工鱼群算法（PSOEM-FSA）、综合改进人工鱼群算法（CIAFSA）等改进鱼群算法进行了比较。实验结果表明，AAFSA-GE较PSOEM-FSA、CIAFSA具有更优秀局部寻优能力和全局寻优能力，较NFSA具有更高的搜索效率以及更好的全局寻优能力。

基于贝叶斯权函数的模型无关元学习算法

许仁杰, 刘宝弟, 张凯, 刘伟锋

2022, 42(3): 708-712. DOI: 10.11772/j.issn.1001-9081.2021040758

摘要 ( )

HTML ( )

PDF (466KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

模型无关的元学习（MAML）是一种多任务的元学习算法，能使用不同的模型，并快速地在不同任务之间进行适应，但MAML在训练速度与准确率上还亟待提高。从高斯随机过程的角度出发对MAML的原理进行分析，提出一种基于贝叶斯权函数的模型无关元学习（BW-MAML）算法，该权函数利用贝叶斯分析设计并用于损失的加权。训练过程中，BW-MAML将每次抽样的任务视为遵循高斯分布，根据贝叶斯分析计算不同任务在分布中的概率，并根据任务在分布中的概率判断该任务重要程度，再以此赋以不同的权重，从而提高每次梯度下降中信息的利用率。在Omniglot与Mini-ImageNet数据集上的小样本图像学习实验结果表明，通过增加贝叶斯权函数，BW-MAML的训练效果在6任务训练2 500步后，在Mini-ImageNet上的准确率比MAML的准确率最高提高了1.9个百分点，并且最终准确率比MAML平均提升了0.907个百分点；在Omniglot上的准确率也平均提升了0.199个百分点。

基于离散哈希的聚类

轩书婷, 刘惊雷

2022, 42(3): 713-723. DOI: 10.11772/j.issn.1001-9081.2021040911

摘要 ( )

HTML ( )

PDF (1072KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

传统的聚类方法是在数据空间进行，且聚类数据的维度较高。为了解决这两个问题，提出了一种新的二进制图像聚类方法——基于离散哈希的聚类（CDH）。该框架通过 $L 21$ 范数实现自适应的特征选择，从而降低数据的维度；同时通过哈希方法将数据映射到二进制的汉明空间，随后，在汉明空间中对稀疏的二进制矩阵进行低秩矩阵分解，完成图像的快速聚类；最后使用可以快速收敛的优化方案来对目标函数进行优化求解。在Caltech101、Yale、COIL20、ORL图像数据集上的实验结果表明，该方法可以有效提升聚类效率。在Caltech101数据集的Gabor视图，与传统的K-means、谱聚类方法相比，在处理高维度数据时，CDH的时间效率分别提高了约87和98个百分点。

基于时间条件提取序列的数据流偏好查询

李润泽, 孙雪姣

2022, 42(3): 724-730. DOI: 10.11772/j.issn.1001-9081.2021040786

摘要 ( )

HTML ( )

PDF (635KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

传统关于偏好推理、偏好查询的研究主要集中在对关系元组表示的单个对象的偏好上，而将时间条件偏好查询的方法扩展到数据流的提取序列中是一个挑战，遇到的问题主要包括对数据流中序列的提取、快速处理以得到占优序列和占优对象等。针对偏好数据流，首先，扩展了连续查询语言（CQL），提出专门为有效处理数据流上的时间条件偏好的查询语言StreamSeq，它允许对数据流中提取的序列进行时间条件偏好规范和推理；然后，设计了从数据流中按时间索引提取对象序列的算法和执行序列间占优对比的算法，根据输入的数据流返回满足偏好条件的占优序列；最后，使用两组数据集进行实验验证。在合成数据集上，当属性数、序列数、时间范围和时间滑动间隔为10、8、20 s、1 s时，提取序列算法和CQL等效算法的运行时间加速比为13.33；在真实数据集上，当时间范围和时间滑动间隔为40 s、1 s时，占优对比算法和mintopK、partition、incpartition的运行时间加速比为10.77、6.46、5.69。实验结果表明，与其他偏好查询算法相比，所提算法所需的运行时间少，得到结果的效率更高。

基于关键帧筛选网络的视听联合动作识别

陈亭秀, 尹建芹

2022, 42(3): 731-735. DOI: 10.11772/j.issn.1001-9081.2021060995

摘要 ( )

HTML ( )

PDF (771KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

近年来，视听联合学习的动作识别获得了一定关注。无论在视频（视觉模态）还是音频（听觉模态）中，动作发生是瞬时的，往往在动作发生时间段内的信息才能够显著地表达动作类别。如何更好地利用视听模态的关键帧携带的显著表达动作信息，是视听动作识别待解决的问题之一。针对该问题，提出关键帧筛选网络KFIA-S，通过基于全连接层的线性时间注意力机制赋予每个时刻视听信息不同权重，从而筛选益于视频分类的视听特征，减少重复冗余信息，抑制背景干扰信息，提升动作识别精度。研究了不同强度的时间注意力对动作识别的影响。在ActivityNet数据集上的实验表明，KFIA-S网络达到了最先进的识别精度，证明了所提方法的有效性。

基于深度时空残差卷积神经网络的课堂教学视频中多人课堂行为识别

黄勇康, 梁美玉, 王笑笑, 陈徵, 曹晓雯

2022, 42(3): 736-742. DOI: 10.11772/j.issn.1001-9081.2021040845

摘要 ( )

HTML ( )

PDF (2130KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对课堂教学场景遮挡严重、学生众多，以及目前的视频行为识别算法并不适用于课堂教学场景，且尚无学生课堂行为的公开数据集的问题，构建了课堂教学视频库以及学生课堂行为库，提出了基于深度时空残差卷积神经网络的课堂教学视频中实时多人学生课堂行为识别算法。首先，结合实时目标检测和跟踪，得到每个学生的实时图片流；接着，利用深度时空残差卷积神经网络对每个学生行为的时空特征进行学习，从而实现课堂教学场景中面向多学生目标的课堂行为的实时识别；此外，构建了智能教学评估模型，并设计实现了基于学生课堂行为识别的智能教学评估系统，助力教学质量的提升，以实现智慧教育。通过在课堂教学视频数据集上进行实验对比与分析，验证了提出的课堂教学视频中实时多人学生课堂行为识别模型能够达到88.5%的准确率，且所构建的基于课堂行为识别的智能教学评估系统在课堂教学视频数据集上也已取得较好的运行效果。

基于深度注意力网络的课堂教学视频中学生表情识别与智能教学评估

于婉莹, 梁美玉, 王笑笑, 陈徵, 曹晓雯

2022, 42(3): 743-749. DOI: 10.11772/j.issn.1001-9081.2021040846

摘要 ( )

HTML ( )

PDF (746KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了解决复杂课堂场景下学生表情识别的遮挡的问题，同时发挥深度学习在智能教学评估应用上的优势，提出了一种基于深度注意力网络的课堂教学视频中学生表情识别模型与智能教学评估算法。构建了课堂教学视频库、表情库和行为库，利用裁剪和遮挡策略生成多路人脸图像，在此基础上构建了多路深度注意力网络，并通过自注意力机制为多路网络分配不同权重。通过约束损失函数限制各路权重的分配，将人脸图像的全局特征表示为每个支路的特征乘上注意力权重的和除以所有支路的注意力权重之和，并基于学习到的人脸全局特征进行学生课堂表情分类，实现遮挡情况下学生人脸表情识别。提出了融合课堂学生表情和行为状态的智能教学评估算法，实现了课堂教学视频中学生表情识别与智能教学评估。在公开数据集FERplus与自建课堂教学视频数据集上进行实验对比与分析，验证了提出的课堂教学视频中学生表情识别模型能够达到87.34%的准确率，且提出的融合课堂学生表情和行为状态的智能教学评估算法在课堂教学视频数据集上也取得优秀的性能。

基于生成对抗网络和网络集成的面部表情识别方法EE-GAN

杨鼎康, 黄帅, 王顺利, 翟鹏, 李一丹, 张立华

2022, 42(3): 750-756. DOI: 10.11772/j.issn.1001-9081.2021040807

摘要 ( )

HTML ( )

PDF (1422KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

由于现实生活场景差异大，人类在不同场景中表现的情感也不尽相同，导致获取到的情感数据集标签分布不均衡；同时传统方法多采用模型预训练和特征工程来增强与表情相关特征的表示能力，但没有考虑不同特征表达之间的互补性，限制了模型的泛化性和鲁棒性。针对上述问题，提出了一种包含网络集成模型Ens-Net的端到端深度学习框架EE-GAN：一方面考虑了多个异质网络获得的不同深度和区域的特征，实现不同语义、不同层次的特征融合，并通过网络集成以提高模型的学习能力；另一方面，基于对抗生成网络生成具有特定表情标签的面部图像，在进行数据增强的同时，达到平衡表情标签数据分布的目的。在CK+、FER2013和JAFFE数据集上的定性和定量实验验证了所提方法的有效性：相较于局部保留投影方法（LPP）在内的基于视图学习的方法，EE-GAN面部表情识别的准确率最高，分别达到了82.1%、84.8%和91.5%；同时，和AlexNet、VGG、ResNet等传统卷积神经网络（CNN）模型相比，准确率最少提高了9个百分点。

基于Res2Net-YOLACT和融合特征的室内跌倒检测算法

张璐, 方春, 祝铭

2022, 42(3): 757-763. DOI: 10.11772/j.issn.1001-9081.2021040857

摘要 ( )

HTML ( )

PDF (1061KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了加强对老年人的监护、降低跌倒带来的安全风险，提出了一种新的基于Res2Net-YOLACT和融合特征的室内跌倒检测算法。首先，通过融入Res2Net模块的YOLACT网络来提取视频图像序列中的人体轮廓；然后，利用两级判断的方法做出跌倒决策，其中一级判别通过运动速度特征粗略判断是否发生异常状态，二级通过融合人体形状特征和深度特征的模型结构对人体姿势进行判别；最后，当检测出跌倒且发生时间大于阈值时，发出跌倒报警。实验结果表明，该跌倒检测算法可以在复杂的场景下很好地提取到人体轮廓，对光照的鲁棒性较好，并且检测速度可达每秒28帧，能满足实时检测要求。此外，融入手工特征后的算法分类性能表现更优，分类准确率达98.65%，比卷积神经网络（CNN）特征算法提升了1.03个百分点。

基于单标注样本的多损失学习与联合度量视频行人重识别

殷雨昌, 王洪元, 陈莉, 冯尊登, 肖宇

2022, 42(3): 764-769. DOI: 10.11772/j.issn.1001-9081.2021040788

摘要 ( )

HTML ( )

PDF (710KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为解决行人重识别标注成本巨大的问题，提出了基于单标注样本的多损失学习与联合度量视频行人重识别方法。针对标签样本数量少，得到的模型不够鲁棒的问题，提出了多损失学习（MLL）策略：在每次训练过程中，针对不同的数据，采用不同的损失函数进行优化，提高模型的判别力。其次，在标签估计时，提出了一个联合距离度量（JDM），该度量将样本距离和近邻距离结合，进一步提升伪标签预测的精度。JDM改善了无标签数据标签估计的准确率低、未标记的数据没有被充分利用导致训练过程不稳定的问题。实验结果表明，和单标注样本渐进学习方法PL相比，当每次迭代增加的伪标签样本的比率为 $0.10$ 时，在MARS和 DukeMTMC-VideoReID两个数据集上的rank-1准确度达到了65.5%和76.2%，分别提升了7.6和5.2个百分点。

基于神经网络的复杂垃圾信息过滤算法分析

张建, 严珂, 马祥

2022, 42(3): 770-777. DOI: 10.11772/j.issn.1001-9081.2021040791

摘要 ( )

HTML ( )

PDF (610KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

垃圾信息的识别是自然语言处理方面主要的任务之一。传统方法是基于文本特征或词频的方法，其识别准确率主要依赖于特定关键词的出现与否，存在对关键词识别错误或对未出现关键词的垃圾信息文本识别能力较差的问题，提出基于神经网络的方法。首先，利用传统方法针对这一类垃圾信息文本进行识别训练和测试；然后，利用从垃圾短信、广告和垃圾邮件数据集中挑选出传统方法识别困难的垃圾信息，再从原数据集中随机挑选出同样数量的正常信息，将其组成三个无重复数据的新数据集；最后，以卷积神经网络和循环神经网络为基础，建立了三个模型，并在新数据集上进行识别训练。实验结果表明，基于神经网络的方法可以从文本中学习到更好的语义特征，在三个数据集上均能达到98%以上的准确率，高于朴素贝叶斯（NB）、随机森林（RF）、支持向量机（SVM）等传统方法。实验结果还显示，不同的神经网络适用于不同长度的文本分类，由循环神经网络组成的模型擅长识别句子长度的文本，由卷积神经网络组成的模型擅长识别段落长度的文本，由两者共同组成的模型擅长识别篇章长度的文本。

基于E-CARGO模型的共乘出行匹配建模与优化方法

李晓会, 董红斌

2022, 42(3): 778-782. DOI: 10.11772/j.issn.1001-9081.2021060983

摘要 ( )

HTML ( )

PDF (574KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

共乘出行应用系统通过提高汽车可用座位容量利用率来减少交通拥堵、缓解停车位紧张，提高社会效益和环境效益。司机和乘客的实时匹配和优化技术是共乘系统的核心内容。基于角色的协同（RBC）是一种用于促进组织结构、提供有序系统行为和协调系统内活动的新方法。为了减少乘客和司机的动态实时匹配时间、提高匹配效率，提出结合RBC和环境-类、代理、角色、群组和对象（E-CARGO）模型形式化共乘问题的方法。在资源容量约束和利润收入给定的情况下，对共乘匹配问题进行建模和仿真实验，提高可用座位容量利用率，实现平台收益最大化，资源匹配合理化。实验结果表明，基于E-CARGO模型的形式化方法可以应用于共乘出行匹配问题建模，最优匹配矩阵和时间可以采用Kuhn-Munkres（K-M）算法和Java中的优化软件包（ILOG）解决方案获得。与ILOG软件包算法相比，K-M算法所用平均时间至少减少了21%；当代理规模大于一定数值（大于600）时，算法时间开销急剧增大。

基于生成对抗网络的基因数据生成方法

曹一珉, 蔡磊, 高敬阳

2022, 42(3): 783-790. DOI: 10.11772/j.issn.1001-9081.2021040759

摘要 ( )

HTML ( )

PDF (1786KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在深度学习中，随着卷积神经网络（CNN）的深度不断增加，进行神经网络训练所需的数据会越来越多，但基因结构变异在大规模基因数据中属于小样本事件，导致变异基因的图像数据十分匮乏，严重影响了CNN的训练效果，造成了基因结构变异检测精度差、假阳性率高等问题。为增加基因结构变异样本数量，提高CNN识别基因结构变异的精度，提出了一种基于生成对抗网络（GAN）进行基因图像数据扩增的方法——GeneGAN。首先，利用Reads堆叠方法生成初始基因图像数据，将变异基因图像数据与非变异基因图像数据分为两个数据集；然后，为了平衡正负样本数据集，使用GeneGAN对变异图像样本进行扩充；最后，通过CNN对平衡前后数据集进行检测，并对精确率、召回率与F1值进行对比。实验结果显示，与传统扩增方法、生成对抗网络扩增方法、特征提取方法相比，GeneGAN对基因结构变异检测的F1值提升了1.94~17.46个百分点，说明使用GeneGAN进行基因数据生成能够有效提高使用CNN进行基因图像分类的精确率。

基于集合经验模态分解和长短期记忆网络的催化裂化装置氮氧化物排放预测

陈冲, 闫珠, 赵继轩, 何为, 梁华庆

2022, 42(3): 791-796. DOI: 10.11772/j.issn.1001-9081.2021040787

摘要 ( )

HTML ( )

PDF (1269KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

氮氧化物（NOx）是催化裂化（FCC）装置再生烟气中的主要污染物之一，准确预测NOx的排放浓度可有效避免炼化企业污染事件的发生。鉴于污染物排放数据具有非平稳、非线性和长记忆等特性，为了提高污染物排放浓度预测精度，提出一种基于集合经验模态分解（EEMD）和长短期记忆网络（LSTM）的耦合模型。将NOx排放浓度数据经过EEMD为若干个固有模态函数（IMF）和一个残差序列；根据IMF子序列与原始数据之间的相关性分析，剔除极弱相关的信号分量，有效减小原信号数据中的噪声；将IMF序列集分为高、低频两部分，分别进入不同深度的LSTM网络；最终，将子序列的预测结果反变换得到NOx排放浓度。实验表明，在催化裂化装置NOx排放预测中，对比LSTM的表现，EEMD-LSTM耦合模型在均方误差（MSE）、平均绝对误差（MAE）分别减小了46.7%、45.9%；在决定系数R²上增大了43%，实现了更高的预测精度。

基于时序超图卷积神经网络的股票趋势预测方法

李晓杰, 崔超然, 宋广乐, 苏雅茜, 吴天泽, 张春云

2022, 42(3): 797-803. DOI: 10.11772/j.issn.1001-9081.2021050748

摘要 ( )

HTML ( )

PDF (742KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

传统的股票预测方法大多基于时间序列模型，忽视了股票之间复杂的关系，并且该关系往往超出成对连接，例如同行业板块内股票或者基金持仓多支股票。针对该问题，提出一种基于时序超图卷积神经网络（HGCN）的股价走势预测方法，根据金融投资事实构造超图模型以拟合股票之间的多元关系，该模型包括两大组件：门控循环单元（GRU）网络和超图卷积神经网络。GRU网络对历史数据进行时间序列建模，捕捉长期依赖关系；HGCN建模股票间的高阶关系以学习内在关系属性，从而将股票间多元关系信息引入到传统的时序建模中，进行端到端的趋势预测。在中国A股市场真实数据集上的实验结果表明，相较于已有的股票预测方法，所提模型预测性能有所提升；如与GRU网络相比，所提模型在ACC和F1_score上的相对增幅分别为9.74%和8.13%，且更具有稳定性。此外，模拟回测结果显示，基于该模型的交易策略更具获利能力，年回报率达到11.30%，与长短期记忆（LSTM）网络相比提高了5个百分点。

基于多尺度特征融合的红外单目测距算法

刘斌, 李港庆, 安澄全, 王水根, 王建生

2022, 42(3): 804-809. DOI: 10.11772/j.issn.1001-9081.2021040912

摘要 ( )

HTML ( )

PDF (1946KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

由于MonoDepth2的提出，无监督单目测距在可见光领域取得了重大发展；然而在某些场景例如夜间以及一些低能见度的环境，可见光并不适用，而红外热成像可以在夜间和低能见度条件下获得清晰的目标图像，因此对于红外图像的深度估计显得尤为必要。由于可见光和红外图像的特性不同，直接将现有可见光单目深度估计算法迁移到红外图像是不合理的。针对该问题，对MonoDepth2算法进行改进，提出了基于多尺度特征融合的红外单目测距算法。针对红外图像低纹理的特性设计了一项新的损失函数边缘损失函数，旨在降低图像重投影时的像素误匹配。不同于以往的无监督单目测距单纯地将四个尺度的深度图统一上采样到原图像分辨率计算投影误差而忽略了尺度之间的关联性以及不同尺度之间的贡献差异，将加权的双向特征金字塔网络（BiFPN）应用于多尺度深度图的特征融合，解决了深度图边缘模糊问题。另外用跨阶段部分网络（CSPNet）替换残差网络（ResNet）结构，以降低网络复杂度并提高运算速度。实验结果表明，边缘损失更适合红外图像测距，使得深度图质量更高；在加入BiFPN结构之后，深度图像的边缘更加清晰；将ResNet替换为CSPNet之后，推理速度提高了大约20个百分点。该算法能够准确估计出红外图像的深度，解决夜间低光照场景以及一些低能见度场景下的深度估计难题；该算法的应用也可以在一定程度上降低汽车辅助驾驶的成本。

交通道路行驶车辆车标识别算法

李讷, 徐光柱, 雷帮军, 马国亮, 石勇涛

2022, 42(3): 810-817. DOI: 10.11772/j.issn.1001-9081.2021040860

摘要 ( )

HTML ( )

PDF (7541KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为解决交通道路行驶车辆车标识别中存在的目标小、噪声大、种类多的问题，提出了一种基于深度学习的目标检测算法与基于形态学模板匹配算法相结合的方法，并设计了一种高准确度且能应对新类型车标的识别系统。首先，采用通过K-Means++重新聚类锚框值，并引入残差网络的YOLOv4进行车标的一步定位；其次，通过对标准车标图像进行预处理及分割，构建二值车标模板库；接着，利用带色彩恢复的多尺度视网膜图像增强算法（MSRCR）、最大类间方差法（OTSU）等对定位到的车标进行预处理；最后，将处理好的车标与模板库中的标准车标进行汉明距离计算，求出最佳匹配。车标检测实验中，改进的YOLOv4检测精度均优于原始YOLOv4、基于车牌位置的车标两步定位法和基于散热器栅格背景的车标定位法，达到99.04%；速度略低于原始YOLOv4，高于另外两者，达到每秒50.62帧。车标识别实验中基于形态学模板匹配的识别精度均高于传统的方向梯度直方图（HOG）、局部二值模式（LBP）和卷积神经网络，达到92.68%。实验结果表明基于深度学习的车标检测算法有较高的精度和较快的速度，形态学模板匹配方法在光照变化和噪声污染的情况下仍能保持较高的识别精度。

基于注意力机制的多尺度残差UNet实现乳腺癌灶分割

罗圣钦, 陈金怡, 李洪均

2022, 42(3): 818-824. DOI: 10.11772/j.issn.1001-9081.2021040948

摘要 ( )

HTML ( )

PDF (1860KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对乳腺癌灶在磁共振成像（MRI）中呈现大小形状不一、边界模糊等特点，为避免误分割并提高分割精度，提出一种基于注意力机制的多尺度残差UNet分割算法。首先，利用多尺度残差单元替换UNet在下采样过程中的相邻两个卷积块以加强对形态大小差异的关注；接着，在上采样阶段使用跨层的注意力引导网络对重点区域的关注，避免造成对健康组织的误分割；最后，引入空洞空间金字塔池化作为分割网络的桥接模块以强化对病灶的表征能力。与UNet相比，所提算法在Dice系数、交并比（IoU）、特异度（SP）、准确度（ACC）等指标上分别提升了2.26、2.11、4.16、0.05个百分点。实验结果表明，所提算法能够提高癌灶分割精度，有效降低影像诊断的假阳性率。

U-Net与自适应阈值脉冲耦合神经网络相结合的眼底血管分割方法

徐光柱, 林文杰, 陈莎, 匡婉, 雷帮军, 周军

2022, 42(3): 825-832. DOI: 10.11772/j.issn.1001-9081.2021040856

摘要 ( )

HTML ( )

PDF (1357KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

由于眼底血管结构复杂多变，且图像中血管与背景对比度低，眼底血管分割存在巨大困难，尤其是微小型血管难以分割。基于深层全卷积神经网络的U-Net能够有效提取血管图像全局及局部信息，但由于其输出为灰度图像，并采用硬阈值实现二值化，这会导致血管区域丢失、血管过细等问题。针对这些问题，提出一种结合U-Net与脉冲耦合神经网络（PCNN）各自优势的眼底血管分割方法。首先使用迭代式U-Net模型凸显血管，即将U-Net模型初次提取的特征与原图融合的结果再次输入改进的U-Net模型进行血管增强；然后，将U-Net输出结果视为灰度图像，利用自适应阈值PCNN对其进行精准血管分割；在U-Net模型中引入Batch Normalization和Dropout，提高训练速度，有效缓解过拟合问题。实验结果表明，所提方法的AUC在DRVIE、STARE和CHASE_DB1数据集上分别为0.979 6，0.980 9和0.982 7。该方法可以提取更多的血管细节，且具有较强的泛化能力和良好的应用前景。

融合层次特征和混合注意力的目标跟踪算法

朱文球, 邹广, 曾志高

2022, 42(3): 833-843. DOI: 10.11772/j.issn.1001-9081.2021030432

摘要 ( )

HTML ( )

PDF (9505KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

目标跟踪任务中，全卷积孪生网络的目标跟踪（SiamFC）算法在目标遮挡、光照变化等场景时会表现出鲁棒性较差、丢失跟踪目标等问题，为此提出一种结合特征融合和注意力机制的目标跟踪算法。首先，采用ResNet50作为主干网络提取更充分的目标特征；其次，结合注意力机制对特征进行筛选，将筛选后的低层模板特征与高层模板特征分别同对应搜索特征做互相关操作后进行自适应加权融合，提升网络对正负样本的辨别力。在OTB100数据集上测试，所提算法的精度和成功率分别为81.25%和64.06%；在LaSOT数据集上测试，该算法的精度和成功率分别为49.4%和50.1%。实验结果表明，该算法目标跟踪性能优于全卷积孪生网络算法，且在处理复杂场景时有更好的鲁棒性。

基于注意力机制和金字塔融合的RGB-D室内场景语义分割

余娜, 刘彦, 魏雄炬, 万源

2022, 42(3): 844-853. DOI: 10.11772/j.issn.1001-9081.2021030392

摘要 ( )

HTML ( )

PDF (1447KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有RGB-D室内场景语义分割不能有效融合多模态特征的问题，提出一种基于注意力机制和金字塔融合的RGB-D室内场景图像语义分割网络模型APFNet，并为其设计了两个新模块：注意力机制融合模块与金字塔融合模块。其中，注意力机制融合模块分别提取RGB特征和Depth特征的注意力分配权重，充分利用两种特征的互补性，使网络聚焦于信息含量更高的多模态特征域；金字塔融合模块利用四种不同金字塔尺度特征，融合局部与全局信息，提取场景语境，提升物体边缘和小尺度物体的分割精度。将这两个融合模块整合到一个包含三个分支的“编码器-解码器”网络中，实现“端到端”输出。该模型在SUN RGB-D和NYU Depth v2数据集上与多层残差特征融合网络（RDF-152）、注意力互补网络（ACNet）、空间信息引导卷积网络（SGNet）等先进方法进行实验对比。实验结果表明，与最好的表现方法RDF-152对比，APFNet的编码器网络层数从152层降低到50层的情况下，像素精度（PA）、平均像素精度（MPA）、平均交并比（MIoU）分别提升了0.4、1.1、3.2个百分点，并对枕头、照片等小尺度物体和木板、天花板等大尺度物体的语义分割质量分别有0.9~4.5和12.4~18个百分点的提升；故该模型在处理室内场景语义分割问题上具有一定的优势。

面向视觉问答的跨模态交叉融合注意网络

王茂, 彭亚雄, 陆安江

2022, 42(3): 854-859. DOI: 10.11772/j.issn.1001-9081.2021030470

摘要 ( )

HTML ( )

PDF (759KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了提高视觉问答（VQA）模型回答复杂图像问题的准确率，提出了面向视觉问答的跨模态交叉融合注意网络（CCAN）。首先，提出了一种改进的残差通道自注意方法对图像进行注意，根据图像整体信息来寻找重要区域，从而引入一种新的联合注意机制，将单词注意和图像区域注意结合在一起；其次，提出一种“跨模态交叉融合”网络生成多个特征，将两个动态信息流整合到一起，每个模态内产生有效的注意流，其中对联合特征使用逐元素相乘的方法。此外，为了避免计算成本增加，网络之间共享参数。在VQA v1.0数据集上的实验结果表明，该模型的准确率达到67.57%，较MLAN模型提高了2.97个百分点，较CAQT模型提高了1.20个百分点。所提方法有效提高了视觉问答模型的准确率，具有有效性和鲁棒性。

基于BART噪声器的中文语法纠错模型

孙邱杰, 梁景贵, 李思

2022, 42(3): 860-866. DOI: 10.11772/j.issn.1001-9081.2021030441

摘要 ( )

HTML ( )

PDF (625KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在中文语法纠错中，基于神经机器翻译的方法被广泛应用，该方法在训练过程中需要大量的标注数据才能保障性能，但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题，提出一种基于BART噪声器的中文语法纠错模型——BN-CGECM。首先，为了加快模型的收敛，使用基于BERT的中文预训练语言模型对BN-CGECM的编码器参数进行初始化；其次，在训练过程中，通过BART噪声器对输入样本引入文本噪声，自动生成更多样的含噪文本用于模型训练，从而缓解标注数据有限的问题。在NLPCC 2018数据集上的实验结果表明，所提模型的F_0.5值比有道开发的中文语法纠错系统（YouDao）提高7.14个百分点，比北京语言大学开发的集成中文语法纠错系统（BLCU_ensemble）提高6.48个百分点；同时，所提模型不增加额外的训练数据量，增强了原始数据的多样性，且具有更快的收敛速度。

智能问诊中基于深度神经网络的反问生成方法

杜曾贞, 唐东昕, 解丹

2022, 42(3): 867-873. DOI: 10.11772/j.issn.1001-9081.2021030375

摘要 ( )

HTML ( )

PDF (758KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在智能问诊中，为了让医生快速提出合理的反问以提高医患对话效率，提出了基于深度神经网络的反问生成方法。首先获取大量医患对话文本并进行标注；然后使用文本循环神经网络（TextRNN）、文本卷积神经网络（TextCNN）二种分类模型分别对医生的陈述进行分类；再利用双向文本循环神经网络（TextRNN-B）、双向变形编码器（BERT）分类模型进行问题触发；设计六种不同的问答选取方式来模拟医疗咨询领域情景，采用开源神经机器翻译（OpenNMT）模型进行反问生成；最后对已生成的反问进行综合评估。实验结果表明，使用TextRNN进行分类优于TextCNN，利用BERT模型进行问题触发优于TextRNN-B，采用OpenNMT模型在Window-top方式下实现反问生成时，使用双语评估替补（BLEU）和困惑度（PPL）指标进行评价的结果最好。所提方法验证了深度神经网络技术在反问生成中的有效性，可以有效解决智能问诊中医生反问生成的问题。

教与学信息交互粒子群优化算法

聂方鑫, 王宇嘉, 贾欣

2022, 42(3): 874-882. DOI: 10.11772/j.issn.1001-9081.2021030395

摘要 ( )

HTML ( )

PDF (1395KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对单一种群在解决高维问题中收敛速度较慢和多样性缺失的问题，提出了一种教与学信息交互粒子群优化（PSO）算法。根据进化过程将种群动态地划分为两个子种群，分别采用粒子群优化算法和教与学优化算法，同时粒子利用学习者阶段进行子种群之间信息交互，并通过评价收敛性和多样性指标让粒子的收敛能力和多样性在进化过程中得到平衡。与粒子群优化算法、混合灰狼粒子群算法、重选精英个体的非线性收敛灰狼优化（GWO）算法等多个进化算法在15个标准测试函数的不同维度下进行对比实验，所提算法在多个测试函数上可以收敛到理论最优值，速度相对于其他算法提高了1~6倍。实验结果表明，所提算法在收敛精度和收敛速度上具有较好的效果。

基于密集连接卷积神经网络的道路车辆检测与识别算法

邓天民, 冒国韬, 周臻浩, 段志坚

2022, 42(3): 883-889. DOI: 10.11772/j.issn.1001-9081.2021030384

摘要 ( )

HTML ( )

PDF (1354KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有道路车辆检测识别算法中存在的检测精度不高、实时性差以及小目标车辆漏检等问题，提出一种基于密集连接卷积神经网络的道路车辆检测与识别算法。首先，基于YOLOv4网络框架，通过采用密集连接的深度残差网络结构，加强特征提取阶段的特征复用，实现对浅层复杂度较低的特征的利用；然后，在多尺度特征融合网络引入跳跃连接结构，强化网络的特征信息融合和表征能力，以降低车辆漏检率；最后，采用维度聚类算法重新计算先验框尺寸，并按照合理的策略分配给不同检测尺度。实验结果表明，该算法在KITTI数据集上获得了98.21%的检测精度和48.05 frame/s的检测速度，对于BDD100K数据集中复杂恶劣环境中的车辆也有较好的检测效果，在满足实时检测要求的同时有效提升检测精度。

基于轨迹点聚类的航路发现方法

刘海杨, 孟令航, 林仲航, 谷源涛

2022, 42(3): 890-894. DOI: 10.11772/j.issn.1001-9081.2021030425

摘要 ( )

HTML ( )

PDF (1771KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了加强对局部空域航路的掌握和管理，提出一种基于轨迹点聚类的航路发现方法。首先，针对根据真实数据的分布特点生成的仿真数据，采用预处理模块对轨迹数据的噪声进行削弱和剔除；其次，提出一种包括孤立点剔除、轨迹重采样、轨迹点聚类、聚类中心修正和连接聚类中心五个部分的航路发现方法，对航路进行提取；最后，对航路提取结果进行了可视化输出，并使用民航数据对该方法进行了验证。在仿真数据上的实验结果表明，在噪声强度为0.1°、缓冲区为30 km的条件下，所提方法的节点覆盖率和长度覆盖率分别为99%和94%；与栅格化方法相比，该方法具有较高准确性，能够对航路进行更有效的提取，达到了提取飞行器常见航路的目的。

异质信息网络中基于有向无环图的影响力最大化算法

吴晴晴, 周丽华, 寸轩懿, 杜国王, 姜懿庭

2022, 42(3): 895-903. DOI: 10.11772/j.issn.1001-9081.2021020369

摘要 ( )

HTML ( )

PDF (894KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对异质信息网络中的影响力最大化（IM）问题，提出了一种基于有向无环图（DAG）的影响力最大化算法（DAGIM）。首先基于DAG结构度量节点的影响力，然后采用边际增益策略选择影响力最大的节点。DAG结构表达力强，不仅描述了不同类型节点之间的显性关系，也刻画了节点之间的隐性关系，较完整地保留了网络的异质信息。在三个真实数据集上的实验结果验证所提DAGIM的性能优于Degree、PageRank、局部有向无环图（LDAG）以及基于元路径的信息熵（MPIE）算法。

基于金融技术指标的用电数据分析

杨安, 蒋群, 孙钢, 殷杰, 刘英

2022, 42(3): 904-910. DOI: 10.11772/j.issn.1001-9081.2021030447

摘要 ( )

HTML ( )

PDF (785KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对已有用电数据分析缺乏有效描述趋势性特征的不足，适应性地将金融领域中十字过滤线（VHF）、异同移动平均线（MACD）等技术指标迁移至用电数据分析中，提出了基于金融技术指标的异动检测算法和负荷预测算法。所提异动检测算法通过统计各指标的统计情况划定阈值，并采用阈值检测捕捉用户异常用电行为。所提负荷预测算法通过提取14项与金融技术指标相关的日负荷特征，构建了长短期记忆网络（LSTM）负荷预测模型。在杭州市工业用电数据上的实验结果表明，所提负荷预测算法将平均绝对百分比误差（MAPE）降低至9.272%，相较于差分整合移动平均自回归（ARIMA）算法、Prophet算法和支持向量机（SVM）算法，分别将MAPE降低了2.322、24.175和1.310个百分点，能够较好地应用于用电数据分析中。

车载自组网中可撤销的聚合签名认证方案

吴静雯, 殷新春, 宁建廷

2022, 42(3): 911-920. DOI: 10.11772/j.issn.1001-9081.2021030428

摘要 ( )

HTML ( )

PDF (684KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为解决车载自组网（VANET）面临的通信安全和隐私保护方面的问题，提出了一种车载自组网中可撤销的聚合签名认证方案。该方案通过匿名认证保障用户隐私，通过使用防篡改设备和聚合签名技术提高认证效率。为实现车辆撤销，要求车辆使用路边单元发放的成员密钥生成签名，当车辆进入路边单元的通信范围时，路边单元实时审查车辆身份，拒绝为撤销列表中的车辆发放成员密钥，使其无法生成合法签名。当仿真区域内各个进口道的输入车流量为每小时600辆时，相较于同类型的几种方案，该方案降低了至少33.77%的认证开销。仿真实验结果表明，该方案适用于资源受限的车载自组网环境。

融合残差密集块自注意力机制和生成对抗网络的对抗攻击防御模型

赵玉明, 顾慎凯

2022, 42(3): 921-929. DOI: 10.11772/j.issn.1001-9081.2021030431

摘要 ( )

HTML ( )

PDF (804KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

神经网络在图像分类任务上表现优异，但它极易受添加微小扰动的对抗样本的影响，输出错误的分类结果；而目前防御方法存在图像特征提取能力不足、对图像关键区域特征关注较少的问题。针对这些问题，提出了一种融合残差密集块（RDB）自注意力机制和生成对抗网络（GAN）的攻击防御模型——RD-SA-DefGAN。该模型将GAN和投影梯度下降（PGD）攻击算法相结合，吸收PGD攻击算法生成的对抗样本进入训练样本扩充训练集，辅以条件约束稳定模型的训练过程。该模型添加了残差密集块和自注意力机制，在充分提取特征的同时，增大了关键区域特征对分类任务的贡献度。在CIFAR10、STL10和ImageNet20数据集上的实验结果表明，RD-SA-DefGAN能对对抗攻击实施有效防御，在抵御PGD对抗攻击上优于Adv.Training、Adv-BNN、Rob-GAN等防御方法。相较于结构最近似的Rob-GAN，在CIFAR10数据集上，RD-SA-DefGAN在扰动阈值为0.015~0.070时，防御成功率提升了5.0~9.1个百分点。

融合空间位置与结构信息的压缩感知图像重建方法

林乐平, 周宏敏, 欧阳宁

2022, 42(3): 930-937. DOI: 10.11772/j.issn.1001-9081.2021030434

摘要 ( )

HTML ( )

PDF (2281KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对低采样率下分块压缩感知重建图像视觉效果不佳的问题，提出一种融合空间位置与结构信息的压缩感知图像重建方法（SLSI）。首先，对观测值进行线性映射得到图像块的初步估计值；然后，基于块分组重建支路和全图重建支路对图像的空间位置信息和结构信息进行提取、增强和融合；最后，通过加权策略融合双支路的输出得到最终重建全图。在块分组重建支路中，根据图像块的数据特点分配重建资源。在全图重建支路中，主要通过双边滤波和结构特征交互模块对相邻图像块像素进行信息交互。实验结果表明，与基于非迭代重建网络（ReconNet）、基于非局部约束的多尺度重建网络（NL-MRN）等压缩感知重建方法相比，由于结合了像素间强自相关性这种图像先验，在采样率为0.05的情况下，所提方法在压缩感知领域常用的测试图像数据上的峰值信噪比（PSNR）和结构相似度（SSIM）分别平均提升了2.617 5 dB和0.105 3，重建图像的视觉效果较好。

基于多感受野的生成对抗网络医学MRI影像超分辨率重建

刘朋伟, 高媛, 秦品乐, 殷喆, 王丽芳

2022, 42(3): 938-945. DOI: 10.11772/j.issn.1001-9081.2021040629

摘要 ( )

HTML ( )

PDF (1135KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对医学磁共振成像（MRI）过程中由于噪声、成像技术和成像原理等干扰因素引起的图像细节丢失、纹理不清晰等问题，提出了基于多感受野的生成对抗网络医学MRI影像超分辨率重建算法。首先，利用多感受野特征提取块获取不同感受野下图像的全局特征信息，为避免感受野过小或过大导致图像的细节纹理丢失，将每组特征分为两组，其中一组用于反馈不同尺度感受野下的全局特征信息，另一组用于丰富下一组特征的局部细节纹理信息；然后，使用多感受野特征提取块构建特征融合组，并在每个特征融合组中添加空间注意力模块，充分获取图像的空间特征信息，减少了浅层和局部特征在网络中的丢失，在图像的细节上取得了更逼真的还原度；其次，将低分辨率图像的梯度图转化为高分辨率图像的梯度图辅助重建超分辨率图像；最终将恢复后的梯度图集成到超分辨率分支中，为超分辨率重建提供结构先验信息，有助于生成高质量的超分辨率图像。实验结果表明，相比基于梯度引导的结构保留超分辨率算法（SPSR），所提算法在×2、×3、×4尺度下的峰值信噪比（PSNR）分别提升了4.8%、2.7%、3.5%，重建出的医学MRI影像纹理细节更加丰富、视觉效果更加逼真。

基于率失真特性的视频编码优化算法

郭红伟, 樊香所, 刘帅, 韦相, 赵伶俐

2022, 42(3): 946-952. DOI: 10.11772/j.issn.1001-9081.2021030398

摘要 ( )

HTML ( )

PDF (780KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

率失真（R-D）优化是视频编码器中一项关键技术，然而当前广泛采用的独立率失真优化远未达到全局最优性能。为了进一步提升高效视频编码（HEVC）的压缩性能，提出了一种结合率失真依赖性和率失真特性的二次编码优化算法。首先，采用原始HEVC的方法对当前帧进行第一次编码，从而得到当前帧消耗的比特数和每个编码树（CTU）单元的率失真模型参数；然后，结合时域依赖率失真优化，根据当前帧比特预算和率失真模型参数计算每个CTU的最佳拉格朗日乘子及量化参数；最后，对当前帧中每个CTU采用不同的优化目标重新编码。实验结果表明，在低延迟B帧和P帧编码配置下，与HEVC基准相比，所提视频编码优化算法在同样编码质量下节省了3.5%和3.8%的码率，获得了显著的率失真性能提升。

改进的基于锚点的三维手部姿态估计网络

危德健, 王文明, 王全玉, 任好盼, 高彦彦, 王志

2022, 42(3): 953-959. DOI: 10.11772/j.issn.1001-9081.2021030427

摘要 ( )

HTML ( )

PDF (659KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

近年来基于锚点的三维手部姿态估计方法比较流行，A2J（Anchor-to-Joint）是比较有代表性的方法之一。A2J在深度图上密集地设置锚点，利用神经网络预测锚点到关键点的偏差以及每个锚点的权重。A2J使用预测的偏差和权重，以加权求和的方式计算关键点的坐标，降低了网络回归结果中的噪声。虽然A2J简单高效，但是不恰当的网络结构和损失函数影响了网络的准确度，因此提出改进的网络HigherA2J。首先，使用一个分支预测锚点到关键点的XYZ偏差，更好地利用深度图的3D特性；其次，简化A2J的网络分支结构从而降低网络参数量；最后，设计关键点估计损失函数，结合关键点估计损失和偏差估计损失，有效提高估计准确度。在三个数据集NYU、ICVL和HANDS 2017上的实验结果显示，手部姿态估计的平均误差比A2J都有所降低，分别降低了0.32 mm，0.35 mm和0.10 mm。

基于注意力机制的弱监督动作定位方法

胡聪, 华钢

2022, 42(3): 960-967. DOI: 10.11772/j.issn.1001-9081.2021030372

摘要 ( )

HTML ( )

PDF (573KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对弱监督动作定位方法无法直接进行动作定位且定位准确性不高的问题，提出了一种基于注意力机制的弱监督动作定位方法，并设计和实现了一种基于动作前后帧信息和区分函数的动作定位模型。采用条件变分自编码器（CVAE）注意力值生成模型，将生成的帧级注意力值作为伪帧级标签；为了增强帧前后的关联性，改进CVAE注意力值生成模型，加入动作前后帧信息以获取帧级注意力值；采用基于区分函数的注意力值优化模型，对伪帧级标签进行反复训练和优化。在THUMOS14和ActivityNet1.2数据集上进行的实验结果表明，基于动作前后帧信息和区分函数的动作定位模型具有较好的动作定位效果和准确性，相较于未加入动作前后帧信息的模型，动作漏检率减小了11.7%；与AutoLoc、W-TALC、3C-Net等弱监督动作定位模型对比，当交并比（IoU）取值0.5时，在THUMOS14数据集上平均检测精度均值（mAP）提升10.7%以上，在ActivityNet1.2数据集上mAP提升8.8%以上。

基于特征融合的三维人脸点云质量判断

高工, 杨红雨, 刘洪

2022, 42(3): 968-973. DOI: 10.11772/j.issn.1001-9081.2021030414

摘要 ( )

HTML ( )

PDF (861KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对使用双目结构光扫描仪获取的三维人脸点云，提出了一种特征融合网络（FFN）来完成人脸点云质量判断任务。首先，对三维点云预处理切割出人脸面部区域，使用点云和对应的二维平面投影得到的图像作为输入；其次，分别训练用于点云学习的动态图卷积神经网络（DGCNN）和ShuffleNet两个模块；然后，提取出两个网络模块的中间层特征进行特征融合，对整个网络进行微调；最后，使用三层全连接层，实现三维人脸点云的5分类（优秀、普通、条纹、毛刺、变形）。所提FFN的分类正确率为83.7%；分类正确率比ShuffleNet提升了5.8%，比DGCNN提升了2.2%。实验结果表明，加权融合二维图像特征和点云特征可以达到不同特征之间的优势互补效果。

协作多输入多输出环境反向散射通信系统遍历速率分析

郑鑫, 李素月, 王安红, 李美玲, MUHAIDAT Sami, 宁爱平

2022, 42(3): 974-979. DOI: 10.11772/j.issn.1001-9081.2021020312

摘要 ( )

HTML ( )

PDF (755KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对传统物联网（IoT）能耗大、频谱资源稀缺的问题，提出了由环境反向散射、协作接收机（CRx）和环境射频（RF）源共同构建的协作多输入多输出环境反向散射通信（MIMO-AmBC）系统模型。首先，通过使用PSR方案对该系统模型进行分析，推导出信噪比（SNR）；其次，推导出主链路和反向散射链路的遍历速率近似表达式，并得到反向散射链路遍历速率最大值表达式；最后，将其与传统蜂窝网络、CSR方案作对比。实验结果验证了理论推导的正确性并给出有意义结论：1）反向散射链路速率随接收天线数对数增长，与发射天线数无关。2）在SNR为10 dB时，PSR方案的和速率比传统方案、CSR方案分别提升36.8%和29.9%，虽然PSR方案的主链路速率比CSR方案降低5.5%，但反向散射链路的遍历速率比CSR方案提升7.7倍。为实际应用选取AmBC共生方案提供了理论参考。

无人机巡检系统中高频效的混合波束赋形方法

凌欣, 李民政

2022, 42(3): 980-984. DOI: 10.11772/j.issn.1001-9081.2021030445

摘要 ( )

HTML ( )

PDF (596KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着智能电网的发展，无人机巡检输电线路应用越来越广泛。为了有效实施输电线路故障定位和类型判断，要求无人机回传视频图像的分辨率越高越好。在带宽有限的条件下，需要尽可能提高无人机回传通信链路的频谱效率，以满足高分辨率视频图像对传输速率的需求。提出基于Mesh网络的视频图像回传通信方法。通过在杆塔上部署无线接入节点并构建Mesh网络，无人机搭载的通信设备作为网络节点可随时与构建的Mesh网络进行通信。在获取输电线路故障的视频后，无人机能迅速将视频回传到数据处理中心。为此在巡检无人机的通信模块中配备了大规模天线阵列，在毫米波频段采用启发式点对点定向混合波束赋形方法，从而提高接收通信链路的频谱效率。仿真结果表明，与正交匹配追踪（OMP）方法相比，所提方法性能更优且更接近于纯数字波束赋形方法的性能。

当期目录