《计算机应用》唯一官方网站

优化场景视角下的进化多任务优化综述

赵佳伟, 陈雪峰, 冯亮, 候亚庆, 朱泽轩, Yew‑Soon Ong

2024, 44(5): 1325-1337. DOI: 10.11772/j.issn.1001-9081.2024020208

摘要 ( )

HTML ( )

PDF (1383KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着优化问题变得日益复杂，传统的进化算法由于计算成本高昂和适用性有限而面临挑战。为了克服这些挑战，基于知识迁移的进化多任务优化（EMTO）算法应运而生，它的核心思想是通过跨任务的知识共享，同时解决多个优化问题，旨在提高进化算法在应对复杂优化场景的效率。全面总结了当前进化多任务优化研究的进展，与已有综述文章相比，从不同的研究视角进行深入探讨，并指出了现有文献中对优化场景视角分析的缺失。鉴于此，从优化问题的应用场景出发，对适用于进化多任务优化的场景及其基本解决策略进行了系统性的阐述，以帮助研究人员准确地根据具体应用需求选择合适的研究方法。此外，深入讨论进化多任务优化当前面临的挑战和未来的研究方向，旨在为未来的研究提供指导和启示。

多任务优化算法及应用研究综述

武越, 丁航奇, 何昊, 毕顺杰, 江君, 公茂果, 苗启广, 马文萍

2024, 44(5): 1338-1347. DOI: 10.11772/j.issn.1001-9081.2024020209

摘要 ( )

HTML ( )

PDF (1486KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

进化多任务优化（EMTO）是进化计算中一种新型方法，它可以同时解决多个相关的优化任务，并通过任务之间的知识转移增强每个任务的优化。近年来，越来越多的进化多任务优化相关研究致力于利用它强大的并行搜索能力和降低计算成本的潜力优化各种问题，并且EMTO已应用于各种各样的实际场景当中。从EMTO的原理、核心设计、应用以及挑战四个方面对EMTO的算法及应用进行了讨论。首先介绍了EMTO的大致分类，分别从两个层次、四个方面介绍，包括单种群多任务、多种群多任务、辅助任务形式以及多形式任务形式；其次介绍EMTO的核心组件设计，包括任务构建以及知识转移；最后对它的各种应用场景进行介绍，并对今后研究做了总结与展望。

面向大规模重叠问题的两阶段差分分组方法

田茂江, 陈鸣科, 堵威, 杜文莉

2024, 44(5): 1348-1354. DOI: 10.11772/j.issn.1001-9081.2024020255

摘要 ( )

HTML ( )

PDF (738KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

大规模重叠问题在实际工程应用中普遍存在，重叠问题子组间的共享变量给大规模重叠问题的优化带来了很大困难。基于分解的协同进化（CC）算法在解决大规模重叠问题上表现良好。然而，一些针对重叠问题设计的新型CC框架依赖问题分解方法获得重叠问题结构，而目前针对大规模重叠问题设计的分解方法不能同时兼顾高效性和准确性。为此，提出一种两阶段差分分组（TSDG）方法，在实现精确分组的同时显著减少了计算资源消耗。在第一阶段，采用基于有限差分原理的分组方法高效地识别子组集和共享变量集；第二阶段则提出一种分组改善方法检查前一阶段得到的子组集和共享变量集的信息，改正不准确的分组结果，以提高分组的稳定性和准确性。利用两阶段的协同作用，TSDG实现了对大规模重叠问题高效准确的分解。实验结果表明，TSDG能够在消耗较少计算资源的同时准确地分解大规模重叠问题。在优化实验中，TSDG在大规模重叠问题上的表现也优于对比算法。

基于多时间尺度协同的大规模原油调度进化算法

张莞婷, 杜文莉, 堵威

2024, 44(5): 1355-1363. DOI: 10.11772/j.issn.1001-9081.2024020254

摘要 ( )

HTML ( )

PDF (2180KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对原油调度过程存在的资源规模庞大、约束条件复杂、多时间尺度决策衔接困难等问题，提出一种基于多时间尺度协同的进化算法（MTCEA）。首先，根据炼油企业的规模结构和实际需求，建立了一种大规模多时间尺度原油调度优化模型，该模型由面向资源的中长期调度模型和面向操作的短期调度模型构成，通过引入原油资源动态分组策略，实现原油资源的合理配置，以满足不同的调度规模、多时间尺度的特征和精细化生产的要求；其次，为促进不同时间尺度调度决策的融合衔接，设计基于多时间尺度协同的进化算法，并针对不同时间尺度调度模型中的连续决策变量构造子问题进行求解，以实现不同时间尺度调度决策之间的协同优化；最后，在3个实际工业案例进行了算法性能验证。结果表明，与3种具有代表性的大规模进化优化算法（即竞争性粒子群优化算法（CSO）、基于多轨迹搜索的自适应差分进化算法（SaDE-MMTS）和基于混合模型的进化策略（MMES））以及3种高性能混合整数非线性规划（MINLP）数学求解器（即ANTIGONE（Algorithms for coNTinuous/Integer Global Optimization of Nonlinear Equations）、SCIP（Solving Constraint Integer Programs）和SHOT（Supporting Hyperplane Optimization Toolkit））相比，MTCEA的求解最优性指标和稳定性指标分别提高了30%和25%以上。这些显著的性能提升验证了MTCEA在大规模多时间尺度原油调度决策中的实际应用价值和优势。

GPU加速的演化算法求解多目标流水车间调度问题

姜涛, 梁振宇, 程然, 金耀初

2024, 44(5): 1364-1371. DOI: 10.11772/j.issn.1001-9081.2024010028

摘要 ( )

HTML ( )

PDF (1464KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

智能制造和环境可持续性研究中，多目标调度问题对于协调生产效率、成本管理与环境保护之间的平衡具有至关重要的意义，但现有基于CPU的调度解决方案在处理大规模生产任务时仍面临效率和时效性的限制，而GPU的并行计算能力可为优化大规模流水车间调度问题提供新的解决途径。针对多目标零等待流水车间调度问题（NWFSP），以同时最小化最大完成时间和总能耗（TEC）为优化目标，构建了混合整数线性规划模型（MILP）表征该调度问题，并提出一种基于GPU加速的张量化演化算法（Tensor-GPU-NSGA-Ⅱ）求解该问题。Tensor-GPU-NSGA-Ⅱ的主要创新在于对NWFSP关于最小化最大完成时间和TEC的计算过程的张量化处理，并提出了一种基于GPU的并行种群更新方法。实验结果表明，在500工件和20机器的问题规模下，Tensor-GPU-NSGA-Ⅱ在计算效率上相较于传统NSGA-Ⅱ算法取得了9 761.75的加速比；且随着种群规模的增加，它的加速性能有显著提升。

概率驱动的动态多目标多智能体协同调度进化优化

刘晓芳, 张军

2024, 44(5): 1372-1377. DOI: 10.11772/j.issn.1001-9081.2023121865

摘要 ( )

HTML ( )

PDF (1353KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在多智能体系统中，协作任务往往动态变化，且存在多个冲突的优化目标，因此动态多目标多智能体协同调度问题已经成为亟须解决的关键问题之一。针对动态环境下多智能体协同调度需求，提出了概率驱动的动态预测策略，旨在有效利用历史环境概率分布，预测决策解在新环境的概率分布，从而生成新的多智能体调度方案，实现调度算法在动态环境下的快速响应。具体来讲，设计了基于元素的概率分布表达，以表示解的构成元素在动态环境的适应性，并根据优化算法迭代最优解逐步更新概率分布以趋近实际分布；构建了基于融合的概率分布预测机制，考虑到环境变化的连续性和相关性，当环境变化时，通过融合历史概率分布预测新环境的概率分布，为新环境优化提供先验知识；提出了基于启发式的新解采样机制，结合概率分布和启发式信息，生成解方案以更新过时种群。将概率驱动的动态预测策略嵌入新型的多目标进化算法，获得概率驱动的动态多目标进化算法。在10个动态多目标多智能体协同调度问题实例上，实验结果表明，所提算法在解最优性和多样性上显著优于已有多目标进化算法，所提的概率驱动的动态预测策略能够提高多目标进化算法对动态环境的适应能力。

机会约束的多选择背包问题的遗传算法求解

李炫锋, 刘晟材, 唐珂

2024, 44(5): 1378-1385. DOI: 10.11772/j.issn.1001-9081.2024010113

摘要 ( )

HTML ( )

PDF (1793KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

机会约束的多选择背包问题（CCMCKP）是一类具有重要应用价值的NP难组合优化问题，但目前还缺乏关于该问题求解方法的专门研究。为此，提出首个CCMCKP的求解框架，并基于该框架构建了两种求解方法：基于动态规划的RA-DP和基于遗传算法的RA-IGA。RA-DP是精确求解方法，具有最优性保证，但是在可接受的时间（1 h）内仅能求解小规模问题样例；相较而言，RA-IGA是近似求解方法，具有更好的可扩放性。仿真实验结果验证了所提求解方法的性能：在小规模问题样例上，RA-DP和RA-IGA都可以找到最优解；在中大规模问题样例上，RA-IGA表现出了比RA-DP显著更高的求解效率，它总是可以在给定时间（1 h）内快速获得可行解。在CCMCKP的后续研究中，RA?DP和RA-IGA可作为基准对比方法，而实验工作中所构建的测试样例集可作为该问题的标准测试集。

面向约束多目标优化的进化计算与梯度下降联合优化算法

田野, 陈津津, 张兴义

2024, 44(5): 1386-1392. DOI: 10.11772/j.issn.1001-9081.2023121798

摘要 ( )

HTML ( )

PDF (1501KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

约束多目标进化算法（CMOEA）是一类专门为解决约束多目标优化问题而设计的元启发式算法。这类算法利用基于种群的黑盒随机搜索模式，可以在不同优化问题上达到目标与约束之间的有效平衡；然而它们未有效利用函数的梯度信息，在复杂问题上收敛过慢。但引入梯度信息不是一个简单的过程，同时计算所有目标和约束的梯度会消耗大量的计算资源，且目标和约束之间的矛盾会使梯度方向难以确定。为此，提出一种进化计算和梯度下降（GD）的联合优化算法——基于梯度辅助的多阶段约束多目标进化算法（CMOEA-MSG）。该算法包括两个阶段：在第一阶段，算法通过构建辅助问题并有选择性地计算目标或约束的梯度更新解，使种群快速收敛至可行区域；在第二阶段，算法采用约束优先原则求解原问题，保证种群的可行性和多样性。与现有同类算法在LIR-CMOP、MW和DAS-CMOP三个测试集上的对比结果表明，CMOEA-MSG可以更有效地解决约束多目标优化问题。

分布式数据驱动的多约束进化优化算法

魏凤凤, 陈伟能

2024, 44(5): 1393-1400. DOI: 10.11772/j.issn.1001-9081.2023121814

摘要 ( )

HTML ( )

PDF (1005KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

泛在计算模式下，数据分布式获取和处理带来了分布式数据驱动优化的需求。针对数据分布获取、约束异步评估且信息缺失的挑战，构建分布式数据驱动的多约束进化优化算法（DDDEA）框架，由一系列终端节点负责数据提供和分布式评估，服务器节点负责全局进化优化。基于该框架具体实现了一个算法实例，终端节点利用局部数据构建径向基函数（RBF）模型，辅助驱动服务器节点差分进化（DE）算法对问题进行寻优。通过与3个集中式数据驱动的多约束进化优化算法在两个标准测试集的实验对比，DDDEA在68.4%的测试用例中取得显著最优结果，在84.2%的测试用例中找到可行解的成功率为1.00，表明该算法具有良好的全局搜索能力和收敛能力。

基于有限忍耐度鸽群优化的无人机近距空战机动决策

郑志强, 段海滨

2024, 44(5): 1401-1407. DOI: 10.11772/j.issn.1001-9081.2023121837

摘要 ( )

HTML ( )

PDF (2642KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

由于对抗双方态势的快速变化，无人机近距空战机动自主决策困难且复杂，是空中对抗的一个难点。对此，提出一种基于有限忍耐度鸽群优化（FTPIO）算法的无人机近距空战机动决策方法。该方法主要包括基于机动动作库的对手行动预测和基于FTPIO算法的机动控制量和执行时间优化求解两个部分。为提升基本鸽群优化（PIO）算法的全局探索能力，引入有限忍耐度策略，在鸽子个体几次迭代中没有找到更优解时对其属性进行一次重置，避免陷入局部最优陷阱。该方法采用的优化变量是无人机运动模型控制变量的增量，打破了机动库的限制。通过和极小极大方法、基本PIO算法和粒子群优化（PSO）算法的仿真对抗测试结果表明，所提出的机动决策方法能够在近距空战中有效击败对手，产生更为灵活的欺骗性机动行为。

进化双层自适应局部特征选择

高麟, 周宇, 邝得互

2024, 44(5): 1408-1414. DOI: 10.11772/j.issn.1001-9081.2023121829

摘要 ( )

HTML ( )

PDF (2984KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

局部特征选择（LFS）方法将样本空间划分为多个局部区域，并为每个区域选择最优特征子集以反映局部异质信息。然而，现有的LFS方法以每个样本为中心划分局部区域并找到最优特征子集，导致优化效率低下且适用场景受限。为了解决这个问题，提出一种进化双层自适应局部特征选择（BiLFS）算法。LFS问题被建模为双层优化问题，特征子集和待优化局部区域是该问题的两个决策变量。在问题的上层，使用非支配排序遗传算法-Ⅱ求解被选择的局部区域的最优特征子集，区域纯度和被选择特征比率是目标函数；在问题的下层，根据上层求解的最优特征子集，首先使用局部区域聚类分析得到区域内的中心样本，然后通过局部区域融合消除非必要区域并更新必要区域的种群。在11个UCI数据集上的测试结果表明，相较于基于进化算法的非自适应LFS方法，BiLFS的平均分类准确率达到前者的98.48%，而平均所需计算用时仅为前者的9.51%，运算效率得到大幅提升，且达到基于线性规划的LFS方法的水准。对迭代过程中BiLFS算法选择的用于优化的局部区域进行可视化分析，结果表明，BiLFS选择必要局部区域具有稳定性和可靠性。

基于双阶段搜索的约束进化多任务优化算法

赵楷文, 王鹏, 童向荣

2024, 44(5): 1415-1422. DOI: 10.11772/j.issn.1001-9081.2023050696

摘要 ( )

HTML ( )

PDF (1756KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

高效地平衡算法的多样性、收敛性和可行性是求解约束多目标优化问题（CMOP）的关键；然而，复杂约束的出现给该类问题的求解带来了更大的挑战。因此，提出一种基于双阶段搜索的约束进化多任务优化算法（TEMA），通过完成两个协同进化的任务实现多样性、收敛性和可行性之间的平衡。首先，进化过程由探索和利用两个阶段组成，分别致力于加强算法在目标空间的广泛探索能力和高效搜索能力；其次，设计一种动态约束处理策略以平衡种群中可行解的比例，从而增强算法在可行区域的探索能力；再次，提出一种回退搜索策略，利用无约束Pareto前沿所包含的信息指导算法向约束Pareto前沿快速收敛；最后，在两个基准测试集中的23个问题上进行对比实验。实验结果表明，TEMA分别在14个和13个测试问题上取得最优反世代距离（IGD）值和超体积（HV）值，体现出明显优势。

基于条件生成对抗插补网络的双重判别器缺失值插补算法

粟佳, 于洪

2024, 44(5): 1423-1427. DOI: 10.11772/j.issn.1001-9081.2023050697

摘要 ( )

HTML ( )

PDF (872KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

应用中的各种因素可能造成数据缺失，影响后续任务的分析。因此，数据集缺失值的插补尤为重要。相比原本没有插补的处理，错误的插补值也会对分析造成更严重的偏差。针对这种情况，提出新的采用双重判别器的基于条件生成对抗插补网络（C-GAIN）的缺失值插补算法DDC-GAIN（Dual Discriminator based on C-GAIN）。该算法通过一个辅助判别器辅助主判别器判断预测值的真假，即根据一个样本的全局信息判断这个样本生成的真假，更注重特征之间的关系，以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验，结果表明：同样条件下，DDC-GAIN算法在样本量较大时的均方根误差（RMSE）最低；在Default credit card数据集上缺失率为15%时，DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。

基于特征间关系合成少数类样本的过采样算法

雷明珠, 王浩, 贾蓉, 白琳, 潘晓英

2024, 44(5): 1428-1436. DOI: 10.11772/j.issn.1001-9081.2023050803

摘要 ( )

HTML ( )

PDF (1836KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

数据不平衡的现象在现实生活中非常普遍。为了提高整体分类精度，分类器有时会以错分少数类为代价。但在现实生活中，对少数类进行错误分类的后果非常严重。考虑到传统重采样算法容易忽略数据的空间分布和少数类样本特征之间的关系，提出一种基于特征关系的采样算法（SABRF）生成新的样本集。SABRF通过帕累托多目标特征选择保留不平衡数据集的关键区分特征，同时通过极端梯度提升（XGBoost）回归模型捕获少数类样本关键特征之间的关系。此外，还提出一个新的样本选择策略衡量新生成样本的质量。使用6个公开的UCI数据集和1个真实的骨科术后血栓数据集进行实验，结果表明，SABRF在受试者工作特征曲线下面积（AUC）、F1分数（F1_score）和几何平均值（G_mean）上均有较好的表现；此外，对使用基于多指标评价的样本选择策略挑选出的新样本进行分类，不平衡数据的分类结果也最好，验证了样本选择策略的有效性。

融合多尺度和注意力机制的小样本目标检测

李鸿天, 史鑫昊, 潘卫国, 徐成, 徐冰心, 袁家政

2024, 44(5): 1437-1444. DOI: 10.11772/j.issn.1001-9081.2023050699

摘要 ( )

HTML ( )

PDF (2781KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

现有基于微调的二阶段小样本目标检测方法对新类特征不敏感，易将新类别误判成与它相似度高的基类，影响模型的检测性能。针对上述问题，提出一种融合多尺度和注意力机制的小样本目标检测（MA-FSOD）算法。首先在骨干网络使用分组卷积和大卷积核提取更具类别区分性的特征，并加入卷积注意力模块（CBAM）实现特征的自适应增强；再通过改进的金字塔网络实现多尺度的特征融合，使候选框生成网络（RPN）可以准确找到感兴趣区域（RoI），从多个尺度向分类头提供更丰富的高质量正样本；最后在微调阶段采用余弦分类头进行分类，降低类内方差。在PASCAL-VOC 2007/2012数据集上与基于候选框编码对比损失的小样本目标检测（FSCE）算法相比，MA-FSOD算法对新类的AP₅₀提升了5.6个百分点；在更具挑战性的MSCOCO数据集中，与Meta-Faster-RCNN相比，10-shot和30-shot对应的AP则分别提升了0.1个百分点和1.6个百分点。实验结果表明，相较于一些主流的小样本目标检测算法，MA?FSOD算法能更有效地缓解误分类问题，实现更高精度的小样本目标检测。

小样本场景下的元迁移学习睡眠分期模型

时旺军, 王晶, 宁晓军, 林友芳

2024, 44(5): 1445-1451. DOI: 10.11772/j.issn.1001-9081.2023050747

摘要 ( )

HTML ( )

PDF (1546KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

睡眠障碍受到越来越多的关注，且自动化睡眠分期的准确性、泛化性受到了越来越多的挑战。然而，公开的睡眠数据十分有限，睡眠分期任务实际上更近似于一种小样本场景；同时由于睡眠特征的个体差异普遍存在，现有的机器学习模型很难保证准确判读未参与训练的新受试者的数据。为了实现对新受试者睡眠数据的精准分期，现有研究通常需要额外采集、标注新受试者的大量数据，并对模型进行个性化微调。基于此，借鉴迁移学习中基于缩放-偏移的权重迁移思想，提出一种元迁移睡眠分期模型MTSL（Meta Transfer Sleep Learner），设计了一种新的元迁移学习框架：训练阶段包括预训练与元迁移训练两步，其中元迁移训练时使用大量的元任务进行训练；而在测试阶段仅使用极少的新受试者数据进行微调，模型就能轻松适应新受试者的特征分布，大幅减少对新受试者进行准确睡眠分期的成本。在两个公开的睡眠数据集上的实验结果表明，MTSL模型在单数据集、跨数据集两种条件下都能取得更高的准确率和F1分数，这表明MTSL更适合小样本场景下的睡眠分期任务。

基于三元中心引导的弱监督视频异常检测

朱子蒙, 李志新, 郇战, 陈瑛, 梁久祯

2024, 44(5): 1452-1457. DOI: 10.11772/j.issn.1001-9081.2023050748

摘要 ( )

HTML ( )

PDF (2177KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对监控视频异常的复杂多样性和短时持续性，引入弱监督视频异常检测方法，旨在仅使用视频级别的标签进行异常检测，并提出了基于变分自编码器（VAE）与长短期记忆（LSTM）网络的异常回归网络VLARNet作为异常检测框架，以捕获时序数据中的时间依赖关系、去除冗余信息，保留数据的关键信息。该框架将异常检测视为回归问题，为学习检测特征，设计了异常分数回归的三元中心损失（TCLASR），与动态多实例学习损失（DMIL）相结合以进一步提高特征的区分能力。DMIL能够扩大异常实例与正常实例之间的类间距离，但同时也扩大了类内距离，而TCLASR可使来自同类的实例与类中心的距离更接近，与不同类中心的距离更远。对VLARNet在ShanghaiTech与CUHK Avenue数据集上进行了综合实验。实验结果表明，VLARNet能够有效利用视频数据的各种信息，在两个数据集上获得的受试者工作特征曲线下面积（AUC）分别为94.64%和93.00%，明显优于对比算法。

基于边缘异常候选集的迭代式主动多元时序异常检测算法

孟凡, 杨群力, 霍静, 王新宽

2024, 44(5): 1458-1463. DOI: 10.11772/j.issn.1001-9081.2023050726

摘要 ( )

HTML ( )

PDF (1234KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

无监督多元时间序列（MTS）异常检测方法因标注成本低而广受关注，但传统方法一般基于两个假设：1）服从独立同分布（IID）假设，即假设时序数据样本之间和属性之间不存在依赖关系；2）高净度启动假设，即假设可拥有完全正常态的时序数据集进行训练。以上假设在实际场景中往往难以满足。为此，提出一种基于边缘异常候选集的迭代式主动多元时序异常检测算法（EraseMTS）。首先，利用一种多粒度时序特征学习方法捕捉子序列内和子序列间的依赖关系，并在此基础上对原始多元时间序列进行再表示；其次，提出一种利用边缘异常候选集的选择策略，以子序列异常得分为基础，同时考虑异常程度，选择待人工交互的范围；最后，提出一种迭代式子序列权重更新机制，将异常反馈信息融入无监督异常检测模型的训练过程中，通过迭代方式不断优化初始训练模型性能。在UCR时间序列库中的4个数据集和1个人工合成数据集上对所提算法的检测性能、可扩展性和稳定性进行验证，实验结果表明该算法能够有效且稳定运行。

融合二连通模体结构信息的节点分类算法

郑文萍, 葛慧琳, 刘美麟, 杨贵

2024, 44(5): 1464-1470. DOI: 10.11772/j.issn.1001-9081.2023050846

摘要 ( )

HTML ( )

PDF (1734KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

节点表示学习将图结构数据信息编码到低维的潜在空间中，在节点分类、聚类、链路预测等机器学习任务中被广泛应用。在复杂网络中，节点与节点之间不仅存在直接相连的低阶结构，也存在以特殊连接模式形成的高阶结构，称为模体。提出一种融合二连通模体结构信息的节点分类算法（FMI），利用节点间高阶二连通模体信息学习节点表示，完成节点分类任务。首先，统计网络中的二连通模体，利用其中信息提出一个节点重要性的度量指标——模体比值。根据模体比值计算采样概率进行邻域采样；构造一个带权辅助图以融合网络节点连接的低阶关系与高阶关系，对节点进行加权邻域聚合以得到节点表示。在5个数据集Cora、Citeseer、Pubmed、Wiki和DBLP上执行节点分类任务，与5种经典基准算法进行对比，所提算法FMI在准确度和F1-分数等指标上表现良好。

基于节点结构的点云分类网络

高文烁, 陈晓云

2024, 44(5): 1471-1478. DOI: 10.11772/j.issn.1001-9081.2023050802

摘要 ( )

HTML ( )

PDF (2562KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

点云数据的非结构化和不均匀分布给点云物体特征表示和分类任务带来极大挑战。为了提取点云物体的三维结构特征，现有方法多采用复杂的局部特征提取结构组建分层网络，导致特征提取网络复杂且主要关注点云物体的局部结构。为更好地提取不均匀分布的点云物体特征，提出采样点卷积密度自适应加权的节点结构网络（NsNet）。该卷积网络通过高斯密度对采样点自适应加权以区分采样点的密度差异，从而更好地刻画物体的整体结构；其次，通过加入球形坐标简化网络结构以降低模型复杂度。在3个公开数据集上与PointNet++和PointMLP等方法进行比较，实验结果表明：基于自适应密度加权的NsNet比PointNet++和PointMLP的总准确率（OA）分别提高了9.1和1.3个百分点；与PointMLP相比减少了4.6×10⁶的参数量。NsNet可有效解决点云分布不均导致的边缘点信息损失问题，提高分类精度，降低模型复杂度。

基于负学习的样本重加权鲁棒学习方法

邹博士, 杨铭, 宗辰辰, 谢明昆, 黄圣君

2024, 44(5): 1479-1484. DOI: 10.11772/j.issn.1001-9081.2023050880

摘要 ( )

HTML ( )

PDF (1241KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

噪声标记学习方法能够有效利用含有噪声标记的数据训练模型，显著降低大规模数据集的标注成本。现有的噪声标记学习方法通常假设数据集中各个类别的样本数目是平衡的，但许多真实场景下的数据往往存在噪声标记，且数据的真实分布具有长尾现象，这导致现有方法难以设计有效的指标，如训练损失或置信度区分尾部类别中的干净样本和噪声样本。为了解决噪声长尾学习问题，提出一种基于负学习的样本重加权鲁棒学习（NLRW）方法。具体来说，根据模型对头部类别和尾部类别样本的输出分布，提出一种新的样本权重计算方法，能够使干净样本的权重接近1，噪声样本的权重接近0。为了保证模型对样本的输出准确，结合负学习和交叉熵损失使用样本加权的损失函数训练模型。实验结果表明，在多种不平衡率和噪声率的CIFAR-10以及CIFAR-100数据集上，NLRW方法相较于噪声长尾分类的最优基线模型TBSS（Two stage Bi-dimensional Sample Selection），平均准确率分别提升4.79%和3.46%。

无负采样的正样本增强图对比学习推荐方法PAGCL

汪炅, 唐韬韬, 贾彩燕

2024, 44(5): 1485-1492. DOI: 10.11772/j.issn.1001-9081.2023050756

摘要 ( )

HTML ( )

PDF (2404KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

对比学习（CL）因能够提取数据本身包含的监督信号而被广泛应用于推荐任务。最近的研究表明，CL在推荐方面的成功依赖于对比损失——互信息噪声对比估计（InfoNCE）损失带来的节点分布的均匀性。此外，另一项研究证明贝叶斯个性化排序（BPR）损失的正项与负项分别带来的对齐性和均匀性有助于提高推荐性能。由于在CL框架中对比损失能够带来比BPR负项更强的均匀性，BPR负项存在的必要性值得商榷。实验分析表明在对比框架中BPR的负项是不必要的，并基于这一观察提出了无需负采样的联合优化损失，可应用于经典的CL方法并达到相同或更高的性能。此外，与专注于提高均匀性的研究不同，为进一步加强对齐性，提出一种新颖的正样本增强的图对比学习方法（PAGCL），该方法使用随机正样本在节点表示层面进行扰动。在多个基准数据集上的实验结果表明，PAGCL在召回率及归一化折损累积增益（NDCG）这两个常用指标上均优于SOTA方法自监督图学习（SGL）、简单图对比学习（SimGCL）等，且相较于基模型轻量化图卷积（LightGCN）的NDCG@20提升最大可达17.6%。

基于动态服务缓存辅助的任务卸载方法

张俊娜, 王欣新, 李天泽, 赵晓焱, 袁培燕

2024, 44(5): 1493-1500. DOI: 10.11772/j.issn.1001-9081.2023050831

摘要 ( )

HTML ( )

PDF (2414KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对服务缓存和任务卸载联合优化中，由于缺乏对用户服务请求多样性和动态性的综合考虑而导致的用户体验质量降低问题，提出一种基于动态服务缓存辅助的任务卸载方法。首先，针对边缘服务器执行缓存服务动作空间较大的问题，重新定义了动作，并筛选出最优的动作集合以提高算法训练的效率；其次，设计一种改进的多智能体Q-Learning算法学习最优的服务缓存策略；再次，将任务卸载问题转换为凸优化问题，利用凸优化工具获得最优解；最后，利用拉格朗日对偶法求得最优的计算资源分配策略。为了验证所提方法的有效性，基于真实数据集进行了充分的实验。实验结果表明，对比Q-Learning、双层深度Q网络（D2QN）以及多智能体深度确定性策略梯度（MADDPG）方法，所提方法的响应时间分别降低了8.5%、11.8%和12.6%，平均体验质量分别提高了1.5%、2.7%和4.3%。

基于异步深度强化学习的车联网协作卸载策略

赵晓焱, 韩威, 张俊娜, 袁培燕

2024, 44(5): 1501-1510. DOI: 10.11772/j.issn.1001-9081.2023050788

摘要 ( )

HTML ( )

PDF (2661KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着车联网（IoV）的快速发展，智能网联汽车产生了大量延迟敏感型和计算密集型任务，有限的车辆计算资源以及传统的云服务模式无法满足车载用户的需求，移动边缘计算（MEC）为解决海量数据的任务卸载提供了一种有效范式。但在考虑多任务、多用户场景时，由于车辆位置、任务种类以及车辆密度的实时性和动态变化，IoV中任务卸载场景复杂度较高，卸载过程中容易出现边缘资源分配不均衡、通信成本开销过大、算法收敛慢等问题。为解决以上问题，重点研究了IoV中多任务、多用户移动场景中的多边缘服务器协同任务卸载策略。首先，提出一种多边缘协同处理的三层异构网络模型，针对IoV中不断变化的环境，引入动态协作簇，将卸载问题转化为时延和能耗的联合优化问题；其次，将问题分为卸载决策和资源分配两个子问题，其中资源分配问题又拆分为面向边缘服务器和传输带宽的资源分配，并基于凸优化理论求解。为了寻求最优卸载决策集，提出一种能在协作簇中处理连续问题的多边缘协作深度确定性策略梯度（MC-DDPG）算法，并在此基础上设计了一种异步多边缘协作深度确定性策略梯度（AMC-DDPG）算法，通过将协作簇中的训练参数异步上传至云端进行全局更新，再将更新结果返回每个协作簇中提高收敛速度。仿真结果显示，AMC-DDPG算法较DDPG算法至少提高了30%的收敛速度，且在奖励和总成本等方面也取得了较好的效果。

基于双路时空网络的驾驶员行为识别

席治远, 唐超, 童安炀, 王文剑

2024, 44(5): 1511-1519. DOI: 10.11772/j.issn.1001-9081.2023050800

摘要 ( )

HTML ( )

PDF (3642KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

驾驶员危险驾驶行为是恶性交通事故发生的主要原因之一，因此识别驾驶员行为具有工程应用上的重要意义。目前，主流基于视觉的检测方法是对驾驶员行为的局部时空特征进行研究，针对全局空间特征及长时序相关性特征研究较少，这在一定程度上无法结合场景上下文信息对危险驾驶行为进行识别。为了解决上述问题，提出一种基于双路时空网络的驾驶员行为识别方法，整合不同时空通路的优点以提高行为特征丰富度。首先，使用一种改进的双流卷积神经网络（TSN）对时空信息进行表征学习，同时降低提取特征的稀疏性；其次，构建一种基于Transformer的串行时空网络补充长时序相关性信息；最后，联合双路时空网络进行融合决策，增强模型的鲁棒性。实验结果表明，所提方法在驾驶员疲劳检测数据集YawDD、驾驶员分心检测数据集SF-DDDD和最新驾驶员行为识别数据集SynDD1这3个公开数据集上分别取得99.85%、99.94%和98.77%的识别准确率，特别是在SynDD1上，与使用动作识别的网络MoviNet-A0相比识别准确率提升了1.64个百分点；消融实验结果也验证了该方法对驾驶员行为有较高的识别精度。

轻量化沥青路面裂缝图像分割网络PIPNet

封筠, 毕健康, 霍一儒, 李家宽

2024, 44(5): 1520-1526. DOI: 10.11772/j.issn.1001-9081.2023050911

摘要 ( )

HTML ( )

PDF (3158KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

裂缝分割是对路面病害损坏程度评估的重要前提，为平衡深度神经网络分割的有效性与实时性，提出一种基于U?Net编码-解码结构的轻量化沥青路面裂缝图像分割网络PIPNet（Parallel dilated convolution of Inverted Pyramid Network）。编码部分为倒金字塔结构，提出了具有不同空洞率的多分支并行空洞卷积模块，结合深度可分离卷积和普通卷积，逐级减少并行卷积的个数，对表层、中层及底层特征提取多尺度信息并降低模型复杂度；同时借鉴GhostNet特点，设计了逆残差轻量化模块，嵌入并行双池化注意力。在GAPs384数据集上的测试结果表明，PIPNet在参数量（Params）和计算量（MFLOPs）仅为ResNet50编码近1/6的情况下，平均交并比（mIoU）提高了1.10个百分点，且较轻量化GhostNet和SegNet分别高出4.14与9.95个百分点。实验结果表明，PIPNet在降低模型复杂度的同时，有着较好的裂缝分割性能，且对不同路面裂缝图像分割适应性良好。

融合转移概率矩阵的多阶最近邻图聚类算法

徐童童, 解滨, 张春昊, 张喜梅

2024, 44(5): 1527-1538. DOI: 10.11772/j.issn.1001-9081.2023050727

摘要 ( )

HTML ( )

PDF (6953KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

聚类是根据样本之间的相似性将数据集划分为多个类簇。现有的大多数聚类方法都存在两个挑战：一方面，在定义样本间相似性时往往没有考虑样本的空间分布结构，无法构建稳定的相似度矩阵；另一方面，图聚类构造的样本图结构过于复杂，计算成本较高。为解决这两个问题，提出融合转移概率矩阵的多阶最近邻图聚类算法（MNNGC）。首先，综合样本的近邻关系和空间分布结构，将共享近邻定义的相似度进行趋密性加权，得到节点间的趋密性亲和矩阵；其次，利用节点间多阶概率转移预测非邻接点的关联程度，并通过融合多阶转移概率矩阵得到稳定的节点间亲和矩阵；再次，为进一步增强图局部结构，重新构建节点的多阶最近邻图，并对多阶最近邻图的局部结构分层聚类；最后，优化了边缘点分配策略。定位实验结果表明，MNNGC在合成数据集上的准确率（Acc）均优于对比算法，且在8个UCI数据集上的Acc为最大值。其中在Compound数据集上，MNNGC的Acc、调整互信息（AMI）、调整兰德指数（ARI）和FM指数（FMI）相较于基于局部密度峰值的谱聚类（LDP-SC）算法分别提高38.6、27.2、45.4、35.1个百分点。

基于CBAM-CGRU-SVM的Android恶意软件检测方法

孙敏, 成倩, 丁希宁

2024, 44(5): 1539-1545. DOI: 10.11772/j.issn.1001-9081.2023050708

摘要 ( )

HTML ( )

PDF (2825KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着Android恶意软件的种类和数量不断增多，检测恶意软件以保护系统安全和用户隐私变得越来越重要。针对传统的恶意软件检测模型分类准确率较低的问题，提出一种基于卷积神经网络（CNN）、门控循环单元（GRU）和支持向量机（SVM）的模型CBAM-CGRU-SVM。首先，在CNN中添加卷积块注意力模块（CBAM）以学习更多恶意软件的关键特征；其次，利用GRU进一步提取特征；最后，为了解决图像分类时模型泛化能力不足的问题，使用SVM代替softmax激活函数作为模型的分类函数。实验使用了Malimg公开数据集，该数据集将恶意软件数据图像化作为模型输入。实验结果表明，CBAM-CGRU-SVM模型分类准确率达到94.73%，能够更有效地对恶意软件家族进行分类。

基于轨迹扰动和路网匹配的位置隐私保护算法

刘沛骞, 王水莲, 申自浩, 王辉

2024, 44(5): 1546-1554. DOI: 10.11772/j.issn.1001-9081.2023050680

摘要 ( )

HTML ( )

PDF (4105KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有扰动机制未考虑位置点语义关系导致数据可用性较低的问题，提出一种基于差分隐私（DP）的轨迹位置隐私保护机制（DP-TLPM）。首先，DP-TLPM利用滑动窗口提取轨迹停留点生成模糊区域，再利用指数机制和拉普拉斯机制对该区域进行采样；其次，为了消除采样点中可能存在的无语义位置点，提出一种路网匹配算法，对轨迹分段并利用误差椭圆匹配（EEM）进行迭代匹配；最后，根据匹配后的位置点形成扰动轨迹，由用户端将扰动轨迹发送至服务器。实验以混淆质量和均方根误差（RMSE）为评价标准对该机制进行综合评测。与GeoInd算法相比，DP?TLPM的数据质量损失降低了24%，轨迹的混淆质量提高了52%，从隐私保护强度和数据质量两方面验证了该算法的有效性。

地空协同场景下加权模糊聚类用户簇划分方法

黄天宇, 李远兴, 陈昊, 郭紫佳, 魏明军

2024, 44(5): 1555-1561. DOI: 10.11772/j.issn.1001-9081.2023050643

摘要 ( )

HTML ( )

PDF (1670KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了解决应急通信场景下使用无人机作为空中基站进行辅助通信时涉及的无人机基站部署策略中的用户簇划分问题，在兼顾无人机基站性能和用户体验的条件下，提出一种基于特征加权的模糊聚类（Improved FCM）算法。首先，根据每个无人机基站的信号覆盖范围和最大服务用户数量的性能约束，针对随机分布条件下的用户簇在划分过程中算法计算量大不易收敛的问题，提出一种基于距离加权的特征加权节点数据投影算法；其次，针对同一用户处于多个簇有效范围内时用户划分的有效性和无人机基站资源的最大化利用问题，提出一种基于用户位置和无人机基站负载均衡的价值加权算法。实验结果表明，所提方法充分满足无人机基站的服务性能约束，且与几何分形法（GFA）、谱聚类（Sp-C）等算法相比，特征加权模糊聚类算法获得的平均负载率和覆盖比是最优的，分别达到了0.774和0.026 3，因此，该算法可为应急通信场景下的用户簇划分问题提供一种可行的解决方案。

D2D通信增强的蜂窝网络中基于DDPG的资源分配

唐睿, 庞川林, 张睿智, 刘川, 岳士博

2024, 44(5): 1562-1569. DOI: 10.11772/j.issn.1001-9081.2023050612

摘要 ( )

HTML ( )

PDF (2146KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对终端直通（D2D）通信增强的蜂窝网络中存在的同频干扰，通过联合调控信道分配和功率控制最大化D2D链路和速率，并同时满足功率约束和蜂窝链路的服务质量（QoS）需求。为有效求解上述资源分配所对应的混合整数非凸规划问题，将原问题转化为马尔可夫决策过程，并提出一种基于深度确定性策略梯度（DDPG）算法的机制。通过离线训练，直接构建了从信道状态信息到最佳资源分配策略的映射关系，而且无需求解任何优化问题，因此可通过在线方式部署。仿真结果表明，相较于遍历搜索机制，所提机制在仅损失9.726%性能的情况下将运算时间降低了4个数量级（99.51%）。

基于时空注意力的空间关联三维形貌重建

盖彦辛, 闫涛, 张江峰, 郭小英, 陈斌

2024, 44(5): 1570-1578. DOI: 10.11772/j.issn.1001-9081.2023050651

摘要 ( )

HTML ( )

PDF (2607KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

聚焦形貌恢复通过对场景深度和散焦模糊之间的潜在关系进行建模实现三维形貌重建。但现有的三维形貌重建网络无法有效利用图像序列的时序关联进行表征学习，因此，提出一种基于多景深图像序列空间关联特征的深度网络框架——三维空间相关水平分析模型（3D SCHAM）进行三维形貌重建。该模型不仅可以精确捕获单帧图像中聚焦区域到离焦区域的边缘特征，而且可有效利用不同图像帧之间的空间依赖性特征。首先，通过构建深度、宽度和感受野复合扩展的网络构造三维形貌重建的时域连续模型，进而确定单点深度结果；其次，引入基于空间关联的注意力模块，充分学习帧与帧间的“邻接性”与“距离性”空间依赖关系；另外，利用残差反转瓶颈进行重采样，以保持跨尺度的语义丰富性。在DDFF 12-Scene真实场景数据集上的实验结果显示，相较于DfFintheWild模型，3D SCHAM在深度值准确度度量的3个阈值 $1.25,1 . 252, 1.253$ 上的精确度分别提升了15.34%、3.62%、0.86%，验证了该模型在真实场景的鲁棒性。

基于感受野扩展残差注意力网络的图像超分辨率重建

郭琳, 刘坤虎, 马晨阳, 来佑雪, 徐映芬

2024, 44(5): 1579-1587. DOI: 10.11772/j.issn.1001-9081.2023050689

摘要 ( )

HTML ( )

PDF (3874KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有残差网络存在残差特征利用不充分、细节丢失的问题，提出一种结合两层残差聚合结构和感受野扩展双注意力机制的深度神经网络模型，用于单幅图像超分辨率（SISR）重建。该模型通过跳跃连接形成两层嵌套的残差聚合网络结构，对网络各层提取的大量残差信息进行分层聚集和融合，能减少包含图像细节的残差信息的丢失。同时，设计一种多尺度感受野扩展模块，能捕获更大范围、不同尺度的上下文相关信息，促进深层残差特征的有效提取；并引入空间-通道双注意力机制，增强残差网络的判别性学习能力，提高重建图像质量。在数据集Set5、Set14、BSD100和Urban100上进行重建实验，并从客观指标和主观视觉效果上将所提模型与主流模型进行比较。客观评价结果表明，所提模型在全部4个测试数据集上均优于对比模型，其中，相较于经典的超分辨率卷积神经网络（SRCNN）模型和性能次优的对比模型ISRN（Iterative Super-Resolution Network），在放大2倍、3倍、4倍时的平均峰值信噪比（PSNR）分别提升1.91、1.71、1.61 dB和0.06、0.04、0.04 dB；视觉效果对比显示，所提模型恢复的图像细节纹理更清晰。

基于全局依赖Transformer的图像超分辨率网络

刘子涵, 周登文, 刘玉铠

2024, 44(5): 1588-1596. DOI: 10.11772/j.issn.1001-9081.2023050636

摘要 ( )

HTML ( )

PDF (2858KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

目前，基于深度学习的图像超分辨网络主要由卷积实现。相较于传统的卷积神经网络（CNN），Transformer在图像超分辨率任务中的主要优势是它的长距离依赖建模能力；然而大多数基于Transformer的图像超分辨率模型在参数量小、网络层数少的情况下无法建立全局依赖，限制了模型的性能。为了在超分辨率网络中建立全局依赖，提出了基于全局依赖Transformer的图像超分辨率网络（GDTSR），主要组成部分为残差方形轴向窗口块（RSAWB），它的内部轴向窗口Transformer残差层利用轴向窗口和自注意力，可以使每个像素与整个特征图建立起全局依赖。此外，目前大多数图像超分辨率模型的超分辨率图像重建模块都由卷积组成，为了动态整合提取到的特征信息，结合Transformer与卷积，共同重建超分辨率图像。实验结果表明，GDTSR在5个标准测试集Set5、Set14、B100、Urban100和Manga109上的测试结果中，3个倍数（ $× 2$ ， $× 3$ ， $× 4$ ）的峰值信噪比（PSNR）和结构相似性（SSIM）均达到了最优，特别是在大尺寸图像的Urban100和Manga109数据集上模型性能的提升尤为明显。

基于多特征融合的自监督图像配准算法

韩贵金, 张馨渊, 张文涛, 黄娅

2024, 44(5): 1597-1604. DOI: 10.11772/j.issn.1001-9081.2023050692

摘要 ( )

HTML ( )

PDF (2617KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为保证提取特征的信息量丰富，当前基于深度学习的图像配准算法通常采用深层卷积神经网络，模型的计算复杂度高，而且还存在相似特征点区分度低的问题。针对上述问题，提出一种基于多特征融合的自监督图像配准算法（SIRA-MFF）。首先，使用浅层卷积神经网络提取图像特征，降低计算复杂度，并且通过在特征提取层添加特征点方向描述符，弥补浅层网络特征信息量单一的问题；其次，在特征提取层后添加用于扩大特征点感受野的嵌入与交互层，融合特征点局部和全局信息以提升相似特征点区分度；最终，最佳匹配方案由改进的特征匹配层计算得到，并同步设计了一种基于交叉熵的损失函数用于模型训练。在ILSVRC2012数据集生成的2个测试集中，SIRA-MFF的平均匹配准确率（AMA）分别为95.18%和93.26%，优于对比算法；在IMC-PT-SparseGM-50测试集中，SIRA-MFF的AMA为89.69%，也优于对比算法，且与ResMtch算法相比，单张图像运算时间降低了49.45%。实验结果表明，SIRA-MFF具有较高精度和较强的鲁棒性。

面向复杂施工环境的实时目标检测算法

宋霄罡, 张冬冬, 张鹏飞, 梁莉, 黑新宏

2024, 44(5): 1605-1612. DOI: 10.11772/j.issn.1001-9081.2023050687

摘要 ( )

HTML ( )

PDF (3015KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对施工环境下普遍存在的环境杂乱、目标被遮挡、目标尺度范围大、正负样本不平衡、现有检测算法实时性不足等问题，提出一种面向复杂施工环境的实时目标检测算法YOLO-C。将提取到的低层特征与高层特征相融合，增强网络全局感知能力；设计小目标检测层，提高算法对不同尺度目标的检测精度；设计通道-空间注意力（CSA）模块，增强目标特征，抑制背景特征；在损失函数部分，采用VariFocal Loss计算分类损失，解决正负样本不平衡问题；GhostConv作为基本卷积块构建GCSP（Ghost Cross Stage Partial）结构，降低参数量和计算量；针对复杂施工环境，构建混凝土施工现场目标检测数据集，在构建的数据集上与多个算法进行对比分析实验。实验结果表明，YOLO-C算法的检测精度更高，参数量更小，更适合复杂施工环境下的目标检测任务。

基于改进YOLOv8的嵌入式道路裂缝检测算法

耿焕同, 刘振宇, 蒋骏, 范子辰, 李嘉兴

2024, 44(5): 1613-1618. DOI: 10.11772/j.issn.1001-9081.2023050635

摘要 ( )

HTML ( )

PDF (2002KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在边缘端设备部署YOLOv8L模型进行道路裂缝检测可以实现较高的精度，但难以保证实时检测。针对此问题，提出一种可部署到边缘计算设备Jetson AGX Xavier上的基于改进YOLOv8模型的目标检测算法。首先，利用部分卷积设计Faster Block结构以替换YOLOv8 C2f模块中的Bottleneck结构，并将改进后的C2f模块记为C2f-Faster；其次，在YOLOv8主干网络中的每个C2f-Faster模块之后接一个SE（Squeeze-and-Excitation）通道注意力层，进一步提高检测的精度。在开源道路损害数据集RDD20（Road Damage Detection 20）上的实验结果表明：所提方法的平均F1得分为0.573，每秒检测帧数（FPS）为47，模型大小为55.5 MB，相较于GRDDC2020 （Global Road Damage Detection Challenge 2020）的SOTA（State-Of-The-Art）模型，F1得分提高了0.8个百分点，FPS提高了291.7%，模型大小减小了41.8%，实现了在边缘设备上对道路裂缝实时且准确的检测。

基于分离式标签协同学习的YOLOv5多属性分类

李鑫, 孟乔, 皇甫俊逸, 孟令辰

2024, 44(5): 1619-1628. DOI: 10.11772/j.issn.1001-9081.2023050675

摘要 ( )

HTML ( )

PDF (4949KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对图像分类任务中卷积网络提取图像细粒度特征能力不足、多属性之间的依赖关系无法识别的问题，提出一种基于YOLOv5的车辆多属性分类方法Multi-YOLOv5。该方法设计了多头非极大值抑制（Multi-NMS）和分离式标签损失（Separate-Loss）函数协同工作机制实现车辆的多属性分类任务，并采用卷积块注意力模块（CBAM）、SA（Shuffle Attention）和CoordConv方法重构了YOLOv5检测模型，分别从提升多属性特征能力提取、增强不同属性之间的关联关系、增强网络对位置信息的感知能力三方面提升模型对目标多属性分类的精准性。在VeRi等数据集上进行了训练与测试，实验结果表明，与基于GoogLeNet、残差网络（ResNet）、EfficientNet、ViT（Vision Transformer）等的网络结构相比，Multi-YOLOv5方法在目标的多属性分类方面取得了较好的识别结果，在VeRi数据集上，它的平均精度均值（mAP）达到了87.37%，较上述表现最佳的方法提高了4.47个百分点，且比原YOLOv5模型具有更好的鲁棒性，能为密集环境下的交通目标感知提供可靠的数据信息。

基于元学习自适应的小样本语音合成

吴郅昊, 迟子秋, 肖婷, 王喆

2024, 44(5): 1629-1635. DOI: 10.11772/j.issn.1001-9081.2023050640

摘要 ( )

HTML ( )

PDF (1457KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在小样本条件下的语音合成（TTS）要求在仅有少量样本的情况下合成与原说话人相似的语音，然而现有的小样本语音合成面临如下问题：如何快速适配新说话人，并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中，很少考虑到在不同适配阶段模型特征的变化规律，导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题，提出一种使用元学习指导模型适配新说话人的方法，模型中通过元特征模块对适配过程进行指导，在适配新说话人过程中提升语音相似度的同时保证生成语音质量；并通过步数编码器区分不同的适配阶段，以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标，在不同的适配步数下对现有快速适配新说话人的方法进行了比较，实验结果表明所提方法动态时间规整的梅尔倒谱失真（DTW-MCD）分别为7.450 2与6.524 3，在合成语音的相似度上优于其他元学习方法，并且能够更快适配新的说话人。

基于多尺度时序感知网络的课堂语音情感识别方法

周菊香, 刘金生, 甘健侯, 吴迪, 李子杰

2024, 44(5): 1636-1643. DOI: 10.11772/j.issn.1001-9081.2023050663

摘要 ( )

HTML ( )

PDF (4548KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

语音情感识别近年来在多场景智能系统中得到了广泛应用，也为实现智慧课堂环境下的教学行为智能分析提供了可能。通过课堂语音情感识别技术可以自动识别课堂教学中教师和学生的情感状态，帮助教师了解自己的授课风格并及时掌握学生的课堂学习状态，从而达到精准施教的目的。针对课堂语音情感识别任务，首先，收集中小学的课堂实录教学视频，提取音频并进行人工切分和标注，构建了包含6类情感的中小学教学语音情感语料库；其次，基于时序卷积网络（TCN）和交叉门控机制（cross-gated mechanism）设计了双路时序卷积通道，以提取多尺度交叉融合特征；最后，采用动态权重融合策略调整不同尺度特征的贡献度，减少非重要特征对识别结果的干扰，进一步增强模型的表征和学习能力。实验结果表明，所提方法在多个公共数据集上优于TIM-Net（Temporal-aware bI-direction Multi-scale Network）、GM-TCNet（Gated Multi-scale Temporal Convolutional Network）和CTL-MTNet（CapsNet and Transfer Learning-based Mixed Task Net）等先进模型，在真实课堂语音情感识别任务上未加权平均召回率（UAR）和加权平均召回率（WAR）分别达90.58%和90.45%。

基于Transformer的视觉目标跟踪方法综述

孙子文, 钱立志, 杨传栋, 高一博, 陆庆阳, 袁广林

2024, 44(5): 1644-1654. DOI: 10.11772/j.issn.1001-9081.2023060796

摘要 ( )

HTML ( )

PDF (1615KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

视觉目标跟踪是计算机视觉中的重要任务之一，为实现高性能的目标跟踪，近年来提出了大量的目标跟踪方法，其中基于Transformer的目标跟踪方法由于具有全局建模和联系上下文的能力，是目前视觉目标跟踪领域研究的热点。首先，根据网络结构的不同对基于Transformer的视觉目标跟踪方法进行分类，概述相关原理和模型改进的关键技术，总结不同网络结构的优缺点；其次，对这类方法在公开数据集上的实验结果进行对比，分析网络结构对性能的影响，其中MixViT-L（ConvMAE）在LaSOT和TrackingNet上跟踪成功率分别达到了73.3%和86.1%，说明基于纯Transformer两段式架构的目标跟踪方法具有更优的性能和更广的发展前景；最后，对方法当前存在的网络结构复杂、参数量大、训练要求高和边缘设备使用难度大等不足进行总结，并对今后的研究重点进行展望，通过与模型压缩、自监督学习以及Transformer可解释性分析相结合，可为基于Transformer的视觉目标跟踪提出更多可行的解决方案。

当期目录