《计算机应用》唯一官方网站

端到端语音到语音翻译的优化方法综述

宗伟, 赵悦, 李尹, 徐晓娜

2025, 45(5): 1363-1371. DOI: 10.11772/j.issn.1001-9081.2024050666

摘要 ( )

HTML ( )

PDF (2566KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

语音到语音翻译（S2ST）是智能语音领域中新兴的研究方向，旨在将一种语言的语音准确翻译成另一种语言的语音。随着人们对跨语言交流需求的增加，S2ST受到广泛的关注，相关研究也不断涌现。传统的级联模型在S2ST过程中存在诸多问题，如错误传播、推理延迟和无法翻译无文字系统的语言等，因此如何通过端到端模型实现直接S2ST成为当前研究的重点。在全面调查端到端S2ST的基础上，详细分析和归纳了端到端S2ST的各种模型，综述了已有的相关技术，将端到端S2ST面临的挑战总结为建模负担、数据稀缺和现实应用三类问题，并重点探讨了现有工作是如何解决这三类问题的。大语言模型（LLM）强大的理解和生成能力为S2ST提供了新的可能性，同时也带来了更多的挑战。因此，讨论了LLM在S2ST中的应用，并设想了未来可能的发展方向。

基于张量化图卷积网络和对比学习的多源数据表示学习模型

龙雨菲, 牟宇辰, 刘晔

2025, 45(5): 1372-1378. DOI: 10.11772/j.issn.1001-9081.2024071001

摘要 ( )

HTML ( )

PDF (821KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有多源数据表示学习模型在处理大规模复杂高维数据时存在的容易遗漏数据源间高阶关联信息和易受到噪声干扰的问题，提出一种基于张量化图卷积网络（T-GCN）和对比学习的多源数据表示学习模型（MS-TGC）。首先，利用K近邻（KNN）算法和图卷积网络（GCN）统一多源数据维度，拼接得到张量化多源数据；其次，利用定义的张量图卷积算子实现高维图卷积运算，同时学习数据源内部信息及数据源间关联信息；最后，构建多源数据对比学习范式，通过添加基于语义一致性与标签一致性的对比约束，提升MS-TGC在处理含噪声数据时的表示学习准确率，增强模型的鲁棒性。实验结果表明，当有标签样本率为0.3时，与CONMF（Co-consensus Orthogonal Non-negative Matrix Factorization）模型相比，MS-TGC在BDGP和20newsgroup数据集上的半监督分类准确率分别提升了1.36和5.53个百分点。可见MS-TGC能够更有效地捕捉数据源间关联信息，降低噪声干扰，得到高质量多源数据表示。

基于时空解耦和区域鲁棒性增强的半监督视频目标分割方法

陈鹏宇, 聂秀山, 李南君, 李拓

2025, 45(5): 1379-1386. DOI: 10.11772/j.issn.1001-9081.2024060802

摘要 ( )

HTML ( )

PDF (3648KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对半监督视频目标分割（VOS）领域中基于记忆的方法存在由于目标交互造成的物体遮挡以及背景中类似对象或噪声的干扰等问题，提出一种基于时空解耦和区域鲁棒性增强的半监督VOS方法。首先，构建一个结构化Transformer架构去除所有像素共有的特征信息，突出每个像素之间的差异，深入挖掘视频帧中目标的关键特征；其次，解耦当前帧与长期记忆帧之间的相似性，区分为时空相关性和目标重要性2个关键维度，使得对像素级时空特征和目标特征的分析更精确，从而解决由目标交互造成的物体遮挡问题；最后，设计一个区域条形注意力（RSA）模块，利用长期记忆中的目标位置信息增强对前景区域的关注度并抑制背景噪声。实验结果表明，所提方法在DAVIS 2017验证集上比重新训练的AOT（Associating Objects with Transformers）模型的J&F指标高1.7个百分点，在YouTube-VOS 2019验证集上比重新训练的AOT模型的总分高1.6个百分点。可见所提方法可有效解决半监督VOS存在的问题。

基于带约束谱聚类的启发式车辆路径规划算法优化方法

罗蒙, 高超, 王震

2025, 45(5): 1387-1394. DOI: 10.11772/j.issn.1001-9081.2024060882

摘要 ( )

HTML ( )

PDF (1514KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有启发式算法在解决大规模多车场车辆路径规划问题（MDVRP）时存在的初始解质量较差的缺点，提出一种基于带约束谱聚类（CSC）的启发式车辆路径规划算法优化方法。首先，根据待配送客户点的地理位置和需求量生成配送点的地理信息特征矩阵和需求信息特征矩阵；其次，根据地理信息特征矩阵和需求信息特征矩阵生成CSC的约束矩阵，并完成聚类操作；最后，使用谱聚类的结果生成启发式算法的初始解，选择合适的启发式算法完成车辆路径规划问题（VRP）的求解。在标准数据集的21个算例上的实验结果显示，CSC相较于SCSC（Self-Constrained-Spectral-Clustering）在标准化互信息（NMI）和Fowlkes-Mallows指数（FMI）上分别提升了18.75%和31.18%；在车辆路径规划任务中，使用CSC进行初始化的启发式算法在21个不同规模算例中的16个算例上求得了最短路径，并且启发式算法的运行时间相较于使用SCSC缩短了13.05%。实验结果表明，CSC能够有效提高客户点的聚类精度，进而能够有效提高VRP的求解速度和解的精度。

面向对话生成和心理疾病检测的心理咨询式人机对话数据集构建

徐博, 郝德志, 于迩晨, 林鸿飞, 宗林林

2025, 45(5): 1395-1402. DOI: 10.11772/j.issn.1001-9081.2024050705

摘要 ( )

HTML ( )

PDF (2665KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对心理咨询式人机对话中缺乏用于建立有效对话模型的公开数据的问题，构建一个面向对话生成和心理疾病检测的心理医疗咨询对话数据集。首先，通过在线医疗问诊平台获取包含3 268个医生和患者之间的多轮对话数据集，并附有广泛的相关元数据，包括就诊医院、就诊科室、疾病类型和患者自我陈述等；其次，提出一个知识增强的对话模型——情感感知双向自回归模型（EmBART），以增强对话模型的共情能力；最后，通过心理医疗响应生成和心理疾病检测进行数据集可用性的实验评估。在心理医疗响应生成中，基于所提数据集训练的EmBART模型在自动评估与人工评估中的各项指标上均表现出色，其中困惑度较基准模型CDial-GPT（Chinese Dialogue Generative Pre-trained Transformer）降低了2.31；在心理疾病检测中，基于所提数据集训练的CPT（Chinese Pre-trained unbalanced Transformer）和RoBERTa（Robustly optimized Bidirectional Encoder Representations from Transformers approach）模型具有出色的心理疾病检测能力。实验结果表明，本数据集在生成共情对话和检测心理疾病方面具有较强的实用性，能为未来基于心理咨询式人机对话研究提供数据基础。

融合时序相关信息的脑功能网络估计与分类

杨俊, 庞梦雪, 乔立山

2025, 45(5): 1403-1409. DOI: 10.11772/j.issn.1001-9081.2024050684

摘要 ( )

HTML ( )

PDF (3057KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

脑功能网络在神经或精神类脑疾病的早期诊断中发挥着重要作用，而估计一个高质量的脑功能网络是其中最关键的问题之一。尽管目前已有众多脑功能网络估计方法，但多数仅考虑了脑区间的相关性，忽视了时间点间可能存在的依赖关系。最近的研究发现，引入潜变量编码时间点间的依赖性可以有效提高脑功能网络的判别性；但该方法仅基于相邻时间点的依赖关系，并未有效利用不相邻时间点的信息，无法全面反映脑功能网络的时序特性。因此，提出一种新的脑功能网络估计方法，通过引入相似性矩阵编码不相邻时间点间的依赖关系，旨在提高脑功能网络估计的质量；并设计了交替优化学习算法快速求解该方法的模型。为了评估所提方法的有效性，在3个公开数据集ADNI（Alzheimer's Disease Neuroimaging Initiative）、ABIDE（Autism Brain Imaging Data Exchange）和REST-MDD（REST-meta-MDD Consortium）上分别进行了轻度认知障碍、孤独症与抑郁症的识别实验，实验结果表明，基于所提方法估计的脑功能网络能够获得更优的分类性能。

基于知识蒸馏双分支结构的视网膜病变辅助诊断方法

牛四杰, 刘昱良

2025, 45(5): 1410-1414. DOI: 10.11772/j.issn.1001-9081.2024060856

摘要 ( )

HTML ( )

PDF (1274KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

利用传统模型对糖尿病肾病（DN）高风险患者的视网膜疾病进行早期诊断时，由于糖尿病患者的视网膜图像数据少且类别不平衡，诊断精度不高。因此，提出一种基于知识蒸馏双分支结构的视网膜病变辅助诊断方法，以提高对少数类别的识别能力。该方法首先使用在大型医学数据集上训练的教师网络指导学生网络学习，将教师网络所学得的信息传递给学生网络，以提升学生网络的泛化能力，缓解数据少的问题。其次，在学生网络中提出一种双分支结构：分支一使用重平衡策略，引入Focal Loss函数，通过调节损失函数的权重使模型更关注难分样本；分支二利用类别注意力模块（CAM）学习每个类别的判别性特征，使模型在训练中不会偏向数据多的类别。这2个分支分别促进分类器学习和特征学习，可缓解类别不平衡。使用临床上收集的视网膜图像数据对所提方法进行评估，实验结果表明，所提方法在66例（89眼） DN高风险患者筛查任务上的准确率和特异度比病变感知注意力模型（LAM）分别提高了1.05和1.53个百分点。所提方法可以提高DN识别精度，实现视网膜疾病的辅助诊断。

约简形式背景下的概念集构造及其推荐应用

陈昕, 刘忠慧, 闵帆

2025, 45(5): 1415-1423. DOI: 10.11772/j.issn.1001-9081.2024050743

摘要 ( )

HTML ( )

PDF (1014KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在形式概念分析（FCA）领域，概念集合的提出满足了真实环境的推荐需求；但目前概念集合生成方法缺乏有效的手段避免冗余属性的参与，这在一定程度上影响了概念生成的质量和效率，最终影响了推荐的效果。针对上述问题，提出形式背景属性约简算法（FCAR）、概念集构造算法（CSCA）以及基于概念集合的推荐算法（RACS）。首先，根据形式背景和评分矩阵设计属性兴趣度，并根据属性兴趣度阈值实现形式背景约简；其次，结合外延相似性与内涵兴趣度设计概念关键度作为启发信息，生成概念集合；最后，利用推荐置信度与推荐阈值得到概念集的推荐矩阵，从而针对目标用户实现个性化推荐。在11个数据集上对比了RACS与算法k最近邻（kNN）、基于项目的协同过滤（IBCF）、启发式概念集构造的组推荐（GRHC）、基于概念集的个性化推荐（CSPR）以及GreConD-kNN。实验结果表明，在6个常规数据集上，RACS在3个数据集上取得最高精确度和次高召回率，在4个数据集上取得最优F1值；特别是在3个较大规模的数据集上，与三种形式概念的推荐算法相比，RACS的推荐时间效率至少提升8倍。实验结果验证了RACS在推荐效果和推荐效率上的显著优势。

联合三支决策与熵权TOPSIS的专家反评估模型

余鹰, 朱锋, 付红剑, 罗逸文, 钱进, 郑宇超

2025, 45(5): 1424-1431. DOI: 10.11772/j.issn.1001-9081.2024060819

摘要 ( )

HTML ( )

PDF (1671KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在科技项目评审活动中，评审专家的评审质量对于最终评价结果的准确性和公信力具有十分重要的影响。为确保评价结果的公正客观，对评审专家进行反评估显得尤为必要。通过对评审专家的个人基本情况、专业水平和评审业绩3个方面进行分析，构建了一套专家反评估评价指标体系。在此基础上，提出一种联合三支决策与基于熵权的逼近理想解排序法（TOPSIS）的专家反评估模型。该模型利用三支决策理论解决由于熵权法对数据的过度依赖而造成的权重失真问题。当指标权重出现异常时，模型将根据设定的阈值将待评估专家集合划分为正域、负域和边界域，并分别实施专家入库、专家出库和延迟评价策略；当指标权重正常或者得到修正后，则采用TOPSIS对评审专家进行评分排序。通过对某企业科技项目历史评审数据的实证分析可知，所提模型可以融合决策者的经验判断与待评专家的固有信息，实现主客观的统一，从而确保对评审专家进行科学、公正的评价，为构建高质量的专家库提供决策参考。

融合对比学习与情感分析的多模态反讽检测模型

胡文彬, 蔡天翔, 韩天乐, 仲兆满, 马常霞

2025, 45(5): 1432-1438. DOI: 10.11772/j.issn.1001-9081.2024050731

摘要 ( )

HTML ( )

PDF (1779KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

社交媒体平台上的评论有时会通过反讽来表达对事件的态度，通过反讽检测，可以更准确地分析用户情绪和观点。针对基于词汇和句法结构的传统模型忽略了文本情感信息对反讽检测的作用和由于数据噪声造成的检测性能降低等问题，提出一个融合对比学习和情感分析的多模态反讽检测模型（MSDCS）。首先，利用BERT（Bidirectional Encoder Representation from Transformers）提取文本特征，并利用ViT（Vision Transformer）提取图像特征；其次，利用对比学习中的对比损失训练浅层模型，在融合之前对齐图像和文本特征；最后，结合跨模态特征与情感特征融合后的结果作分类判断，最大限度地利用不同模态间信息实现反讽检测。在多模态反讽检测开放数据集上的实验结果表明，相较于基于分解和关系网络（D&R Net）的基准模型，MSDCS的准确率和F1值至少提高了1.85%和1.99%，验证了在多模态反讽检测中利用情感信息和对比学习的有效性。

基于Swin Transformer的生成对抗网络水下图像增强模型

李慧, 贾炳志, 王晨曦, 董子宇, 李纪龙, 仲兆满, 陈艳艳

2025, 45(5): 1439-1446. DOI: 10.11772/j.issn.1001-9081.2024050730

摘要 ( )

HTML ( )

PDF (3642KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对水下图像对比度低、噪声大和存在色彩偏差等问题，以生成对抗网络（GAN）为核心框架，提出一种基于Swin Transformer的生成对抗网络水下图像增强模型SwinGAN（GAN based on Swin Transformer）。首先，生成网络部分遵循编码器-瓶颈层-解码器的结构设计，在瓶颈层将输入的特征图分割成多个不重叠的局部窗口；其次，引入双路窗口多头自注意力机制（DWMSA），在加强捕获全局信息和长距离依赖关系的同时，增强局部注意力；最后，在解码器中将下采样后的特征图经过多个上采样窗口重新组合成原始尺寸的特征图，判别网络则采用马尔可夫判别器。实验结果表明，与URSCT-SESR模型相比，在UFO-120数据集上，SwinGAN的峰值信噪比（PSNR）提升了0.837 2 dB，结构相似度（SSIM）提高了0.003 6；在EUVP-515数据集上，SwinGAN的PSNR提升了0.843 9 dB，SSIM提高了0.005 1，水下图像质量评价指标（UIQM）增加了0.112 4，水下彩色图像质量评估指标（UCIQE）略有上升，增加了0.001 0。可见，SwinGAN的主观评价以及客观评价指标都表现出色，在改善水下图像的色彩偏差问题上取得了不错的效果。

基于本地漂移和多样性算力的联邦学习优化算法

张一鸣, 曹腾飞

2025, 45(5): 1447-1454. DOI: 10.11772/j.issn.1001-9081.2024070928

摘要 ( )

HTML ( )

PDF (2076KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对联邦学习（FL）在边缘计算应用中所面临的非独立同分布（non-IID）数据和异构算力挑战，为了避免non-IID数据导致客户端模型更新出现较大偏差，从而引发模型不稳定的收敛，引入本地漂移变量的概念；并通过校正本地模型参数，将本地训练过程与全局聚合过程分离，优化FL在non-IID数据训练过程中的性能。此外，鉴于边缘服务器算力的多样性，提出一种新的策略：从全局模型中划分出一个简化的神经网络子模型下发给算力受限的边缘服务器进行训练，而高算力的边缘服务器则使用整个全局模型进行训练；低算力边缘服务器训练所得的参数将上传至云服务器，通过冻结部分参数提高整个模型的拟合速度。结合以上2种方法，提出一种基于本地漂移和多样性算力的联邦学习优化算法（FedLD），旨在解决联邦学习在边缘计算应用中所面临的non-IID数据和多样性算力带来的异构挑战。实验结果表明，FedLD比FedAvg、SCAFFOLD和FedProx算法收敛更快、准确率更高，相较于FedProx，在50个客户端参与训练时，FedLD在MNIST、CIFAR-10和CIFAR-100数据集上分别将模型准确率提升了0.39%、3.68%和15.24%；与最新的FedProc算法相比，FedLD通信开销更低；在K最近邻（KNN）算法、长短期记忆（LSTM）模型和双向门控循环单元（GRU）模型上的对比实验结果也表明，结合FedLD后，这3种模型的预测精度均有约1%的提升。

基于Transformer的深度符号回归方法

许鹏程, 何磊, 李川, 钱炜祺, 赵暾

2025, 45(5): 1455-1463. DOI: 10.11772/j.issn.1001-9081.2024050609

摘要 ( )

HTML ( )

PDF (3565KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对利用遗传进化算法解决符号回归（SR）问题时存在的种群多样性降低以及对超参数敏感等问题，提出基于Transformer的深度符号回归（DSRT）方法。该方法在利用Transformer自回归的方式生成表达式符号序列后，将数据和表达式符号序列的拟合度值的变换值当作奖励值，再利用深度强化学习的方法更新模型参数，使模型输出的表达式序列更加拟合数据，并随着模型的不断收敛找出最优的表达式。在SR基准数据集Nguyen上对DSRT方法进行有效性测试，并在200次迭代内将它与DSR（Deep Symbolic Regression）和GP（Genetic Programming）算法进行对比，实验结果验证了DSRT方法的有效性。另外，讨论了各参数对DSRT方法的影响，并在NACA4421数据上进行飞机翼型表面压力系数公式预测实验，将所得到的公式与卡门-钱学森公式作对比，找到了均方根误差（RMSE）较小的数学公式。

图正则化弹性网子空间聚类

郭书剑, 余节约, 尹学松

2025, 45(5): 1464-1471. DOI: 10.11772/j.issn.1001-9081.2024050651

摘要 ( )

HTML ( )

PDF (1150KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

基于图的子空间聚类（SC）已成为有效处理高维数据的流行技术。然而，现有方法存在以下问题：构建的图忽略了与聚类建立关联以及无法捕捉数据的内在相关结构。为了解决上述问题，提出一个新的SC方法——图正则化弹性网子空间聚类（GENSC）。GENSC使用L₂范数正则化强化具有相关结构的样本之间的连通性，并使用L₁范数正则化摒弃不同子空间的样本之间的连通性；同时，构建表征的最近邻图捕捉样本之间的内在局部结构，并增加秩约束以鼓励所学习的图具有清晰的聚类结构。GENSC将L₂范数、L₁范数和秩约束刻画到一个一般的框架中，并提出一个迭代的优化算法来求解该框架。在9个真实数据集上与现有方法进行比较的实验结果表明，在ChinaCXRSet上，GENSC的精确度（Accuracy）和归一化互信息（NMI）值分别超出次优方法9.03和7.61个百分点，聚类纯度（Purity）达到最好；在UMIST上，GENSC的精确度、NMI和Purity值分别超出次优方法4.15、3.17和5.21个百分点，验证了GENSC的有效性。

用于交通流量预测的多图扩散注意力网络

王泉, 陆啟想, 施珮

2025, 45(5): 1472-1479. DOI: 10.11772/j.issn.1001-9081.2024050636

摘要 ( )

HTML ( )

PDF (2668KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

当前基于时空特征提取的交通流量预测方法中存在挖掘全局空间相关性与长期的动态时间依赖关系能力不足的问题，其中空间相关性的挖掘很大程度上取决于图结构的质量，为此提出一种多图扩散注意力网络（MGDAN），主要包括多图扩散注意力模块（MGDAM）和时间注意力模块。首先，使用自适应时空嵌入生成器构建动态的时空信息；其次，采用最大互信息系数（MIC）矩阵与自适应矩阵挖掘细粒度的空间信息，并利用全局空间注意力机制挖掘动态的空间相关性；最后，使用时间注意力模块提取非线性的时间相关性，并通过3个模块的结合实现时空相关性的有效提取。在PEMS08数据集上的实验结果表明，MGDAN在1 h内的平均绝对误差（MAE）相较于时空自编码器（ST_AE）和时空身份信息（STID）模型分别降低了19.34%和5.74%，且整体预测性能均优于9个基线模型，能够精准地进行中长期交通流量预测，为城市交通疏导提供理论依据。

基于图卷积网络和终点诱导的行人轨迹预测

陈满, 杨小军, 杨慧敏

2025, 45(5): 1480-1487. DOI: 10.11772/j.issn.1001-9081.2024050650

摘要 ( )

HTML ( )

PDF (3068KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对行人轨迹预测研究中仅关注历史轨迹的交互信息，而忽略了终点交互信息的问题，提出一种基于图卷积网络（GCN）和终点诱导（Endpoint Induction）的行人轨迹预测模型GCN-EI。首先，在训练集上使用分类方法学习行人未来可能的加权终点分布；其次，将可能的终点与它们对应的历史轨迹相连接，并使用基于注意力机制和终点条件的GCN在更长的时间跨度上提取行人的交互特征，同时使用个体特征模块提取行人的内在运动特征；最后通过时间内推卷积预测行人的未来轨迹。在ETH和UCY数据集上对模型进行的测试结果表明，相较于STITD-GCN（Spatio-Temporal Interaction and Trajectory Distribution GCN）模型，所提模型在平均位移误差（ADE）和最终位移误差（FDE）上分别下降了4.5%和5.0%；相较于采用分类方法的PCCSNet（Prediction via modality Clustering， Classification and Synthesis Network）模型，在FDE上下降了9.5%。

视觉指导的分词和词性标注

田海燕, 黄赛豪, 张栋, 李寿山

2025, 45(5): 1488-1495. DOI: 10.11772/j.issn.1001-9081.2024050627

摘要 ( )

HTML ( )

PDF (1826KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

中文分词（WS）和词性（POS）标注可以有效帮助其他下游任务，如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注，忽略了网络中许多与之相关的图片和视频信息。针对这一现状，尝试从这些视觉信息中挖掘相关线索，以帮助进行中文WS和POS标注。首先，制定一系列详细的数据标注规范，并基于微博推文中的文本和图像内容，使用WS和POS标签标注了一个多模态数据集VG-Weibo；其次，提出2种具有不同解码机制的多模态信息融合方法：VGTD（Visually Guided Two-stage Decoding model）和VGCD（Visually Guided Collapsed Decoding model）完成联合WS和POS标注的任务。其中：VGTD方法采用交叉注意力机制融合文本和图像信息，并通过两阶段解码策略，先预测可能的词语跨度，再预测相应的标签；VGCD方法也采用交叉注意力机制融合文本和图像信息，并采用了更适当的中文表示以及合并解码策略。在VG-Weibo测试集上的实验结果表明，在WS和POS标注任务上，VGTD方法的F1得分比传统的纯文本方法的两阶段解码模型（TD）分别提升了0.18和0.22个百分点；VGCD方法的F1得分比传统的纯文本方法的合并解码模型（CD）分别提升了0.25和0.55个百分点。可见，VGTD和VGCD方法都能有效利用视觉信息提升WS和POS标注的性能。

基于回指与逻辑推理的文档级关系抽取模型

胡婕, 吴翠, 孙军, 张龑

2025, 45(5): 1496-1503. DOI: 10.11772/j.issn.1001-9081.2024050676

摘要 ( )

HTML ( )

PDF (986KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在文档级关系抽取（DocRE）任务中，现有模型主要侧重于学习文档中实体间的交互，忽略了对实体内部结构的学习，并很少关注到文档中的代词指代识别问题以及对逻辑规则的应用，这导致模型对文档中实体间关系的建模不够准确。因此，基于Transformer的架构融合关系回指图，建模实体间交互和实体内部结构，从而利用回指将更多上下文信息聚合到相应实体上以提高关系抽取的准确性。此外，采用数据驱动方式从关系注释中挖掘逻辑规则，增强对文本隐含逻辑关系的理解和推理能力。针对样本不平衡问题，引入加权长尾损失函数提高对稀有关系的识别准确性。在2个公开数据集DocRED（Document-level Relation Extraction Dataset）和Re-DocRED（Revisiting Document-level Relation Extraction Dataset）上的实验结果表明，所提模型性能表现最优，在DocRED测试集上，基于BERT编码器的模型的IgnF1和F1值比基线模型ATLOP（Adaptive Thresholding and Localized cOniext Pooling）分别提高了1.79和2.09个百分点，可见所提模型的综合性能较高。

基于分解式模糊跨度的小样本命名实体识别

曾碧卿, 钟广彬, 温志庆

2025, 45(5): 1504-1510. DOI: 10.11772/j.issn.1001-9081.2024050567

摘要 ( )

HTML ( )

PDF (1072KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

小样本命名实体识别（few-shot NER）旨在基于少量标记数据识别文本中的实体跨度和类型。近年来，基于跨度的度量学习虽然取得了不错的效果，但仍然存在2个问题：一是少量的候选跨度可能导致原型偏离群组的中心；二是与类别无关的跨度检测器可能会产生一些非实体跨度。为了解决以上问题，提出一种用于few-shot NER的融合模糊跨度的分解式模型DFSM（Decomposed Fuzzy Span Model）。在跨度检测阶段，为学习明确的实体边界信息且不受标记级别的标签依赖影响，DFSM采用全局边界矩阵检测候选跨度；而在跨度分类阶段，为增加可训练的每种实体类型的候选跨度数量，提出一种模糊跨度策略，以调整候选跨度的边界范围。同时，设计一种原型对比学习以优化基于跨度的语义表示空间。此外，为消除非实体噪声数据的干扰，引入原型边界学习以扩大非实体跨度与原型的距离。在Few-NERD和CrossNER数据集上的实验结果显示：与基线模型TadNER相比，在Few-NERD Inter设置中，DFSM的平均F1值提升了8.52个百分点，尤其是在Inter 10 way 5~10-shot设置中，DFSM的平均F1值提升了10.39个百分点，这表明DFSM对于细粒度实体类型具有更强的识别能力；与基线模型DecomMeta相比，在CrossNER 1-shot和5-shot设置中，DFSM的平均F1值分别提升了3.32和1.09个百分点，这表明DFSM在跨领域低资源场景下具有良好的泛化能力。

基于全域信息融合和多维关系感知的命名实体识别模型

胡婕, 武帅星, 曹芝兰, 张龑

2025, 45(5): 1511-1519. DOI: 10.11772/j.issn.1001-9081.2024050675

摘要 ( )

HTML ( )

PDF (1503KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

现有的基于双向长短时记忆（BiLSTM）网络的命名实体识别（NER）模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此，提出一种基于全域信息融合和多维关系感知的NER模型。首先，通过BERT （Bidirectional Encoder Representations from Transformers）获取输入序列的向量表示，并结合BiLSTM进一步学习输入序列的上下文信息。其次，提出由梯度稳定层和特征融合模块组成的全域信息融合机制：前者使模型保持稳定的梯度传播并更新优化输入序列的表示，后者则融合BiLSTM的前后向表示获取更全面的特征表示。接着，构建多维关系感知结构学习不同子空间单词的关联性，以捕获文档中复杂的实体关系。此外，使用自适应焦点损失函数动态调整不同类别实体的权重，提高模型对少数类实体的识别性能。最后，在7个公开数据集上将所提模型和11个基线模型进行对比，实验结果表明所提模型的F1值均优于对比模型，可见该模型的综合性较优。

基于多级视觉与图文动态交互的图像中文描述方法

张军燕, 赵一鸣, 林兵, 吴允平

2025, 45(5): 1520-1527. DOI: 10.11772/j.issn.1001-9081.2024050616

摘要 ( )

HTML ( )

PDF (3653KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

图像文字描述技术可以帮助计算机更好地理解图像内容，实现跨模态交互。针对图像中文描述任务中存在的图像多粒度特征提取不全面以及图文关联性理解不充分等问题，提出一种基于多级视觉与图文动态交互的图像中文描述方法。首先，在编码器端提取多级视觉特征，通过图像局部特征提取器的辅助引导模块获取多粒度特征。其次，设计图文交互模块对图文信息的语义关联进行动态关注；同时，设计特征动态融合解码器将带有图文信息动态权重的特征经过闭环动态融合并关注与解码，以保证信息增强且无缺失，从而获得语义关联性的输出。最后，生成语义通顺的图像中文描述语句。使用BLEU-n、Rouge、Meteor、CIDEr指标评估方法的有效性并与8种不同方法进行对比。实验结果显示，所提方法的语义相关性评价指标均有提升。具体而言，与基线模型NIC（Neural Image Caption）相比，所提方法在BLEU-1、BLEU-2、BLEU-3、BLEU-4、Rouge_L、Meteor、CIDEr分别提升了5.62%、7.25%、8.78%、10.85%、14.06%、5.14%、15.16%，表明该方法具有较好的准确性。

基于多模态信息融合的中文拼写纠错算法

张庆, 杨凡, 方宇涵

2025, 45(5): 1528-1534. DOI: 10.11772/j.issn.1001-9081.2024050628

摘要 ( )

HTML ( )

PDF (1480KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

中文拼写纠错（CSC）的目标是检测和修正用户输入中文文本中的字或词级别的错误，这些错误通常是由于汉字之间的语义、字音或字形相似而导致的误用。然而，现有模型通常忽略了局部信息，无法充分捕捉不同汉字之间的字音和字形相似性，也无法有效地将这些信息与语义信息结合起来。为了解决这些问题，提出一种基于多模态信息融合的CSC算法PWSpell。该算法利用卷积注意力机制关注局部语义信息，利用拼音编码捕捉汉字之间的字音相似关系，并首次将五笔编码引入CSC领域，用于捕捉汉字之间的字形相似关系。此外，将这2种相似关系与经过BERT（Bidirectional Encoder Representation from Transformers）处理的语义信息进行选择性融合。实验结果表明，PWSpell在SIGHAN 2015测试集的检测级指标上准确率、精确率、F1值以及校正级指标精确率、F1值上均有提升，其中校正级的精确率至少提升了1个百分点；消融实验结果也验证了算法中各个模块的设计都能有效提升模型的性能。

行为互联网用户数据管控研究现状综述

何艺, 肖亦南, 韦云凯, 冷甦鹏

2025, 45(5): 1535-1547. DOI: 10.11772/j.issn.1001-9081.2024050599

摘要 ( )

HTML ( )

PDF (1223KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

近年来，物联网（IoT）飞速发展，基于IoT的数据和信息发展起来的行为互联网（IoB）也因具备更高知识与智慧，迅速成为拥有巨大应用潜力的新兴技术。IoB中涉及大量用户行为数据的收集、处理和使用，因此用户数据的安全与隐私时刻面临着极大的威胁，对IoB用户数据进行有效管控也显得尤为重要。在介绍IoB的基本概念和特点后，分析了IoB的发展态势以及用户数据面临的安全与隐私风险，阐述了现有行为数据的组织管控现状，探讨了IoB中现存的主要问题与挑战，并对实现IoB用户数据管控的潜在研究方向进行了展望。

云边协同工业控制系统跨域攻击评估

林陈威, 陈平

2025, 45(5): 1548-1555. DOI: 10.11772/j.issn.1001-9081.2024050579

摘要 ( )

HTML ( )

PDF (1512KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对工业控制系统（ICS）结构日益复杂，尤其是在云边协同计算的背景下，系统面临的网络安全风险显著增加的挑战，提出一个针对云边协同场景下ICS跨域攻击的评估框架，系统性地识别、评估和防御潜在的安全威胁。首先，详细收集并分类ICS中的资产、跨域攻击入口、跨域攻击方式和跨域攻击影响，建立评估框架的基础数据和结构。其次，基于ICS的特点，从系统模块、攻击路径、攻击方法及其潜在影响4个维度构建一套全新的跨域攻击评估指标体系。与现有方法相比，该指标体系能够实时响应系统动态变化，提供更细致的跨域攻击量化分析。此外，在模拟ICS环境中进行仿真实验，测试了评估框架的实际效果，并验证了该框架能有效地识别系统的薄弱区域，提升系统整体的安全性。结果表明，该评估框架能够为工业环境中云边协同技术的安全应用提供理论和实践指导，具有较好的应用前景。

基于无证书群签名的车联网条件隐私保护认证方案

徐越端, 陈建伟, 朱恒亮

2025, 45(5): 1556-1563. DOI: 10.11772/j.issn.1001-9081.2024050695

摘要 ( )

HTML ( )

PDF (1317KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

车联网（VANET）提高了道路交通效率，但它面临的安全与隐私问题可能导致严重的交通事故，这使得对消息进行匿名认证成为必要；而且已有认证方案仍然不能很好地解决条件隐私保护、匿名认证和认证效率等问题。为此，提出一种基于无证书群签名的车联网条件隐私保护认证方案。首先，结合无证书公钥密码体制和ACJT群签名算法，提出基于无证书群签名的匿名认证方案。在该方案中，当群成员发生变化时，其他群成员不受影响且无须更新密钥；同时群签名生成和验证算法的计算量固定，不受群成员数量影响。此外，为防止车辆因身份匿名而做出恶意行为，方案实现了条件隐私保护，即当恶意行为发生时，可以追查相关车辆的身份并追究责任。安全分析证明该方案能够同时满足前向安全、不可伪造性、不可链接性等安全需求；性能实验结果表明该方案对比同类方案在认证效率上至少提高了31.63%，通信开销至少降低了33.12%。

基于SM2可链接环签名的联盟链隐私保护方法

高改梅, 杜苗莲, 刘春霞, 杨玉丽, 党伟超, 邸国霞

2025, 45(5): 1564-1572. DOI: 10.11772/j.issn.1001-9081.2024050607

摘要 ( )

HTML ( )

PDF (1976KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为应对联盟链中身份信息和交易数据隐私泄露的挑战，提出一种基于SM2可链接环签名的联盟链隐私保护方法（PPMCB-SM2LRS）。首先，针对可链接环签名（LRS）方案存在安全性不足、追溯性差的问题，结合SM2数字签名重新设计LRS，旨在增强交易方身份隐私保护的同时还能够追溯作恶的交易用户；其次，基于优化后的Paillier同态加密算法提出一种分级加密策略，实现隐私数据的“可见不可用”，以提高联盟链中交易数据验证的隐私性和机密性。安全性分析表明，所提方法具备正确性、不可伪造性、条件匿名性和可链接性。实验结果表明，与同类型LRS方案相比，PPMCB-SM2LRS具有更小的计算开销，且在签名生成与确认阶段的平均耗时有显著降低，同时符合密码技术发展的自主可控性原则。

基于局部增强的时序数据对抗样本生成方法

李雪莹, 杨琨, 涂国庆, 刘树波

2025, 45(5): 1573-1581. DOI: 10.11772/j.issn.1001-9081.2024050610

摘要 ( )

HTML ( )

PDF (2336KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

深度神经网络（DNN）极易遭受对抗攻击，进而引起时序数据分类任务中的安全问题。基于梯度的攻击方法可以快速地生成对抗样本，但需要不断访问模型内部信息；基于生成的攻击方法在模型训练完成之后无须访问模型内部信息，但存在隐蔽性和迁移性较差等问题。针对以上问题，基于生成式攻击方法AdvGAN提出一种基于局部增强的时序数据对抗样本生成方法，其中的局部增强策略将其他类别数据的信息注入原样本中，并利用增强后的数据执行灰盒攻击；而攻击模型不仅可以利用原样本信息，还能利用其他类别样本的分布信息，进而提升模型的攻击能力和迁移能力。在UCR数据集上的实验结果表明，所提方法平均0.027 s即可生成一个对抗样本；在27个数据集中，它的攻击成功率分别在18、25和13个数据集上优于快速梯度符号法（FGSM）、AdvGAN和GATN（Gradient Adversarial Transformation Network）方法；它的生成对抗样本的均方误差（MSE）分别在20和27个数据集上明显小于AdvGAN和GATN方法；在21个数据集中，它的迁移成功率分别在18和11个数据集上优于AdvGAN和FGSM方法，且在9个数据集上的迁移攻击成功率达到25%以上。可见，所提方法在保证对抗样本生成速度的同时，提高了对抗样本的隐蔽性并保持有竞争力的攻击效果。

基于图像恢复和空间通道注意力的下采样图像取证网络

刘澳龄, 单武扬, 邱骏颖, 田茂, 李军

2025, 45(5): 1582-1588. DOI: 10.11772/j.issn.1001-9081.2024050672

摘要 ( )

HTML ( )

PDF (2717KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

下采样操作会使图像丢失高频取证痕迹和细节信息，增加图像取证的难度，而现有的基于深度学习的图像取证网络不能有效检测经过下采样操作篡改的图像，导致提高下采样图像取证方法的鲁棒性成为图像取证的瓶颈。为解决这个问题，提出一个下采样图像取证网络HirrNet（Hierarchical RRU-Net）。HirrNet主要包括图像恢复模块和篡改检测模块：图像恢复模块使用分层条件流（HCF）的思想，通过恢复篡改图像取证痕迹和细节信息减少高频信息的丢失，从而提高篡改检测性能；篡改检测模块则使用端到端图像分割网络RRU-Net（Ringed Residual U-Net）进行篡改检测。此外，通过结合空间和通道压缩与激励（SCSE）机制，可有效增强下采样图像中与篡改相关的特征的提取。实验结果表明，HirrNet在DSO、Columbia、CASIA和NIST16数据集上的受试者特征工作曲线下面积（AUC）、F1分数和交并比（IoU）优于对比网络。其中，在CASIA数据集上，对于尺寸缩小至原图1/2和1/4的篡改图像，HirrNet的AUC指标相较于对比方法平均提升25和30个百分点。可见，HirrNet可以有效解决现有的下采样图像取证方法鲁棒性差的问题。

能耗约束下分层联邦学习模型质量优化的节点协作机制

范亚州, 李卓

2025, 45(5): 1589-1594. DOI: 10.11772/j.issn.1001-9081.2024050704

摘要 ( )

HTML ( )

PDF (1190KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

边缘生成的大量数据可以通过联邦学习（FL）的方式训练全局模型，因此边缘计算与联邦学习的结合已成为降低网络能耗的关键技术。在分层联邦学习（HFL）中，边缘设备的局部数据量和数据质量的差异会直接影响HFL全局模型的质量。为此，提出一种传输能量约束下的节点协作算法（NCATTECC）解决传输能耗限制下全局模型质量最优化问题，证明了该问题是一个NP-hard（Non-deterministic Polynomial-hard）问题，同时证明了所提算法具有（1-1/ $e$ ）的近似比例。具体而言，通过协作，可以在不超过传输能耗限制的情况下，让更多的优质节点参与训练。在广泛使用的CIFAR-10、FashionMNIST数据集上的仿真实验结果表明，所提算法对所选节点进行训练，得到的模型准确率比FedAvg（Federated Averaging）和Fed-CBS（Federated Class-balanced Sampling）分别高出4.47%、6.64%和3.47%、4.58%。

基于新修复优化算子的改进环论优化算法求解多维背包问题

张寒崧, 贺毅朝, 孙菲, 陈国新, 陈炬

2025, 45(5): 1595-1604. DOI: 10.11772/j.issn.1001-9081.2024050575

摘要 ( )

HTML ( )

PDF (1523KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了利用环论优化算法（RTEA）高效求解多维背包问题（MKP），在分析已有修复优化算子——基于物品整体资源消耗伪效用比的修复优化算子RO1和基于物品各维度资源消耗价值密度的修复优化算子RO3不足的基础上，结合互补策略提出一种新的修复优化算子——加权修复优化算子RO4。随后，引入继承策略改进RTEA的全局进化算子，并基于Logistic模型提出适用于MKP的自适应反向变异算子，由此提出了求解MKP的算法IRTEA-RO4。为验证IRTEA-RO4的高效性，利用它求解MKP的114个国际通用基准实例，并与已有求解MKP的6个较先进算法进行比较，结果表明：对于小规模MKP实例，IRTEA-RO4的求解精度和求解速度均为最佳；对于大规模MKP实例，IRTEA-RO4求得的最好结果比6个对比算法的最好结果提高了21%～125%，而且平均性能与稳定性更优，计算速度更快。

两阶段填充采样的半监督昂贵多目标优化算法

谭瑛, 任新宇, 孙超利, 王思思

2025, 45(5): 1605-1612. DOI: 10.11772/j.issn.1001-9081.2024050585

摘要 ( )

HTML ( )

PDF (1322KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

利用计算成本低廉的代理模型替换昂贵目标函数评价，以辅助进化算法对昂贵黑盒多目标优化问题的求解，近年来受到广泛关注。模型的准确度在代理模型辅助的多目标进化算法（MOEA）中发挥着重要作用，特别是当目标函数数量较多时，不准确的模型很容易引导算法朝错误的方向搜索；但目标函数评价昂贵，很难获得充裕的样本训练高质量的代理模型。因此，提出一种两阶段填充采样的半监督昂贵多目标优化算法（TISS-EMOA）。该算法引入半监督技术，选择部分无标签数据扩充训练数据集，从而提升模型的准确性；同时，提出两阶段选点的填充采样准则，以期在评价次数有限的情况下获得昂贵多目标优化问题的较优解集。为验证TISS-EMOA的有效性，在DTLZ1~DTLZ7基准测试问题以及车辆正面结构优化设计上进行了实验。与当前具有代表性的5种代理模型辅助进化多目标算法的对比结果显示，TISS-EMOA在28个基准测试问题中获得了25、28、28、24、23个更好或相当的改进的反转世代近距离（IGD⁺）。

基于深度学习的智能反射面辅助通信系统信道估计

王丹, 张文豪, 彭丽娟

2025, 45(5): 1613-1618. DOI: 10.11772/j.issn.1001-9081.2024050587

摘要 ( )

HTML ( )

PDF (2736KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对智能反射面（RIS）辅助通信系统中信道估计精度低的问题，提出一种基于信道去噪网络（CDN）的信道估计方案，将信道估计问题建模为信道噪声消除的问题。首先使用传统算法对接收到的导频信号进行初步预估计，随后将该预估计信号输入信道估计网络以学习噪声特征并进行去噪处理，从而恢复出精确的信道系数。为了提高网络的去噪能力，设计了加权注意力块（WAB）和膨胀卷积块（DCB）以增强网络对噪声主体特征的提取，同时设计多尺度特征融合模块以防止浅层特征的丢失。仿真结果表明，与经典的DnCNN （Denoising Convolutional Neural Network）和CDRN （Convolutional neural network-based Deep Residual Network）方案相比，所提方案的归一化均方误差（NMSE）在不同信噪比（SNR）下平均降低了2.89 dB和2.01 dB。

智能反射面辅助无线供电通信网络中继的资源分配

范红卫, 徐涴砯

2025, 45(5): 1619-1624. DOI: 10.11772/j.issn.1001-9081.2024050633

摘要 ( )

HTML ( )

PDF (2025KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对无线供电通信网络（WPCN）覆盖范围小、易受障碍物阻挡的问题，研究在通信阻塞条件下智能反射面（IRS）辅助WPCN中继系统的资源分配。具体来说，在下行链路中，利用IRS辅助用户从混合接入点（HAP）处收集能量；在上行链路中，利用IRS辅助用户发送信息给HAP。考虑到系统中包含能量传输和信息传输，采用时分多址（TDMA）对能量采集、数据通信以及数据中继传输进行划分。根据所构建的系统模型和传输策略，以用户服务质量和用户发送信息消耗的能量为约束，提出一个能量效率优化问题，并通过联合优化发送功率、IRS相移矩阵和时间调度，实现系统总能量效率的最大化。由于所提出的问题的非凸性，先采用Dinkelbach方法将目标函数的分数形式转换成非分数形式，然后采用变量代换和半正定规划（SDP）将非凸问题转换成凸问题，最后用CVX得到该优化问题的次优解。仿真结果表明，所提方案不仅扩大了系统的覆盖范围，还有效提升了系统的能效，而与平均分配时间的方案和采用混合中继节点的优化时间方案相比，所提方案使系统能效分别平均提升了11.0%和26.9%。

基于超大规模多输入多输出系统的快速波束训练

王华华, 谢长江, 方杰宁

2025, 45(5): 1625-1631. DOI: 10.11772/j.issn.1001-9081.2024050583

摘要 ( )

HTML ( )

PDF (2429KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

超大规模多输入多输出（XL-MIMO）系统能显著提高信道容量。然而，传统的均匀线性阵列（ULA）在大入射角/出射角下，近场区域会急剧缩小，导致信号覆盖受限。使用均匀圆形阵列（UCA）可以有效扩大近场区域，但这也使得基于ULA的低开销波束训练方案不再适用。为了减少UCA近场波束训练的开销，提出一种新的快速波束训练方案：在第一阶段将UCA近似为ULA，使用ULA联合的方式构建远场分层码本进行角度域的用户搜索；在第二阶段，基于第一阶段搜索得到的角度，使用UCA进行角度与距离的穷举搜索。仿真结果表明，在天线数为512的UCA系统中，该方案仅需28个训练开销，并且在不同信噪比（SNR）条件下具有较好的鲁棒性，平均速率性能达到速率基准的99.16%。

光线追踪硬件加速方案综述

张大权, 董家瑞, 雷洋, 李世康, 石响宇, 李宗辉, 邓仰东, 吴为民

2025, 45(5): 1632-1644. DOI: 10.11772/j.issn.1001-9081.2024030399

摘要 ( )

HTML ( )

PDF (2672KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

当前，实时三维图形渲染领域发生着技术变革，实时光线追踪技术的应用激增；但就计算而言，光线追踪成本依旧“昂贵”，传统硬件无法支持这样的算力。新的图形处理单元（GPU）必须在性能、功耗和高复杂度场景之间获取平衡，硬件加速技术因此成为实时光线追踪的核心。首先，介绍了光线追踪的理论基础，基于目前最主流的2种硬件加速数据结构（KD-Tree（K-Dimensional Tree）和层次包围盒树（BVH-Tree）），分别从基元分割、构造方法、优化方法和遍历加速的角度进行调研，发掘这2种结构用于硬件加速的潜力；其次，从固定函数设计、硬件架构设计、以减少内存带宽为目标的调度和数据管理这3个角度，对各个阶段所开发的专用加速硬件进行总结；再次，面向产业界调研主流的光线追踪GPU的产业界解决方案以及未来发展趋势；最后，总结并讨论光线追踪硬件加速方案的现状与不足，并展望了这些方案的性能优化方向。

面向人脸识别的多模态研究方法综述

杨雅莉, 黎英, 章育涛, 宋佩华

2025, 45(5): 1645-1657. DOI: 10.11772/j.issn.1001-9081.2024050568

摘要 ( )

HTML ( )

PDF (1779KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

多模态人脸识别技术能充分利用人脸特征或其他生物特征提高识别的鲁棒性和安全性，具有广泛的实际应用价值。由于目前的多模态人脸识别研究存在模态差距和模态信息难以高效融合等问题，因此根据多种信息模态和应用目的对现有的多模态人脸识别方法进行分类综述，以梳理研究中存在的问题，并探讨未来的发展方向。首先，将基于多源信息融合的多模态人脸识别研究按照数据处理的不同阶段分为传感器级、特征级、评分级和决策级，并归纳现有方法的优势、局限性和适用场景；其次，将信息增强多模态人脸识别研究按照被增强模态的不同分为2D-3D信息增强和3D-2D信息增强，并总结现有方法的优缺点；再次，归纳总结基于其他生物特征和面向反欺诈的多模态人脸识别方法，并简要介绍常用的多模态人脸识别数据集相关信息；最后，给出多模态人脸识别研究中存在的一些严峻挑战，并展望未来的研究方向。

工业缺陷检测无监督深度学习方法综述

王文鹏, 秦寅畅, 师文轩

2025, 45(5): 1658-1670. DOI: 10.11772/j.issn.1001-9081.2024050736

摘要 ( )

HTML ( )

PDF (3241KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

工业缺陷检测在保障产品质量、提高企业竞争力方面具有极其重要的作用。传统的缺陷检测方法依赖人工检查，成本高且效率低下，难以满足大规模的质量检验需求。近年来，基于视觉的工业缺陷检测技术取得了显著进步，已成为产品外观质量检验的一种高效解决方案。但在许多实际工业场景中，获取大量带有标签的数据非常困难，且对产品检测的人工成本和实时性均有所要求，因此，无监督学习逐渐成为研究的热点。针对该领域任务构建、现行技术、评估标准以及不同方法之间的共性和差异，对相关工作进行综述。首先，明确工业缺陷问题的定义，并从数据难点和任务挑战等多个角度分析该问题的难点；其次，重点介绍基于无监督深度学习的工业缺陷检测主流方法，并对它们进行详细的归纳与分析；再次，介绍常用的公开数据集与评价指标；最后，对工业缺陷检测领域将来的工作进行展望。

基于局部-全局交互与结构Transformer的点云分类算法

陈凯, 叶海良, 曹飞龙

2025, 45(5): 1671-1676. DOI: 10.11772/j.issn.1001-9081.2024050572

摘要 ( )

HTML ( )

PDF (1903KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对点云分类特征提取过程中局部与全局特征提取不充分的问题，提出一种局部-全局交互与结构Transformer的点云分类算法。首先，提出双支并行的局部-全局交互框架并分别提取局部特征和全局特征，其中一支用最大池化与卷积提取局部特征，另一支用平均池化与Transformer提取全局特征。同时，考虑Transformer中位置信息的重要性，提出结构Transformer，以多次应用位置信息与当前特征的交互，进一步增强全局结构特征。最后，利用局部-全局特征进行分类，以完成点云的分类任务。实验结果表明，所提算法在ModelNet40和ScanObjectNN数据集上分别获得了93.6%和87.5%的总体准确率（OA）。可见，所提出的局部-全局交互与结构Transformer网络在点云分类任务中取得了良好的性能。

基于多表征融合的无监督点云异常检测

陈子和, 陈斌

2025, 45(5): 1677-1685. DOI: 10.11772/j.issn.1001-9081.2024050652

摘要 ( )

HTML ( )

PDF (2684KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着工业自动化需求的不断增长，三维点云异常检测在产品质量控制中扮演着越来越重要的角色。然而，现有方法通常依赖单一特征，导致信息损失和精度下降。因此，提出一种基于多表征融合的无监督点云异常检测方法MRF（Multi-Representation Fusion）。MRF利用多角度旋转和多种着色方案将点云渲染为多模态图像，并使用预训练的二维卷积神经网络提取丰富的语义特征；同时，还采用预训练的Point Transformer提取三维结构特征。之后，通过融合二维图像语义特征和三维结构特征，MRF能够更全面地捕捉点云信息。在异常检测阶段，MRF使用基于正样本记忆库和近邻搜索的方法，可有效地识别异常点云。在MVTec 3D AD数据集上的实验结果表明，MRF的点云级接受者操作特征曲线下面积（AUROC）为0.972，点级区域重叠度（AUPRO）为0.948，显著优于对比方法。可见，该方法的有效性和鲁棒性使它成为工业应用中极具潜力的解决方案。

融合空间-傅里叶域信息的机器人低光环境抓取检测

陈路, 王怀瑶, 刘京阳, 闫涛, 陈斌

2025, 45(5): 1686-1693. DOI: 10.11772/j.issn.1001-9081.2024111686

摘要 ( )

HTML ( )

PDF (2948KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有抓取检测方法无法有效感知稀疏、微弱特征，导致低光环境下机器人抓取检测性能下降的问题，提出一种融合空间-傅里叶域信息的机器人低光环境抓取检测方法。首先，该方法的骨干网络采用编-解码器结构，在网络深层特征与浅层特征融合过程中进行空间域-傅里叶域的特征提取。具体地，在空间域中通过水平和垂直方向的条带卷积捕获全局上下文信息，提取对抓取检测任务敏感的特征；在傅里叶域中分别调整振幅和相位，实现对图像细节和纹理特征的恢复。其次，引入R-CoA（Row-Column Attention）模块平衡图像全局与局部信息，并对图像进行行、列相对位置编码以强化与抓取任务相关的位置信息。最后，在低光Cornell、低光Jacquard以及所构建的低光C?Cornell数据集上分别进行验证，所提低光抓取检测方法最高准确率分别达到96.62%、92.01%和95.50%。在低光Cornell数据集（高斯噪声且γ=1.5）上，与GR-ConvNetv2（Generative Residual Convolutional Neural Network v2）、SE?ResUNet（Squeeze-and-Excitation ResUNet）相比，所提方法的准确率分别提升2.24个百分点和1.12个百分点。所提方法能够在低光环境下有效提升抓取检测的鲁棒性和准确性，为机器人在低光照条件下的抓取任务提供支持。

基于单目视觉输电线路精细化巡检方法

王文帅, 韩军, 胡广怡, 陈炣燏

2025, 45(5): 1694-1702. DOI: 10.11772/j.issn.1001-9081.2024050632

摘要 ( )

HTML ( )

PDF (5700KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对当前输电线路等空中人造目标的无人机（UAV）精细化巡检轨迹生成方法繁琐、精度不高以及未能以最佳角度拍摄人造目标局部细节等问题，提出一种可以用于输电线路的UAV精细化巡检的实时深度感知与实时线路部件分割定位算法，并构建输电线路单目视觉感知定位导航的最优巡检点路径。通过实时量化调整巡检过程中UAV位置与云台相机拍摄角度，该方法既保证UAV巡检时始终保持安全巡检距离，又使得云台相机能够清晰准确地拍摄包含待巡检目标的图像。采用大疆UAV采集的真实输电线路图像数据和Unreal Engine 4（虚幻引擎）场景下的输电线路图像数据进行实验仿真验证。结果表明，优化的深度感知算法与线路部件分割定位算法能够满足实时性要求。在深度感知与分割定位输出信息的指导下，这些算法能够将UAV位置和云台相机姿态调整为最佳，进而获得高质量的输电线路UAV巡检图像，且最终生成的输电线路精细化巡检轨迹能显著提高运维人员的巡检效率。

当期目录