当期目录

    2025年 第45卷 第4期 刊出日期:2025-04-10 封面下载 目录下载
    人工智能
    基于语音和文本的双模态情感识别综述
    韩令敏, 陈仙红, 熊文梦
    2025, 45(4):  1025-1034.  DOI: 10.11772/j.issn.1001-9081.2024030319
    摘要 ( )   HTML ( )   PDF (1625KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    情感识别是一种让计算机识别和理解人类情感的技术,在众多领域都起着重要的作用,也是人工智能领域重要的发展方向。因此,梳理与归纳基于语音和文本的双模态情感识别的研究现状:首先,分类阐述情感表示空间;其次,按照情感数据库的情感表示空间对这些数据库进行分类,并总结常见的多模态情感数据库;再次,介绍基于语音和文本的双模态情感识别方法,包括特征提取、模态融合和决策分类,重点介绍模态融合方法并将这些方法分为特征级融合、决策级融合、模型级融合和多层次融合这4类;此外,比较和分析一系列语音和文本双模态情感识别方法的结果;最后,介绍情感识别的应用场景、面临的挑战与未来的发展方向。以上旨在对多模态情感识别,尤其是对基于语音和文本的双模态情感识别的相关工作进行分析与总结,并为情感识别提供有价值的参考。

    基于最小先验知识的自监督学习方法
    朱俊屹, 常雷雷, 徐晓滨, 郝智勇, 于海跃, 姜江
    2025, 45(4):  1035-1041.  DOI: 10.11772/j.issn.1001-9081.2024030366
    摘要 ( )   HTML ( )   PDF (1521KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为了弥补有监督学习对监督信息要求过高的不足,提出一种基于最小先验知识的自监督学习方法。首先,基于数据的先验知识聚类无标签数据,或基于有标签数据的中心距离为无标签数据生成初始标签;其次,随机抽取赋予标签后的数据,并选择机器学习方法建立子模型;再次,计算各个数据抽取的权重和误差,以求得数据平均误差作为各个数据集的数据标签度,并根据初始数据标签度设置迭代阈值;最后,比较迭代过程中数据标签度的大小和阈值决定是否达到终止条件。在10个UCI公开数据集上的实验结果表明,相较于无监督学习K-means等方法、有监督学习支持向量机(SVM)等算法和主流自监督学习TabNet(Tabular Network)等方法,所提方法在不平衡数据集不使用标签,或在平衡数据集上使用有限标签时仍可以取得较高的分类准确度。

    多分支多视图的时间序列上下文对比表征学习方法
    杨光局, 罗天健, 王开军, 杨思琪
    2025, 45(4):  1042-1052.  DOI: 10.11772/j.issn.1001-9081.2024040448
    摘要 ( )   HTML ( )   PDF (3856KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    时间序列数据在众多行业中拥有广泛应用,然而受限于标注信息的缺失和复杂的时频域多变性,针对时间序列的表征学习成为一项挑战性任务。因此,提出一种用于时间序列的多分支多视图的上下文对比表征学习(MBMVCRL)方法。首先,从时频这2个视角增强时间序列样本,并把结果分别输入多分支多视图模型,从而提取时间序列的多视角特征表达;其次,为进行对比表征学习,分别根据2个视角的特征表达,计算上下文对比误差和交叉预测误差,并联合训练以获取最优的特征表达;最后,为验证所提方法对时间序列的表征能力,采用仿射非负协同表征(ANCR)分类器进行下游的分类任务。实验结果表明,相较于主流的时间序列时序上下文对比学习(TS-TCC)方法,所提方法在人体动作、癫痫和睡眠状态识别任务上的识别准确率分别提升了5.15、0.90和1.89百分点。消融实验结果则表明了多分支多视图模型的重要性,强调了所提模型拥有的参数敏感性不高和收敛快的特点,可见所提模型在不同时间序列应用上具有不错的泛化性。

    基于混合负采样的图对比学习推荐算法
    田仁杰, 景明利, 焦龙, 王飞
    2025, 45(4):  1053-1060.  DOI: 10.11772/j.issn.1001-9081.2024040419
    摘要 ( )   HTML ( )   PDF (1954KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    对比学习(CL)具有可从原始数据中提取自监督信号的特性,为推荐系统解决数据稀疏问题提供了有力支持。然而,现有的CL推荐算法大多着眼于改进模型结构和数据增强方法,忽视了提升推荐任务中的负样本质量以及挖掘用户与项目之间潜在隐性关系的重要性。针对此问题,提出一种基于混合负采样的图对比学习推荐算法(HSGCL)。首先,与均匀采样方法从真实数据中采样不同,所提算法使用正样本混合方法将正样本信息融入负样本中;其次,通过跳跃混合方法创造富含信息的难负样本;同时,通过使用节点丢弃(ND),改变图结构以生成多个视图,并在嵌入空间中引入可控的均匀噪声平滑调整学习表示的均匀性;最后,将推荐主任务与CL任务进行联合训练。在Douban-Book、Yelp2018和Amazon-Kindle这3个公共数据集上的数值实验结果表明,相较于基线模型——轻量化图卷积网络(LightGCN),所提算法在召回率(Recall@20)上分别提升了23%、13%和7%,在归一化折损累积增益(NDCG@20)上分别提升了32%、14%和5%,且在提升负样本嵌入信息多样性方面表现优异。可见,所提算法从负采样方法和数据增强两方面进行改进,提高了负样本质量、表示分布的均匀性和推荐算法的准确性。

    基于多视图多尺度对比学习的图协同过滤
    党伟超, 温鑫瑜, 高改梅, 刘春霞
    2025, 45(4):  1061-1068.  DOI: 10.11772/j.issn.1001-9081.2024030393
    摘要 ( )   HTML ( )   PDF (1493KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对图协同过滤推荐方法存在的单一视图局限性和数据稀疏性问题,提出一种基于多视图多尺度对比学习的图协同过滤(MVMSCL)模型。首先,根据用户-项目交互构建初始交互图,并考虑用户-项目中存在的多种潜在意图,以构建多意图分解视图;其次,利用高阶关系改进邻接矩阵,以构建协同邻居视图;再次,去除不重要的噪声交互,以构建自适应增强的初始交互图和多意图分解视图;最后,引入局部、跨层和全局3种尺度的对比学习范式生成自监督信号,从而提高推荐性能。在Gowalla、Amazon-book和Tmall 3个公共数据集上的实验结果表明,MVMSCL的推荐性能均优于对比模型。与最优基线模型DCCF(Disentangled Contrastive Collaborative Filtering framework)相比,MVMSCL的召回率Recall@20分别提升了5.7%、14.5%和10.0%,归一化折损累计增益NDCG@20分别提升了4.6%、17.9%和11.5%。

    基于分组卷积的通道重洗注意力机制
    张李伟, 梁泉, 胡禹涛, 朱乔乐
    2025, 45(4):  1069-1076.  DOI: 10.11772/j.issn.1001-9081.2024040525
    摘要 ( )   HTML ( )   PDF (2671KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    注意力机制的引入使得主干网能够学习更具区分性的特征表示。然而,为了控制注意力的复杂度,传统的注意力机制采用的通道降维或减少通道数而增加批量大小的策略会导致过度减少通道数和损失重要特征信息的问题。为解决这一问题,提出通道重洗注意力(CSA)模块。首先,利用分组卷积学习注意力权重,以控制CSA的复杂度;其次,通过传统通道重洗和深层通道重洗(DCS)方法,增强不同组间的通道特征信息交流;再次,使用逆通道重洗恢复注意力权重的顺序;最后,将恢复后的注意力权重与原始特征图相乘,以获得更具表达能力的特征图。实验结果表明,在CIFAR-100数据集上,与添加CA(Coordinate Attention)的ResNet50相比,添加CSA的ResNet50的参数量降低了2.3%,Top-1准确率提升了0.57个百分点;与添加EMA(Efficient Multi-scale Attention)的ResNet50相比,添加CSA的ResNet50的计算量降低了18.4%,Top-1准确率提升了0.27个百分点。在COCO2017数据集上,添加CSA的YOLOv5s比添加CA和EMA的YOLOv5s在平均精度均值(mAP@50)上分别提升了0.5和0.2个百分点。可见,CSA达到了参数量和计算量的平衡,并能够同时提升图像分类任务的准确率和目标检测任务的定位能力。

    基于演化博弈的分层联邦学习边缘联合动态分析
    项钰斐, 倪郑威
    2025, 45(4):  1077-1085.  DOI: 10.11772/j.issn.1001-9081.2024040428
    摘要 ( )   HTML ( )   PDF (2452KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有边缘服务器提供商(ESP)边缘资源有限导致的分层联邦学习的边缘节点服务质量(QoS)降低的问题,考虑边缘服务器潜在的边缘联合可能性,提出一种动态边缘联合框架(EFF)。所提框架内,不同的ESP相互协作,为分层联邦学习中由于客户端的异构性或数据的非独立同分布(Non-IID)等问题而降低的模型训练效率提供额外的边缘资源。首先,通过量化通信模型设定卸载决策,并将卸载任务发布给框架内其他ESP的边缘服务器,从而解决边缘资源的弹性化需求;其次,通过多轮迭代EFF参与策略(MIEPS)算法求解ESP之间的演化博弈均衡解,从而为ESP找到合适的资源分配策略;最后,通过理论和仿真实验验证均衡点的存在性、唯一性和稳定性。实验结果表明,相较于非联合策略和成对联合策略,通过MIEPS算法构建的三联EFF在基于独立同分布(IID)数据集训练得到的全局模型的预测准确率上分别提高了1.5和1.0个百分点,而在基于Non-IID数据集的准确率上分别提升了2.1和0.7个百分点。此外,通过改变ESP的资源配置方式,验证了EFF能够公平地分配ESP的报酬,激励更多的ESP参与其中,并形成良性的合作环境。

    面向数据异构的聚类联邦学习算法
    陈庆礼, 郭渊博, 方晨
    2025, 45(4):  1086-1094.  DOI: 10.11772/j.issn.1001-9081.2024010132
    摘要 ( )   HTML ( )   PDF (2335KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    联邦学习(FL)是一种在隐私保护和通信效率方面极具潜力的新型机器学习模型构建范式,然而现实物联网(IoT)场景中客户端节点数据之间会存在异构性,学习一个统一的全局模型会导致模型准确率下降。为了解决这一问题,提出一种基于特征分布的聚类联邦学习(CFLFD)算法。在该算法中,对每个客户端节点从模型提取的特征进行主成分分析(PCA)后所得到的结果进行聚类,以将具有相似数据分布的客户端节点聚类在一起相互协作,从而提高模型准确率。为验证算法的有效性,在3个数据集和4种基准算法上进行大量实验。实验结果表明,与FedProx相比,CFLFD算法在CIFAR10数据集和Office-Caltech10数据集上将模型准确率分别提升了1.12和3.76个百分点。

    基于关系网络和Vision Transformer的跨域小样本分类模型
    严一钦, 罗川, 李天瑞, 陈红梅
    2025, 45(4):  1095-1103.  DOI: 10.11772/j.issn.1001-9081.2023121852
    摘要 ( )   HTML ( )   PDF (2414KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对小样本学习模型在数据域存在偏移时分类准确度不高的问题,提出一种基于关系网络和ViT (Vision Transformer)的跨域小样本图像分类模型ReViT (Relation ViT)。首先,引入ViT作为特征提取器,并使用经过预训练的深层神经网络解决浅层神经网络的特征表达能力不足的问题;其次,以浅层卷积网络作为任务适配器提升模型的知识迁移能力,并基于关系网络和通道注意力机制构建非线性分类器;随后,将特征提取器和任务适配器进行特征融合,从而增强模型的泛化能力;最后,采取“预训练-元学习-微调-元测试”四阶段学习策略训练模型,有效融合迁移学习与元学习,进一步提升ReViT的跨域分类性能。以平均分类准确率为评估指标的实验结果表明,ReViT在跨域小样本分类问题上有良好的性能。具体地,ReViT的分类准确度在Meta-Dataset的域内场景下和域外场景下相较于次优的模型分别提升了5.82和1.71个百分点,在BCDFSL (Broader study of Cross-Domain Few-Shot Learning)数据集的3个子问题EuroSAT(European SATellite data)、CropDisease和ISIC (International Skin Imaging Collaboration)的5-way 5-shot上相较于次优的模型分别提升了1.00、1.54和2.43个百分点,在EuroSAT、CropDisease和ISIC的5-way 20-shot上相较于次优的模型分别提升了0.13、0.97和3.40个百分点,在CropDisease的5-way 50-shot上相较于次优的模型提升了0.36个百分点。可见,ReViT能在样本量稀少的图像分类任务上保持良好的准确率。

    基于多标签关系图和局部动态重构学习的多标签分类模型
    胡婕, 郑启扬, 孙军, 张龑
    2025, 45(4):  1104-1112.  DOI: 10.11772/j.issn.1001-9081.2024030386
    摘要 ( )   HTML ( )   PDF (1080KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在多标签分类任务中,现有模型对依赖关系的构建主要考虑标签在训练集中是否共现,而忽视了标签之间各种不同类型的关系以及在不同样本中的动态交互关系。因此,结合多标签关系图和局部动态重构图学习更完整的标签依赖关系。首先,根据标签的全局共现关系,采用数据驱动的方式构建多标签关系图,学习标签之间不同类型的依赖关系;其次,通过标签注意力机制探索文本信息和标签语义的关联性;最后,对标签图进行动态重构学习,以捕获标签之间的局部特定关系。在3个公开数据集BibTeX、Delicious和Reuters-21578上的实验结果表明,所提模型的宏平均F1(maF1)值相较于MrMP(Multi-relation Message Passing)分别提高了1.6、1.0和2.2个百分点,综合性能得到提升。

    结合标签混淆的中文文本分类数据增强技术
    孙海涛, 林佳瑜, 梁祖红, 郭洁
    2025, 45(4):  1113-1119.  DOI: 10.11772/j.issn.1001-9081.2024040550
    摘要 ( )   HTML ( )   PDF (863KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。

    引入解耦残差自注意力的边界交叉监督语义分割网络
    姜坤元, 李小霞, 王利, 曹耀丹, 张晓强, 丁楠, 周颖玥
    2025, 45(4):  1120-1129.  DOI: 10.11772/j.issn.1001-9081.2024040415
    摘要 ( )   HTML ( )   PDF (4007KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对内镜语义分割网络中病灶边缘信息丢失和大面积病灶分割不全的问题,提出一种引入解耦残差自注意力(DRA)的边界交叉监督语义分割网络(BCS-SegNet)。首先,引入DRA,以增强网络对远距离关联性病灶的学习能力;其次,构建跨级交叉融合(CLF)模块,从而将编码结构中的多级特征图逐对组合,进而实现在低计算成本下图像细节与语义信息的融合;最后,使用多方向多尺度的二维Gabor变换提取边缘信息,并使用空间注意力加权特征图中的边缘特征,以监督分割网络的解码过程,从而在像素级别上提供更精准的类内分割一致性。实验结果表明,在ISIC2018皮肤镜和Kvasir-SEG/CVC-ClinicDB结肠镜数据集上,BCS-SegNet的平均交并比(mIoU)和Dice系数分别为84.27%、90.68%和79.24%、87.91%;在自建食管内镜数据集上,BCS-SegNet的mIoU和Dice系数分别为82.73%和90.84%,mIoU相较于U-net和UCTransNet分别提升了3.30%和4.97%。可见,所提网络可以达到更完整的分割区域和更清晰的边缘细节等视觉效果。

    融合环境标签平滑与核范数差异的领域自适应
    丁美荣, 卓金鑫, 陆玉武, 刘庆龙, 郎济聪
    2025, 45(4):  1130-1138.  DOI: 10.11772/j.issn.1001-9081.2024040417
    摘要 ( )   HTML ( )   PDF (2993KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    现有的领域自适应方法过于关注源域的细粒度特征学习,从而削弱了相关方法有效推广到目标域的能力,导致这些方法容易在特定的环境中过度拟合,且缺乏对复杂环境的鲁棒性。为了解决上述问题,提出一个融合环境标签平滑与核范数差异(ELSND)的领域自适应模型。所提模型通过环境标签平滑模块,减小真实标签的概率,增大非真实标签的概率,进而增强模型对不同场景的适应性。同时,运用核范数差异模块度量源域与目标域的分布差异,从而提高决策边界处样本的分类确定性。在Office-31、Office-Home和MiniDomainNet这3个领域的自适应基准数据集上进行大量实验。结果表明,与先进的基线模型DomainAdaptor-Aug (DomainAdaptor with generalized entropy minimization-Augmentation)在MiniDomainNet数据集上相比,ELSND模型在图像分类领域自适应任务上的精确度提升了1.23个百分点。因此,所提模型在图像分类时具有更高的精确度和泛化性。

    基于邻近性语义感知的无监督文本风格迁移
    安俊秀, 杨林旺, 柳源
    2025, 45(4):  1139-1147.  DOI: 10.11772/j.issn.1001-9081.2024040536
    摘要 ( )   HTML ( )   PDF (3019KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对离散词扰动和嵌入扰动方法中未充分考虑潜在空间词向量之间距离边界的问题,提出一种邻近性语义感知的对抗性自动编码器(SPAAE)方法。首先,采用对抗自动编码器作为底层模型;其次,根据词向量的邻近距离求得噪声向量概率分布的标准差;最后,通过对概率分布进行随机采样,动态调整扰动参数,从而最大限度模糊自身语义且不影响其他词向量的语义。实验结果表明,与DAAE (Denoising Adversarial Auto-Encoders)和EPAAE (Embedding Perturbed Adversarial Auto-Encoders)方法相比,所提方法在Yelp数据集上的自然流畅度分别提升了14.88%、15.65%;在Scitail数据集上的文本风格迁移(TST)的准确率分别提升了11.68%、6.45%;在Tenses数据集上的BLEU (BiLingual Evaluation Understudy)值分别提升了28.16%、26.17%。可见,SPAAE方法不仅在理论上提供了一种更精确的词向量扰动方式,而且在7个公开数据集上展示了它在不同风格迁移任务中的显著优势。特别是在网络舆论引导中,所提方法可以用于情感文本的风格迁移。

    融合有向关系与关系路径的层次注意力的知识图谱补全
    翟社平, 杨晴, 黄妍, 杨锐
    2025, 45(4):  1148-1156.  DOI: 10.11772/j.issn.1001-9081.2024030321
    摘要 ( )   HTML ( )   PDF (1723KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    已有的知识图谱补全(KGC)方法大多未充分挖掘三元组结构中的关系路径,仅考虑了图结构信息;同时现有模型在实体聚合过程中着重考虑邻域信息,对关系的学习相对简单。针对以上问题,提出融合有向关系和关系路径的图注意力模型DRPGAT。首先,将常规三元组转换为有向关系三元组,并引入注意力机制对不同的有向关系赋予不同的权重,从而完成实体信息的聚合,同时,建立关系路径模型,通过将关系位置嵌入路径信息区分不同位置之间的关系,并过滤无关路径得到有用的路径信息;其次,使用注意力机制对路径信息进行深度学习,以实现关系的聚合;最后,将实体与关系送入解码器,训练得到最终的补全结果。在2个真实数据集上进行链接预测实验,以验证所提模型的有效性。实验结果表明,在FB15k-237数据集上,相较于基线模型中的最优结果,DRPGAT的平均排名(MR)降低了13,平均倒数排名(MRR)、Hits@1、Hits@3、Hits@10分别提高1.9、1.2、2.3和1.6个百分点;在WN18RR数据集上,DRPGAT的MR降低了125,MRR、Hits@1、Hits@3、Hits@10分别提高了1.1、0.4、1.2和0.6个百分点,显示了所提模型的有效性。

    基于知识图谱和对话结构的问诊推荐方法
    徐春, 吉双焱, 马欢, 孙恩威, 王萌萌, 苏明钰
    2025, 45(4):  1157-1168.  DOI: 10.11772/j.issn.1001-9081.2024050573
    摘要 ( )   HTML ( )   PDF (2938KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有的问诊推荐方法未能充分利用医患间丰富的对话信息和无法捕捉患者实时的健康需求和偏好的问题,提出一种基于知识图谱和对话结构的问诊推荐方法(KGDS)。首先,构建包含评论情感分析和医学专业知识的医疗知识图谱(KG),增强医生和患者的细粒度特征表示;其次,在患者表示学习部分,设计一种患者查询编码器,从词级和句级这2个层面提取查询文本的关键特征,并通过注意力机制加强医患向量间的高阶特征交互;再次,建模诊断对话,充分利用医患间丰富的对话信息增强医患特征表示;最后,设计基于对比学习的对话模拟器,捕捉患者的动态需求和实时偏好,利用模拟的对话表示辅助推荐得分的预测。在真实数据集上的实验结果表明,KGDS相较于最优基线方法在曲线下面积(AUC)、平均值倒数秩(MRR@15)、推荐多样性(Diversity@15)、调和平均值(F1@15)、命中率(HR@15)和归一化折损累计增益(NDCG@15)上分别提高了1.82、1.78、3.85、3.06、10.02和4.51个百分点,验证了KGDS的有效性,且可见情感分析和KG的纳入增强了推荐结果的可解释性。

    基于知识提示微调的标书信息抽取方法
    孙熠衡, 刘茂福
    2025, 45(4):  1169-1176.  DOI: 10.11772/j.issn.1001-9081.2024030336
    摘要 ( )   HTML ( )   PDF (1313KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出一种基于提示学习的标书信息抽取方法(TIEPL)。首先,利用生成式信息抽取的提示学习方法对LLM注入领域知识,以实现预训练和微调阶段的统一优化;其次,以LoRA(Low-Rank Adaption)微调方法为框架,单独设计提示训练旁路,并设计标书场景关键词提示模板,从而增强模型信息抽取与提示的双向关联。在自建的招中标数据集上的实验结果表明,相较于次优的UIE(Universal Information Extraction)方法,TIEPL的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)和BLEU-4(BiLingual Evaluation Understudy)分别提高1.05和4.71个百分点,能更准确和完整地生成抽取结果,验证了所提方法在提高标书信息抽取准确性和泛化性方面的有效性。

    基于路径和增强三元组文本的开放世界知识推理模型
    王利琴, 耿智雷, 李英双, 董永峰, 边萌
    2025, 45(4):  1177-1183.  DOI: 10.11772/j.issn.1001-9081.2024030265
    摘要 ( )   HTML ( )   PDF (838KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    传统的基于表示学习的知识推理方法只能用于封闭世界的知识推理,有效进行开放世界的知识推理是目前的热点问题。因此,提出一种基于路径和增强三元组文本的开放世界知识推理模型PEOR(Path and Enhanced triplet text for Open world knowledge Reasoning)。首先,使用由实体对间结构生成的多条路径和单个实体周围结构生成的增强三元组,其中路径文本通过拼接路径中的三元组文本得到,而增强三元组文本通过拼接头实体邻域文本、关系文本和尾实体邻域文本得到;其次,使用BERT(Bidirectional Encoder Representations from Transformers)分别编码路径文本和增强三元组文本;最后,使用路径向量和三元组向量计算语义匹配注意力,再使用语义匹配注意力聚合多条路径的语义信息。在3个开放世界知识图谱数据集WN18RR、FB15k-237和NELL-995上的对比实验结果表明,与次优模型BERTRL(BERT-based Relational Learning)相比,所提模型的命中率(Hits@10)指标分别提升了2.6、2.3和8.5个百分点,验证了所提模型的有效性。

    基于图谱嵌入的语义融合协同推理的事实验证
    沈马磊, 史志才, 高永彬, 胡建洋
    2025, 45(4):  1184-1189.  DOI: 10.11772/j.issn.1001-9081.2024040436
    摘要 ( )   HTML ( )   PDF (2217KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    作为自然语言处理领域的一项关键任务,事实验证要求能够从大量的纯文本中根据给定的声明检索相关的证据,并使用这些证据推理验证声明。以往的研究通常利用证据句子拼接或图结构表示证据之间的关系,而不能清晰地表示各证据之间的内在关联。因此,设计一种基于图谱和文本融合的协同推理网络模型CNGT (Co-attention Network with Graph and Text fusion),以通过构建证据知识图谱和证据句子进行语义融合。首先,根据证据句子构建证据知识图谱,并利用图变换编码器学习图谱表示;其次,利用BERT (Bidirectional Encoder Representations from Transformers)模型对声明和证据编码;最后,通过双层协同推理网络有效地融合推理图谱信息和文本特征。实验结果表明,相较于先进模型KGAT (Knowledge Graph Attention neTwork),所提模型在FEVER (Fact Extraction and VERification)数据集上的标签准确率(LA)提高了0.84个百分点,FEVER得分提高了1.51个百分点。可见,所提模型更关注证据句子之间的关系,并且通过证据图谱展示出模型对证据句子关系的可解释性。

    融合叙事单元和可靠标签的小说说话人识别框架
    刘天宇, 陶冶, 鲁超峰, 刘家旺
    2025, 45(4):  1190-1198.  DOI: 10.11772/j.issn.1001-9081.2024030331
    摘要 ( )   HTML ( )   PDF (2354KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    小说中的说话人识别(SI)旨在通过引语所在上下文判断它的说话人。这项任务对在制作有声书的过程中为不同的角色分配合适的声音有很大帮助。然而,现有方法对引语上下文的选择主要以固定窗口值为主,这种方式不够灵活,会产生冗余文段,导致模型不易捕捉到真正有用的信息。另外,由于不同小说的引语数量和写作风格差异巨大,仅靠少量的标注样本无法使模型充分泛化,同时数据集的标注比较昂贵。为了解决上述问题,提出一个融合叙事单元和可靠标签的小说说话人识别框架。首先,使用基于叙事单元的上下文选择(NUCS)方法选择合适长度的上下文,从而让模型高度聚焦与引语归因最密切的文段;其次,构建一个说话人评分网络(SSN),并把生成的上下文作为输入;此外,引入自训练,并设计一个可靠伪标签选择(RPLS)算法,从而在一定程度上弥补标签样本过少的不足,筛选出更可靠且质量更高的伪标签样本;最后,构建并标注一个包含11本中文小说的中文小说说话人识别语料库(CNSI)。为评价所提框架,在2个公开数据集和自建数据集上进行实验,结果表明,融合叙事单元和可靠标签的小说说话人识别框架优于CSN(Candidate Scoring Network)、E2E_SI和ChatGPT-3.5等方法。

    基于预训练模型标记器重构的藏文分词系统
    杨杰, 尼玛扎西, 仁青东主, 祁晋东, 才让东知
    2025, 45(4):  1199-1204.  DOI: 10.11772/j.issn.1001-9081.2024040442
    摘要 ( )   HTML ( )   PDF (1442KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERT-BiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。

    数据科学与技术
    基于多视角学习的图神经网络群组推荐模型
    王聪, 史艳翠
    2025, 45(4):  1205-1212.  DOI: 10.11772/j.issn.1001-9081.2024030337
    摘要 ( )   HTML ( )   PDF (2528KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有基于图神经网络(GNN)的群组推荐模型难以充分利用显隐式交互信息的问题,提出一种基于多视角学习的GNN群组推荐(GRGM)模型。先根据群组交互数据构造超图、二分图和超图投影图,并针对各个图结构的特性采用相应的GNN提取图节点特征,从而充分表达用户、群组和项目之间的显隐式关系;再提出一种多视角信息融合策略,以获取最终的群组和项目表示。在Mafengwo、CAMRa2011和Weeplaces数据集上的实验结果表明,相较于基线模型ConsRec,GRGM模型的命中率(HR@5、HR@10)和归一化折损累计增益(NDCG@5、NDCG@10)在Mafengwo数据集上分别提升了3.38%、1.96%和3.67%、3.84%,在CAMRa2011数据集上分别提升了2.87%、1.18%和0.96%、1.62%,在Weeplaces数据集上分别提升了2.41%、1.69%和4.35%、2.60%。可见,GRGM模型相较于对比模型具有更好的推荐性能。

    基于协作贡献网络的开源项目开发者推荐
    游兰, 张雨昂, 刘源, 陈智军, 王伟, 曾星, 何张玮
    2025, 45(4):  1213-1222.  DOI: 10.11772/j.issn.1001-9081.2024040454
    摘要 ( )   HTML ( )   PDF (4564KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    面向开源项目推荐开发人员对开源生态建设具有重要意义。区别于传统软件开发,开源领域的开发者、项目、组织及相互关系体现了开放式协作项目的特点,而它们蕴含的语义有助于精准推荐开源项目的开发者。因此,提出一种基于协作贡献网络(CCN)的开发者推荐(DRCCN)方法。首先,利用开源软件(OSS)开发者、OSS项目、OSS组织之间的贡献关系构建CCN;其次,基于CCN构建一个3层深度的异构GraphSAGE (Graph SAmple and aggreGatE)图神经网络(GNN)模型,预测开发者节点和开源项目节点之间的链接,从而产生相应的嵌入对;最后,根据预测结果,采用K最近邻(KNN)算法完成开发者推荐。在GitHub数据集上训练和测试模型的实验结果表明,相较于序列推荐的对比学习模型CL4SRec (Contrastive Learning for Sequential Recommendation),DRCCN在精确率、召回率和F1值这3个指标上分别提升了约10.7%、2.6%和4.2%。因此,所提模型可以为开源社区项目的开发者推荐提供重要的参考依据。

    基于级联残差图卷积网络的多行为推荐
    党伟超, 宋楚君, 高改梅, 刘春霞
    2025, 45(4):  1223-1231.  DOI: 10.11772/j.issn.1001-9081.2024040461
    摘要 ( )   HTML ( )   PDF (2164KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对多行为推荐研究中存在的数据稀疏和忽视多行为之间复杂联系的问题,提出一种基于级联残差图卷积网络的多行为推荐(CRMBR)模型。首先,从由所有行为的相互作用构建的统一同构图中学习用户和项目的全局嵌入,并将这些嵌入用作初始化嵌入;其次,通过级联残差块捕获不同行为之间的联系,以不断细化不同类型行为的嵌入,从而完善用户偏好;最后,通过2种不同的聚合策略分别聚合用户和项目嵌入,并采用多任务学习(MTL)优化这些嵌入。在多个真实数据集上的实验结果表明,CRMBR模型的推荐性能优于目前的主流模型。与先进的基准模型——多行为分层图卷积网络(MB-HGCN)相比,在Tmall数据集上,所提模型的命中率(HR@20)和归一化折损累积增益(NDCG@20)分别提升了3.1%和3.9%;在Beibei数据集上,则分别提升了15.8%和16.9%;在Jdata数据集上,则分别提升了1.0%和3.3%,验证了所提模型的有效性。

    网络空间安全
    基于零信任的网络数据安全保护框架与实现
    王作广, 李超, 赵利
    2025, 45(4):  1232-1240.  DOI: 10.11772/j.issn.1001-9081.2024040526
    摘要 ( )   HTML ( )   PDF (3893KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为解决网络架构复杂化、动态化和碎片化演变导致的边界防护措施失效,应对非自主可控的系统、软硬件和密码算法不断呈现的脆弱性对网络数据安全造成的挑战,首先,基于零信任理念设计一个零信任网络架构实现模型;其次,提出一种零信任网络安全保护框架,在身份管理与认证、授权与访问、数据处理与传输等环节融合利用零信任安全理念、国密算法体系和可信计算技术,设计国密证书申请与签发、业务数据安全处理与传输等框架流程,并设计与实现身份与访问管理模块、终端可信网络访问代理设备等功能组件;最后,构建基于安全保护框架的网络平台,从而为网络数据安全保护和零信任安全实践提供新框架、技术和工具。安全分析与性能测试的结果显示,所提平台对SM2的签名与验签性能分别平均达到了每秒1 118.72次和每秒441.43次,对SM4的加密和解密性能分别平均达到了10.05 MB/s和9.96 MB/s,平台数据安全访问/响应性能为7.23 MB/s,表明所提框架可以提供稳定的数据安全支持。

    DoS攻击下基于APF和DDPG算法的无人机安全集群控制
    林柄权, 刘磊, 李华峰, 刘晨
    2025, 45(4):  1241-1248.  DOI: 10.11772/j.issn.1001-9081.2024040464
    摘要 ( )   HTML ( )   PDF (4132KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。

    基于格的后量子无证书公共审计方案
    马海峰, 蔡杰伟, 薛庆水, 杨家海, 韩静, 卢子譞
    2025, 45(4):  1249-1255.  DOI: 10.11772/j.issn.1001-9081.2024050605
    摘要 ( )   HTML ( )   PDF (1220KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    对存储在云服务器上的数据进行周期性的审计,是确保存储在云上数据的安全性和完整性的核心策略,它可以有效识别和应对可能存在的数据篡改或丢失的风险。然而传统的公共审计方案存在证书管理问题或密钥托管等问题,进而在数据的查询和动态修改过程中存在隐私泄露问题;此外,随着量子计算技术的不断发展,传统公钥体制下的公共审计方案面临被量子计算机破解的严重威胁。为了解决以上问题,提出一种基于格的后量子无证书公共审计方案。首先,使用无证书公钥密码体制,以解决传统公共审计方案中的证书管理和密钥托管问题;其次,在数据查询和动态修改过程中,数据拥有者(DO)无需提供具体的数据块信息,从而保证DO的隐私;最后,采用格密码学的技术抵抗量子计算机的攻击。理论分析和实验对比结果验证了所提方案可以抵御恶意攻击并保证DO操作的隐私,同时在标签生成方面具备更高的效率。

    网络与通信
    RIS辅助的多簇NOMA-DFRC系统中的联合波束成形与功率分配
    李昱辰, 巫峻译, 葛孟佳, 潘莉丽, 景小荣
    2025, 45(4):  1256-1262.  DOI: 10.11772/j.issn.1001-9081.2024040530
    摘要 ( )   HTML ( )   PDF (3211KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    面对未来双功能雷达通信(DFRC)系统对通信与感知性能的更高要求,结合非正交多址(NOMA)和可重构智能表面(RIS)技术,提出一种RIS辅助的融合多簇NOMA的DFRC系统模型。在所提模型中,DFRC基站利用叠加的多簇NOMA信号实现目标感知,并借助RIS反射建立的虚拟视距链路提升多簇NOMA中的用户通信性能。基于所提模型,以最大化系统和速率与感知功率的加权和为目标,构建受多条件约束且包含多变量耦合的非凸目标函数。为求解该目标函数,提出一种联合波束成形与功率分配的优化方案。在所提方案中,首先,将原优化问题分解为3个非凸优化子问题;其次,采用连续凸逼近(SCA)和半正定松弛(SDR)等方法将原非凸优化子问题转换为凸优化子问题;最后,采用交替优化(AO)方法对这些子问题进行迭代求解,从而实现联合波束成形(包括主动波束成形和被动波束成形)和簇内功率分配系数的优化。仿真实验结果表明,所提方案具有良好的通信性能与感知性能,与正交多址(OMA)方案相比,系统和速率的提升约为1 bit/(s·Hz),同时保持较高的目标感知性能,在通信性能和感知性能之间取得较好的折中。

    基于语义相似度的协议转换方法
    杨定木, 倪龙强, 梁晶, 邱照原, 张永真, 齐志强
    2025, 45(4):  1263-1270.  DOI: 10.11772/j.issn.1001-9081.2024040534
    摘要 ( )   HTML ( )   PDF (2168KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    协议转换通常用于解决不同协议之间的数据交互问题,它的本质是寻找不同协议字段之间的映射关系。传统的协议转换方法存在以下缺点:转换大多是在特定协议的基础上设计的,因而这些转换是静态的,灵活性较差,不适用于多协议转换的场景;一旦协议发生改变,就需要再次分析协议的结构和字段语义以重新构建字段之间的映射关系,从而产生指数级的工作量,降低了协议转换的效率。因此,提出基于语义相似度的通用协议转换方法,旨在通过智能的方法发掘字段间的映射关系,进而提高协议转换的效率。首先,通过BERT (Bidirectional Encoder Representations from Transformers)模型分类协议字段,并排除“不应该”存在映射关系的字段;其次,通过计算字段之间的语义相似度,推理字段之间的映射关系,进而构建字段映射表;最后,提出基于语义相似度的通用协议转换框架,并定义相关协议以进行验证。仿真实验结果表明:所提方法的字段分类精准率达到了94.44%;映射关系识别精准率达到了90.70%,相较于基于知识抽取的方法提高了13.93%。以上结果验证了所提方法的有可行性,该方法可以快速识别不同协议字段之间的映射关系,适用于无人协同中多协议转换的场景。

    多媒体计算与计算机仿真
    不变性全局稀疏轮廓点表征的运动行人检测神经网络
    赵轻轻, 胡滨
    2025, 45(4):  1271-1284.  DOI: 10.11772/j.issn.1001-9081.2024040561
    摘要 ( )   HTML ( )   PDF (7106KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    行人作为非刚性物体,对它的视觉特征进行有效的不变表示是提高识别效果的关键。在自然视觉场景中,运动行人通常会发生尺度、背景、姿态等变化,这对用现有技术提取这些不规则特征造成阻碍。针对该问题,基于哺乳动物视网膜神经结构特性,探究运动行人不变性识别问题,并提出一种适用于视觉场景的运动行人检测神经网络(MPDNN)。MPDNN包括2个神经模块:突触前网络和突触后网络。其中,突触前网络感知表征运动目标的低阶视觉运动线索,并提取目标的二值化视觉信息;突触后网络借助生物视觉系统中的稀疏不变响应特性,利用目标轮廓在连续改变形状后较大凹凸区域之间的位置关系不变特性,从低阶运动线索中编码平稳变化的视觉特征以构建行人不变表征。实验结果表明,MPDNN在公共数据集CUHK Avenue与EPFL上达到了96.96%的跨域检测准确率,比SOTA (State Of The Art)模型高4.52个百分点;在尺度、运动姿势变化数据集上也表现了较好的鲁棒性,准确率分别达到了89.48%与91.45%。以上实验结果验证了生物不变性物体识别机制在运动行人检测中的有效性。

    基于扩张重参数化和空洞卷积架构的步态识别方法
    霍丽娜, 薛乐仁, 戴钰俊, 赵新宇, 王世行, 王威
    2025, 45(4):  1285-1292.  DOI: 10.11772/j.issn.1001-9081.2024050566
    摘要 ( )   HTML ( )   PDF (1928KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    步态识别旨在通过人们的步行姿态进行身份识别。针对步态识别中有效感受野(ERF)与人体轮廓区域匹配不佳的问题,提出一种基于空洞卷积的步态识别方法DilatedGait。首先,采用空洞卷积扩大神经元感受野,缓解下采样和模型深度增加导致的分辨率下降,以提高轮廓结构的辨识度;其次,提出扩张重参数化模块(DRM),通过重参数化方法融合多尺度卷积核参数,优化ERF聚焦范围,使模型捕获更多的全局上下文信息;最后,通过特征映射提取判别性步态特征。在户外数据集Gait3D和GREW上的实验结果表明,对比目前的先进方法GaitBase,DilatedGait在Gait3D的Rank-1和平均逆负惩罚(mINP)上分别提升了9.0和14.2个百分点,在GREW的Rank-1和Rank-5上分别提升了11.6和8.8个百分点。可见,DilatedGait消除了复杂协变量带来的不利影响,能进一步提升户外场景下步态识别的准确率。

    结合注意力机制和多尺度特征融合的三维手部姿态估计
    郭诗月, 党建武, 王阳萍, 雍玖
    2025, 45(4):  1293-1299.  DOI: 10.11772/j.issn.1001-9081.2024040507
    摘要 ( )   HTML ( )   PDF (2747KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对因遮挡和自相似性导致的从单张RGB图像估计三维手部姿态不精确的问题,提出结合注意力机制和多尺度特征融合的三维手部姿态估计算法。首先,提出结合扩张卷积和CBAM (Convolutional Block Attention Module)注意力机制的感受强化模块(SEM),以替换沙漏网络(HGNet)中的基本块(Basicblock),在扩大感受野的同时增强对空间信息的敏感性,从而提高手部特征的提取能力;其次,设计一种结合SPCNet (Spatial Preserve and Content-aware Network)和Soft-Attention改进的多尺度信息融合模块SS-MIFM (SPCNet and Soft-attention-Multi-scale Information Fusion Module),在充分考虑空间内容感知机制的情况下,有效地聚合多级特征,并显著提高二维手部关键点检测的准确性;最后,利用2.5D姿态转换模块将二维姿态转换为三维姿态,从而避免二维关键点坐标直接回归计算三维姿态信息导致的空间丢失问题。实验结果表明,在InterHand2.6M数据集上,所提算法的双手关节点平均误差(MPJPE)、单手MPJPE和根节点平均误差(MRRPE)分别达到了12.32、9.96和29.57 mm;在RHD(Rendered Hand pose Dataset)上,与InterNet和QMGR-Net算法相比,所提算法的终点误差(EPE)分别降低了2.68和0.38 mm。以上结果说明了所提算法能够更准确地估计手部姿态,且在一些双手交互和遮挡的场景下有更高的鲁棒性。

    面向运动前景区域的视频异常检测
    潘理虎, 彭守信, 张睿, 薛之洋, 毛旭珍
    2025, 45(4):  1300-1309.  DOI: 10.11772/j.issn.1001-9081.2024040519
    摘要 ( )   HTML ( )   PDF (2907KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    静态背景信息和运动前景对象的数据分布不平衡通常会引起发生异常的前景区域信息学习不充分问题,进而影响视频异常检测(VAD)的精度。为了解决上述问题,提出一种用于VAD的嵌套U型帧预测生成对抗网络(NUFP-GAN)方法。所提方法使用具有突出视频帧中显著目标能力的嵌套U型帧预测网络架构作为帧预测模块,并在判别阶段设计一个自注意力补丁判别器,应用不同大小的感受野提取视频帧中更重要的外观和运动特征,以提升异常检测的准确性。此外,为保证预测帧和真实帧在高级语义信息上的多尺度特征一致性,引入多尺度一致性损失,以进一步提升方法的异常检测效果。实验结果表明,所提方法在CUHK Avenue、UCSD Ped1、UCSD Ped2和ShanghaiTech数据集上的曲线下面积(AUC)值分别达到了87.6%、85.2%、96.0%和73.3%;与MAMC (Memory-enhanced Appearance-Motion Consistency)方法相比,所提方法在ShanghaiTech数据集上的AUC值提升了1.8个百分点。可见,所提方法能够有效应对VAD中数据分布不平衡带来的挑战。

    基于语义和细节特征双促进的遥感影像建筑物提取网络
    周阳, 李辉
    2025, 45(4):  1310-1316.  DOI: 10.11772/j.issn.1001-9081.2024030387
    摘要 ( )   HTML ( )   PDF (3171KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    提取准确的边缘信息对分割建筑物至关重要。将多尺度细节与语义特征进行简单融合,或者设计复杂的损失函数引导网络关注边缘信息是当前较常见的方法,然而这些方法很少关注语义和细节特征的相互促进作用。针对该问题,提出一种基于语义和细节特征双促进的遥感影像建筑物提取网络。所提网络的结构类似U-Net框架,在编码端提取浅层高分辨率细节特征图,在解码端将深层的语义与细节特征双促进模块(SDFF)嵌入主干网络中,从而使网络同时具备较好的语义特征和细节特征的提取能力。之后对语义和细节特征进行通道融合,并结合不同分辨率影像的边缘损失监督,提高网络对建筑物细节的提取能力和泛化性。实验结果表明:与U-Net和双路细节关注网络(DSDCNet)等多种主流方法相比,所提网络在WHU数据集和马萨诸塞州建筑物(Massachusetts)数据集上均取得了最佳的语义分割结果。可见,所提网络能更好地保留建筑物边缘特征,有效提升遥感影像中的建筑物分割精度。

    基于YOLOv5s的复杂场景下高效烟火检测算法YOLOv5s-MRD
    侯阳, 张琼, 赵紫煊, 朱正宇, 张晓博
    2025, 45(4):  1317-1324.  DOI: 10.11772/j.issn.1001-9081.2024040527
    摘要 ( )   HTML ( )   PDF (4304KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    现有的烟火检测方法主要依赖员工现场巡视,效率低且实时性差,因此,提出一种基于YOLOv5s的复杂场景下的高效烟火检测算法YOLOv5s-MRD (YOLOv5s-MPDIoU-RevCol-Dyhead)。首先,采用MPDIoU (Maximized Position-Dependent Intersection over Union)方法改进边框损失函数,以适应重叠或非重叠的边界框回归(BBR),从而提高BBR的准确性和效率;其次,利用可逆柱状结构RevCol(Reversible Column)网络模型思想重构YOLOv5s模型的主干网络,使它具有多柱状网络架构,并在模型的不同层之间加入可逆链接,从而最大限度地保持特征信息以提高网络的特征提取能力;最后,引入Dynamic head检测头,以统一尺度感知、空间感知和任务感知,从而在不额外增加计算开销的条件下显著提高目标检测头的准确性和有效性。实验结果表明:在DFS(Data of Fire and Smoke)数据集上,与原始YOLOv5s算法相比,所提算法的平均精度均值(mAP@0.5)提升了9.3%,预测准确率提升了6.6%,召回率提升了13.8%。可见,所提算法能满足当前烟火检测应用场景的要求。

    多尺度2D-Adaboost的中药材粉末显微图像识别算法
    王一丁, 王泽浩, 李耀利, 蔡少青, 袁媛
    2025, 45(4):  1325-1332.  DOI: 10.11772/j.issn.1001-9081.2024040438
    摘要 ( )   HTML ( )   PDF (3858KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对中药材粉末的显微图像中含有大量细微特征和背景干扰因素导致的同一类药材的变化过大(类内差异大)和多种药材之间特征过于相似(类间差异小)的问题,提出一种多尺度2D-Adaboost算法。首先,构建一个全局?局部特征融合的主干网络架构,以更好地提取多尺度特征,该架构通过结合Transformer和卷积神经网络(CNN)的优势能有效提取并融合各个尺度的全局和局部特征,从而显著提高主干网络的特征捕捉能力;其次,将Adaboost的单尺度输出拓展到多尺度,并构建2D-Adaboost结构的背景抑制模块,该模块将主干网络各个尺度的输出特征图划分为前景和背景,从而有效抑制背景区域的特征值,并增加判别性特征的强度;最后,在2D-Adaboost结构的每个尺度上额外添加一个分类器以构建特征细化模块,该模块通过控制温度参数协调分类器间的协作学习,从而逐步细化不同尺度的特征图,帮助网络学习更合适的特征尺度,并丰富细节特征的表示。实验结果表明,所提算法的识别准确率达到了96.85%,与ConvNeXt-L、ViT-L、Swin-L和Conformer-L模型相比分别上升了7.56、5.26、3.79和2.60个百分点。高准确率和分类效果的稳定性验证了所提算法在中药材粉末显微图像分类任务中的有效性。

    基于多尺度引导滤波的宫颈细胞核图像分割
    令狐鑫瑶, 陈燕, 张鹏程, 刘祎, 桂志国, 赵伟, 董展豪
    2025, 45(4):  1333-1339.  DOI: 10.11772/j.issn.1001-9081.2024040546
    摘要 ( )   HTML ( )   PDF (2232KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对宫颈细胞核图像分割中上下文信息联系匮乏和边缘分割不准确且精度低等问题,提出一种基于U-net改进的结合密集块的U型卷积多尺度引导滤波模块的宫颈细胞核分割网络DGU-Net (Dense-Guided-UNet),可以更完整且精确地分割宫颈细胞核图像。首先,以编码器、解码器结构的U-net模型作为网络骨干提取图像特征;其次,引入密集块模块连接不同层之间的特征,实现上下文信息的传递,从而增强模型的特征提取能力;同时,在每次下采样后和上采样前引入多尺度引导滤波模块,从而引入灰度引导图像中明显的边缘细节信息,增强图像细节和边缘信息;最后,在每个解码器路径中都增加一个侧输出层,融合并平均所有输出的特征信息,从而融合不同尺度不同层次的特征信息,提升结果的准确性和完整性。在Herlev数据集上实验,并把所提网络与U-net、PGU-net+ (Progressive Growing of U-net+)和LFANet (Lightweight Feature Attention Network)这3种深度学习模型对比。结果表明,与PGU-net+相比,DGU-Net的准确率提升了70.06%;与LFANet相比,DGU-Net的交并比(IoU)提升了6.75%。可见,DGU-Net在边缘细节信息处理上更准确,并在分割指标上普遍优于对比模型。

    前沿与综合应用
    面向流行病学调查的知识图谱构建与应用
    徐梓芯, 易修文, 鲍捷, 李天瑞, 张钧波, 郑宇
    2025, 45(4):  1340-1348.  DOI: 10.11772/j.issn.1001-9081.2024040479
    摘要 ( )   HTML ( )   PDF (5297KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    重大突发性传染病以它的强传染性、快变异性和高风险性,对人类生命安全与经济发展构成重大威胁。流行病学调查是遏制传染病扩散的关键步骤和落实全链路精准防控的前提。针对现有流调系统存在的人工效率低下、数据质量差、专业知识不足等问题,在现有数字化的基础上结合知识图谱,提出一套辅助流行病学调查的技术应用方案。首先,基于人、地、事、物、组织五大类实体及其关系和属性构建知识图谱;其次,根据病例查风险点位查密接的思路,以病例为起点,以点位为重心,辅助判定风险人群和风险点位;最后,通过对流调数据的可视化分析,实现流调信息落位、传播扩散溯源和疫情态势感知等多个应用,从而辅助重大突发性传染病防控工作的顺利开展。在相同的误差范围内,基于图谱增强的轨迹落位方法的准确率显著高于传统基于人工问询的方法,千米内的判定准确率达到85.15%;基于图谱增强的风险点位和人群的判定方法使得效率显著提升,生成报告的平均耗时降至1 h内。实验结果表明,所提方案有效融合了知识图谱的技术优势,不仅提高了精准疫情防控策略制定的科学性与时效性,更为流行病传染预防领域的实践探索提供了重要的参考价值。

    基于记忆型饱和控制器的非线性时滞系统的稳定性分析
    葛超, 叶水清, 王红, 姚征
    2025, 45(4):  1349-1355.  DOI: 10.11772/j.issn.1001-9081.2024030406
    摘要 ( )   HTML ( )   PDF (1231KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对在记忆型饱和控制器的作用下,研究非线性时滞系统的指数稳定性问题。首先,考虑系统参数不稳定的因素;其次,利用包含分布式时滞项辅助反馈的多面体方法处理饱和非线性;同时,建立增广Lyapunov-Krasovskii泛函,并利用改进的积分不等式放缩积分项,从而导出基于线性矩阵不等式(LMI)的稳定性准则;此外,制定保守性较低的吸引域优化方案,以提高吸引域的上界;最后,通过一个仿真实例证明所提方案的有效性和实用性。实验结果表明,在非线性系统中,在相同的参数条件下,与无记忆型控制器的现有的吸引域优化方案相比,所提有记忆型控制器的吸引域优化方案具有较低的保守性。

    基于MiniRBT-LSTM-GAT与标签平滑的台区电力工单分类
    李嘉欣, 莫思特
    2025, 45(4):  1356-1362.  DOI: 10.11772/j.issn.1001-9081.2024040533
    摘要 ( )   HTML ( )   PDF (1024KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工单分类模型(MiniRBT-LSTM-GAT)。首先,利用预训练模型计算电力工单文本中的字符级特征向量表示;其次,采用双向长短期记忆网络(BiLSTM)捕捉电力文本序列中的依赖关系;再次,通过图注意力网络(GAT)聚焦对文本分类贡献大的特征信息;最后,利用LS改进损失函数以提高模型的分类精度。所提模型与当前主流的文本分类算法在农网台区电力工单数据集(RSPWO)、浙江省95598电力工单数据集(ZJPWO)和THUCNews(TsingHua University Chinese News)数据集上的实验结果表明,与电力审计文本多粒度预训练语言模型(EPAT-BERT)相比,所提模型在RSPWO、ZJPWO上的查准率和F1值分别提升了2.76、2.02个百分点和1.77、1.40个百分点;与胶囊神经网络模型BRsyn-caps(capsule network based on BERT and dependency syntax)相比,所提模型在THUCNews数据集上的查准率和准确率分别提升了0.76和0.71个百分点。可见,所提模型有效提升了台区电力工单分类的性能,并在THUCNews数据集上表现良好,验证了模型的通用性。

2025年 45卷 4期
刊出日期: 2025-04-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会