当期目录

    2024年 第44卷 第10期 刊出日期:2024-10-10 封面下载
    人工智能
    神经架构搜索综述
    孙仁科, 皇甫志宇, 陈虎, 李仲年, 许新征
    2024, 44(10):  2983-2994.  DOI: 10.11772/j.issn.1001-9081.2023101374
    摘要 ( )   HTML ( )   PDF (3686KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    近几年,深度学习因具有强大的表征能力,已经在许多领域中取得了突破性的进展,而神经网络的架构对它的性能至关重要。然而,高性能的神经网络架构设计严重依赖研究人员的先验知识和经验,神经网络参数量庞大,难以设计最优的神经网络架构,因此自动神经架构搜索(NAS)获得了极大的关注。NAS是一种使用机器学习的方法,可以在不需要大量人力的情况下,自动搜索最优网络架构的技术,是未来神经网络设计的重要手段之一。NAS本质上是一个搜索优化问题,通过对搜索空间、搜索策略和性能评估策略的设计,自动搜索最优的网络结构。从搜索空间、搜索策略和性能评估策略这3个方面详细且全面地分析、比较和总结目前NAS的研究进展,方便读者快速了解神经架构搜索的发展过程和各项技术的优缺点,并提出NAS未来可能的研究发展方向。

    深度度量学习综述
    柴汶泽, 范菁, 孙书魁, 梁一鸣, 刘竟锋
    2024, 44(10):  2995-3010.  DOI: 10.11772/j.issn.1001-9081.2023101415
    摘要 ( )   HTML ( )   PDF (3329KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    随着深度神经网络的兴起,深度度量学习(DML)引起广泛的关注。为了深入了解深度度量学习,首先,整理和分析传统度量学习方法的局限性。其次,从3个类型探讨DML,包括基于样本对、代理和分类的类型:基于样本对的类型包括散度方法、排序方法和基于生成对抗网络(GAN)的方法;基于代理的类型主要从代理样本、类别方面进行讨论;基于分类的类型中主要讨论了跨模态度量学习、类内类间边距问题、超图分类,以及与其他方法(如基于强化学习和基于对抗学习的方法)的结合。再次,介绍评估DML性能的各种指标,同时总结和对比DML在不同任务(包括人脸识别、图像检索和行人重识别等)中的应用。最后,探讨DML面临的挑战,并提出一些可能的解决策略。

    双端聚类的自动调整聚类联邦学习
    尹春勇, 周永成
    2024, 44(10):  3011-3020.  DOI: 10.11772/j.issn.1001-9081.2023101475
    摘要 ( )   HTML ( )   PDF (2248KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    联邦学习(FL)是一种分布式机器学习方法,旨在共同训练全局模型,然而全局模型难以胜任多数据分布情况。为应对多分布挑战,引入聚类联邦学习,以客户端分组方式优化共享多模型。其中,服务器端聚类难以修正分类错误,而客户端聚类则对初始模型的选择至关重要。为解决这些问题,提出自动调整聚类联邦学习(AACFL)框架,所提框架采用双端聚类整合服务器端和客户端聚类。首先用双端聚类将客户端分为可调整集群,其次自动调整局部客户端身份,最后获取正确的客户集群。在非独立同分布下,在3个经典联邦数据集上的评估实验结果表明,AACFL能够在双端聚类结果存在错误的情况下通过调整获得正确集群,当簇数为4,客户端数为100时,与联邦平均(FedAvg)算法、聚类联邦学习(CFL)和IFCA(Iterative Federated Clustering Algorithm)等方法相比,有效地提高模型收敛速度和获得正确聚类结果的速度,准确率平均提升0.20~23.16个百分点。验证了所提框架能够高效聚类,并提高模型收敛速度和准确率。

    面向深度分类模型超参数自优化的代理模型
    张睿, 潘俊铭, 白晓露, 胡静, 张荣国, 张鹏云
    2024, 44(10):  3021-3031.  DOI: 10.11772/j.issn.1001-9081.2023091313
    摘要 ( )   HTML ( )   PDF (2779KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为进一步提高深度分类模型超参数多目标自适应寻优效率,提出一种筛选式增强Dropout代理(FEDA)模型。首先,构建点对互信息约束增强的双通道Dropout神经网络,增强对高维超参数深度分类模型的拟合,并结合聚集选解策略加速候选解集的选取;其次,设计一种结合模型管理策略的算法FEDA-ARMOEA(FEDA model-A novel preference-based dominance Relation for Multi-Objective Evolutionary Algorithm)均衡种群个体的收敛性和多样性,协助FEDA提高深度分类模型训练及超参数自优化效率。将FEDA-ARMOEA与EDN-ARMOEA(Efficient Dropout neural Network-assisted AR-MOEA)、HeE-MOEA(Heterogeneous Ensemble-based infill criterion for Multi-Objective Evolutionary Algorithm)等算法进行对比实验,实验结果表明,FEDA-ARMOEA在56组测试问题中的41组上表现较好。在工业应用焊缝数据集MTF和公共数据集CIFAR-10上实验,FEDA-ARMOEA优化的分类模型的精度分别达到96.16%和93.79%,训练时间相较于对比算法分别降低6.94%~47.04%和4.44%~39.07%,均优于对比算法,验证了所提算法的有效性和泛化性。

    宽度学习系统中鲁棒性权值矩阵组合的筛选方法
    汪韩, 万源, 王东, 丁义明
    2024, 44(10):  3032-3038.  DOI: 10.11772/j.issn.1001-9081.2023101422
    摘要 ( )   HTML ( )   PDF (3288KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    宽度学习系统(BLS)具有出色的计算效率和预测准确性;然而,在传统BLS框架中,权值矩阵采用随机生成的方式,存在学习结果不稳定的风险。因此,设计一种BLS中鲁棒性权值矩阵组合的筛选方法(RWS-BLS)。首先,通过4组函数数据的验证,揭示随机权值矩阵在样本整体训练误差上的显著差异性;其次,研究权值矩阵组合的形式,放宽筛选条件的严格最优限制,将最优转换为较优,并将误差最小值限定在指定范围内,定义精英组合等条件;最后,得到可靠的权值矩阵的组合,有效降低随机性影响,并建立稳健的模型。实验结果表明,在16组模拟数据、NORB数据集和5组UCI回归数据集上,在数据更换或受噪声扰动的情况下,与BLS方法相比,所提方法的均方误差(MSE)下降了7.32%、8.73%和1.63%。RWS-BLS为BLS提供了一种模型平稳性研究的方向,提高了含有随机参数模型的效率和稳定性,并对涉及随机参数的其他机器学习方法具有借鉴作用。

    基于个性化学习和深层次细化的知识追踪
    李林昊, 张晓倩, 董瑶, 王旭, 董永峰
    2024, 44(10):  3039-3046.  DOI: 10.11772/j.issn.1001-9081.2023101452
    摘要 ( )   HTML ( )   PDF (2200KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对知识追踪(KT)模型没有充分考虑学生间差异、挖掘知识状态与习题的高度匹配等问题,提出一种双层网络架构——基于个性化学习和深层次细化的知识追踪(PLDRKT)。首先,利用增强注意力机制得到习题的深层次细化表示;其次,从不同学生对习题的难度感知和学习收益方面对初步知识状态进行个性化建模;最后,利用初步知识状态和深层习题表示得到学生的深层次知识状态并预测他们的未来答题情况。将PLDRKT模型与基于对抗训练的增强知识追踪(ATKT)和集成知识追踪(ENKT)等7种模型在Statics2011、ASSIST09、ASSIST15和ASSIST17数据集上进行对比实验。实验结果显示,PLDRKT模型的曲线下面积(AUC)均有增加,在4个数据集上与不考虑习题嵌入的最优基线模型相比,分别增加了0.61、1.32、5.29和0.19个百分点,可见PLDRKT模型可以较好地建模学生知识状态并预测回答。

    融合图注意力的复杂时序知识图谱推理问答模型
    蒋汶娟, 过弋, 付娇娇
    2024, 44(10):  3047-3057.  DOI: 10.11772/j.issn.1001-9081.2023101391
    摘要 ( )   HTML ( )   PDF (2228KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在时序知识图谱问答(TKGQA)任务中,针对模型难以捕获并利用问句中隐含的时间信息增强模型的复杂问题推理能力的问题,提出一种融合图注意力的时序知识图谱推理问答(GACTR)模型。所提模型采用四元组形式的时序知识库(KB)进行预训练,同时引入图注意力网络(GAT)以有效捕获问句中隐式时间信息;通过与RoBERTa(Robustly optimized Bidirectional Encoder Representations from Transformers pretraining approach)模型训练的关系表示进行集成,进一步增强问句的时序关系表示;将该表示与预训练的时序知识图谱(TKG)嵌入相结合,以获得最高评分的实体或时间戳作为答案预测结果。在最大的基准数据集CRONQUESTIONS上的实验结果显示,GACTR模型在时序推理模式下能更好地捕获隐含时间信息,有效提升模型的复杂推理能力。与基线模型CRONKGQA(Knowledge Graph Question Answering on CRONQUESTIONS)相比,GACTR模型在处理复杂问题类型和时间答案类型上的Hits@1结果分别提升了34.6、13.2个百分点;与TempoQR(Temporal Question Reasoning)模型相比,分别提升了8.3、2.8个百分点。

    基于细节增强的双分支实时语义分割网络
    郑秋梅, 牛薇薇, 王风华, 赵丹
    2024, 44(10):  3058-3066.  DOI: 10.11772/j.issn.1001-9081.2023101424
    摘要 ( )   HTML ( )   PDF (2649KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    实时语义分割方法常利用双分支结构分别保存图像的浅层空间信息和深层语义信息。然而,当前基于双分支结构的实时语义分割方法重点研究语义特征的挖掘,忽略了空间特征的保持,导致网络无法精准地捕捉图像内物体的边界和纹理等细节特征,最终分割效果欠佳。针对以上问题,提出基于细节增强的双分支实时语义分割网络(DEDBNet),多阶段增强空间细节信息。首先,提出细节增强双向交互(DEBIM)模块,在分支间的交互阶段使用轻量空间注意力机制增强高分辨率特征图对细节信息的表达能力,促进空间细节特征在高低两分支上的流动,以加强网络对细节信息的学习能力;其次,设计局部细节注意力特征融合模块(LDAFF),在两分支末端特征融合的过程中同时建模全局语义信息和局部空间信息,解决不同层次特征图之间细节不连续的问题;此外,引入边界损失,在不影响模型速度的情况下引导网络浅层学习物体边界信息。所提网络在Cityscapes验证集上以92.3 frame/s的帧速率(FPS)获得78.2%的平均交并比(mIoU),在CamVid测试集上以202.8 frame/s获得79.2%的mIoU;与深度双分辨率网络(DDRNet-23-slim)相比,mIoU分别提高了1.1和4.5个百分点。实验结果表明,DEDBNet能够准确地分割场景图像,且满足实时性要求。

    大语言模型驱动的立场感知事实核查
    姜雨杉, 张仰森
    2024, 44(10):  3067-3073.  DOI: 10.11772/j.issn.1001-9081.2023101407
    摘要 ( )   HTML ( )   PDF (1036KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为解决事实核查领域的证据立场不平衡和忽略立场信息的问题,提出一种大语言模型(LLM)驱动的立场感知事实核查(LLM-SA)方法。首先,使用LLM推理并生成一系列与原始声明立场不同的辩证声明,使事实核查任务能够获取不同立场的视角;其次,通过语义相似度计算衡量每个证据句子与原始声明及辩证声明之间的相关性,并从证据句子中分别选择与两者语义上最相近的k个句子,作为支持或反对原始声明的证据,从而获得代表不同立场的证据,有助于事实核查模型综合多角度的信息,更准确地评估声明的真实性;最后,引入BERT-StuSE(Bidirectional Encoder Representations from Transformers-based Stance-infused Semantic Encoding network)模型,利用多头注意力机制充分融合证据的语义和立场信息,并更全面、客观地判断声明和证据的关系。在CHEF数据集上的实验结果表明,与BERT方法相比,所提方法在测试集上的Micro F1值和Macro F1值分别提高了3.52、3.90个百分点,达到较好的水平。验证了所提方法的有效性,以及考虑不同立场的证据和充分利用证据的立场信息对事实核查的性能提升具有重要意义。

    矛盾体分离超演绎方法及应用
    曹锋, 杨小玲, 易见兵, 李俊
    2024, 44(10):  3074-3080.  DOI: 10.11772/j.issn.1001-9081.2023101404
    摘要 ( )   HTML ( )   PDF (1422KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    作为当前自动定理证明器中常用的推理机制,传统基于二元演绎超归结方法的推理过程限定每次有且只有2个子句参与演绎,这种分离的演绎步骤导致演绎缺失导向性和预判性,演绎效率有待提升。为了提升演绎效率,在理论上,针对传统的超归结方法引入多元演绎思想,提出矛盾体分离超演绎定义和方法,它具有多元性、动态性和导向性的演绎特性;在算法实现中,考虑子句参与演绎具有多元和协同特性,并灵活设定演绎的条件,提出一种具有回溯机制的矛盾体分离超演绎算法。将所提算法应用于Eprover3.1证明器,以国际自动定理证明器2023年竞赛例和TPTP(Thousands of Problems for Theorem Provers)问题库中难度系数为1的问题作为测试对象,在300 s内,应用所提算法的Eprover3.1证明器比原始Eprover3.1多证明了15个定理;当测试相同数量的定理时,所提算法的平均证明时间缩减了1.326 s,能够证明7个难度系数为1的定理。测试结果表明,所提算法能有效地应用于一阶逻辑自动定理证明,提升自动定理证明器的证明能力和效率。

    基于提示增强与双图注意力网络的复杂因果关系抽取
    邓金科, 段文杰, 张顺香, 汪雨晴, 李书羽, 李嘉伟
    2024, 44(10):  3081-3089.  DOI: 10.11772/j.issn.1001-9081.2023101486
    摘要 ( )   HTML ( )   PDF (2643KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对复杂因果句实体密度高、句式冗长等特点导致的外部信息不足和信息传递遗忘问题,提出一种基于提示增强与双图注意力网络(BiGAT)的复杂因果关系抽取模型PE-BiGAT(Prompt Enhancement and Bi-Graph Attention Network)。首先,抽取句子中的结果实体并与提示学习模板组成提示信息,再通过外部知识库增强提示信息;其次,将提示信息输入BiGAT,同时结合关注层与句法和语义依存图,并利用双仿射注意力机制缓解特征重叠的情况,增强模型对关系特征的感知能力;最后,用分类器迭代预测句子中的所有因果实体,并通过评分函数分析句子中所有的因果对。在SemEval-2010 task 8和AltLex数据集上的实验结果表明,与RPA-GCN(Relationship Position and Attention-Graph Convolutional Network)相比,所提模型的F1值提高了1.65个百分点,其中在链式因果和多因果句中分别提高了2.16和4.77个百分点,验证了所提模型在处理复杂因果句时更具优势。

    数据科学与技术
    基于层级过滤器和时间卷积增强自注意力网络的序列推荐
    杨兴耀, 沈洪涛, 张祖莲, 于炯, 陈嘉颖, 王东晓
    2024, 44(10):  3090-3096.  DOI: 10.11772/j.issn.1001-9081.2023091352
    摘要 ( )   HTML ( )   PDF (1877KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对实际推荐场景中用户意外交互产生的噪声问题,以及自注意力机制中注意力分布分散导致用户短期需求偏移难以捕获的问题,提出一种基于层级过滤器和时间卷积增强自注意力网络的序列推荐(FTARec)模型。首先,通过层级过滤器过滤原始数据中的噪声;其次,结合时间卷积增强自注意力网络和解耦混合位置编码获取用户嵌入,该过程通过时间卷积增强补充自注意力网络在项目短期依赖建模上的不足;最后,结合对比学习改善用户嵌入,并根据最终用户嵌入进行预测。相较于自注意力序列推荐(SASRec)、过滤增强的多层感知器序列推荐方法(FMLP-Rec)等现有序列推荐模型,FTARec在3个公开数据集Beauty、Clothing和Sports上取得了更高的命中率(HR)和归一化折损累计增益(NDCG),相较于次优的DuoRec,HR@10分别提高了7.91%、13.27%和12.84%,NDCG@10分别提高了5.52%、8.33%和9.88%,验证了所提模型的有效性。

    面向不完备混合数据的模糊多粒度异常检测
    唐宇皓, 彭德中, 袁钟
    2024, 44(10):  3097-3104.  DOI: 10.11772/j.issn.1001-9081.2023101419
    摘要 ( )   HTML ( )   PDF (827KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有的异常检测方法大多无法有效处理不完备混合数据的问题,提出一种面向不完备混合数据的模糊多粒度异常检测算法ADFIIS(Anomaly Detection in Fuzzy Incomplete Information System),所提算法考虑在标称属性和在数值属性上出现缺失值的情况,能处理混合属性数据。首先,定义属性之间的模糊相似度;其次,计算每个属性的模糊熵,基于熵的大小使用多粒度的思想构建多个属性序列;再次,计算每个样本的异常值以表征它的异常程度;最后,设计相应的ADFIIS算法并分析它的复杂度。在公开数据集上进行实验,将所提算法与ILGNI(Incomplete Local and Global Neighborhood Information network)等主流离群点检测算法对比。实验结果表明,ADFIIS在不完备混合数据集上的受试者操作特征(ROC)曲线效果更好。ADFIIS的曲线下面积(AUC)的平均值优于90%的对比方法,相较于同样能够处理不完备混合数据的ILGNI,它的AUC平均值提升了7个百分点。所提算法使用模型扩展法在不改变原始数据集的情况下对不完备数据集进行异常检测,拓展了异常检测的适用范围。

    利用混合Plackett-Luce模型的不完整序数偏好预测
    郑升旻, 付晓东
    2024, 44(10):  3105-3113.  DOI: 10.11772/j.issn.1001-9081.2023101378
    摘要 ( )   HTML ( )   PDF (995KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    聚合不同用户的偏好时,基于序数偏好可以解决不同用户评价准则不一致问题。但用户因为候选项目过多、沟通成本高等原因不能提供完整序数偏好,影响了在线服务信誉度量、群体决策等场景中聚合结果的可靠性和准确性,而现有的预测方法未充分考虑用户群体偏好分布的多样性。针对这一问题,提出一种利用混合Plackett-Luce(PL)模型的不完整序数偏好预测(MixPLPP)方法。首先基于用户现有偏好采样完整拓展排序,其次使用采样的完整排序学习混合PL模型,再次设计基于后验概率最大化的模型选择策略为用户选择模型,最后利用所选模型预测用户完整偏好。在公开数据集Movielens上的实验结果表明,所提方法的预测准确率和Kendall秩相关系数(Kendall CC),相较于向量相似度排序(VSRank)算法提升了5.0%和9.2%;相较于基于确定性的偏好补全(CPC)提升了1.5%和3.5%;相较于BayesMallows-4提升了0.9%和2.2%。实验结果验证了所提方法具有良好的预测能力,在多个数据集上的预测效果都更好。

    网络空间安全
    基于差分隐私的直方图发布方法综述
    陈学斌, 单丽洋, 郭如敏
    2024, 44(10):  3114-3121.  DOI: 10.11772/j.issn.1001-9081.2023101520
    摘要 ( )   HTML ( )   PDF (1422KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在数字经济时代,数据发布是数据共享的重要环节。直方图数据发布是数据发布的常见方式,但它面临着隐私泄露的问题。为此,对基于差分隐私(DP)的直方图数据发布方法进行了研究。首先,介绍了DP和直方图的相关性质,以及近5年国内外针对静态数据集和流数据的直方图发布方法的研究,并讨论了静态数据下直方图分组数、分组方式、噪声误差和分组误差的均衡,以及隐私预算分配问题。其次,探讨了动态数据下数据采样、数据预测以及滑动窗口实现分组的问题;同时针对面向区间树结构的DP直方图发布方法,将原始数据与树结构进行转化,并讨论了树结构数据的加噪、基于树结构的优化、树结构的隐私预算的分配等;此外,还讨论了直方图发布数据的可用性和隐私性、查询范围和查询精度问题。最后,通过对相关算法进行对比分析,总结了各算法的优缺点,以及部分算法的定量分析比较及适用场景,展望了未来基于DP的直方图在不同数据场景中的研究方向。

    以患者为中心基于IPFS和区块链的医疗信息共享方案
    杜晓玉, 刘帅起, 韩志杰, 霍振祥, 王玉璟
    2024, 44(10):  3122-3133.  DOI: 10.11772/j.issn.1001-9081.2023101398
    摘要 ( )   PDF (4391KB) ( )  
    参考文献 | 相关文章 | 计量指标

    医疗机构之间的电子病历(EMR)存储与共享,对实现跨院诊断和分级诊疗至关重要,可以有效减轻患者的负担和避免重复检查。针对EMR难以安全存储和共享的问题,提出一种以患者为中心基于星际文件系统(IPFS)和区块链的EMR安全存储与高效共享(PCIB-MIS)方案。首先,应用混合加密策略,以安全存储与共享EMR,缩减加解密时间;其次,通过区块链存储EMR的密文索引;再次,结合联盟链与私有链以降低存储压力,EMR索引存于医院私有链;最后,EMR密文存放于IPFS,确保数据安全和不可篡改。当需要跨院调取EMR时,进行以联盟链为中心的跨链调用与代理重加密。安全性分析与实验结果表明,仅被授权医生可获取患者病历;与公钥加密算法RSA相比,将加解密时间降低至毫秒级别;与将EMR单一存放于区块链上的方案相比,节省了98.8%的区块存储空间。所提方案可以实现病历安全存储与共享,大幅压缩EMR加解密时间和减轻区块链存储压力。

    多模态部分伪造数据集的构建与基准检测
    郑盛有, 陈雁翔, 赵祖兴, 刘海洋
    2024, 44(10):  3134-3140.  DOI: 10.11772/j.issn.1001-9081.2023101506
    摘要 ( )   HTML ( )   PDF (1323KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有视频伪造数据集缺少多模态伪造场景与部分伪造场景的问题,构建一个综合使用多种音、视频伪造方法的、伪造比例可调的多模态部分伪造数据集PartialFAVCeleb。所提数据集基于FakeAVCeleb多模态伪造数据集,并通过拼接真伪数据构建,其中伪造数据由FaceSwap、FSGAN(Face Swapping Generative Adversarial Network)、Wav2Lip(Wave to Lip)和SV2TTS(Speaker Verification to Text-To-Speech)这4种方法生成。在拼接过程中,使用概率方法生成伪造片段在时域与模态上的定位,并对边界进行随机化处理以贴合实际伪造场景,并通过素材筛选避免背景跳变现象。最终生成的数据集对于每个伪造比例可产生3 970条视频数据。在基准检测中,使用多种音视频特征提取器,并分别进行强、弱监督两种条件下的测试,其中弱监督测试基于层次多示例学习(HMIL)方法实现。测试结果显示,各个测试模型在伪造比例较低数据上的性能表现显著低于在伪造比例较高数据上的性能,且弱监督条件下各模型的性能表现显著低于强监督条件下的表现,这验证了该部分伪造数据集的弱监督检测困难性。以上结果表明,以所提数据集为代表的多模态部分伪造场景有充分的研究价值。

    先进计算
    基于二幂阶矩阵的量子中间表示与翻译
    陶文萱, 陈钢
    2024, 44(10):  3141-3150.  DOI: 10.11772/j.issn.1001-9081.2023091358
    摘要 ( )   HTML ( )   PDF (970KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在两能级量子计算系统中,所有量子门、量子态和测量算子都可以表示为2的幂次方阶矩阵(简称二幂阶矩阵)的形式,而现有量子编程语言未考虑该特性。因此,提出一种二幂阶矩阵类型系统,并设计相应的量子中间表示。首先,在定理证明器Coq中利用递归对偶结构实现二幂阶矩阵系统,可以精确描述量子门、量子态和测量算子;其次,设计一套量子中间表示作为编程工具,可以自动将量子程序翻译为二幂阶矩阵表达式;最后,展示量子傅里叶变换的编写和翻译过程。二幂阶矩阵系统为基于定理证明器的量子编程语言提供了更精确、更简洁的类型系统,量子中间表示实现了从二幂阶矩阵到程序语言的过渡,提供了在二幂阶矩阵系统中编写量子程序的有效手段。

    多智能体系统的动态面渐近补偿算法
    孙安泰, 刘烨, 徐冬梅
    2024, 44(10):  3151-3157.  DOI: 10.11772/j.issn.1001-9081.2023101414
    摘要 ( )   HTML ( )   PDF (2187KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对一类具有磁滞输入的多智能体系统协同控制问题,设计一种基于动态面的神经网络有限时间性能渐近控制补偿算法。首先,通过Funnel控制结合有限时间性能函数,确保一致性误差可以在有限时间内进入预定义范围。其次,使用径向基函数神经网络(RBFNN)和不等式变换消除系统内未知非线性函数和未知外部扰动带来的不利影响。此外,通过估计一些未知变量的上界,大幅减少设计过程中所需自适应律数;同时,提出一种具有双曲正切函数的非线性滤波器,避免传统反步控制中的“微分爆炸”问题,并消除滤波器误差。最后,基于所提非线性滤波器设计一种磁滞伪逆补偿信号,在不需要构建磁滞逆的情况下有效补偿未知磁滞。利用李雅普诺夫稳定性理论,验证了闭环系统内所有信号都有界,一致性误差渐近收敛至零。仿真实例也表明了所提算法的有效性。

    基于自学习的整数数列符号回归方法
    孙凯明, 蔡东风, 白宇
    2024, 44(10):  3158-3166.  DOI: 10.11772/j.issn.1001-9081.2023101427
    摘要 ( )   HTML ( )   PDF (1820KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有符号回归方法难以有效泛化至整数数列在线百科全书(OEIS)中数列的问题,提出一种基于自学习(SL)的整数数列符号回归方法。首先,通过程序构造多种学习数据,结合OEIS数据的特点融入高阶线性递推数据,并采用OEIS初始项生成递推数列;其次,将学习数据转换为OEIS数据,提出融合多种OEIS数据作为初始迭代数据的策略;最后,通过自学习迭代逐步发现OEIS数列的公式,迭代过程分为学习、搜索、检验、选择这4个阶段。实验结果表明,所提方法优于深度符号回归(DSR)方法和Mathematica内置函数,在Easy、Sign和Base这3个测试集上相较于DSR的准确率分别提升9.66、4.17和5.14个百分点,共发现27 433个OEIS数列的公式,其中新发现的公式可以辅助数学家研究相关理论。

    计算机软件技术
    基于概念漂移的预测性业务流程监控方法
    黄华, 杨子仪, 李小龙, 李闯
    2024, 44(10):  3167-3176.  DOI: 10.11772/j.issn.1001-9081.2023101460
    摘要 ( )   HTML ( )   PDF (2286KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为解决现有的业务流程监控(BPM)方法的模型精度随时间下降和实时性较差的问题,提出一种基于概念漂移的预测性业务流程监控(PPM)方法。首先,对事件日志数据进行预处理及编码;其次,利用双向长短时记忆(Bi-LSTM)网络模型从前后方向捕获足够的序列信息以构建业务流程模型,并利用注意力机制充分考虑不同事件对预测结果的贡献程度,赋予事件日志不同的权重,从而减少噪声对预测结果的影响;最后,将正在执行的实例输入构建的模型,得到预测的执行结果,并将这些结果作为历史数据对模型微调。在8个公开且真实的数据集上的测试结果表明,所提方法的平均预测准确率相较于支持向量机(SVM)、逻辑回归(LR)和随机森林(RF)等已有的BPM方法提升了5.4%~23.8%,且早期性和时间性能都优于现有的研究方法。

    多媒体计算与计算机仿真
    抗高强度椒盐噪声的鲁棒拼接取证算法
    王朋博, 单武扬, 李军, 田茂, 邹登, 范占锋
    2024, 44(10):  3177-3184.  DOI: 10.11772/j.issn.1001-9081.2023101462
    摘要 ( )   HTML ( )   PDF (2871KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在图像取证领域,图像拼接检测技术可以通过分析图像内容识别拼接,并定位拼接区域。然而,在传输、扫描等常见场景中,椒盐(s&p)噪声会不可避免地随机出现,且随着噪声强度的增加,当前拼接取证方法的效力将逐渐减弱,甚至失效,极大地影响了现有拼接取证方法的效果。因此,提出一种能够抵御高强度椒盐噪声的拼接取证算法。所提算法分为2个主要部分:预处理部分和拼接取证部分。首先,预处理部分利用ResNet32与中值滤波器的融合,去除图像中的椒盐噪声,并通过卷积层恢复受损的图像内容,从而最大限度地消除椒盐噪声对拼接取证部分的影响并恢复图像细节;其次,拼接取证部分基于暹罗网络结构,提取与图像唯一性相关的噪声伪影,并通过不一致判断识别拼接区域。在通用篡改数据集上的实验结果表明,所提算法在RGB图像和灰度图像上均取得了良好的效果。在10%噪声场景下与FS (Forensic Similarity)和PSCC-Net (Progressive Spatio-Channel Correlation Network)取证算法相比,所提算法将马修斯相关系数(MCC)值提升超过50%,这验证了所提算法在被噪声干扰的篡改图像上取证的有效性和先进性。

    基于动态特征点滤除与关键帧选择优化的ORB-SLAM2算法
    阚绪康, 史格非, 杨雪榕
    2024, 44(10):  3185-3190.  DOI: 10.11772/j.issn.1001-9081.2023101465
    摘要 ( )   HTML ( )   PDF (3326KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    同时定位与建图(SLAM)算法在有运动目标的情况下存在定位精度下降的问题,而引入实例分割等算法虽然可以应对动态场景,但难以保证SLAM算法的实时性,且在运动时相机抖动会导致关键帧选择不准确和跟踪易丢失的问题。针对上述问题,提出一种基于动态特征点滤除与关键帧选择优化的ORB-SLAM2算法,以保证SLAM算法的实时性,并有效减少动态特征点对SLAM算法定位精度的影响,同时应对由相机抖动造成的关键帧选择不准确的问题。所提算法通过在ORB-SLAM2算法的基础上引入YOLOv5算法识别运动目标,在跟踪线程滤除动态目标特征点,从而兼顾算法的实时性与定位精度。同时,在选择关键帧上提出一种基于帧间相对运动量的判别准则,从而提高关键帧选择的准确性。在freiburg3_walking_xyz数据集的上实验结果表明,与ORB-SLAM2算法相比,所提算法的平均耗时减少了38.54%,绝对轨迹误差中的均方根误差(RMSE)精度提高了95.2%。可见,所提算法能有效解决上述问题,提升SLAM算法的定位精度和准确性,进而提升地图的可用性。

    面向配电柜字符识别的YOLOv7-MSBP目标定位算法
    王呈, 王炀, 荣英佼
    2024, 44(10):  3191-3199.  DOI: 10.11772/j.issn.1001-9081.2023101496
    摘要 ( )   HTML ( )   PDF (3829KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    通过机器视觉算法精确定位配电柜仪表的位置是实现仪表智能化识别的关键。针对配电柜背景复杂、字符尺度多样和相机像素低而导致的目标定位精度不高问题,提出一种面向配电柜字符识别的YOLOv7-MSBP目标定位算法。首先,设计Micro-branch检测分支,改进初始锚框铺设间隔,从而提高对小目标的检测精度。其次,引入双向特征金字塔网络(BiFPN)跨尺度融合不同层特征值,以改善因下采样造成的细节特征丢失、特征融合不充分的现象;同时,设计同步混合阈卷积注意力模块(Syn-CBAM),加权融合通道和空间注意力特征,以提升算法的特征提取能力;并且,在主干网络引入部分卷积(PConv)模块,以降低算法冗余和延迟,提高检测速度。最后,将YOLOv7-MSBP的定位结果送入Paddle OCR(Optical Character Recognition)模型识别字符。实验结果表明,YOLOv7-MSBP算法的平均精度均值(mAP)达到93.2%,与YOLOv7算法相比提高了4.3个百分点,可见所提算法能够快速准确定位识别配电柜字符,验证了所提算法的有效性。

    结合加权原型和自适应张量子空间的小样本宫颈细胞分类
    谢莉, 舒卫平, 耿俊杰, 王琼, 杨海麟
    2024, 44(10):  3200-3208.  DOI: 10.11772/j.issn.1001-9081.2023101416
    摘要 ( )   HTML ( )   PDF (2195KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    基于深度学习的图像分类算法通常依赖大量训练数据,然而对于医学领域中的宫颈细胞分类任务,难以实现收集大量的图像数据。为了在少量图像样本的条件下正确分类宫颈细胞,提出一种结合加权原型和自适应张量子空间的小样本分类算法(CWP-ATS)。首先,结合预训练技术和元学习,保证特征提取网络从元训练集中学习更多的先验知识;其次,在原型计算过程中采用最大均值差异算法为每个支持集样本赋予合适的权重,并采用转导学习算法修正,以获得更准确的原型;最后,利用多线性主成分分析算法将每类样本投影至各自的低维张量子空间,从而在不破坏原始张量特征自然结构的前提下,在低维空间中学习高效的自适应子空间分类器。在小样本Herlev宫颈细胞图像的2-way 10-shot和3-way 10-shot分类任务中,与DeepBDC(Deep Brownian Distance Covariance)算法相比,CWP-ATS的分类准确度分别提高了2.43和3.23个百分点;当元测试集中30%的样本受噪声干扰时,与原型网络相比,CWP-ATS的分类准确度有超过20个百分点的提升。实验结果表明,CWP-ATS有效提高了对小样本宫颈细胞的分类准确度和鲁棒性。

    基于位置编码重叠切块嵌入和多尺度通道交互注意力的鱼类图像分类
    周雯, 谌雨章, 温志远, 王诗琦
    2024, 44(10):  3209-3216.  DOI: 10.11772/j.issn.1001-9081.2023101466
    摘要 ( )   HTML ( )   PDF (2604KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    水下鱼类图像分类是一项极具挑战性的任务。传统Vision Transformer (ViT)网络骨干的局限性较大,难以处理局部连续特征,在图像质量较低的鱼类分类中效果表现不佳。为解决此问题,提出一种基于位置编码的重叠切块嵌入(OPE)和多尺度通道交互注意力(MCIA)的Transformer图像分类网络PIFormer (Positional overlapping and Interactive attention transFormer)。PIFormer采用多层级形式构建,每层以不同次数堆叠,利于提取不同深度的特征。首先,引入深度位置编码重叠切块嵌入(POPE)模块对特征图与边缘信息进行重叠切块,以保留鱼体的局部连续特征,并添加位置信息以排序,帮助PIFormer整合细节特征和构建全局映射;其次,提出MCIA模块并行处理局部与全局特征,并建立鱼体不同部位的长距离依赖关系;最后,由分组多层感知机(GMLP)分组处理高层次特征,以提升网络效率,并实现最终的鱼类分类。为验证PIFormer的有效性,提出自建东湖淡水鱼类数据集,并使用公共数据集Fish4Knowledge与NCFM(Nature Conservancy Fisheries Monitoring)以确保实验公平性。实验结果表明,所提网络在各数据集上的Top-1分类准确率分别达到了97.99%、99.71%和90.45%,与同级深度的ViT、Swin Transformer和PVT (Pyramid Vision Transformer)相比,参数量分别减少了72.62×106、14.34×106和11.30×106,浮点运算量(FLOPs)分别节省了14.52×109、2.02×109和1.48×109。可见,PIFormer在较少的计算负荷下,具有较强的鱼类图像分类能力,取得了优越的性能。

    基于注意力和挤压‒激励Inception的双分支合成语音检测
    王晗, 赵腊生, 张强, 程银清, 邱泽鹏
    2024, 44(10):  3217-3222.  DOI: 10.11772/j.issn.1001-9081.2023101458
    摘要 ( )   HTML ( )   PDF (1218KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    合成语音攻击给人们的生活带来巨大的威胁。为了解决现有模型从冗余信息中提取关键信息能力不足和单一模型无法综合利用多检测模型优势的问题,提出一种基于注意力和挤压-激励(SE)模块Inception (SE-Inc)的双分支(Dual-ABIB)合成语音检测模型。首先,基于SincNet(Sinc-based convolutional neural Network)提取的初始特征图训练注意力分支合成语音检测模型,并输出注意力图;其次,将注意力图和初始特征图相乘后再叠加,并将结果作为SE-Inc分支的输入进行训练;最后,通过决策级加权融合处理2个分支获得的分类分数,从而实现合成语音检测。实验结果表明,所提模型在参数量为539×103的情况下,在ASVspoof2019数据集上获得了0.033 2的最小串联检测代价函数(min t-DCF)和1.15%的等错误率(EER);与SE-ResABNet (Squeeze-Excitation ResNet Attention Branch Network)相比,所提模型在参数量仅为它的56%的情况下,min t-DCF和EER分别下降了34.5%和39.2%;同时,在ASVspoof2015和ASVspoof2021数据集上所提模型表现了更好的泛化能力。以上结果验证了所提模型能够在参数量较小的情况下,获得更低的min t-DCF和EER。

    前沿与综合应用
    结合层次图神经网络与长短期记忆的产业链风险评估预警模型
    花晓雨, 李冬芬, 付优, 毕可骏, 应时, 王瑞锦
    2024, 44(10):  3223-3231.  DOI: 10.11772/j.issn.1001-9081.2023101387
    摘要 ( )   HTML ( )   PDF (2113KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    产业链风险评估预警是有效保护产业链上下游公司利益和减轻公司风险的重要措施。然而,现有方法由于忽视了产业链上下游公司之间的传播效应和公司信息的不透明性,无法准确评估公司风险,且忽略了动态财务数据对产业链的影响,无法提前感知风险,进行风险预警。针对以上问题,提出一种结合层次图(HG)神经网络与长短期记忆(LSTM)的产业链风险评估预警模型(HiGNN)。首先,利用产业链上下游关系和投融资关系构建“产业链-投资”HG;其次,利用财务特征提取模块提取公司多季度财务数据的特征;再次,利用投资特征提取模块提取投资关系图特征;最后,利用注意力机制融合财务特征和投资特征,通过图表示学习方法对公司节点进行风险分类。在真实的集成电路制造业数据集上的实验结果表明,与图注意力网络(GAT)模型、循环神经网络(RNN)模型相比,当训练比率为60%时,所提模型的准确率分别提升了14.87%、22.10%,F1值提升了12.63%、16.67%。所提模型能够有效捕捉产业链中的传染效应,提高风险识别能力,优于传统的机器学习方法和图神经网络方法。

    地震场景下无人机群路径规划与任务分配均衡联合优化
    孙鉴, 马宝全, 吴隹伟, 杨晓焕, 武涛, 陈攀
    2024, 44(10):  3232-3239.  DOI: 10.11772/j.issn.1001-9081.2023101432
    摘要 ( )   HTML ( )   PDF (1573KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    无人机(UAV)群路径规划和任务分配是UAV群救援应用的核心,然而传统方法分开求解路径规划与任务分配,导致资源分配不均。为了解决上述问题,结合UAV群的物理属性与应用环境因素,改进蚁群算法(ACO),提出联合并行蚁群(JPACO)模型。首先,借助分级信息素增强系数机制更新信息素,以提高JPACO任务分配均衡性和能耗均衡性;其次,设计路径平衡因子和动态概率转移因子优化蚁群模型易陷入局部收敛的情况,从而提高JPACO的全局搜索能力;最后,引入集群并行处理机制,以降低JPACO运算耗时。将JPACO与自适应动态蚁群算法(ADACO)、扫描动态蚁群算法(SMACO)、贪婪策略蚁群算法(GSACO)和交叉蚁群算法(IACO)在公开数据集CVRPLIB上对比最优路径、任务分配均衡、能耗均衡和运算耗时。实验结果表明:与IACO和ADACO相比,JPACO处理小规模运算的最优路径平均值分别降低7.4%和16.3%;处理大规模运算的求解耗时与GSACO、ADACO相比降低8.2%和22.1%。以上结果验证了JPACO在处理小规模运算时能够改善最优路径,处理大规模运算时任务分配均衡、能耗均衡和运算耗时明显优于对比算法。

    基于联盟链的双向拍卖碳交易
    颜超英, 张紫仪, 曲映楠, 李秋禹, 郑地翔, 孙丽珺
    2024, 44(10):  3240-3245.  DOI: 10.11772/j.issn.1001-9081.2023101433
    摘要 ( )   HTML ( )   PDF (1654KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    碳交易是降低温室气体排放、发展低碳经济的重要方式。在传统碳交易过程中主要存在主体分布广、数据互通性差和效率低等问题,而通过带有准入机制的联盟链作为碳交易的基础设施,可确保交易数据的安全性与可溯源性。因此,提出一种基于联盟链的双向拍卖交易算法。所提算法考虑用户满意度,分2个阶段执行。在第1阶段,所有节点提出报价范围,符合条件的节点将在该阶段立刻达成交易;剩余交易节点进入第2阶段,计算交易量匹配度,以用户整体满意度为优化目标进行匹配,从而输出最大整体满意度的结果。所提算法与匈牙利算法、GS(Gale-Shapley)算法的对比实验结果表明,所提算法提高了用户满意度,且让平均匹配时间分别降低了26.2%和36.0%。所提算法利用HLF(HyperLedger Fabric)部署双向拍卖算法智能合约,自动计算和处理用户交易请求,并把交易的结果经过共识记录在联盟链的通道账本,在不同的区块大小和交易请求数下实现了稳定的交易吞吐量。

    基于支持向量机的自恢复自适应蒙特卡洛定位算法
    乔恩保, 高向阳, 程俊
    2024, 44(10):  3246-3251.  DOI: 10.11772/j.issn.1001-9081.2023101389
    摘要 ( )   HTML ( )   PDF (2828KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    机器人定位技术对智能机器人的高效、精确和安全运行至关重要,然而在实际的定位过程中,机器人常面临“绑架”问题。为了应对这一难题,提出一种基于支持向量机(SVM)的自恢复自适应蒙特卡洛定位(SVM-SRAMCL)算法。首先,构建用于识别机器人“绑架”状态的检测模型——基于SVM的绑架检测模型(SVM-KDM);其次,通过自适应蒙特卡洛定位(AMCL)算法所得的粒子集计算粒子特性值,并作为SVM-KDM的输入,一旦检测到“绑架”事件,使用扩展卡尔曼滤波器(EKF)融合惯性测量单元(IMU)和里程计(Odom)的数据估计机器人的新位姿;最后,使用AMCL算法进行粒子预测、更新和重采样,最终实现机器人的重新定位。相较于自恢复蒙特卡洛定位(SR-MCL)算法,绑架后恢复定位所需的更新减少了4.1次,重定位的成功率提高了3个百分点。实验结果验证了所提算法在解决移动机器人的定位“绑架”问题方面具有更高的效率和成功率。

    第40届CCF中国数据库学术会议(NDBC 2023)
    图谱嵌入传播的推荐方法
    周北京, 王海荣, 王怡梦, 张丽丝, 马赫
    2024, 44(10):  3252-3259.  DOI: 10.11772/j.issn.1001-9081.2023101508
    摘要 ( )   HTML ( )   PDF (1719KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    根据知识图谱(KG)丰富用户和项目信息的侧重不同,现有的图谱嵌入传播的推荐方法可归纳为用户嵌入传播、项目嵌入传播和混合嵌入传播这3类。用户嵌入传播方法侧重使用用户交互的项目和KG学习用户表示;项目嵌入传播方法使用KG中的实体表征项目;而混合嵌入传播方法融合了用户-项目交互信息和KG,以弥补前两类方法存在的信息利用不充分的不足。为深入对比3类方法的技术特点,重点剖析图谱嵌入传播的推荐方法中的图谱构建、嵌入传播和预测这3个核心任务的关键技术;同时,在MovieLens、Booking-Crossing和Last.FM通用数据集上复现每类方法中的主流模型,通过使用点击率(CTR)指标对比分析上述方法的效果。分析实验结果可知,混合嵌入传播方法的推荐性能最优,它综合了用户和项目嵌入传播方法的优势,利用交互信息和KG增强用户和项目表示;此外,对比分析每类方法,阐述各自的优缺点并展望未来的研究工作。

    原型感知双通道图卷积神经网络的信息传播预测模型
    项能强, 朱小飞, 高肇泽
    2024, 44(10):  3260-3266.  DOI: 10.11772/j.issn.1001-9081.2023101557
    摘要 ( )   HTML ( )   PDF (1549KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有的信息传播预测模型难以挖掘用户对级联的依赖关系的问题,提出一种原型感知双通道图卷积神经网络(PDGCN)的信息传播预测模型。首先,使用超图卷积网络(HGCN)学习基于级联超图级的用户表示和级联表示,同时使用图卷积网络(GCN)学习基于动态友谊转发图的用户表示;其次,对于给定的目标级联,分别从上述2个级别的用户表示中查找符合当前级联的用户表示,并融合这两种表示;再次,通过聚类算法得到级联表示的原型;最后,查找当前级联最匹配的原型,并使用该原型融入当前级联的每个用户表示,从而计算候选用户的传播概率。相较于记忆增强的顺序超图注意网络(MS-HGAT),在Twitter数据集上,PDGCN的Hits@100提升了1.17%,MAP@100提升了5.02%;在Android数据集上,PDGCN的Hits@100提升了3.88%,MAP@100提升了0.72%。实验结果表明,所提模型在信息传播预测任务上优于对比模型,具有更好的预测性能。

    图对比学习引导的多视图聚类网络
    朱云华, 孔兵, 周丽华, 陈红梅, 包崇明
    2024, 44(10):  3267-3274.  DOI: 10.11772/j.issn.1001-9081.2023101481
    摘要 ( )   HTML ( )   PDF (2492KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    多视图聚类由于能从多个角度利用数据的信息引起了广泛的关注。然而,目前的多视图聚类算法普遍存在以下几个问题:1)专注数据的属性特征或结构特征,没有充分结合这两种信息,以提高潜在嵌入的质量;2)基于图神经网络的方法虽然能同时利用属性和结构数据,但是基于图卷积或图注意力的模型在网络层数过深时会产生过度平滑的问题。为了解决以上问题,提出一个图对比学习引导的多视图聚类网络(MCNGCL)。首先,使用多视图自编码器模块捕捉每个视图的私有表示;其次,通过自适应加权融合构造公共表示;再次,结合图对比学习模块,使相邻节点在聚类时更容易被划分为同簇,同时缓解网络在聚合邻居节点信息时产生的过度平滑的问题;最后,使用自监督聚类模块,使公共表示和视图的私有表示向有利于聚类的方向优化。实验结果表明,MCNGCL在多个数据集上都取得了不错的效果,在3sources数据集上,与次优的CMGEC(Consistent Multiple Graph Embedding for multi-view Clustering)相比,MCNGCL的准确率指标提升了2.83个百分点,规范化互信息(NMI)指标提升了3.70个百分点;消融实验和参数敏感性分析结果也验证了MCNGCL的有效性。

    融合语义和句法信息的方面情感三元组抽取
    李言博, 何庆, 陆顺意
    2024, 44(10):  3275-3280.  DOI: 10.11772/j.issn.1001-9081.2023101479
    摘要 ( )   HTML ( )   PDF (1353KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    方面情感三元组抽取(ASTE)是方面情感分析中一项极具挑战性的子任务,目的是提取所给句子中的方面项、观点项和对应的情感极性。现有的面向ASTE任务的模型分为流水线模型和端到端模型。针对流水线模型易受到错误传播的影响,且大部分现有端到端模型忽略了句子中丰富的句法信息问题,提出一种语义和句法增强的双通道方面情感三元组抽取模型(SSED-ASTE)。首先,使用BERT(Bidirectional Encoder Representation from Transformers)编码器对上下文编码;其次,使用双向长短期记忆(Bi-LSTM)网络捕捉上下文语义依赖关系;再次,通过2个并行的图卷积网络(GCN)分别使用自注意力机制和依存句法分析提取语义特征和句法特征并融合;最后,使用网格标记方案(GTS)抽取三元组。在4个公开数据集上进行实验分析,与GTS-BERT模型相比,所提模型的F1值分别提升了0.29、1.50、2.93和0.78个百分点。实验结果表明,所提模型可以有效利用句子中隐含的语义信息和句法信息,实现较准确的三元组抽取。

    基于类别感知课程学习的半监督立场检测
    高肇泽, 朱小飞, 项能强
    2024, 44(10):  3281-3287.  DOI: 10.11772/j.issn.1001-9081.2023101558
    摘要 ( )   HTML ( )   PDF (1303KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    生成伪标签是半监督立场检测的一种有效策略。在现实应用中,生成的伪标签质量存在差异,然而现有的工作将生成伪标签的质量视为是同等的,且没有充分考虑类别不平衡对伪标签生成质量的影响。为了解决上述2个问题,提出基于类别感知课程学习的半监督立场检测模型(SDCL)。首先,使用预训练分类模型对无标签推文生成伪标签;其次,根据伪标签质量的高低对推文按类别排序,并选取每个类别前k个高质量推文;最后,将各个类别选出的推文合并后重新排序,并把排序后带有伪标签的推文再输入分类模型,从而进一步优化模型参数。实验结果表明,与基线模型中表现最好的SANDS (Stance Analysis via Network Distant Supervision)相比,所提模型在3种不同划分(有标签推文总数为500、1 000和1 500)情况下,在StanceUS数据集上的宏平均(Mac-F1)分数分别提高了2、1和3个百分点,在StanceIN数据集上的Mac-F1分数均提高了1个百分点,验证了所提模型的有效性。

    基于关系增强图卷积网络的机器阅读理解式事件检测
    纪婉婷, 鲁闻一, 马宇航, 丁琳琳, 宋宝燕, 张浩林
    2024, 44(10):  3288-3293.  DOI: 10.11772/j.issn.1001-9081.2023101542
    摘要 ( )   HTML ( )   PDF (996KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在面对具有复杂句法关系的长文本上下文时,现有机器阅读理解式事件检测模型难以挖掘关键词之间长距离依赖关系。针对上述问题,提出一种基于关系增强图卷积网络(REGCN)的机器阅读理解式事件检测模型(MRC-REGCN)。首先,利用预训练语言模型对问题和文本进行联合编码,得到融入先验信息的单词向量表示;其次,引入动态的关系增强标签信息,并利用REGCN深入学习单词之间的句法依存关系,增强模型对长文本句法结构的感知能力;最后,利用多分类器得到文本单词在所有事件类型下的概率分布。在ACE2005英文语料上的实验结果表明,所提模型在触发词分类上的F1分值相较于同类机器阅读理解模型EEQA(Event Extraction by Answering (almost) natural Questions)和最佳基线模型DEGREE(Data-Efficient GeneRation-based Event Extraction)分别提升了2.49%和1.23%,验证了MRC-REGCN具有更好的事件检测性能。

    面向多元时间序列异常检测的对称正定自编码器方法
    蒋辉, 闫秋艳, 姜竹郡
    2024, 44(10):  3294-3299.  DOI: 10.11772/j.issn.1001-9081.2023101521
    摘要 ( )   HTML ( )   PDF (2874KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    检测多元时间序列中的异常模式对工业生产、互联网服务等场景中复杂系统的正常运行有着重要意义。连续时间上的多维数据同时存在时间和空间两种类型的相互关系,但大多数现有方法欠缺对维度之间空间关系的建模,且由于多维数据构造的空间拓扑结构的复杂性,传统的神经网络模型较难保留已建模的空间关系。针对上述问题,提出一种面向多元时间序列异常检测的对称正定自编码器(SPDAE)方法。使用高斯核函数计算原始数据2个维度之间的相互关系,生成多步长、多窗口的对称正定(SPD)矩阵,以捕捉多元时间序列的时空特征;同时,设计一个类卷积自编码器(AE)网络,编码器阶段以SPD特征矩阵为输入,解码器阶段则引入注意力机制聚合每层编码器得到的多步长数据,实现多尺度时空特征的重构;特别地,为保留输入数据的空间结构,编码解码器的每一层和损失计算部分分别使用符合流形拓扑的类卷积操作更新模型权重和Log-Euclidean度量计算重构误差。在私有数据集上的实验结果表明,SPDAE方法的精度指标相较于次优基线模型MSCRED(Multi-Scale Convolutional Recurrent Encoder-Decoder)提升了2.3个百分点,F1值指标相较于次优的基线模型长短期记忆编码器-解码器网络(LSTM-ED)提升了3.0个百分点;同时,由于采用了SPD矩阵表征多维数据之间的空间关系,根据重构矩阵的差异值可以实现异常维度的初步定位。

    融合小波分解的多尺度时间序列异常检测
    叶力硕, 何志学
    2024, 44(10):  3300-3306.  DOI: 10.11772/j.issn.1001-9081.2023101480
    摘要 ( )   HTML ( )   PDF (2412KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    时间序列异常检测是时间序列分析中的重要任务之一,然而现实世界中多维时间序列的异常检测任务存在时间模式复杂、表征学习困难等问题。针对上述问题,提出一种融合小波分解的多尺度时间序列异常检测(WMAD)方法。具体地,以多时间窗口的方式,将时间序列的时间模式统一融合入二维堆叠的时间窗口中,增强多时间模式提取能力;同时,从频域角度引入小波变换,将原始序列分解为蕴含不同频率分量的时间变化模式,从长时间的趋势变化和短时间的瞬时变化角度捕捉复杂时间模式;借鉴卷积网络的特征提取能力,采用多尺度卷积网络自适应地聚合不同尺度的时序特征;增加包含空间和通道两种注意力机制的注意力模块,在增强多尺度特征提取能力的基础上提高关键信息的提取能力,进而提高精度。在SWaT(Secure Water Treatment)、SMD(Server Machine Dataset)和MSL(Mars Science Laboratory)等5个公共数据集上的异常检测结果显示,WMAD方法的F1值与MSCRED(MultiScale Convolutional Recurrent Encoder-Decoder)方法相比提高了3.62~9.44个百分点;与TranAD(deep Transformer networks for Anomaly Detection)方法相比提高了3.86~11.00个百分点,与其他代表性方法相比也有所提高。实验结果表明,WMAD方法能够捕获时间序列中的复杂时间模式,缓解表征困难问题,同时具有较好的异常检测性能。

    双重授权的多组织协同数据共享方案
    张欢, 王静宇, 刘立新, 姜晓宇
    2024, 44(10):  3307-3314.  DOI: 10.11772/j.issn.1001-9081.2023101494
    摘要 ( )   HTML ( )   PDF (2796KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有的多组织协同数据共享框架缺乏信任机制,存在数据隐私和安全风险、数据一致性和对共享数据使用的监管问题,借助区块链的特性,提出一种双重授权的多组织协同数据共享方案,通过双重授权方式解决各组织主体之间协同管理共享数据的访问问题。首先,使用基于属性的访问控制(ABAC)技术利用不同组织的一组属性管理共享数据,实现第1层授权,防止未经授权用户的非法访问;其次,基于访问控制,引入多重签名协议进行第2层授权,实现参与协同组织对共享数据访问的监管,提高访问的安全性。实验结果表明,当协同组织数为4时,系统整体时间开销为21 s;当协同组织数增加至10时,所提方案依旧能够保持较低的时间开销。因此所提方案能够同时满足实际生产中安全性和实用性的需求。

2025年 45卷 4期
刊出日期: 2025-04-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会