当期目录

    2024年 第44卷 第1期 刊出日期:2024-01-10 封面下载 目录下载
    跨媒体表征学习与认知推理
    多模态知识图谱表示学习综述
    王春雷, 王肖, 刘凯
    2024, 44(1):  1-15.  DOI: 10.11772/j.issn.1001-9081.2023050583
    摘要 ( )   HTML ( )   PDF (3449KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。

    基于特征增强和语义相关性匹配的图像文本检索方法
    陈佳, 张鸿
    2024, 44(1):  16-23.  DOI: 10.11772/j.issn.1001-9081.2023060766
    摘要 ( )   HTML ( )   PDF (1434KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为实现图像文本检索中图像与文本的精确语义连接,提出一种基于特征增强和语义相关性匹配(FESCM)的图像文本检索方法。首先,通过特征增强表示模块,引入多头自注意力机制增强图像区域特征和文本单词特征,以减少冗余信息对图像区域和文本单词对齐的干扰;其次,通过语义相关性匹配模块,不仅利用局部匹配捕获局部显著对象之间的对应相关性,还把图像背景信息融入图像全局特征,利用全局匹配实现精确的全局语义相关性;最后,通过局部匹配分数和全局匹配分数获取图像和文本的最终匹配分数。实验结果表明,基于FESCM的图像文本检索方法在Flickr8k和Flickr30k基准数据集上的召回率总值比扩展的视觉语义嵌入方法分别提升了5.7和7.5个百分点,在MS-COCO数据集比双流层次相似度推理方法提升了3.7个百分点。因此该方法可以有效提高图像文本检索的准确度,实现图像与文本的语义连接。

    深度双模态源域对称迁移学习的跨模态检索
    刘秋杰, 万源, 吴杰
    2024, 44(1):  24-31.  DOI: 10.11772/j.issn.1001-9081.2023010047
    摘要 ( )   HTML ( )   PDF (2170KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    基于深度网络的跨模态检索经常面临交叉训练数据不足的挑战,这限制了训练效果并容易导致过拟合。迁移学习在源域中训练数据的知识迁移学习到目标域中,能有效解决训练数据不足的问题。然而,现有的大部分迁移学习方法致力于将知识从单模态(如图像)源域迁移到多模态(如图像和文本)目标域,而如果源域中已存在多种模态信息,这样的非对称迁移会忽略源域中包含的潜在的模态间语义信息;同时这些方法不能很好地提取源域与目标域中相同模态的相似性,进而减小域差异。因此,提出一种深度双模态源域对称迁移学习的跨模态检索(DBSTL)方法。该方法旨在实现从双模态源域到跨模态目标域的知识迁移,并获得跨模态数据的公共表示。DBSTL由模态对称迁移子网和语义一致性学习子网构成。模态对称迁移子网采用混合对称结构,在知识迁移过程中,使模态间信息具有更高的一致性,并能减小源域与目标域间的差异;而语义一致性学习子网中,所有模态共享相同的公共表示层,并在目标域的监督信息指导下保证跨模态语义的一致性。实验结果表明,在Pascal、NUS-WIDE-10k和Wikipedia数据集上,所提方法的平均精度均值(mAP)较对比方法得到的最好结果分别提升了大约8.4、0.4和1.2个百分点。DBSTL充分利用了双模态源域的潜在信息进行对称迁移学习,在监督信息的指导下保证了模态间语义的一致性,并提高了公共表示空间中图像文本分布的相似性。

    基于对比学习和GIF标记的多模态对话回复检索
    黄懿蕊, 罗俊玮, 陈景强
    2024, 44(1):  32-38.  DOI: 10.11772/j.issn.1001-9081.2022081260
    摘要 ( )   HTML ( )   PDF (1653KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    社交媒体网站上使用GIF(Graphics Interchange Format)作为消息的回复相当普遍。但目前大多方法针对问题“如何选择一个合适的GIF回复消息”,没有很好地利用社交媒体上的GIF附属标记信息。为此,提出基于对比学习和GIF标记的多模态对话回复检索(CoTa-MMD)方法,将标记信息整合到检索过程中。具体来说就是使用标记作为中间变量,文本→GIF的检索就被转换为文本→GIF标记→GIF的检索,采用对比学习算法学习模态表示,并利用全概率公式计算检索概率。与直接的文本图像检索相比,引入的过渡标记降低了不同模态的异质性导致的检索难度。实验结果表明,CoTa-MMD模型相较于深度监督的跨模态检索(DSCMR)模型,在PEPE-56多模态对话数据集和Taiwan多模态对话数据集上文本图像检索任务的召回率之和分别提升了0.33个百分点和4.21个百分点。

    基于多通道多步融合的生成式视觉对话模型
    陈思航, 江爱文, 崔朝阳, 王明文
    2024, 44(1):  39-46.  DOI: 10.11772/j.issn.1001-9081.2023010055
    摘要 ( )   HTML ( )   PDF (3323KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    当前视觉对话任务在多模态信息融合和推理方面取得了较大进展,但是,在回答一些涉及具有比较明确语义属性和位置空间关系的问题时,主流模型的能力依然有限。比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细粒度表达。视觉特征表示与对话历史、当前问句等文本语义之间缺少必要的、缓解语义鸿沟的桥梁,因此提出一种基于多通道多步融合的视觉对话模型MCMI。该模型显式提供一组关于视觉内容的细粒度语义描述信息,并通过“视觉-语义-对话”历史三者相互作用和多步融合,能够丰富问题的语义表示,实现较为准确的答案解码。在VisDial v0.9/VisDial v1.0数据集中,MCMI模型较基准模型双通道多跳推理模型(DMRM),平均倒数排名(MRR)分别提升了1.95和2.12个百分点,召回率(R@1)分别提升了2.62和3.09个百分点,正确答案平均排名(Mean)分别提升了0.88和0.99;在VisDial v1.0数据集中,较最新模型UTC(Unified Transformer Contrastive learning model), MRR、R@1、Mean分别提升了0.06百分点,0.68百分点和1.47。为了进一步评估生成对话的质量,提出类图灵测试响应通过比例M1和对话质量分数(五分制)M2两个人工评价指标。在VisDial v0.9数据集中,相较于基准模型DMRM,MCMI模型的M1和M2指标分别提高了9.00百分点和0.70。

    基于多尺度时空Transformer的视频动态场景图生成模型
    王朱佳, 余宙, 俞俊, 范建平
    2024, 44(1):  47-57.  DOI: 10.11772/j.issn.1001-9081.2023060861
    摘要 ( )   HTML ( )   PDF (2900KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留了传统模型对物体在全局空间相关性的关注;同时还对物体间的相对位置进行了局部空间相关性建模,以便更好地理解人和物之间的交互动态,提供更准确的语义分析结果。其次,在时间维度上,除了保留传统模型对视频中物体短期时间相关性的关注外,还关注了同一对物体在完整视频中的长期时间相关性,通过更全面地建模物体之间的长期关系,生成更准确、连贯的场景图,在一定程度上缓解了由遮挡、重合等引起的场景图生成问题。最后,通过空间编码器与时间编码器的共同作用,更加精准地建模视频动态细粒度语义,克服了传统的单尺度模型的局限性。实验结果显示,在Action Genome基准数据集上,与基线模型STTran相比,在谓词分类、场景图分类与场景图检测三个任务的Recall@10指标上分别提升了5.0、2.8、2.9个百分点。实验结果表明,多尺度建模思想能够更加精确地建模,并有效地提高在视频动态场景图生成任务上的性能。

    基于场景图感知的跨模态图像描述模型
    朱志平, 杨燕, 王杰
    2024, 44(1):  58-64.  DOI: 10.11772/j.issn.1001-9081.2022071109
    摘要 ( )   HTML ( )   PDF (1879KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对图像描述方法中对图像文本信息的遗忘及利用不充分问题,提出了基于场景图感知的跨模态交互网络(SGC-Net)。首先,使用场景图作为图像的视觉特征并使用图卷积网络(GCN)进行特征融合,从而使图像的视觉特征和文本特征位于同一特征空间;其次,保存模型生成的文本序列,并添加对应的位置信息作为图像的文本特征,以解决单层长短期记忆(LSTM)网络导致的文本特征丢失的问题;最后,使用自注意力机制提取出重要的图像信息和文本信息后并对它们进行融合,以解决对图像信息过分依赖以及对文本信息利用不足的问题。在Flickr30K和MS-COCO (MicroSoft Common Objects in COntext)数据集上进行实验的结果表明,与Sub-GC相比,SGC-Net在BLEU1 (BiLingual Evaluation Understudy with 1-gram)、BLEU4 (BiLingual Evaluation Understudy with 4-grams)、METEOR (Metric for Evaluation of Translation with Explicit ORdering)、ROUGE (Recall-Oriented Understudy for Gisting Evaluation)和SPICE (Semantic Propositional Image Caption Evaluation)指标上分别提升了1.1、0.9、0.3、0.7、0.4和0.3、0.1、0.3、0.5、0.6。可见,SGC-Net所使用的方法能够有效提升模型的图像描述性能及生成描述的流畅度。

    基于语义相关性分析的多模态摘要模型
    林于翔, 吴运兵, 阴爱英, 廖祥文
    2024, 44(1):  65-72.  DOI: 10.11772/j.issn.1001-9081.2022101527
    摘要 ( )   HTML ( )   PDF (2804KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    多模态生成式摘要往往采用序列到序列(Seq2Seq)框架,目标函数在字符级别优化模型,根据局部最优解生成单词,忽略了摘要样本全局语义信息,使得摘要与多模态信息产生语义偏差,容易造成事实性错误。针对上述问题,提出一种基于语义相关性分析的多模态摘要模型。首先,在Seq2Seq框架基础上对多模态摘要进行训练,生成语义多样性的候选摘要;其次,构建基于语义相关性分析的摘要评估器,从全局的角度学习候选摘要之间的语义差异性和真实评价指标ROUGE (Recall-Oriented Understudy for Gisting Evaluation)的排序模式,从而在摘要样本层面优化模型;最后,不依赖参考摘要,利用摘要评估器对候选摘要进行评价,使得选出的摘要与源文本在语义空间中尽可能相似。实验结果表明,在公开数据集MMSS上,相较于MPMSE (Multimodal Pointer-generator via Multimodal Selective Encoding)模型,所提模型在ROUGE-1、ROUGE-2、ROUGE-L评价指标上分别提升了3.17、1.21和2.24个百分点。

    融合多模态信息的产品摘要抽取模型
    赵强, 王中卿, 王红玲
    2024, 44(1):  73-78.  DOI: 10.11772/j.issn.1001-9081.2022121910
    摘要 ( )   HTML ( )   PDF (1183KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM (Chinese E-commerce Product SUMmarization) 2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt (BERT SUMmarization Extractive)高1.75个百分点。实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好。

    用于未对齐多模态语言序列情感分析的多交互感知网络
    罗俊豪, 朱焱
    2024, 44(1):  79-85.  DOI: 10.11772/j.issn.1001-9081.2023060815
    摘要 ( )   HTML ( )   PDF (1299KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有对齐多模态语言序列情感分析方法常用的单词对齐方法缺乏可解释性的问题,提出了一种用于未对齐多模态语言序列情感分析的多交互感知网络(MultiDAN)。MultiDAN的核心是多层的、多角度的交互信息提取。首先使用循环神经网络(RNN)和注意力机制捕捉模态内的交互信息;然后,使用图注意力网络(GAT)一次性提取模态内及模态间的、长短期的交互信息;最后,使用特殊的图读出方法,再次提取图中节点的模态内及模态间交互信息,得到多模态语言序列的唯一表征,并应用多层感知机(MLP)分类获得序列的情感分数。在两个常用公开数据集CMU-MOSI和CMU-MOSEI上的实验结果表明,MultiDAN能充分提取交互信息,在未对齐的两个数据集上MultiDAN的F1值比对比方法中最优的模态时空注意图(MTAG)分别提高了0.49个和0.72个百分点,具有较高的稳定性。MultiDAN可以提高多模态语言序列的情感分析性能,且图神经网络(GNN)能有效提取模态内、模态间的交互信息。

    基于混合特征提取与跨模态特征预测融合的情感识别模型
    李牧, 杨宇恒, 柯熙政
    2024, 44(1):  86-93.  DOI: 10.11772/j.issn.1001-9081.2023060753
    摘要 ( )   HTML ( )   PDF (1891KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型(H-MGFCT)。首先,利用Mel频率倒谱系数(MFCC)和Gammatone频率倒谱系数(GFCC)及其一阶动态特征融合得到混合特征参数提取算法(H-MGFCC),解决了语音情感特征丢失的问题;其次,利用基于注意力权重的跨模态预测模型,筛选出与语音特征相关性更高的文本特征;随后,加入对比学习的跨模态注意力机制模型对相关性高的文本特征和语音模态情感特征进行跨模态信息融合;最后,将含有文本-语音的跨模态信息特征与筛选出的相关性低的文本特征相融合,以起到信息补充的作用。实验结果表明,该模型在公开IEMOCAP (Interactive EMotional dyadic MOtion CAPture)、CMU-MOSI (CMU-Multimodal Opinion Emotion Intensity)、CMU-MOSEI (CMU-Multimodal Opinion Sentiment Emotion Intensity)数据集上与加权决策层融合的语音文本情感识别(DLFT)模型相比,准确率分别提高了2.83、2.64和3.05个百分点,验证了该模型情感识别的有效性。

    人工智能
    基于自适应攻击强度的对抗训练方法
    陈彤, 位纪伟, 何仕远, 宋井宽, 杨阳
    2024, 44(1):  94-100.  DOI: 10.11772/j.issn.1001-9081.2023060854
    摘要 ( )   HTML ( )   PDF (1227KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    深度神经网络(DNN)易受对抗样本攻击的特性引发了人们对人工智能系统安全性和可靠性的重大关切,其中对抗训练是增强对抗鲁棒性的一种有效方式。针对现有方法使用固定的对抗样本生成策略但存在忽视对抗样本生成阶段对对抗训练重要性的问题,提出一种基于自适应攻击强度的对抗训练方法。首先,将干净样本和对抗样本输入模型得到输出;然后,计算干净样本和对抗样本模型输出的差异;最后,衡量该差异与上一时刻差异的变化情况,并自动调整对抗样本强度。对三个基准数据集的全面实验结果表明,相较于基准方法投影梯度下降的对抗训练(PGD-AT),该方法在三个基准数据集的AA(AutoAttack)攻击下鲁棒精度分别提升1.92、1.50和3.35个百分点,且所提出方法在鲁棒性和自然准确率方面优于最先进的防御方法可学习攻击策略的对抗训练(LAS-AT)。此外,从数据增强角度看,该方法可以有效解决对抗训练这种特殊数据增强方式中增广效果随训练进展会不断下降的问题。

    中文文本纠错软件测试用例的选择生成方法
    冯程皓, 谢振平, 丁博文
    2024, 44(1):  101-112.  DOI: 10.11772/j.issn.1001-9081.2023010080
    摘要 ( )   HTML ( )   PDF (3173KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对目前尚无有效的中文文本纠错软件测试用例生成方法的情况,为了服务于软件纠错性能的测量并为软件提供优化方向,设计了一种面向多用户的、工程化的中文文本纠错软件测试用例选择生成方法(SGMT-CCS)。定义了两种不同的可供用户选择的用例评判标准:错误数量密度和错误种类密度。设计了三个模块:测试用例自动化生成模块、测试用例选择模块以及测试用例优先级排序模块。在SGMT-CCS中,用户可以:1)在测试用例自动化生成的过程中自定义错误最小间隔和用例集大小;2)在测试用例选择的过程中自定义错误最小间隔和期望值;3)在测试用例选择和优先级排序的过程中选择不同的用例评判标准进行自定义操作,以适应不同数据集的要求。实验结果表明,SGMT-CCS能够在较短的时间内获得有效的测试用例,选择模块实验在模拟的需求情况下都能满足用户自定义目标,优先级排序模块实验验证了相较于排序前,在不同评判标准下的不同时间段内都能有效提高测试效率。

    结合内卷与卷积算子的视频预测模型
    朱俊宏, 赖俊宇, 甘炼强, 陈智勇, 刘华烁, 徐国尧
    2024, 44(1):  113-122.  DOI: 10.11772/j.issn.1001-9081.2023060853
    摘要 ( )   HTML ( )   PDF (4036KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对基于传统深度学习的视频预测中对数据空间特征提取效果不佳及预测精度低的问题,提出一种结合内卷与卷积算子(CICO)的视频预测模型。该模型主要通过以下三个方面提高视频序列的预测性能:首先,采用不同大小的卷积核增强对数据多粒度空间特征的提取能力,较大的卷积核能够提取更大空间范围的特征,而较小的卷积核可更精确地捕获视频目标的运动细节,实现对目标多角度表征学习;其次,用计算效率更高、参数更少的内卷算子替代核较大的卷积算子,内卷通过高效的通道间交互避免了大量的不必要参数,在降低计算和存储成本的同时提升模型预测能力;最后,引入核为1×1的卷积进行线性映射,增强不同特征之间的联合表达,提高了模型参数的利用效率并增强了预测的鲁棒性。通过多个数据集对该模型进行全面测试,结果表明,相较于目前最优的SimVP(Simpler yet better Video Prediction)模型,所提模型在多项指标上均有显著提升。在移动手写数据集上,均方误差和平均绝对误差分别降低25.2%和17.4%;在北京交通数据集上,均方误差降低1.2%;在人体行为数据集上,结构相似性指数和峰值信噪比分别提高0.66%和0.47%。可见,所提模型在提升视频预测精度方面十分有效。

    基于双向长短时记忆和卷积Transformer的声学词嵌入模型
    高芸芸, 赵腊生, 张强
    2024, 44(1):  123-128.  DOI: 10.11772/j.issn.1001-9081.2023010062
    摘要 ( )   HTML ( )   PDF (1311KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。

    基于尺度注意知识迁移的自蒸馏目标分割方法
    王晓兵, 张雄伟, 曹铁勇, 郑云飞, 王勇
    2024, 44(1):  129-137.  DOI: 10.11772/j.issn.1001-9081.2023010075
    摘要 ( )   HTML ( )   PDF (2683KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    当前的目标分割模型难以兼顾分割性能与推断效率,为此提出一种基于尺度注意知识迁移的自蒸馏目标分割方法。首先,构建了一个仅利用主干特征的目标分割网络作为推断网络,实现高效的前向推断过程。其次,提出了一种基于尺度注意知识的自蒸馏学习模型:一方面,设计了具有尺度注意机制的金字塔特征模块,利用尺度注意机制自适应地捕获不同语义水平的上下文信息,提取更具区分性的自蒸馏知识;另一方面,融合交叉熵、KL(Kullback-Leibler)散度和L2距离构造蒸馏损失,高效驱动蒸馏知识向分割网络迁移,提升泛化性能。该方法在COD(Camouflaged Object Detection)、DUT-O(Dalian University of Technology-OMRON)、SOC(Salient Objects in Clutter)等五个目标分割数据集上进行了验证:将所提推断网络作为基准网络,所提自蒸馏模型分割性能在Fβ 指标上平均提升3.01%,比免教师(TF)自蒸馏模型增加了1.00%;所提网络与近期的残差分割网络(R2Net)相比,参数量减少了2.33×106,推断帧率提升了2.53%,浮点运算量减少了40.50%,分割性能提升了0.51%。实验结果表明:所提方法能有效兼顾性能与效率,适用于计算和存储资源受限的应用场景。

    融入三维语义特征的常识推理问答方法
    王红斌, 房晓, 江虹
    2024, 44(1):  138-144.  DOI: 10.11772/j.issn.1001-9081.2023010063
    摘要 ( )   HTML ( )   PDF (1225KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    现有使用预训练语言模型和知识图谱的常识问答方法主要集中于构建知识图谱子图及跨模态信息结合的研究,忽略了知识图谱自身丰富的语义特征,且缺少对不同问答任务的知识图谱子图节点相关性的动态调整,导致预测准确率低。为解决以上问题,提出一种融入三维语义特征的常识推理问答方法。首先提出知识图谱节点的关系层级、实体层级、三元组层级三维语义特征量化指标;其次,通过注意力机制动态计算关系层级、实体层级、三元组层级三种维度的语义特征对不同实体节点间的重要性;最后,通过图神经网络进行多层聚合迭代嵌入三维语义特征,获得更多的外推知识表示,更新知识图谱子图节点表示,提升答案预测精度。与QA-GNN常识问答推理方法相比,所提方法在CommonsenseQA数据集上的验证集和测试集的准确率分别提高了1.70个百分点和0.74个百分点,在OpenBookQA数据集上使用AristoRoBERTa数据处理方法的准确率提高了1.13个百分点。实验结果表明,所提出的融入三维语义特征的常识推理问答方法能够有效提高常识问答任务准确率。

    融合个体偏差信息的文本情感分析模型
    陈丽安, 过弋
    2024, 44(1):  145-151.  DOI: 10.11772/j.issn.1001-9081.2023010103
    摘要 ( )   HTML ( )   PDF (766KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    目前情感分析任务经常只聚焦于评论文本本身,忽略了评论者与被评论者的个体偏差特征,会显著影响对文本的整体情感判断。针对上述问题,提出一种融合评论双边个体偏差信息的文本情感分析模型UP-ATL (User and Product-Attention TranLSTM)。该模型使用自注意力机制、交叉注意力机制对评论文本与个体偏差信息分别进行双向融合,在融合过程中采用定制化权重的计算方式,以缓解实际应用场景中冷启动带来的数据稀疏问题,最终得到特征充分融合的评论文本和评论双边的表示信息。选取餐饮领域、电影领域的三个真实公开数据集Yelp2013、Yelp2014、IMDB进行效果验证,与UPNN(User Product Neural Network)、NSC(Neural Sentiment Classification)、CMA(Cascading Multiway Attention)、HUAPA (Hierarchical User And Product multi-head Attention)等基准模型进行比较。实验结果表明,相较于比较模型中最好的HUAPA模型,UP-ATL的准确度在三个数据集上依次分别提高了6.9、5.9和1.6个百分点。

    面向不可移动文物自然灾害风险图生成的领域特定语言
    胡轶涵, 杜金莲, 苏航, 高红雨
    2024, 44(1):  152-158.  DOI: 10.11772/j.issn.1001-9081.2023010102
    摘要 ( )   HTML ( )   PDF (719KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对当前不可移动文物自然灾害风险图生成领域需求快速增长、经常变更,而现有程序及工具无法满足实际使用需要的问题,提出了一种构建语义模型的方法,在语义模型的基础之上,为不可移动文物领域专家设计了一种贴近自然语言的领域特定语言(DSL)。首先,通过对不可移动文物本体各项指标数据、风险图生成方法和流程进行深入研究,提取出业务模型。之后,通过分析业务模型,抽象出风险值计算规则的元计算单元,构建语义模型。在此基础之上,设计出一种可表述语义模型中所有语义的领域特定语言。该语言脚本可由领域专家自行编写,能快速高效地生成风险图,且易于扩展,满足需求经常变更的要求。与目前国内外主流的通过地理信息系统(GIS)方法生成风险图相比,利用DSL生成风险图可缩短66.7%以上的工作时长。

    融合行为词的罪名预测多任务学习模型
    郭晓, 陈艳平, 唐瑞雪, 黄瑞章, 秦永彬
    2024, 44(1):  159-166.  DOI: 10.11772/j.issn.1001-9081.2023010029
    摘要 ( )   HTML ( )   PDF (2318KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    随着人工智能技术在司法领域的应用,依据案情描述预测所属罪名成为一项重要研究内容。案情内容术语专业,描述言简意赅,而现有方法却往往依赖文本特征,忽略了不同案件相关要素的差异性,缺乏对案情行为词要素的有效利用。为了解决此类问题,提出一种融合行为词的罪名预测多任务学习模型。首先,由边界识别器生成行为词跨度,提炼出案情核心内容;其次,通过构建行为词的结构特征预测所属罪名;最后,将行为词识别和罪名预测进行统一建模,通过共享参数的方式增强模型的泛化能力。通过构建行为词识别和罪名预测的多任务数据集进行验证,实验结果表明该模型识别行为词任务的F值达到了83.27%,罪名预测任务的F值达到了84.29%,与BERT-CNN模型相比,分别提高了0.57%和2.61%,验证了该模型对行为词识别和罪名预测的优势。

    不完整实例引导的航空发动机叶片实例分割
    黄睿, 张超群, 成旭毅, 邢艳, 张宝
    2024, 44(1):  167-174.  DOI: 10.11772/j.issn.1001-9081.2023010037
    摘要 ( )   HTML ( )   PDF (4546KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    当前基于深度学习的实例检测方法在进行发动机叶片分割时,由于缺少带标注的发动机叶片数据,导致无法充分训练网络模型,仅得到次优的分割结果。为了提升航空发动机叶片实例分割精度,提出了不完整实例引导的航空发动机叶片实例分割方法,通过结合已有的实例分割方法和交互式分割方法,可得到较好的发动机叶片分割结果。首先,使用少量标注数据训练实例分割网络,得到发动机叶片的初步分割结果;其次,将检测到的单个叶片分为前景和背景两部分,通过选择前景种子点和背景种子点,利用交互式分割方法的思想,产生完整的单个叶片的分割结果;依次处理完所有的叶片后,将结果合并得到最终的发动机叶片实例分割结果。使用72张图像训练基于稀疏实例激活图的实时实例分割方法(SparseInst)产生初始的实例分割结果,在56张图像上进行测试。所提方法的全类平均准确率(mAP)比SparseInst的全类平均准确率高5.1个百分点;且它的mAP结果均优于当前流行的实例分割方法MASK R-CNN(MASK Region based Convolutional Neural Network)、YOLACT (You Only Look At CoefficienTs)、BMASK-RCNN (Boundary-preserving MASK R-CNN)。

    基于自监督特征提取的骨骼X线影像异常检测方法
    张雨宁, 阿布都克力木·阿布力孜, 梅悌胜, 徐春, 麦尔达娜·买买提热依木, 哈里旦木·阿布都克里木, 侯钰涛
    2024, 44(1):  175-181.  DOI: 10.11772/j.issn.1001-9081.2023010002
    摘要 ( )   HTML ( )   PDF (2359KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为探索自监督特征提取方法在骨骼X线影像异常检测方面的可行性,提出了基于自监督特征提取的骨骼X线影像异常检测方法。将自监督学习框架与ViT(Vision Transformer)模型结合用于骨骼异常检测的特征提取,并通过线性分类器进行异常检测分类,在特征提取阶段可有效避免有监督模型对大规模有标注数据的依赖性。在公开的骨骼X线影像数据集上进行实验,采用准确率分别评估预训练的卷积神经网络(CNN)和自监督特征提取的骨骼异常检测模型。实验结果表明,自监督特征提取模型相较于一般的CNN模型效果更优,在7个部位分类结果与有监督的CNN模型ResNet50相差无几,但在肘部、手指、肱骨的异常检测中准确率均取得了最优值,平均准确率提升了5.37个百分点。所提方法易于实现,可以作为放射科医生初步诊断的可视化辅助工具。

    数据科学与技术
    基于证据理论的多层超网络影响力节点识别方法
    田阔, 吴英晗, 胡枫
    2024, 44(1):  182-189.  DOI: 10.11772/j.issn.1001-9081.2023010021
    摘要 ( )   HTML ( )   PDF (2830KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对多层超网络研究多集中于拓扑结构,且影响力节点识别方法中涉及指标较为单一,无法全面准确识别影响力节点的情况,提出一种基于证据理论的多层超网络影响力节点识别方法。首先,在多层超网络拓扑结构基础上,根据聚合网络思想构建多层聚合超网络;其次,基于证据理论定义问题的辨识框架;最后,利用D-S(Dempster-Shafer)证据组合方法,融合网络的局部、位置和全局指标以识别网络影响力节点。将该方法应用于arXiv数据集构建的物理-计算机科学双层科研合作超网络(MAH),在基于RP(Reactive Process)和CP(Contact Process)策略的易感-感染-易感(SIS)超网络传播模型中,与超度中心性、K-shell、接近中心性方法等相比,传播速度最快,且最先达到稳态;隔离影响力排名前6%节点后,网络平均超度、聚类系数以及网络效率均减小;随着隔离影响力节点比例的增大,网络子图数量增速与接近中心性方法相近;通过单调性指标值度量识别结果粗粒度,达到0.999 8,识别结果具有较高区分度。综合多个实验结果,表明该多层超网络影响力节点识别方法准确有效。

    有向图上基于层次树索引的最大cycle truss社区搜索
    宗传玉, 张纯鹤, 夏秀峰
    2024, 44(1):  190-198.  DOI: 10.11772/j.issn.1001-9081.2023010071
    摘要 ( )   HTML ( )   PDF (2751KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    社区搜索旨在从信息网络中找出包含用户查询顶点的高内聚连通子图,cycletruss是一种基于cycle三角形的社区搜索模型,而现有的基于索引的cycle truss社区搜索方法存在索引空间大、搜索效率低、社区内聚性低的缺点。为了解决这一问题,提出一种基于层次树索引的最大cycle truss社区搜索方法。首先,提出了k-cycle truss分解算法,并引入了两个重要的概念:cycle三角连通与k-层次等价。基于k-层次等价设计了层次树索引TreeCIndex与表结构索引SuperTable,在此基础上,并基于这两个新的索引,提出了两个高效的cycle truss社区搜索算法。在4个真实数据集上与已有的基于TrussIndex与EquiTruss的社区搜索算法进行了比较,实验结果表明,TreeCIndex与SuperTable比TrussIndex与EquiTruss节省至少41.5%的空间,索引构建的时间节省8.2%至98.3%,且搜索最大cycle truss社区的效率分别高出了一个和两个数量级。

    基于t检验和逐步网络搜索的有向基因调控网络推断算法
    陈都, 李圆媛, 陈彧
    2024, 44(1):  199-205.  DOI: 10.11772/j.issn.1001-9081.2023010086
    摘要 ( )   HTML ( )   PDF (1783KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    为了克服基于条件互信息的路径一致算法(PCA-CMI)无法识别调控方向的缺陷,并进一步提高网络推断准确率,提出了一种基于t检验和逐步网络搜索的有向网络推断算法(DNI-T-SRS)。首先,对不同实验条件下的表达数据进行t检验以辨别基因调控的上下游关系,指导路径一致(Path Consensus)算法中条件基因的选取,根据CMI2(Conditional Mutual Inclusive Information)剔除网络中的冗余边,得到了基于t检验的有向调控关系推断算法CMI2NI-T(CMI2-based Network Inference guided by t-Test);然后,建立有向调控关系对应的米氏微分方程模型对数据进行拟合,根据贝叶斯信息准则进行逐步网络搜索以修正网络推断结果。利用CMI2NI-T推断DREAM6挑战中的两个测试网络,所得到的曲线下面积(AUC)分别为0.767 9和0.979 6,相较于PCA-CMI分别提高了16.23%和11.62%;通过进一步的数据拟合后DNI-T-SRS的推断准确率分别达到了86.67%和100.00%,相较于PCA-CMI分别提高了18.19%和10.52%。实验结果表明,所提DNI-T-SRS算法能够有效剔除间接调控关系并保留直接调控连接,得到精确的基因调控网络推断结果。

    基于无监督语义哈希的高效相似题检索模型
    佟威, 何理扬, 李锐, 黄威, 黄振亚, 刘淇
    2024, 44(1):  206-216.  DOI: 10.11772/j.issn.1001-9081.2023091260
    摘要 ( )   HTML ( )   PDF (1988KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    相似题检索旨在从数据库中找到与给定查询试题考查目标相似的试题。随着在线教育的不断发展,试题数据库日益庞大,且由于试题数据的专业属性使标注相关性非常困难,因此需要一种高效且无需标注的相似题检索模型。无监督语义哈希能在无监督信号的前提下将高维数据映射为低维且高效的二值表征。但不能简单地将语义哈希模型应用在相似题检索模型中,因为试题数据具有丰富的语义信息,而二值向量的表征空间有限。为此,提出一个能获取、保留关键信息的相似题检索模型。首先,设计了一个关键信息获取模块获取试题数据的关键信息,并引入去冗余目标损失去除冗余信息;其次,在编码过程中引入随时间变化的激活函数,减少编码信息损失;再次,为了最大化利用汉明空间,在优化过程中引入比特平衡目标和比特无关目标以优化二值表征的分布。在MATH和HISTORY数据集上的实验结果表明,相较于表现最好的文本语义哈希模型DHIM (Deep Hash InfoMax),所提模型在2个数据集的3个召回率设置上分别平均提升约54%和23%;在检索效率方面,所提模型比最优的相似题检索模型QuesCo具有明显的优势。

    网络空间安全
    横向联邦学习中差分隐私聚类算法
    徐雪冉, 杨庚, 黄喻先
    2024, 44(1):  217-222.  DOI: 10.11772/j.issn.1001-9081.2023010019
    摘要 ( )   HTML ( )   PDF (1418KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    聚类分析能够挖掘出数据间隐藏的内在联系并对数据进行多指标划分,从而促进个性化和精细化运营。然而,数据孤岛造成的数据碎片化和孤立化严重影响了聚类分析的应用效果。为了解决数据孤岛问题的同时保护相关数据隐私,提出本地均分扰动联邦K-means算法(ELFedKmeans)。针对横向联邦学习模式,设计了一种基于网格的初始簇心选择方法和一种隐私预算分配方案。在ELFedKmeans算法中,各站点联合协商随机种子,以较小的通信代价生成相同的随机噪声,保护了本地数据的隐私。通过理论分析证明了该算法满足差分隐私保护,并将该算法与本地差分隐私K-means(LDPKmeans)算法和混合型隐私保护K-means (HPKmeans)算法在不同的数据集上进行了对比实验分析。实验结果表明,随着隐私预算不断增大,三个算法的F-measure值均逐渐升高;误差平方和(SSE)均逐渐减小。从整体上看,ELFedKmeans算法的F-measure值比LDPKmeans算法和HPKmeans算法分别高了1.794 5%~57.066 3%和21.245 2%~132.048 8%;ELFedKmeans算法的Log(SSE)值比LDPKmeans算法和HPKmeans算法分别减少了1.204 2%~12.894 6%和5.617 5%~27.575 2%。在相同的隐私预算下,ELFedKmeans算法在聚类质量和可用性指标上优于对比算法。

    基于生成对抗网络的联邦学习深度影子防御方案
    周辉, 陈玉玲, 王学伟, 张洋文, 何建江
    2024, 44(1):  223-232.  DOI: 10.11772/j.issn.1001-9081.2023010088
    摘要 ( )   HTML ( )   PDF (4561KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    联邦学习(FL)可以使用户在不直接上传原始数据的条件下完成多方数据共享和交互,有效降低隐私泄露风险。然而,现有的研究表明敌手仍可以通过共享的梯度信息重构出原始数据。为进一步保护联邦学习隐私,基于生成对抗网络(GAN)提出一种联邦学习深度影子防御方案。首先,通过生成对抗网络学习原始真实数据分布特征,并生成可替代的影子数据;然后,通过影子数据训练影子模型替代原始模型,敌手无法直接获取真实数据训练过的原始模型;最后,利用影子数据在影子模型中产生的影子梯度替代真实梯度,使敌手无法获取真实梯度。在CIFAR10和CIFAR100数据集上进行了实验:与添加噪声、梯度裁剪、梯度压缩、表征扰动和局部正则化稀疏化五种防御方案相比,在CIFAR10数据集上所提方案的均方误差(MSE)是对比方案的1.18~5.34倍,特征均方误差(FMSE)是对比方案的4.46~1.03×107倍,峰值信噪比(PSNR)是对比方案的49.9%~90.8%;在CIFAR100数据集上的MSE是对比方案的1.04~1.06倍,FMSE是对比方案的5.93~4.24×103倍,PSNR是对比方案的96.0%~97.6%。相较于深度影子防御方法,所提方案考虑了敌手的实际攻击能力和影子模型训练存在的问题,设计了威胁模型和影子模型生成算法,在理论分析和实验方面表现更好,而且能够在保证准确率的前提下有效降低联邦学习隐私泄露风险。

    车载自组织网络中格基签密的可认证隐私保护方案
    崔剑阳, 蔡英, 张宇, 范艳芳
    2024, 44(1):  233-241.  DOI: 10.11772/j.issn.1001-9081.2023010083
    摘要 ( )   HTML ( )   PDF (2194KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对车载自组织网络(VANET)中用户的隐私泄露和信息传输过程中的安全认证问题,提出一种VANET中格基签密的可认证隐私保护方案。首先,消息发送方利用接收方的公钥对消息进行签密,只有拥有私钥的接收车辆才能解密出消息,以保证消息内容在传输过程中只对授权用户可见;其次,车辆接收方解密出消息后,利用单向安全的哈希函数计算消息的哈希值,并判断是否与签密过程中的哈希值相等,实现对消息的认证;最后,采用快速数论变换(NTT)算法降低格中环上多项式乘法的计算开销,提高方案的计算效率。在随机预言机模型下证明了所提方案在适应性选择密文攻击下具有不可区分性,在适应性选择消息攻击(IND-CCA2)下具有强不可伪造性。此外,所提方案的安全性基于格上困难问题,可以抵抗量子算法攻击。仿真实验结果表明,与同类具有消息认证功能的隐私保护方案以及基于格上困难问题的签名方案相比,所提方案的通信时延至少减少了10.01%,消息丢失率至少减小了31.79%,通信开销至少减少了31.25%。因此,所提方案更适用于资源有限的VANET环境。

    区块链下社交网络用户抄袭识别方案
    李莉, 杨春艳, 朱江文, 胡荣磊
    2024, 44(1):  242-251.  DOI: 10.11772/j.issn.1001-9081.2023010031
    摘要 ( )   HTML ( )   PDF (4508KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为文本相似度检测提供依据。在Merkle树和布隆过滤器结构的基础上,设计了新的索引结构BHMerkle,减少了区块构建和查询时的计算开销,实现了对交易的快速定位。同时提出多特征权重Simhash算法,提高了词权计算的准确性并提高签名值匹配阶段的效率,从而对具有抄袭行为的恶意用户进行识别,并通过奖惩机制遏制恶意行为的发生。抄袭识别方案在不同主题的新闻数据集上的平均准确率为94.8%,平均召回率为88.3%,相较于多维度Simhash算法和基于信息熵加权的Simhash(E-Simhash)算法,平均准确率分别提升了6.19、4.01个百分点,平均召回率分别提升了3.12、2.92个百分点。实验结果表明,所提方案在抄袭文本的查询及检测效率方面均有所提升,且在抄袭识别方面具有较高的准确性。

    基于区块链的车载自组网车与基础设施快速切换认证方案
    宁娟桂, 董国芳
    2024, 44(1):  252-260.  DOI: 10.11772/j.issn.1001-9081.2023010068
    摘要 ( )   HTML ( )   PDF (3139KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对车载自组网(VANET)中车辆通信面临的安全风险挑战以及车辆进入新的基础设施覆盖范围时需要进行复杂的身份重新认证问题,提出基于区块链的车载自组网V2I(Vehicle-to-Infrastructure)快速切换认证方案。该方案利用区块链去中心化、分布式和防篡改的特性,实现车辆认证信息的存储与查询;使用令牌机制,减少区块链查询次数,简化路边单元(RSU)切换认证阶段的认证过程,在后续的认证过程中只需检查令牌的有效性,实现了RSU的快速切换认证;采用了批量认证方法,能有效减少认证过程中的计算开销,提高消息认证效率;另外,可以实现对恶意车辆的追溯与撤销,并及时更新车辆的匿名身份,保证车辆的匿名性。相较于匿名批量认证方案、全聚合认证方案、无证书聚合签名方案、基于区块链的认证方案,所提方案在消息认证耗时上缩短了约51.1%、77.45%、77.56%和76.01%。实验结果表明,该方案能够有效降低车载自组网中的计算开销和通信开销。

    先进计算
    防恶意竞价的众包多任务分配激励机制
    张佩瑶, 付晓东
    2024, 44(1):  261-268.  DOI: 10.11772/j.issn.1001-9081.2023010024
    摘要 ( )   HTML ( )   PDF (1958KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    众包的飞速发展丰富了任务执行者的阅历和技能,使他们更加了解任务且倾向于同时完成多种任务,因此根据执行者对任务的主观偏好进行分配成为一种常见的任务分配方式;但是出于个人利益,执行者可能采取恶意竞价行为换取更高的收益,这对众包平台的发展是不利的。为此,提出一种防恶意竞价的众包多任务分配激励机制GIMSM(Greedy Incentive Mechanism for Single-Minded)。该机制定义了一个线性比值作为分配依据,再根据贪心策略从执行者比值递增的序列中依次选取并分配任务,最后按照支付函数对分配算法选中的任务执行者进行支付,得到最终的任务分配结果。在Taxi and Limousine Commission Trip Record Data数据集上进行实验。相较于TODA(Truthful Online Double Auction mechanism)、TCAM(Truthful Combinatorial Auction Mechanism)和FU方法,GIMSM在不同工人数下的任务结果平均质量水平分别提高了25.20、13.20和4.40个百分点,GIMSM在不同任务数下的任务结果平均质量水平分别提高了26.17、16.17和9.67个百分点。此外,GIMSM满足个体理性和激励相容,可在线性时间内得到任务分配结果。实验结果表明GIMSM具有良好的防恶意竞价性能,在具有大量数据的众包平台上有更好的表现。

    基于两阶段搜索与动态资源分配的约束多目标进化算法
    马勇健, 史旭华, 王佩瑶
    2024, 44(1):  269-277.  DOI: 10.11772/j.issn.1001-9081.2023010012
    摘要 ( )   HTML ( )   PDF (2145KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    解决约束多目标优化问题(CMOP)的难点在于平衡目标优化和约束满足的同时兼顾解集的收敛性和多样性。为解决具有大型不可行区域和较小可行区域的复杂约束多目标优化问题,提出一种基于两阶段搜索与动态资源分配的约束多目标进化算法(TSDRA)。该算法在第一阶段通过忽略约束跨越不可行区域;然后在第二阶段通过动态分配两种计算资源协调局部开发和全局探索,兼顾算法的收敛性和多样性。在LIRCMOP和MW系列测试问题上进行的仿真实验结果表明,与四个代表性的算法CMOEA-MS(Constrained Multi-Objective Evolutionary Algorithm with Multiple Stages)、ToP(Two-phase)、PPS(Push and Pull Search)和MSCMO(Multi Stage Constrained Multi-Objective evolutionary algorithm)相比,所提算法在反转世代距离(IGD)和超体积(HV)上得到了更优异的结果。在LIRCMOP系列测试问题上,TSDRA获得了10个最佳的IGD值和9个最佳的HV值;在MW系列测试问题上,TSDRA获得了9个最佳的IGD值和10个最佳的HV值,表明所提算法可以更有效地解决具有大型不可行区域和较小可行区域的问题。

    多媒体计算与计算机仿真
    人手抓取物体的三维数据集的建立及应用
    刘健, 尤晨晨, 曹金明, 曾琼, 屠长河
    2024, 44(1):  278-284.  DOI: 10.11772/j.issn.1001-9081.2023010009
    摘要 ( )   HTML ( )   PDF (5236KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    真实人手抓取数据在人类抓取行为分析和机器人类人抓取等研究中起到至关重要的作用。抓取数据集中应包含复杂形状的三维物体信息、抓取点的信息以及手的姿态和形状,然而目前普遍方法是采集视频图像并从中估计人的抓取行为,导致不能准确记录手部各个关节的自由度信息。利用虚拟现实技术建立虚拟环境,利用数据手套直接捕捉在虚拟环境中三维物体和手部姿态信息作为抓取数据。提出的数据集包含生活中常见的49类物体中的91个不同形状的物体(每个有108个姿态)以及共52 173人次的抓取记录,规模和丰富性都远远超过了已有的用于研究人类的抓取行为和研究以人为核心的抓取技术的数据集。此外,使用采集的数据集进行抓取显著性分析和类人抓取计算,实验结果验证了数据集的应用价值。

    基于三维点云处理的髋臼锉锉齿尺寸分析
    杨国威, 陈绮帆, 刘新月, 王校阳
    2024, 44(1):  285-291.  DOI: 10.11772/j.issn.1001-9081.2023010033
    摘要 ( )   HTML ( )   PDF (8674KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    髋臼锉是髋关节置换手术中最重要的手术刀具之一,髋臼锉锉齿的尺寸变化会影响髋臼锉对髋臼的铣削质量。通过处理髋臼锉三维点云可以检验髋臼锉的磨损情况,为此提出基于三维点云处理的髋臼锉锉齿尺寸分析的算法。首先结合锉齿孔洞具有点云的边界特征引入微切面法,利用最大夹角准则获取髋臼锉点云的边界;然后通过K-means聚类算法分割点云边界以标记不同齿孔位置,并对分割出的各个齿孔边界点云进行半径最近邻搜索获取隶属不同的锉齿孔的齿刃点云;最后通过RANSAC(RANandom SAample Consensus)算法对髋臼锉三维点云进行球面拟合,计算各齿孔上的齿刃点云到拟合球心的欧氏距离来分析髋臼锉的切削齿尺寸。以PCL(Point Cloud Library)为框架,实现了对髋臼锉锉齿点云的处理,其中髋臼锉点云的齿孔分割准确度达到100%,髋臼锉点云球面拟合半径精度达到0.004 mm;并对各个锉齿点云尺寸范围进行了分析。实验结果表明,所提算法对髋臼锉点云处理效果好,能有效地实现髋臼锉锉齿尺寸分析。

    基于Transformer-CNN的轻量级图像超分辨率重建网络
    陈豪, 夏振平, 程成, 林李兴, 张博文
    2024, 44(1):  292-299.  DOI: 10.11772/j.issn.1001-9081.2023010048
    摘要 ( )   HTML ( )   PDF (1855KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有超分辨率重建网络具有较高的计算复杂度和存在大量内存消耗的问题,提出了一种基于Transformer-CNN的轻量级图像超分辨率重建网络,使超分辨率重建网络更适合应用于移动平台等嵌入式终端。首先,提出了一个基于Transformer-CNN的混合模块,从而增强网络捕获局部-全局深度特征的能力;其次,提出了一个改进的倒置残差块来特别关注高频区域的特征,以提升特征提取能力和减少推理时间;最后,在探索激活函数的最佳选择后,采用GELU (Gaussian Error Linear Unit)激活函数来进一步提高网络性能。实验结果表明,所提网络可以在图像超分辨率性能和网络复杂度之间取得很好的平衡,而且在基准数据集Urban100上4倍超分辨率的推理速度达到91 frame/s,比优秀网络SwinIR (Image Restoration using Swin transformer)快11倍,表明所提网络能够高效地重建图像的纹理和细节,并减少大量的推理时间。

    前沿与综合应用
    集成的深度强化学习投资组合模型
    龙杰, 谢良, 徐海蛟
    2024, 44(1):  300-310.  DOI: 10.11772/j.issn.1001-9081.2023010028
    摘要 ( )   HTML ( )   PDF (3723KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    投资组合问题是量化交易领域中的热点问题。针对现有基于深度强化学习的投资组合模型无法实现自适应的交易策略和有效利用有监督信息的缺陷,提出一种集成的深度强化学习投资组合模型(IDRLPM)。首先,采用多智能体方法构造多个基智能体并设计不同交易风格的奖励函数,以表示不同的交易策略;其次,利用集成学习方法对基智能体的策略网络进行特征融合,得到自适应市场环境的集成智能体;然后,在集成智能体中嵌入基于卷积块注意力模块(CBAM)的趋势预测网络,趋势预测网络输出引导集成策略网络自适应选择交易比重;最后,在有监督深度学习和强化学习交替迭代训练下,IDRLPM有效利用训练数据中的监督信息以增强模型盈利能力。在上证50的成分股和中证500的成分股数据集中,IDRLPM的夏普比率(SR)达到了1.87和1.88,累计收益(CR)达到了2.02和1.34;相较于集合式的深度强化学习(EDRL)交易模型,SR提高了105%和55%,CR提高了124%和79%。实验结果表明,IDRLPM能够有效解决投资组合问题。

    结合LSTM和自注意力机制的图卷积网络短期电力负荷预测
    史含笑, 王雷春
    2024, 44(1):  311-317.  DOI: 10.11772/j.issn.1001-9081.2023010078
    摘要 ( )   HTML ( )   PDF (2173KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对现有电力负荷预测模型建模工作量大、时空联合表征不足、预测精度低等问题,提出了一种结合长短期记忆(LSTM)网络和自注意力机制的图卷积网络(GCN)的短期电力负荷预测模型GCNLS-STLF。首先,利用LSTM和自注意力机制将原始多维时间序列数据转化为包含序列间关联关系的电力负荷图;然后,通过GCN、LSTM和图傅里叶变换(GFT)对电力负荷图进行特征提取;最后,使用全连接层对特征进行重构,并利用残差进行多次预测,以增强原始电力负荷数据的表达能力。在摩洛哥与巴拿马某电站的真实历史电力负荷数据上进行的短期电力负荷预测实验结果显示,与支持向量机(SVM)、LSTM、混合模型CNN-LSTM和基于注意力的CNN-LSTM(CNN-LSTM-attention)等预测模型相比,GCNLS-STLF在摩洛哥全部电力负荷测试集上的平均绝对百分比误差(MAPE)分别降低1.94、0.90、0.49和0.37个百分点;在巴拿马电力负荷测试集上的3月份MAPE分别降低1.39、0.94、0.38和0.29个百分点,6月份MAPE分别降低1.40、0.99、0.35和0.28个百分点。实验结果表明,GCNLS-STLF能有效提取电力负荷的关键特征,预测效果较好。

    基于三维空间面积划分的轨迹相似性度量算法
    徐凯, 高琦凯, 殷明, 谭京京
    2024, 44(1):  318-323.  DOI: 10.11772/j.issn.1001-9081.2023010077
    摘要 ( )   HTML ( )   PDF (1595KB) ( )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    针对大部分轨迹相似性度量算法无法区分方向相反轨迹的问题,提出了一种基于三维空间面积划分的三维三角分割(3TD)算法。首先,按照3TD算法的时间转换规则将轨迹集的绝对时间序列转变为相对时间序列;然后,在由经度、纬度以及时间三要素构成的三维空间坐标系中,通过划分规则将轨迹间面积分割成若干互不重叠的三角形,累加三角形面积并计算轨迹相似度;最后,在从船舶自动识别系统(AIS)收集的随机采样轨迹数据集上,与最长公共子序列(LCSS)算法和三角分割(TD)算法等进行了对比实验。实验结果表明:3TD算法对实验数据集中异向轨迹识别精确度达到100%;同时该算法面对海量数据集以及轨迹点部分缺失的数据集时,也能维持准确的度量结果以及较高的运算效率,能更好地适应异向轨迹相似度量工作。

    基于非完整点云法线滤波补偿的散货船舶舱口识别算法
    宋郁珉, 孙浩, 李湛, 李长安, 乔晓澍
    2024, 44(1):  324-330.  DOI: 10.11772/j.issn.1001-9081.2023010051
    摘要 ( )   PDF (2041KB) ( )  
    参考文献 | 相关文章 | 计量指标

    自动装船系统是智能化港口建设的重要组成部分,能够大幅降低港口作业成本,提高经济效益。舱口识别作为自动装船任务的首要环节,成功率和识别精度是后续任务顺利进行的重要保障。由于港口激光雷达的数目和角度等问题,采集所得船舶点云数据时常出现缺失;此外船舶舱口附近经常有大量物料堆积,会使采集到的点云数据无法准确表达舱口的几何信息。由于上述港口实际装船作业中时常出现的问题,显著降低了现有算法的识别成功率,对自动装船作业造成了不良影响,因此迫切需要提升在船舶点云中存在物料干扰或舱口数据缺失的情况下的舱口识别成功率。基于船舶结构特征与自动装船过程中采集的点云数据分析,提出了基于非完整点云法线滤波补偿的散货船舶舱口识别算法。在使用港口实际采集点云所制作的数据集上进行了实验验证,识别成功率和识别精度较Miao和Li的舱口识别算法相比均有提升。实验结果表明,所提算法既能对舱口内物料噪声进行滤除,又能对数据缺失部分进行补偿,能够有效提升舱口识别效果。

2025年 45卷 4期
刊出日期: 2025-04-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会