台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工单分类模型(MiniRBT-LSTM-GAT)。首先,利用预训练模型计算电力工单文本中的字符级特征向量表示;其次,采用双向长短期记忆网络(BiLSTM)捕捉电力文本序列中的依赖关系;再次,通过图注意力网络(GAT)聚焦对文本分类贡献大的特征信息;最后,利用LS改进损失函数以提高模型的分类精度。所提模型与当前主流的文本分类算法在农网台区电力工单数据集(RSPWO)、浙江省95598电力工单数据集(ZJPWO)和THUCNews(TsingHua University Chinese News)数据集上的实验结果表明,与电力审计文本多粒度预训练语言模型(EPAT-BERT)相比,所提模型在RSPWO、ZJPWO上的查准率和F1值分别提升了2.76、2.02个百分点和1.77、1.40个百分点;与胶囊神经网络模型BRsyn-caps(capsule network based on BERT and dependency syntax)相比,所提模型在THUCNews数据集上的查准率和准确率分别提升了0.76和0.71个百分点。可见,所提模型有效提升了台区电力工单分类的性能,并在THUCNews数据集上表现良好,验证了模型的通用性。
重大突发性传染病以它的强传染性、快变异性和高风险性,对人类生命安全与经济发展构成重大威胁。流行病学调查是遏制传染病扩散的关键步骤和落实全链路精准防控的前提。针对现有流调系统存在的人工效率低下、数据质量差、专业知识不足等问题,在现有数字化的基础上结合知识图谱,提出一套辅助流行病学调查的技术应用方案。首先,基于人、地、事、物、组织五大类实体及其关系和属性构建知识图谱;其次,根据病例查风险点位查密接的思路,以病例为起点,以点位为重心,辅助判定风险人群和风险点位;最后,通过对流调数据的可视化分析,实现流调信息落位、传播扩散溯源和疫情态势感知等多个应用,从而辅助重大突发性传染病防控工作的顺利开展。在相同的误差范围内,基于图谱增强的轨迹落位方法的准确率显著高于传统基于人工问询的方法,千米内的判定准确率达到85.15%;基于图谱增强的风险点位和人群的判定方法使得效率显著提升,生成报告的平均耗时降至1 h内。实验结果表明,所提方案有效融合了知识图谱的技术优势,不仅提高了精准疫情防控策略制定的科学性与时效性,更为流行病传染预防领域的实践探索提供了重要的参考价值。
针对中药材粉末的显微图像中含有大量细微特征和背景干扰因素导致的同一类药材的变化过大(类内差异大)和多种药材之间特征过于相似(类间差异小)的问题,提出一种多尺度2D-Adaboost算法。首先,构建一个全局?局部特征融合的主干网络架构,以更好地提取多尺度特征,该架构通过结合Transformer和卷积神经网络(CNN)的优势能有效提取并融合各个尺度的全局和局部特征,从而显著提高主干网络的特征捕捉能力;其次,将Adaboost的单尺度输出拓展到多尺度,并构建2D-Adaboost结构的背景抑制模块,该模块将主干网络各个尺度的输出特征图划分为前景和背景,从而有效抑制背景区域的特征值,并增加判别性特征的强度;最后,在2D-Adaboost结构的每个尺度上额外添加一个分类器以构建特征细化模块,该模块通过控制温度参数协调分类器间的协作学习,从而逐步细化不同尺度的特征图,帮助网络学习更合适的特征尺度,并丰富细节特征的表示。实验结果表明,所提算法的识别准确率达到了96.85%,与ConvNeXt-L、ViT-L、Swin-L和Conformer-L模型相比分别上升了7.56、5.26、3.79和2.60个百分点。高准确率和分类效果的稳定性验证了所提算法在中药材粉末显微图像分类任务中的有效性。
提取准确的边缘信息对分割建筑物至关重要。将多尺度细节与语义特征进行简单融合,或者设计复杂的损失函数引导网络关注边缘信息是当前较常见的方法,然而这些方法很少关注语义和细节特征的相互促进作用。针对该问题,提出一种基于语义和细节特征双促进的遥感影像建筑物提取网络。所提网络的结构类似U-Net框架,在编码端提取浅层高分辨率细节特征图,在解码端将深层的语义与细节特征双促进模块(SDFF)嵌入主干网络中,从而使网络同时具备较好的语义特征和细节特征的提取能力。之后对语义和细节特征进行通道融合,并结合不同分辨率影像的边缘损失监督,提高网络对建筑物细节的提取能力和泛化性。实验结果表明:与U-Net和双路细节关注网络(DSDCNet)等多种主流方法相比,所提网络在WHU数据集和马萨诸塞州建筑物(Massachusetts)数据集上均取得了最佳的语义分割结果。可见,所提网络能更好地保留建筑物边缘特征,有效提升遥感影像中的建筑物分割精度。
面对未来双功能雷达通信(DFRC)系统对通信与感知性能的更高要求,结合非正交多址(NOMA)和可重构智能表面(RIS)技术,提出一种RIS辅助的融合多簇NOMA的DFRC系统模型。在所提模型中,DFRC基站利用叠加的多簇NOMA信号实现目标感知,并借助RIS反射建立的虚拟视距链路提升多簇NOMA中的用户通信性能。基于所提模型,以最大化系统和速率与感知功率的加权和为目标,构建受多条件约束且包含多变量耦合的非凸目标函数。为求解该目标函数,提出一种联合波束成形与功率分配的优化方案。在所提方案中,首先,将原优化问题分解为3个非凸优化子问题;其次,采用连续凸逼近(SCA)和半正定松弛(SDR)等方法将原非凸优化子问题转换为凸优化子问题;最后,采用交替优化(AO)方法对这些子问题进行迭代求解,从而实现联合波束成形(包括主动波束成形和被动波束成形)和簇内功率分配系数的优化。仿真实验结果表明,所提方案具有良好的通信性能与感知性能,与正交多址(OMA)方案相比,系统和速率的提升约为1 bit/(s·Hz),同时保持较高的目标感知性能,在通信性能和感知性能之间取得较好的折中。
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。
为解决网络架构复杂化、动态化和碎片化演变导致的边界防护措施失效,应对非自主可控的系统、软硬件和密码算法不断呈现的脆弱性对网络数据安全造成的挑战,首先,基于零信任理念设计一个零信任网络架构实现模型;其次,提出一种零信任网络安全保护框架,在身份管理与认证、授权与访问、数据处理与传输等环节融合利用零信任安全理念、国密算法体系和可信计算技术,设计国密证书申请与签发、业务数据安全处理与传输等框架流程,并设计与实现身份与访问管理模块、终端可信网络访问代理设备等功能组件;最后,构建基于安全保护框架的网络平台,从而为网络数据安全保护和零信任安全实践提供新框架、技术和工具。安全分析与性能测试的结果显示,所提平台对SM2的签名与验签性能分别平均达到了每秒1 118.72次和每秒441.43次,对SM4的加密和解密性能分别平均达到了10.05 MB/s和9.96 MB/s,平台数据安全访问/响应性能为7.23 MB/s,表明所提框架可以提供稳定的数据安全支持。
传统的基于表示学习的知识推理方法只能用于封闭世界的知识推理,有效进行开放世界的知识推理是目前的热点问题。因此,提出一种基于路径和增强三元组文本的开放世界知识推理模型PEOR(Path and Enhanced triplet text for Open world knowledge Reasoning)。首先,使用由实体对间结构生成的多条路径和单个实体周围结构生成的增强三元组,其中路径文本通过拼接路径中的三元组文本得到,而增强三元组文本通过拼接头实体邻域文本、关系文本和尾实体邻域文本得到;其次,使用BERT(Bidirectional Encoder Representations from Transformers)分别编码路径文本和增强三元组文本;最后,使用路径向量和三元组向量计算语义匹配注意力,再使用语义匹配注意力聚合多条路径的语义信息。在3个开放世界知识图谱数据集WN18RR、FB15k-237和NELL-995上的对比实验结果表明,与次优模型BERTRL(BERT-based Relational Learning)相比,所提模型的命中率(Hits@10)指标分别提升了2.6、2.3和8.5个百分点,验证了所提模型的有效性。
针对内镜语义分割网络中病灶边缘信息丢失和大面积病灶分割不全的问题,提出一种引入解耦残差自注意力(DRA)的边界交叉监督语义分割网络(BCS-SegNet)。首先,引入DRA,以增强网络对远距离关联性病灶的学习能力;其次,构建跨级交叉融合(CLF)模块,从而将编码结构中的多级特征图逐对组合,进而实现在低计算成本下图像细节与语义信息的融合;最后,使用多方向多尺度的二维Gabor变换提取边缘信息,并使用空间注意力加权特征图中的边缘特征,以监督分割网络的解码过程,从而在像素级别上提供更精准的类内分割一致性。实验结果表明,在ISIC2018皮肤镜和Kvasir-SEG/CVC-ClinicDB结肠镜数据集上,BCS-SegNet的平均交并比(mIoU)和Dice系数分别为84.27%、90.68%和79.24%、87.91%;在自建食管内镜数据集上,BCS-SegNet的mIoU和Dice系数分别为82.73%和90.84%,mIoU相较于U-net和UCTransNet分别提升了3.30%和4.97%。可见,所提网络可以达到更完整的分割区域和更清晰的边缘细节等视觉效果。
针对小样本学习模型在数据域存在偏移时分类准确度不高的问题,提出一种基于关系网络和ViT (Vision Transformer)的跨域小样本图像分类模型ReViT (Relation ViT)。首先,引入ViT作为特征提取器,并使用经过预训练的深层神经网络解决浅层神经网络的特征表达能力不足的问题;其次,以浅层卷积网络作为任务适配器提升模型的知识迁移能力,并基于关系网络和通道注意力机制构建非线性分类器;随后,将特征提取器和任务适配器进行特征融合,从而增强模型的泛化能力;最后,采取“预训练-元学习-微调-元测试”四阶段学习策略训练模型,有效融合迁移学习与元学习,进一步提升ReViT的跨域分类性能。以平均分类准确率为评估指标的实验结果表明,ReViT在跨域小样本分类问题上有良好的性能。具体地,ReViT的分类准确度在Meta-Dataset的域内场景下和域外场景下相较于次优的模型分别提升了5.82和1.71个百分点,在BCDFSL (Broader study of Cross-Domain Few-Shot Learning)数据集的3个子问题EuroSAT(European SATellite data)、CropDisease和ISIC (International Skin Imaging Collaboration)的5-way 5-shot上相较于次优的模型分别提升了1.00、1.54和2.43个百分点,在EuroSAT、CropDisease和ISIC的5-way 20-shot上相较于次优的模型分别提升了0.13、0.97和3.40个百分点,在CropDisease的5-way 50-shot上相较于次优的模型提升了0.36个百分点。可见,ReViT能在样本量稀少的图像分类任务上保持良好的准确率。
注意力机制的引入使得主干网能够学习更具区分性的特征表示。然而,为了控制注意力的复杂度,传统的注意力机制采用的通道降维或减少通道数而增加批量大小的策略会导致过度减少通道数和损失重要特征信息的问题。为解决这一问题,提出通道重洗注意力(CSA)模块。首先,利用分组卷积学习注意力权重,以控制CSA的复杂度;其次,通过传统通道重洗和深层通道重洗(DCS)方法,增强不同组间的通道特征信息交流;再次,使用逆通道重洗恢复注意力权重的顺序;最后,将恢复后的注意力权重与原始特征图相乘,以获得更具表达能力的特征图。实验结果表明,在CIFAR-100数据集上,与添加CA(Coordinate Attention)的ResNet50相比,添加CSA的ResNet50的参数量降低了2.3%,Top-1准确率提升了0.57个百分点;与添加EMA(Efficient Multi-scale Attention)的ResNet50相比,添加CSA的ResNet50的计算量降低了18.4%,Top-1准确率提升了0.27个百分点。在COCO2017数据集上,添加CSA的YOLOv5s比添加CA和EMA的YOLOv5s在平均精度均值(mAP@50)上分别提升了0.5和0.2个百分点。可见,CSA达到了参数量和计算量的平衡,并能够同时提升图像分类任务的准确率和目标检测任务的定位能力。
针对脑肿瘤图像分割模型对肿瘤区域关注度不够及易丢失空间上下文信息,导致对肿瘤区域分割效果不佳的问题,提出一种融合坐标增强学习机制(CEL)与多源采样的TransUNet脑肿瘤分割网络。首先,提出一种CEL,结合ResNetv2作为模型的浅层特征提取网络,增加对脑肿瘤区域的关注度;其次,设计深层混合采样特征提取器,并利用可变形注意力与自注意力机制对脑肿瘤的全局与局部信息进行多源采样;最后,在编码器与解码器之间设计交互层级融合(ILF)模块,从而在实现深层与浅层特征信息交互的同时减少参数的计算量。在BraTS2018和BraTS2019数据集上的实验结果表明:相较于基准TransUNet,所提模型的平均相似性系数(mDice)、平均交并比(mIoU)、平均精度均值(mAP)和平均召回率(mRecall)分别提高4.84、7.21、3.83和3.15个百分点,模型大小降低了16.9 MB。
利用场景图的上下文信息可以帮助模型理解目标之间的关联作用;然而,大量不相关的目标可能带来额外噪声,进而影响信息交互,造成预测偏差。在嘈杂且多样的场景中,即使几个简单的关联目标,也足够推断目标所处的环境信息,并消除其他目标的歧义信息。此外,在面对真实场景中的长尾偏差数据时,场景图生成(SGG)的性能难以令人满意。针对上下文信息增强和预测偏差的问题,提出一种基于关联信息增强与关系平衡的SGG(IERB)方法。IERB方法采用一种二次推理结构,即根据有偏场景图的预测结果重新构建不同预测视角下的关联信息并平衡预测偏差。首先,聚焦不同视角下的强相关目标以构建上下文关联信息;其次,利用树型结构的平衡策略增强尾部关系的预测能力;最后,采用一种预测引导方式在已有场景图的基础上预测优化。在通用的数据集Visual Genome上的实验结果表明,与3类基线模型VTransE(Visual Translation Embedding network)、Motif和VCTree(Visual Context Tree)相比,所提方法在谓词分类(PredCls)任务下的均值召回率mR@100分别提高了11.66、13.77和13.62个百分点,验证了所提方法的有效性。
为解决工业云存储系统数据遭受篡改等网络主动攻击问题,实现工业数据云端安全共享的目标,并确保工业数据传输与存储过程的机密性、完整性与可用性,提出基于工业云存储系统的数据防篡改批量审计方案。在该方案中,设计基于双线性对映射的同态数字签名算法,使第三方审计者实现对工业云存储系统数据的批量防篡改完整性检测,并及时将防篡改完整性审计结果反馈给工程服务终端用户;此外,通过加入审计者减轻工程服务终端用户的计算负担,同时确保工业加密数据在传输与存储过程中的完整性。安全性分析与性能比较结果表明,所提方案通过设计防篡改检测向量,使得第三方审计者的计算量从O(n)次双线性对操作减少到O(1)次常量级双线性对操作,极大地降低了第三方审计者的计算开销。可见,所提方案适用于需要对大量工业云存储系统核心数据文件进行防篡改检测的轻量级批量审计场景。
在对隐私保护的需求不断增长的当今社会,联邦学习正受到广泛关注。然而,在联邦学习中,服务器难以监管客户端的行为,致使懒惰客户端的存在为联邦学习的性能与公平性带来了潜在威胁。针对如何高效又准确地辨别懒惰客户端的问题,提出设置基于后门的双任务工作证明方法FedBD(FedBackDoor)。在FedBD中,服务器为参与联邦学习的客户端额外指定更易检测的后门任务,客户端在训练原任务的基础上训练后门任务,而服务器通过后门任务的训练情况间接监管客户端的行为。实验结果表明,在MNIST、CIFAR10等数据集上,相较于经典联邦平均算法FedAvg和先进算法GTG-Shapley(Guided Truncation Gradient Shapley),FedBD有一定优势。在CIFAR10数据集上,在懒惰客户端占比设置为15%时,FedBD比FedAvg的准确率提升可达10个百分点以上,比GTG-Shapley的准确率提升约2个百分点。此外,FedBD的平均训练时间仅为GTG-Shapley的11.8%,在懒惰客户端占比10%时辨别懒惰客户端的准确率可超过99%。可见,FedBD较好地解决了懒惰客户端难以监管的问题。
监控图像的视觉定位是工业智能领域的关键技术。针对现有视觉定位算法缺少对图像中隐私信息的保护,在数据传输过程中容易导致敏感内容泄露的问题,提出一种基于视觉大模型(LVM)的监控图像定位方法。首先,设计基于LVM隐私保护的视觉定位架构,以利用少量文本提示和参考图像对输入图像进行风格迁移;其次,提出面向风格迁移图像的特征匹配算法用于相机位姿的估计。在公开数据集上的实验结果表明,所提方法的定位结果误差较小,在保证定位精度的前提下大幅减少了隐私泄露。
现有的异常检测方法能在特定应用场景下实现高精度检测,然而这些方法难以适用于其他应用场景,且自动化程度有限。因此,提出一种视觉基础模型(VFM)驱动的像素级图像异常检测方法SSMOD-Net(State Space Model driven-Omni Dimensional Net),旨在实现更精确的工业缺陷检测。与现有方法不同,SSMOD-Net实现SAM(Segment Anything Model)的自动化提示且不需要微调SAM,因此特别适用于需要处理大规模工业视觉数据的场景。SSMOD-Net的核心是一个新颖的提示编码器,该编码器由状态空间模型驱动,能够根据SAM的输入图像动态地生成提示。这一设计允许模型在保持SAM架构不变的同时,通过提示编码器引入额外的指导信息,从而提高检测精度。提示编码器内部集成一个残差多尺度模块,该模块基于状态空间模型构建,能够综合利用多尺度信息和全局信息。这一模块通过迭代搜索,在提示空间中寻找最优的提示,并将这些提示以高维张量的形式提供给SAM,从而增强模型对工业异常的识别能力。而且所提方法不需要对SAM进行任何修改,从而避免复杂的对训练计划的微调需求。在多个数据集上的实验结果表明,所提方法展现出了卓越的性能,与AutoSAM和SAM-EG(SAM with Edge Guidance framework for efficient polyp segmentation)等方法相比,所提方法在mE(mean E-measure)和平均绝对误差(MAE)、Dice和交并比(IoU)上都取得了较好的结果。
基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系,然而忽略了不同对齐机制之间的相互影响。因此,提出一种多粒度共享语义中心关联机制,深入探索全局对齐和局部对齐之间的促进和抑制效应。首先,引入一个多粒度交叉对齐模块,并通过增强图像-句子和局部区域-分词之间的交互,实现跨模态数据在联合嵌入空间的多层次对齐;其次,建立一个共享语义中心,将它作为一个可学习的语义枢纽,并通过全局特征和局部特征的关联,增强不同对齐机制之间的语义一致性,促进全局和局部特征的协同作用。在共享语义中心内,计算图像特征和文本特征之间的局部和全局跨模态相似性关系,提供一种全局视角与局部视角的互补度量,并最大限度地促进多种对齐机制之间的正向效应;最后,在CUHK-PEDES数据集上进行实验。结果表明:所提方法在Rank-1指标上较基线方法显著提升了8.69个百分点,平均精度均值(mAP)提升了6.85个百分点。在ICFG-PEDES和RSTPReid数据集上所提方法也取得了优异的性能,明显超越了所有对比方法。
针对现有大语言模型(LLM)在跨领域知识处理、实时学术信息更新及输出质量保证方面的局限,提出基于学术社交网络(ASN)的学者LLM——ScholatGPT。ScholatGPT结合知识图谱增强生成(KGAG)与检索增强生成(RAG),以提升精准语义检索与动态知识更新的能力,并通过微调优化以强化学术文本的生成质量。首先,基于学者网(SCHOLAT)关系数据构建学者知识图谱,并利用LLM进行语义增强;其次,提出KGAG检索模型,结合RAG实现多路混合检索,增强LLM的精准检索能力;最后,利用微调技术优化模型,使它在各学术领域的生成质量得到提升。实验结果表明,ScholatGPT在学术问答任务中的精确率达83.2%,相较于GPT-4o和AMiner AI提升了69.4和11.5个百分点,在学者画像、代表作识别和研究领域分类等任务上均表现优异。在回答相关性、连贯性和可读性方面,ScholatGPT取得了稳定且具有竞争力的表现,在专业性与可读性之间实现了较好的平衡。此外,基于ScholatGPT开发的学者智库和学术信息推荐系统等智能应用有效提升了学术信息获取的效率。
大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参数和数据支持,展现出更强的语言理解与生成能力,广泛应用于机器翻译、问答系统、对话生成等众多任务中并表现卓越。现有的综述大多侧重于LLM的理论架构与训练方法,对LLM的产业级应用实践及技术生态演进的系统性探讨仍显不足。因此,在介绍LLM的基础架构、训练技术及发展历程的基础上,分析当前通用的LLM关键技术和以LLM为底座的先进融合技术。通过归纳总结现有研究,进一步阐述LLM在实际应用中面临的挑战,包括数据偏差、模型幻觉和计算资源消耗等问题,并对LLM的持续发展趋势进行展望。
环境、社会及治理(ESG)指标是评估企业可持续发展的重要指标。现有的ESG评估体系存在覆盖范围狭窄、主观性强和时效性差等问题,因此,迫切需要研究能利用企业数据准确预测ESG指标的预测模型。针对企业数据中ESG关联特征存在信息丰度不一致的问题,提出一种基于丰度协调技术的企业ESG指标预测模型RCT (Richness Coordination Transformer),其中上游丰度协调模块通过自编码器协调异质丰度特征,从而提高下游模块的ESG指标预测性能。在真实数据集上的实验结果表明,与模型时间卷积网络(TCN)、长短期记忆(LSTM)网络、自注意力模型(Transformer)、极限梯度提升(XGBoost)和轻量级梯度提升机(LightGBM)相比,RCT模型在各项预测指标上均表现最优,验证了RCT模型在预测ESG指标上的有效性和优越性。
针对纺织品疵点边缘特征弱以及极端长宽比导致检测困难的问题,提出基于YOLOv7的上下文信息多尺度特征融合织物疵点检测算法(CMFFD-YOLO)。首先,采用k均值聚类算法得到适应目标尺寸的更好锚框,并通过迁移学习引入主干权重;然后,重新设计主干网络,添加全局上下文信息(GC)模块,从而充分利用局部和全局上下文的信息增强小目标特征的提取能力;最后,设计一种基于多尺度特征融合网络的通道空间注意力渐近特征金字塔网络(CAFPN),采用渐近融合的方式使不同层次的语义信息联系更紧密,且在融合过程中能提取更多有用信息。在天池和ZJU-Leaper这2个纺织面料瑕疵数据集上的实验结果表明,所提算法的平均精度均值(mAP)分别达到了64.6%和61.7%,相较于原始YOLOv7分别提高了12.5和7.8个百分点,并且模型参数量比原始YOLOv7降低了5.013×106,具有更高的检测速度。可见,所提算法能满足企业织物疵点检测对检测精度和速度的需求。
深度卷积神经网络(CNN)在图像超分辨率重建领域表现出卓越性能,然而现有的许多相关方法的模型参数量较多,无法应用至计算资源较低的设备。为缓解上述问题,提出一个轻量级的非对称信息蒸馏网络(AIDN)模型。首先,输入原始图像及其边缘图像以提取有效的特征信息;其次,设计一个非对称信息蒸馏块对提取到的特征进行非线性映射学习;再次,使用上采样模块重建多个残差图像后,将这些残差图像经过注意力机制融合成一个残差图像;最后,将融合的残差图像与输入图像的插值相加后得到超分图像。在Set14、Urban100和Manga109数据集上的实验结果表明,相较于空间自适应特征调制网络(SAFMN),AIDN模型的4倍超分峰值信噪比(PSNR)值分别提升了0.03 dB、0.14 dB和0.06 dB,说明了AIDN模型在模型参数量和模型性能之间取得了更好的平衡。
针对数字图像拍摄过程中因远近视野聚焦不当所导致的半聚焦图像问题,提出一种级联融合与增强重建的多聚焦图像融合网络(CasNet)。首先,构建级联采样模块对不同深度采样特征图的残差进行计算与合并,从而高效利用不同尺度下的聚焦特征;其次,改进轻量化多头自注意力机制以计算特征图的维度残差,从而完成图像的特征增强,并使特征图在不同维度上呈现更优分布;再次,使用卷积通道注意力堆叠完成特征重建;最后,在采样过程中使用分隔卷积进行上下采样,从而保留更多的图像原有特征。实验结果表明,在多聚焦图像基准测试集Lytro、MFFW、grayscale和MFI-WHU上,CasNet相较于SESF-Fuse(Spatially Enhanced Spatial Frequency-based Fusion)和U2Fusion(Unified Unsupervised Fusion network)等热门方法在平均梯度(AG)、灰度级差(GLD)等指标上都取得了较好的结果。
全景场景图生成(PSGG)旨在识别图像中所有对象并自动地捕获所有对象间的语义关联关系。语义关联关系建模依赖目标对象及对象对(subject-object pair)的特征描述,然而现行工作中存在以下不足:采用边界框提取方式获取的对象特征较模糊;仅关注对象的语义和空间位置特征,忽略了对关系预测同样重要的对象对的语义联合特征和相对位置特征;未能针对不同类型的对象对(如前景-前景、前景-背景、背景-背景)进行差异化特征提取,进而忽略了它们之间的差异性。针对上述问题,提出一种基于关系特征强化的全景场景图生成方法(RFE)。首先,通过引入像素级掩码区域特征,丰富对象特征的细节信息,同时有效地融合对象对的联合视觉特征、语义联合特征和相对位置特征;其次,根据对象对的不同类型,自适应地选择最适合本类型对象对的特征提取方式;最后,获得强化后更精确的关系特征用于关系预测。在PSG数据集上的实验结果表明,以VCTree(Visual Contexts Tree)、Motifs、IMP(Iterative Message Passing)和GPSNet为基线方法,ResNet-101为骨干网络,RFE在具有挑战性的SGGen任务上召回率(R@20)指标分别提高了4.37、3.68、2.08和1.80个百分点,验证了所提方法在PSGG的有效性。
为解决音乐表征学习领域缺少充足成对多轨乐谱数据集的问题,提出一种音乐生成的预训练模型。首先,基于多轨音乐的生成需要保证单轨内的连续性的同时保证轨道间的和谐性的事实,提出基于Transformers的多生成器的生成模型,即基于预训练的多轨音乐生成网络(MMGPNet)作为基线模型;其次,为利用充足的单轨乐器数据集,在生成模型上设计音乐预训练模块;最后,在预训练过程中设计一个重建任务遮盖音乐符号的属性并对它们进行重建。实验结果表明,所提模型加速了模型训练,并提高了预测准确率,且该模型生成的多轨序列在多种音乐领域的评价指标相较于MuseGAN(Multi-track sequential Generative Adversarial Network)、SymphonyNet等基线模型更接近真实音乐。听力测试结果进一步验证了所提模型的有效性。
近些年,水声通信网络在水下信息传输方面发挥了至关重要的作用。水下通信信道具有开放性,更易遭受干扰、欺骗和窃听等攻击,因此水声通信网络面临与传统网络不同的安全挑战。然而,传统的异常检测方法直接用于水声网络时的准确率较低,而基于机器学习的异常检测方法虽然提高了准确率,但面临数据集受限、模型可解释性较差等问题。因此,将融合注意力机制的CNN-BiLSTM用于水声网络下的异常攻击检测,并提出WCBA(underWater CNN-BiLSTM-Attention)模型。该模型通过IG-PCA(Integrated Gradient-Principal Component Analysis)特征选择算法有效降低数据集的高维度,并能充分利用多维矩阵水声通信网络流量的时空特征在复杂水声数据中识别异常攻击。实验结果表明,WCBA模型在数据集受限的情况下,相较于其他神经网络模型提供了更高的准确率,并具有较高可解释性。
针对企业排污难以监测和控制的问题,在考虑数据安全共享和隐私保护的前提下,提出一种融合电力数据的纵向联邦学习企业排污预测(VFL-EEP)模型。首先,在纵向联邦学习(VFL)框架下改进逻辑回归模型,从而在不泄露电力和环保企业排污监测数据的前提下,允许将数据的使用和模型的训练相分离;随后,改进逻辑回归算法使该算法能结合Paillier加密技术以保证模型的参数传递安全,从而有效解决VFL中参与方之间通信不安全的问题;最后,在仿真数据上实验,所提模型的排污预测结果与集中式逻辑回归模型的排污预测结果比较表明:所提模型在隐私安全的前提下融合电力数据,准确率、召回率、精确率和F1值分别提升了8.92%、7.62%、3.95%和11.86%,有效实现了隐私保护和模型性能的均衡。
现实中,图结构数据广泛存在,然而,在实际应用中,这些数据常面临标注数据短缺的难题。图数据的小样本学习(FSL)方法旨在以较少的标注样本实现数据的分类。尽管这些方法在小样本节点分类(FSNC)任务上获得较好的性能,但还存在以下问题:高质量的标签数据难获取,参数初始化过程泛化能力不足,未能充分挖掘图中的拓扑结构信息。为解决这些问题,提出一种基于图数据增强的小样本节点分类模型(GDA-FSNC)。GDA-FSNC由4个模块构成:基于结构相似度的图数据预处理模块、参数初始化模块、参数微调模块和自适应伪标签生成模块。在图数据预处理模块中,通过基于结构相似度的邻接矩阵增强方法获取更多的图结构信息;在参数初始化模块中,使用互相教学的数据增强方法使每个模型都能从其他模型学到不同的模式和特征,增强信息的多样性;在自适应伪标签生成模块中,根据不同数据集的特征自动选择合适的伪标签生成技术,以生成高质量的伪标签数据。在7个真实数据集上的实验结果表明,GDA-FSNC的分类准确率超过了Meta-GNN、GPN(Graph Prototypical Network)、IA-FSNC(Information Augmentation for Few-Shot Node Classification)等主流的FSL模型。例如,相较于基线模型IA-FSNC,所提模型的分类准确率在小数据集2-way 1-shot设置下至少提升了0.27个百分点,在大数据集5-way 1-shot设置下至少提升了2.06个百分点。可见,GDA-FSNC在小样本场景下有更好的分类性能和泛化能力。
知识蒸馏在图像分类等任务中是最有效的模型压缩方法之一,然而它在复杂任务如目标检测上的应用较少。现有的知识蒸馏方法主要专注于构建信息图,以过滤教师和学生在特征提取过程中来自前景或背景区域的噪声,最小化特征之间的均方差损失;然而,这些方法的目标函数难以进一步优化,且只利用教师的监督信号,导致学生缺乏对非正确知识的针对性信息。基于此,提出一种面向目标检测的对比知识蒸馏(CKD)方法。该方法重新设计蒸馏框架和损失函数,不仅使用教师的监督信号,而且利用构造的负样本提供指导信息进行知识蒸馏,让学生在获得教师的知识的同时通过自我学习获取更多知识。在Pascal VOC和COCO2014数据集上,使用GFocal(Generalized Focal loss)和YOLOv5模型将所提方法与基线方法对比的实验结果表明:CKD方法在Pascal VOC数据集上使用GFocal模型的平均精度均值(mAP)提升5.6个百分点,平均精度(阈值为0.5)AP50提升5.6个百分点;在COCO2014数据集上使用YOLOv5模型的mAP提升1.1个百分点,AP50提升1.7个百分点。