随着传感器网络和全球定位系统等技术的进步,兼有时间与空间特性的气象数据体量呈爆炸式增长,针对时空序列预测(STSF)的深度学习模型研究得到了迅猛发展。然而,长期以来用于天气预报的传统机器学习方法在提取数据的时间相关性与空间依赖性方面的效果往往并不理想。与此同时,深度学习方法通过人工神经网络自动提取特征,可以有效提高天气预报的准确度,并且在编码长期空间信息的建模方面有相当优秀的效果。同时,由观测数据驱动的深度学习模型与基于物理理论的数值天气预报(NWP)模型结合的方式可以构建拥有更高预测精度与更长预报时间的混合模型。基于这些,将深度学习在天气预报领域的应用分析及研究进展进行了综述。首先,将天气预报领域的深度学习问题与经典深度学习问题从数据格式、问题模型与评价指标这3个方面进行了对比研究;然后,回顾了深度学习在天气预报领域的发展历程与应用现状,并总结分析了深度学习技术与NWP结合的最新进展;最后,展望了未来的发展方向和研究重点,为天气预报领域的深度学习研究提供参考。
多模态医学图像可以为临床医生提供靶区(如肿瘤、器官或组织)的丰富信息。然而,由于多模态图像之间相互独立且仅有互补性,如何有效融合多模态图像并进行分割仍是亟待解决的问题。传统的图像融合方法难以有效解决此问题,因此基于深度学习的多模态医学图像分割算法得到了广泛的研究。从原理、技术、问题及展望等方面对基于深度学习的多模态医学图像分割任务进行了综述。首先,介绍了深度学习与多模态医学图像分割的一般理论,包括深度学习与卷积神经网络(CNN)的基本原理与发展历程,以及多模态医学图像分割任务的重要性;其次,介绍了多模态医学图像分割的关键概念,包括数据维度、预处理、数据增强、损失函数以及后处理等;接着,对基于不同融合策略的多模态分割网络进行综述,对不同方式的融合策略进行分析;最后,对医学图像分割过程中常见的几个问题进行探讨,并对今后研究作了总结与展望。
随着网络应用的不断发展,网络资源呈指数型增长,信息过载现象日益严重,如何高效获取符合需求的资源成为困扰人们的问题之一。推荐系统能对海量信息进行有效过滤,为用户推荐符合其需求的资源。对推荐系统的研究现状进行详细介绍,包括基于内容的推荐、协同过滤推荐和混合推荐这三种传统推荐方式,并重点分析了基于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)和图神经网络(GNN)这四种常见的深度学习推荐模型的研究进展;归纳整理了推荐领域常用的数据集,同时分析对比了传统推荐算法和基于深度学习的推荐算法的差异。最后,总结了实际应用中具有代表性的推荐模型,讨论了推荐系统面临的挑战和未来的研究方向。
在强调数据确权以及隐私保护的时代背景下,联邦学习作为一种新的机器学习范式,能够在不暴露各方数据的前提下达到解决数据孤岛以及隐私保护问题的目的。目前,基于联邦学习的建模方法已成为主流并且获得了很好的效果,因此对联邦学习的概念、技术、应用和挑战进行总结与分析具有重要的意义。首先,阐述了机器学习的发展历程以及联邦学习出现的必然性,并给出联邦学习的定义与分类;其次,介绍并分析了目前业界认可的三种联邦学习方法:横向联邦学习、纵向联邦学习和联邦迁移学习;然后,针对联邦学习的隐私保护问题,归纳并总结了目前常见的隐私保护技术;此外,还对联邦学习的现有主流开源框架进行了介绍与对比,同时给出了联邦学习的应用场景;最后,展望了联邦学习所面临的挑战和未来的研究方向。
预训练模型(PTM)通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识。而在多模态中,PTM的发展还处于初期。根据具体模态的不同,将目前大多数的多模态PTM分为图像?文本PTM和视频?文本PTM;根据数据融合方式的不同,还可将多模态PTM分为单流模型和双流模型两类。首先,总结了常见的预训练任务和验证实验所使用的下游任务;接着,梳理了目前多模态预训练领域的常见模型,并用表格列出各个模型的下游任务以及模型的性能和实验数据比较;然后,介绍了M6(Multi-Modality to Multi-Modality Multitask Mega-transformer)模型、跨模态提示调优(CPT)模型、VideoBERT(Video Bidirectional Encoder Representations from Transformers)模型和AliceMind(Alibaba’s collection of encoder-decoders from Mind)模型在具体下游任务中的应用场景;最后,总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向。
文本情感分析已经逐渐成为自然语言处理(NLP)的重要内容,并在系统推荐、用户情感信息获取,为政府、企业提供舆情参考等领域越来越占据重要地位。通过文献调研的方式,对情感分析领域的方法进行对比和综述。首先,从时间、方法等维度对情感分析的方法进行文献调研;然后,对情感分析的主要方法、应用场景进行归纳总结和对比;最后,在此基础上分析每种方法的优缺点。根据分析结果可以知道,在面对不同的任务场景,主要有三种情感分析的方法:基于情感字典的情感分析法、基于机器学习的情感分析法和基于深度学习的情感分析法,基于多策略混合的方法成为改进的趋势。文献调研表明,文本情感分析的技术方法还有改进的空间,在电子商务、心理治疗、舆情监控方面有较大市场和发展前景。
近年来,联邦学习成为解决机器学习中数据孤岛与隐私泄露问题的新思路。联邦学习架构不需要多方共享数据资源,只要参与方在本地数据上训练局部模型,并周期性地将参数上传至服务器来更新全局模型,就可以获得在大规模全局数据上建立的机器学习模型。联邦学习架构具有数据隐私保护的特质,是未来大规模数据机器学习的新方案。然而,该架构的参数交互方式可能导致数据隐私泄露。目前,研究如何加强联邦学习架构中的隐私保护机制已经成为新的热点。从联邦学习中存在的隐私泄露问题出发,探讨了联邦学习中的攻击模型与敏感信息泄露途径,并重点综述了联邦学习中的几类隐私保护技术:以差分隐私为基础的隐私保护技术、以同态加密为基础的隐私保护技术、以安全多方计算(SMC)为基础的隐私保护技术。最后,探讨了联邦学习中隐私保护中的若干关键问题,并展望了未来研究方向。
卷积神经网络(CNN)是目前基于深度学习的计算机视觉领域中重要的研究方向之一。它在图像分类和分割、目标检测等的应用中表现出色,其强大的特征学习与特征表达能力越来越受到研究者的推崇。然而,CNN仍存在特征提取不完整、样本训练过拟合等问题。针对这些问题,介绍了CNN的发展、CNN经典的网络模型及其组件,并提供了解决上述问题的方法。通过对CNN模型在图像分类中研究现状的综述,为CNN的进一步发展及研究方向提供了建议。
随着深度学习的广泛应用,人类越来越依赖于大量采用深度学习技术的复杂系统,然而,深度学习模型的黑盒特性对其在关键任务应用中的使用提出了挑战,引发了道德和法律方面的担忧,因此,使深度学习模型具有可解释性是使它们令人信服首先要解决的问题。于是,关于可解释的人工智能领域的研究应运而生,主要集中于向人类观察者明确解释模型的决策或行为。对深度学习可解释性的研究现状进行综述,为进一步深入研究建立更高效且具有可解释性的深度学习模型确立良好的基础。首先,对深度学习可解释性进行了概述,阐明可解释性研究的需求和定义;然后,从解释深度学习模型的逻辑规则、决策归因和内部结构表示这三个方面出发介绍了几种可解释性研究的典型模型和算法,另外还指出了三种常见的内置可解释模型的构建方法;最后,简单介绍了忠实度、准确性、鲁棒性和可理解性这四种评价指标,并讨论了深度学习可解释性未来可能的发展方向。
终身学习(LLL)作为一种新兴方法打破了传统机器学习的局限性,并赋予了模型能够像人类一样在学习过程中不断积累、优化并转移知识的能力。近年来,随着深度学习的广泛应用,越来越多的研究致力于解决深度神经网络中出现的灾难性遗忘问题和摆脱稳定性-可塑性困境,并将LLL方法应用于各种各样的实际场景中,以推进人工智能由弱向强的发展。针对计算机视觉领域,首先,在图像分类任务中将LLL方法归纳为四大类型:基于数据驱动的方法、基于优化过程的方法、基于网络结构的方法和基于知识组合的方法;然后,介绍了LLL方法在其他视觉任务中的典型应用和相关评估指标;最后,针对现阶段LLL方法的不足之处进行讨论并提出了LLL方法未来发展的方向。
文本分类任务通常依赖足量的标注数据,针对低资源场景下的分类模型在小样本上的过拟合问题,提出一种基于提示学习的小样本文本分类方法BERT-P-Tuning。首先,利用预训练模型BERT(Bidirectional Encoder Representations from Transformers)在标注样本上学习到最优的提示模板;然后,在每条样本中补充提示模板和空缺,将文本分类任务转化为完形填空任务;最后,通过预测空缺位置概率最高的词并结合它与标签之间的映射关系得到最终的标签。在公开数据集FewCLUE上的短文本分类任务上进行实验,实验结果表明,所提方法相较于基于BERT微调的方法在评价指标上有显著提高。所提方法在二分类任务上的准确率与F1值分别提升了25.2和26.7个百分点,在多分类任务上的准确率与F1值分别提升了6.6和8.0个百分点。相较于手动构建模板的PET(Pattern Exploiting Training)方法,所提方法在两个任务上的准确率分别提升了2.9和2.8个百分点,F1值分别提升了4.4和4.2个百分点,验证了预训练模型应用在小样本任务的有效性。
在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。
针对卷积神经网络(CNN)模型的训练过程中,模型参数记忆数据部分特征导致的隐私泄露问题,提出一种CNN中基于差分隐私的动量梯度下降算法(DPGDM)。首先,在模型优化的反向传播过程中对梯度添加满足差分隐私的高斯噪声,并用加噪后的梯度值参与模型参数的更新过程,从而实现对模型整体的差分隐私保护;其次,为了减少引入差分隐私噪声对模型收敛速度的影响,设计学习率衰减策略,改进动量梯度下降算法;最后,为了降低噪声对模型准确率的影响,在模型优化过程中动态地调整噪声尺度的值,从而改变在每一轮迭代中需要对梯度加入的噪声量。实验结果表明,与DP-SGD (Differentially Private Stochastic Gradient Descent)相比,所提算法可以在隐私预算为0.3和0.5时,模型准确率分别提高约5和4个百分点。可见,所提算法提高了模型的可用性,并实现了对模型的隐私保护。
目前,医学图像分割模型广泛采用基于全卷积网络(FCN)的U型网络(U-Net)作为骨干网,但卷积神经网络(CNN)在捕捉长距离依赖能力上的劣势限制了分割模型性能的进一步提升。针对上述问题,研究者们将Transformer应用到医学图像分割模型中以弥补CNN的不足,结合Transformer和U型结构的分割网络成为研究热点之一。在详细介绍U-Net和Transformer之后,按医学图像分割模型中Transformer模块所处的位置,包括仅在编码器或解码器、同时在编码器和解码器、作为过渡连接和其他位置进行分类,讨论各模型的基本内容、设计理念以及可改进的地方,并分析了Transformer处于不同位置的优缺点。根据分析结果可知,决定Transformer所在位置的最大因素是目标分割任务的特点,而且Transformer结合U-Net的分割模型能更好地利用CNN和Transformer各自的优势,提高模型的分割性能,具有较大的发展前景和研究价值。
基于深度学习的目标检测算法如YOLO(You Only Look Once)和Faster R-CNN(Faster Region-Convolutional Neural Network)需要大量训练数据以保证模型的精度,而在很多场景下获取数据以及标注数据的成本较高;并且由于缺少海量的训练数据,导致检测的范围受限。针对以上问题,提出了一种基于孪生网络的小样本目标检测算法(SiamDet),旨在使用少量标注图像训练具有一定泛化能力的目标检测模型。首先,提出了基于深度可分离卷积的孪生网络,并使用深度可分离卷积设计了特征提取网络ResNet-DW,从而解决了样本不充足带来的过拟合问题;其次,基于孪生网络,提出了目标检测算法SiamDet,并在ResNet-DW的基础上,引入区域建议网络(RPN)来定位感兴趣目标;然后,引入二值交叉熵损失进行训练,并使用对比训练策略,从而增加了类别之间的区分度。实验结果表明,SiamDet在小样本条件下具有良好的目标检测能力,且相较于次优的算法DeFRCN(Decoupled Faster R-CNN),SiamDet在MS-COCO数据集20-way 2-shot和PASCAL VOC数据集5-way 5-shot上的AP50分别增加了4.1%和2.6%。
联邦学习(FL)是一种能够实现用户数据不出本地的新型隐私保护学习范式。随着相关研究工作的不断深入,FL的单点故障及可信性缺乏等不足之处逐渐受到重视。近年来,起源于比特币的区块链技术取得迅速发展,它开创性地构建了去中心化的信任,为FL的发展提供了一种新的可能。对现有基于区块链的FL框架进行对比分析,深入讨论区块链与FL相结合所解决的FL重要问题,并阐述了基于区块链的FL技术在物联网(IoT)、工业物联网(IIoT)、车联网(IoV)、医疗服务等多个领域的应用前景。
现有的机器人抓取操作通常在良好光照条件下开展,此时目标细节清晰、区域对比度高,而在夜间、遮挡等弱光环境下目标的视觉特征微弱,会导致现有的机器人抓取检测模型的检测准确率急剧下降。为提高弱光场景下稀疏、微弱抓取特征的表征能力,提出一种融合视觉特征增强机制的抓取检测模型,通过视觉增强子任务为抓取检测施加特征增强约束。对于抓取检测模块,采用仿U-Net框架的编码器-解码器结构实现特征的高效融合;对于弱光增强模块,从局部、全局层面分别提取纹理、颜色信息,以实现兼顾目标细节与视觉效果的特征增强。此外,分别构建弱光Cornell数据集和弱光Jacquard数据集两个新的弱光抓取基准数据集,并基于上述数据集开展对比实验。实验结果表明,所提弱光抓取检测模型在基准数据集上的准确率分别达到了95.5%和87.4%,与生成抓取卷积神经网络(GG-CNN)、生成残差卷积神经网络(GR-ConvNet)等现有抓取检测模型相比,准确率在弱光Cornell数据集提升11.1、1.2个百分点,在弱光Jacquard数据集上提升5.5、5.0个百分点,取得了较好的抓取检测效果。
为了解决数据共享需求与隐私保护要求之间不可调和的矛盾,联邦学习应运而生。联邦学习作为一种分布式机器学习,其中的参与方与中央服务器之间需要不断交换大量模型参数,而这造成了较大通信开销;同时,联邦学习越来越多地部署在通信带宽有限、电量有限的移动设备上,而有限的网络带宽和激增的客户端数量会使通信瓶颈加剧。针对联邦学习的通信瓶颈问题,首先分析联邦学习的基本工作流程;然后从方法论的角度出发,详细介绍基于降低模型更新频率、模型压缩、客户端选择的三类主流方法和模型划分等特殊方法,并对具体优化方案进行深入的对比分析;最后,对联邦学习通信开销技术研究的发展趋势进行了总结和展望。
在低光条件下拍摄的照片会因曝光不足而产生一系列的视觉问题,如亮度低、信息丢失、噪声和颜色失真等。为了解决上述问题,提出一个结合注意力的双分支残差低光照图像增强网络。首先,采用改进InceptionV2提取浅层特征;其次,使用残差特征提取块(RFB)和稠密残差特征提取块(DRFB)提取深层特征;然后,融合浅层和深层特征,并将融合结果输入亮度调整块(BAM)调整亮度,最终得到增强图像。同时,结合注意力机制设计特征融合块(FFM)捕获重要的特征信息,以帮助恢复低光照图像的暗部区域。此外,引入一个联合损失函数从多方面衡量网络训练损失。实验结果表明,相较于鲁棒的视网膜大脑皮层模型(RRM)、Zero-DCE(Zero-Reference Deep Curve Estimation)和EnlightenGAN(Enlighten Generative Adversarial Network),在LOL(LOw-Light)数据集上,所提网络的峰值信噪比(PSNR)指标分别提高了49.9%、40.0%和18.5%;在LOL-V2数据集上,结构相似性(SSIM)指标分别提高了20.3%、50.0%和34.5%。所提网络在提高低光照图像亮度的同时降低了噪声,减少了颜色失真和伪影,得到的增强图像更加清晰自然。
单目标跟踪是计算机视觉领域的一个重要研究方向,在视频监控、自动驾驶等领域应用广泛。对于单目标跟踪算法,尽管已有大量总结研究,但大多基于相关滤波或深度学习。近年来,基于孪生网络的跟踪算法因在精度和速度之间取得的平衡受到研究者们的广泛关注,然而目前对该类型算法的总结分析相对较少,并且对这些算法的架构层面缺少系统分析。为深入了解基于孪生网络的单目标跟踪算法,对大量相关文献进行了总结与分析。首先阐述孪生网络的结构和应用,并根据孪生跟踪算法架构组成的分类介绍了各跟踪算法;然后列举单目标跟踪领域常用的数据集和评价指标,对25个主流跟踪算法在OTB2015数据集上分别进行整体和各属性的性能比较与分析,并列出23个孪生跟踪算法在LaSOT和GOT-10K测试集上的性能以及推理时的速度;最后对基于孪生网络的目标跟踪算法的研究进行总结,并对未来的发展方向进行展望。
多标签文本分类(MLTC)是自然语言处理(NLP)领域的重要子课题之一。针对多个标签之间存在复杂关联性的问题,提出了一种融合BERT与标签语义注意力的MLTC方法TLA-BERT。首先,通过对自编码预训练模型进行微调,从而学习输入文本的上下文向量表示;然后,使用长短期记忆(LSTM)神经网络将标签进行单独编码;最后,利用注意力机制显性突出文本对每个标签的贡献,以预测多标签序列。实验结果表明,与基于序列生成模型(SGM)算法相比,所提出的方法在AAPD与RCV1-v2公开数据集上,F1值分别提高了2.8个百分点与1.5个百分点。