在图分类任务中,现有的利用丢弃节点的图池化算法得到的图嵌入表示没有有效地利用丢弃节点蕴含的信息和图间节点信息,同时传统方法也没有针对图嵌入进行单独学习,限制了它在图分类任务上的部分性能。为克服上述传统方法的不足,提出一种有效利用丢弃节点信息的图嵌入方法——基于图池化对比学习的图分类方法(GPCL)。首先,利用图注意力机制学习每个节点相应的注意力分数,且根据注意力分数对节点进行排序并丢弃分数较低的节点;其次,将本图保留的节点作为正样本,将其他图被丢弃的部分节点作为负样本,而将图的嵌入表达作为目标节点,两两计算相似性分数,从而进行对比学习。实验结果表明:在D&D (Dobson PD-Doig AJ)、MUTAG、PROTEINS和IMDB-B数据集上,相较于仅使用注意力机制和分层池化的方法,GPCL在图分类任务上的准确率分别提升了5.79、15.54、5.42和1.75个百分点,验证了GPCL充分提高了图间信息的利用率,在图分类任务上表现良好。
入侵检测系统(IDS)等安全机制已被用于保护网络基础设施和网络通信免受网络攻击。随着深度学习技术的不断进步,基于深度学习的IDS逐渐成为网络安全领域的研究热点。通过对文献广泛调研,详细介绍利用深度学习技术进行网络入侵检测的最新研究进展。首先,简要概述当前几种IDS;其次,介绍基于深度学习的IDS中常用的数据集和评价指标;然后,总结网络IDS中常用的深度学习模型及其应用场景;最后,探讨当前相关研究面临的问题,并提出未来的发展方向。
随着云计算和大数据的普及,越来越多的用户隐私数据被上传到云端计算和处理;然而,由于隐私数据交由不可信的第三方存储和管理,因此面临被泄露的风险,进而导致公民的生命和财产安全乃至国家的安全都受到不利影响。近年来,一些基于密码学算法的隐私计算技术,例如安全多方计算、同态加密(HE)和联邦学习等,解决了隐私数据传输和计算过程中的安全问题,进而实现了隐私数据的“可用不可见”;然而,这些方案由于计算和通信复杂度的原因没能得到广泛部署和应用。许多研究工作致力于利用可信执行环境(TEE)降低隐私计算技术的计算量和通信复杂度,同时保证不影响这些技术的安全性。TEE通过硬件辅助创建可以信赖的执行环境,并保证其中隐私数据和代码的机密性、完整性和可用性。因此,从隐私计算和TEE结合的研究入手。首先,全面分析TEE保护用户隐私数据的系统架构和硬件支持;其次,对比现有TEE架构各自的优势和不足;最后,结合工业界和学术界的最新进展,探讨隐私计算和TEE交叉研究领域的未来发展方向。
雷达自动目标识别(RATR)在军事和民用领域中都有广泛的应用。由于集成学习通过集成已有的机器学习模型改善模型分类性能,具有较好的鲁棒性,因此被越来越多地应用于雷达目标检测与识别领域。系统梳理和提炼现有相关文献对集成学习在RATR中的研究进展。首先,介绍集成学习的概念、框架与发展历程,将集成学习与传统机器学习、深度学习方法对比,并总结集成学习理论和常见集成学习方法的优势、不足及研究的主要聚焦点;其次,简述RATR的概念;接着,重点阐述集成学习在不同雷达图像分类特征中的应用,详细讨论基于合成孔径雷达(SAR)和高分辨距离像(HRRP)的目标检测与识别方法,并总结这些方法的研究进展和应用成效;最后,讨论RATR以及集成学习所面临的挑战,并对集成学习在雷达目标识别领域的应用进行展望。
大规模重叠问题在实际工程应用中普遍存在,重叠问题子组间的共享变量给大规模重叠问题的优化带来了很大困难。基于分解的协同进化(CC)算法在解决大规模重叠问题上表现良好。然而,一些针对重叠问题设计的新型CC框架依赖问题分解方法获得重叠问题结构,而目前针对大规模重叠问题设计的分解方法不能同时兼顾高效性和准确性。为此,提出一种两阶段差分分组(TSDG)方法,在实现精确分组的同时显著减少了计算资源消耗。在第一阶段,采用基于有限差分原理的分组方法高效地识别子组集和共享变量集;第二阶段则提出一种分组改善方法检查前一阶段得到的子组集和共享变量集的信息,改正不准确的分组结果,以提高分组的稳定性和准确性。利用两阶段的协同作用,TSDG实现了对大规模重叠问题高效准确的分解。实验结果表明,TSDG能够在消耗较少计算资源的同时准确地分解大规模重叠问题。在优化实验中,TSDG在大规模重叠问题上的表现也优于对比算法。
针对原油调度过程存在的资源规模庞大、约束条件复杂、多时间尺度决策衔接困难等问题,提出一种基于多时间尺度协同的进化算法(MTCEA)。首先,根据炼油企业的规模结构和实际需求,建立了一种大规模多时间尺度原油调度优化模型,该模型由面向资源的中长期调度模型和面向操作的短期调度模型构成,通过引入原油资源动态分组策略,实现原油资源的合理配置,以满足不同的调度规模、多时间尺度的特征和精细化生产的要求;其次,为促进不同时间尺度调度决策的融合衔接,设计基于多时间尺度协同的进化算法,并针对不同时间尺度调度模型中的连续决策变量构造子问题进行求解,以实现不同时间尺度调度决策之间的协同优化;最后,在3个实际工业案例进行了算法性能验证。结果表明,与3种具有代表性的大规模进化优化算法(即竞争性粒子群优化算法(CSO)、基于多轨迹搜索的自适应差分进化算法(SaDE-MMTS)和基于混合模型的进化策略(MMES))以及3种高性能混合整数非线性规划(MINLP)数学求解器(即ANTIGONE(Algorithms for coNTinuous/Integer Global Optimization of Nonlinear Equations)、SCIP(Solving Constraint Integer Programs)和SHOT(Supporting Hyperplane Optimization Toolkit))相比,MTCEA的求解最优性指标和稳定性指标分别提高了30%和25%以上。这些显著的性能提升验证了MTCEA在大规模多时间尺度原油调度决策中的实际应用价值和优势。
进化多任务优化(EMTO)是进化计算中一种新型方法,它可以同时解决多个相关的优化任务,并通过任务之间的知识转移增强每个任务的优化。近年来,越来越多的进化多任务优化相关研究致力于利用它强大的并行搜索能力和降低计算成本的潜力优化各种问题,并且EMTO已应用于各种各样的实际场景当中。从EMTO的原理、核心设计、应用以及挑战四个方面对EMTO的算法及应用进行了讨论。首先介绍了EMTO的大致分类,分别从两个层次、四个方面介绍,包括单种群多任务、多种群多任务、辅助任务形式以及多形式任务形式;其次介绍EMTO的核心组件设计,包括任务构建以及知识转移;最后对它的各种应用场景进行介绍,并对今后研究做了总结与展望。
随着优化问题变得日益复杂,传统的进化算法由于计算成本高昂和适用性有限而面临挑战。为了克服这些挑战,基于知识迁移的进化多任务优化(EMTO)算法应运而生,它的核心思想是通过跨任务的知识共享,同时解决多个优化问题,旨在提高进化算法在应对复杂优化场景的效率。全面总结了当前进化多任务优化研究的进展,与已有综述文章相比,从不同的研究视角进行深入探讨,并指出了现有文献中对优化场景视角分析的缺失。鉴于此,从优化问题的应用场景出发,对适用于进化多任务优化的场景及其基本解决策略进行了系统性的阐述,以帮助研究人员准确地根据具体应用需求选择合适的研究方法。此外,深入讨论进化多任务优化当前面临的挑战和未来的研究方向,旨在为未来的研究提供指导和启示。
机会约束的多选择背包问题(CCMCKP)是一类具有重要应用价值的NP难组合优化问题,但目前还缺乏关于该问题求解方法的专门研究。为此,提出首个CCMCKP的求解框架,并基于该框架构建了两种求解方法:基于动态规划的RA-DP和基于遗传算法的RA-IGA。RA-DP是精确求解方法,具有最优性保证,但是在可接受的时间(1 h)内仅能求解小规模问题样例;相较而言,RA-IGA是近似求解方法,具有更好的可扩放性。仿真实验结果验证了所提求解方法的性能:在小规模问题样例上,RA-DP和RA-IGA都可以找到最优解;在中大规模问题样例上,RA-IGA表现出了比RA-DP显著更高的求解效率,它总是可以在给定时间(1 h)内快速获得可行解。在CCMCKP的后续研究中,RA?DP和RA-IGA可作为基准对比方法,而实验工作中所构建的测试样例集可作为该问题的标准测试集。
智能制造和环境可持续性研究中,多目标调度问题对于协调生产效率、成本管理与环境保护之间的平衡具有至关重要的意义,但现有基于CPU的调度解决方案在处理大规模生产任务时仍面临效率和时效性的限制,而GPU的并行计算能力可为优化大规模流水车间调度问题提供新的解决途径。针对多目标零等待流水车间调度问题(NWFSP),以同时最小化最大完成时间和总能耗(TEC)为优化目标,构建了混合整数线性规划模型(MILP)表征该调度问题,并提出一种基于GPU加速的张量化演化算法(Tensor-GPU-NSGA-Ⅱ)求解该问题。Tensor-GPU-NSGA-Ⅱ的主要创新在于对NWFSP关于最小化最大完成时间和TEC的计算过程的张量化处理,并提出了一种基于GPU的并行种群更新方法。实验结果表明,在500工件和20机器的问题规模下,Tensor-GPU-NSGA-Ⅱ在计算效率上相较于传统NSGA-Ⅱ算法取得了9 761.75的加速比;且随着种群规模的增加,它的加速性能有显著提升。
在多智能体系统中,协作任务往往动态变化,且存在多个冲突的优化目标,因此动态多目标多智能体协同调度问题已经成为亟须解决的关键问题之一。针对动态环境下多智能体协同调度需求,提出了概率驱动的动态预测策略,旨在有效利用历史环境概率分布,预测决策解在新环境的概率分布,从而生成新的多智能体调度方案,实现调度算法在动态环境下的快速响应。具体来讲,设计了基于元素的概率分布表达,以表示解的构成元素在动态环境的适应性,并根据优化算法迭代最优解逐步更新概率分布以趋近实际分布;构建了基于融合的概率分布预测机制,考虑到环境变化的连续性和相关性,当环境变化时,通过融合历史概率分布预测新环境的概率分布,为新环境优化提供先验知识;提出了基于启发式的新解采样机制,结合概率分布和启发式信息,生成解方案以更新过时种群。将概率驱动的动态预测策略嵌入新型的多目标进化算法,获得概率驱动的动态多目标进化算法。在10个动态多目标多智能体协同调度问题实例上,实验结果表明,所提算法在解最优性和多样性上显著优于已有多目标进化算法,所提的概率驱动的动态预测策略能够提高多目标进化算法对动态环境的适应能力。
由于对抗双方态势的快速变化,无人机近距空战机动自主决策困难且复杂,是空中对抗的一个难点。对此,提出一种基于有限忍耐度鸽群优化(FTPIO)算法的无人机近距空战机动决策方法。该方法主要包括基于机动动作库的对手行动预测和基于FTPIO算法的机动控制量和执行时间优化求解两个部分。为提升基本鸽群优化(PIO)算法的全局探索能力,引入有限忍耐度策略,在鸽子个体几次迭代中没有找到更优解时对其属性进行一次重置,避免陷入局部最优陷阱。该方法采用的优化变量是无人机运动模型控制变量的增量,打破了机动库的限制。通过和极小极大方法、基本PIO算法和粒子群优化(PSO)算法的仿真对抗测试结果表明,所提出的机动决策方法能够在近距空战中有效击败对手,产生更为灵活的欺骗性机动行为。
局部特征选择(LFS)方法将样本空间划分为多个局部区域,并为每个区域选择最优特征子集以反映局部异质信息。然而,现有的LFS方法以每个样本为中心划分局部区域并找到最优特征子集,导致优化效率低下且适用场景受限。为了解决这个问题,提出一种进化双层自适应局部特征选择(BiLFS)算法。LFS问题被建模为双层优化问题,特征子集和待优化局部区域是该问题的两个决策变量。在问题的上层,使用非支配排序遗传算法-Ⅱ求解被选择的局部区域的最优特征子集,区域纯度和被选择特征比率是目标函数;在问题的下层,根据上层求解的最优特征子集,首先使用局部区域聚类分析得到区域内的中心样本,然后通过局部区域融合消除非必要区域并更新必要区域的种群。在11个UCI数据集上的测试结果表明,相较于基于进化算法的非自适应LFS方法,BiLFS的平均分类准确率达到前者的98.48%,而平均所需计算用时仅为前者的9.51%,运算效率得到大幅提升,且达到基于线性规划的LFS方法的水准。对迭代过程中BiLFS算法选择的用于优化的局部区域进行可视化分析,结果表明,BiLFS选择必要局部区域具有稳定性和可靠性。
泛在计算模式下,数据分布式获取和处理带来了分布式数据驱动优化的需求。针对数据分布获取、约束异步评估且信息缺失的挑战,构建分布式数据驱动的多约束进化优化算法(DDDEA)框架,由一系列终端节点负责数据提供和分布式评估,服务器节点负责全局进化优化。基于该框架具体实现了一个算法实例,终端节点利用局部数据构建径向基函数(RBF)模型,辅助驱动服务器节点差分进化(DE)算法对问题进行寻优。通过与3个集中式数据驱动的多约束进化优化算法在两个标准测试集的实验对比,DDDEA在68.4%的测试用例中取得显著最优结果,在84.2%的测试用例中找到可行解的成功率为1.00,表明该算法具有良好的全局搜索能力和收敛能力。
约束多目标进化算法(CMOEA)是一类专门为解决约束多目标优化问题而设计的元启发式算法。这类算法利用基于种群的黑盒随机搜索模式,可以在不同优化问题上达到目标与约束之间的有效平衡;然而它们未有效利用函数的梯度信息,在复杂问题上收敛过慢。但引入梯度信息不是一个简单的过程,同时计算所有目标和约束的梯度会消耗大量的计算资源,且目标和约束之间的矛盾会使梯度方向难以确定。为此,提出一种进化计算和梯度下降(GD)的联合优化算法——基于梯度辅助的多阶段约束多目标进化算法(CMOEA-MSG)。该算法包括两个阶段:在第一阶段,算法通过构建辅助问题并有选择性地计算目标或约束的梯度更新解,使种群快速收敛至可行区域;在第二阶段,算法采用约束优先原则求解原问题,保证种群的可行性和多样性。与现有同类算法在LIR-CMOP、MW和DAS-CMOP三个测试集上的对比结果表明,CMOEA-MSG可以更有效地解决约束多目标优化问题。
在自然语言处理(NLP)的细粒度情感分析问题中,为探索携带结构偏差的预训练语言模型(PLM)对端到端式情感三元组抽取任务的影响,解决方面语义特征依赖容错率低的问题,结合方面感知注意力机制和图卷积网络(GCN),提出用于方面情感三元组抽取任务的方面感知注意力增强图卷积网络(AE-GCN)模型。首先,在方面情感三元组抽取任务中引入多种类型的关系;其次,采用双仿射注意力机制将这些关系嵌入句子中单词之间的相邻张量,并引入方面感知注意力机制以获取句子注意力评分矩阵,深入挖掘与方面相关的语义特征;再次,GCN通过将单词和关系相邻张量分别视为边和节点,将句子转换为多通道图以学习关系感知节点表示;最后,使用一种有效的词对表示细化策略确定词对是否匹配,以考虑方面和意见抽取的隐含结果。在ASTE-D1基准数据集上的实验结果表明,所提模型在14res、14lap、15res和16res子数据集上的F1值相较于增强型多通道图卷积网络(EMC-GCN)模型提升了0.20、0.21、1.25和0.26个百分点;在ASTE-D2基准数据集上,所提模型在14lap、15res和16res子数据集上的F1值相较于EMC-GCN模型提升了0.42、0.31和2.01个百分点。可见所提模型相较于EMC-GCN模型在精确率和有效性方面有较大改进。
联邦学习(FL)应用场景中,常面临客户端数据异质性和不同任务需求需要提供个性化模型的问题,但现有的部分个性化联邦学习(PFL)算法中存在个性化与全局泛化的权衡问题,并且这些算法大多采用传统FL中根据客户端数据量加权聚合的方法,导致数据分布差异大的客户端模型性能变差,缺乏个性化聚合策略。针对上述问题,提出一种基于相似度聚类和正则化的PFL算法pFedSCR。pFedSCR算法在客户端本地更新阶段训练个性化模型和局部模型,其中:个性化模型在交叉熵损失函数中引入L2范数正则化,动态调整参考全局模型的程度,在汲取全局知识的基础上实现个性化;在服务端聚合阶段,根据客户端模型更新的相似度聚类,构建聚合权重矩阵,动态调整聚合权重,为不同客户端聚合个性化模型,让参数聚合策略具有个性化的同时解决数据异构问题。在CIFAR-10、MNIST、Fashion-MNIST 3个数据集上通过狄利克雷(Dirichlet)分布模拟了多种非独立同分布(Non-IID)数据场景,结果表明:pFedSCR算法在各种场景下的准确度和通信效率都优于经典算法FedProx和最新个性化算法FedPCL (Federated Prototype-wise Contrastive Learning)等联邦学习算法,最高可达到99.03%准确度。
多变量时间序列(MTS)数据具有高维性,且分布复杂多变,现有的异常检测模型在面对MTS数据集时普遍存在误判率高、训练困难等问题,且多数模型仅考虑时间序列样本的时空特征,对时间序列特征的学习并不全面。为了解决以上问题,提出一种基于多域特征提取的MTS异常检测模型(MFE-TS)。首先,从原始数据域出发,使用长短期记忆(LSTM)网络与卷积神经网络(CNN)分别提取MTS的时间相关性和空间相关性特征。其次,用傅里叶变换将原始时间序列转换到频域空间,并利用Transformer学习数据在频域空间的幅度与相位特征。多域特征学习能更全面地建模时间序列特征,从而提高模型对MTS的异常检测性能。此外,引入掩码策略,进一步增强模型的特征学习能力,并使模型具备一定的抗噪性。实验结果表明,MFE-TS在多个真实MTS数据集上展现了优越的性能,同时在含有噪声的数据集中仍能保持较好的检测效果。
约束满足问题(CSP)是理论计算机科学领域的组合优化问题,可满足性问题(SAT问题)作为CSP中的一种特殊情形,是理论计算机科学、数理逻辑和人工智能等领域十分关注的热点问题。相变是SAT问题中存在的一种现象,而研究SAT问题的相变现象和相变机制对深入认识SAT问题的难解本质和一般数学现象以及设计更高效的算法求解SAT问题有重要的指导意义。因此,根据近年来国内外学者针对SAT问题的相变现象取得的一些重要研究成果,首先介绍了SAT问题相变的相关知识以及SAT问题的概率分析方法和实例生成模型,其次总结并分析了SAT问题的不可满足相变和可满足相变这两种相变的相变点求解方法和相变阈值,最后展望了SAT问题相变的研究趋势。
超图是图的泛化,相较于普通图,它在复杂关系的高阶特征表达上具有显著优势。作为一种相对较新的数据结构,超图在应用领域正在发挥越来越大的作用,研究者采用超图模型及算法对现实世界中的具体问题进行建模、求解,有效地提升了解决问题的效率及质量。现有对超图的综述更多侧重于解决超图本身问题的理论及技术,缺乏对超图在具体应用场景下的建模及求解方法的归纳总结。为此,在总结介绍超图的一些基础概念后,分析了超图在各个主流应用场景下的应用方法、技术、共性问题及解决方案;通过对现有工作的归纳总结,阐述了超图运用于现实问题中仍然存在的一些问题与障碍;最后,对超图应用的未来研究方向进行了展望。
环形伪影是各类型计算机断层扫描(CT)图像中最常见的伪影之一,通常是由于探测器像素对X射线响应不一致导致的。有效去除环形伪影能极大提高CT图像质量,提升后期诊断和分析的精度,是CT图像重建中的必要步骤。因此,对环形伪影去除(又称“环形伪影校正”)方法进行了系统梳理。首先,介绍环形伪影的表现和成因,给出常用的数据集、算法库;其次,依次介绍基于探测器校正、基于解析和迭代求解(分为投影数据预处理、CT图像重建、CT图像后处理环节)、基于深度学习(分为卷积神经网络、生成对抗网络)的环形伪影去除方法,并分析每类方法的原理、发展过程及优缺点;最后,归纳现有环形伪影去除方法在鲁棒性、数据集多样化、模型构建等方面存在的技术瓶颈,并对解决方案进行展望。
针对神经网络超参数优化效果差、容易陷入次优解和优化效率低的问题,提出一种基于改进实数编码遗传算法(IRCGA)的深度神经网络超参数优化算法——IRCGA-DNN(IRCGA for Deep Neural Network)。首先,采用实数编码方式表示超参数的取值,使超参数的搜索空间更灵活;然后,引入分层比例选择算子增加解集多样性;最后,分别设计了改进的单点交叉和变异算子,以更全面地探索超参数空间,提高优化算法的效率和质量。基于两个仿真数据集,验证IRCGA-DNN的毁伤效果预测性能和收敛效率。实验结果表明,在两个数据集上,与GA-DNN(Genetic Algorithm for Deep Neural Network)相比,所提算法的收敛迭代次数分别减少了8.7%和13.6%,均方误差(MSE)相差不大;与IGA-DNN(Improved GA-DNN)相比,IRCGA-DNN的收敛迭代次数分别减少了22.2%和13.6%。实验结果表明,所提算法收敛速度和预测性能均更优,能有效处理神经网络超参数优化问题。
代码复用为软件开发带来便利的同时也引入了安全风险,如加速漏洞传播、代码恶意抄袭等,代码相似性检测技术通过分析代码间词法、语法、语义等信息计算代码相似程度,是判断代码复用最有效的技术之一,也是近年发展较快的程序安全分析技术。首先,系统梳理代码相似性检测的近期技术进展,根据目标代码是否开源,将代码相似性检测技术分为源码相似性检测和二进制代码相似性检测,又根据编程语言、指令集的不同进行二次细分;其次,总结每一种技术的思路和研究成果,分析机器学习技术在代码相似性检测领域成功的案例,并讨论现有技术的优势与不足;最后,给出代码相似性检测技术的发展趋势,为相关研究人员提供参考。
5G时代的到来使基于位置的服务(LBS)应用更加广泛,但用户在享受LBS带来的巨大便利时,也会面对由位置服务引发的诸多隐私泄露问题。为了加强匿名的安全性,提高数据效用,对抗拥有一定背景知识的攻击以及保护用户的敏感信息,研究者们提出了基于语义的位置隐私保护机制。首先,对位置隐私保护系统结构和传统的保护技术进行介绍;其次,分析了基于语义的隐私泄露和攻击方式,给出了结合语义的位置隐私保护需求,重点从单点位置隐私保护和轨迹隐私保护两个方面综述了基于语义的位置隐私保护研究中最新的关键技术和成果;最后,对未来技术发展趋势和下一步研究工作进行展望。
知识追踪(KT)是在线教育中一项基础且具有挑战性的任务,同时也是从学习者的学习历史中建立学习者知识状态模型的任务,可以帮助学习者更好地了解自己的知识状态,使教育者更好地了解学习者的学习情况。对在线教育学习者KT研究进行综述。首先,介绍KT的主要任务和发展历程;其次,从传统KT模型和深度学习KT模型两个方面展开叙述;再次,归纳总结相关数据集和评价指标,并汇总KT的相关应用;最后,总结KT现状,讨论它们的不足和未来发展方向。
隐私政策文档声明了应用程序需要获取的隐私信息,但不能保证清晰且完全披露应用获取的隐私信息类型,目前对应用实际敏感行为与隐私政策一致性分析的研究仍存在不足。针对上述问题,提出一种Android应用敏感行为与隐私政策一致性分析方法。在隐私政策分析阶段,基于Bi-GRU-CRF(Bi-directional Gated Recurrent Unit Conditional Random Field)神经网络,通过添加自定义标注库对模型进行增量训练,实现对隐私政策声明中的关键信息的提取;在敏感行为分析阶段,通过对敏感应用程序接口(API)调用进行分类、对输入敏感源列表中已分析过的敏感API调用进行删除,以及对已提取过的敏感路径进行标记的方法来优化IFDS(Interprocedural, Finite, Distributive,Subset)算法,使敏感行为分析结果与隐私政策描述的语言粒度相匹配,并且降低分析结果的冗余,提高分析效率;在一致性分析阶段,将本体之间的语义关系分为等价关系、从属关系和近似关系,并据此定义敏感行为与隐私政策一致性形式化模型,将敏感行为与隐私政策一致的情况分为清晰的表述和模糊的表述,将不一致的情况分为省略的表述、不正确的表述和有歧义的表述,最后根据所提基于语义相似度的一致性分析算法对敏感行为与隐私政策进行一致性分析。实验结果表明,对928个应用程序进行分析,在隐私政策分析正确率为97.34%的情况下,51.4%的Android应用程序存在应用实际敏感行为与隐私政策声明不一致的情况。
针对大语言模型(LLM)技术的快速发展,剖析它的技术应用前景和风险挑战,对通用人工智能(AGI)的发展和治理有重要参考价值。首先,以Multi-BERT(Multilingual Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)和ChatGPT(Chat Generative Pre-Trained Transformer)等语言模型为代表,综述LLM的发展脉络、核心技术和评估体系;其次,分析LLM现存的技术局限和安全风险;最后,提出LLM在技术上改进、政策上跟进的建议。分析指出作为发展阶段的LLM,现有模型存在非真实性及偏见性输出、实时自主学习能力欠缺,算力需求庞大,对数据质量和数量依赖性强,语言风格单一;存在数据隐私、信息安全和伦理等方面的安全风险。未来发展可从技术上继续改进,从“大规模”转向“轻量化”、从“单模态”走向“多模态”、从“通用”迈入“垂类”;从政策上实时跟进,实施有针对性的监管措施,规范应用和发展。
自动驾驶场景下的目标检测是计算机视觉中重要研究方向之一,确保自动驾驶汽车对物体进行实时准确的目标检测是研究重点。近年来,深度学习技术迅速发展并被广泛应用于自动驾驶领域中,极大促进了自动驾驶领域的进步。为此,针对YOLO(You Only Look Once)算法在自动驾驶领域中的目标检测研究现状,从以下4个方面分析。首先,总结单阶段YOLO系列检测算法思想及其改进方法,分析YOLO系列算法的优缺点;其次,论述YOLO算法在自动驾驶场景下目标检测中的应用,从交通车辆、行人和交通信号识别这3个方面分别阐述和总结研究现状及应用情况;此外,总结目标检测中常用的评价指标、目标检测数据集和自动驾驶场景数据集;最后,展望目标检测存在的问题和未来发展方向。
多视图聚类是近年来图数据挖掘领域的研究热点。由于数据采集技术的限制或人为因素等原因常导致视图或样本缺失问题。降低多视图的不完整性对聚类效果的影响是多视图聚类目前面临的重大挑战。因此,综合研究不完整多视图聚类(IMC)近年的发展具有重要的理论意义和实践价值。首先,归纳分析不完整多视图数据缺失类型;其次,详细比较基于多核学习(MKL)、矩阵分解(MF)学习、深度学习和图学习这4类IMC方法,分析代表性方法的技术特点和区别;再次,从数据集类型、视图和类别数量、应用领域等角度总结22个公开不完整多视图数据集;继次,总结评价指标,并系统分析现有不完整多视图聚类方法在同构和异构数据集上的性能表现;最后,归纳分析不完整多视图聚类目前存在的问题、未来的发展方向和现有应用领域。
针对量子硬件规模逐步扩大、当下量子计算经典模拟速度不高的问题,提出了基于神威超算量子模拟器的两种优化方法。首先,通过改进张量转置策略和计算策略重新构建了张量收缩算子库SWTT,从而提高了部分张量收缩的计算内核效率并减少了冗余访存;其次,通过提高数据局部性的收缩路径调整方法实现了路径计算复杂度和计算效率之间的均衡。测试结果表明,该算子库改进方法可将“悬铃木”量子霸权电路模拟效率提升5.4%,单步张量收缩效率最高提升49.7倍;该路径调整方法可在路径计算复杂度膨胀2倍条件下提升约4倍的浮点效率。两种优化方法使神威超算整机模拟谷歌53量子比特20层量子芯片随机电路百万振幅采样的单精度和混合精度浮点运算效率分别从3.98%和1.69%提升至18.48%和7.42%,理论估计模拟时间从单精度的470 s降至226 s,混合精度的304 s降至134 s,证明两种方法大幅提高了量子计算模拟速度。