传统多维标度方法学习得到的低维嵌入保持了数据点的拓扑结构,但忽略了低维嵌入数据类别间的判别性。基于此,提出一种基于多维标度法的无监督判别性特征学习方法——判别多维标度模型(DMDS),该模型能在学习低维数据表示的同时发现簇结构,并通过使同簇的低维嵌入更接近,让学习到的数据表示更具有判别性。首先,设计了DMDS对应的目标公式,体现所学习特征在保留拓扑性的同时增强判别性;其次,对目标函数进行了推理和求解,并根据推理过程设计所对应的迭代优化算法;最后,在12个公开的数据集上对聚类平均准确率和平均纯度进行对比实验。实验结果表明,根据Friedman统计量综合评价DMDS在12个数据集上的性能优于原始数据表示和传统多维标度模型的数据表示,它的低维嵌入更具有判别性。
为度量多关系节点相似性、挖掘具有多关系节点的社团结构,提出基于节点多关系的社团挖掘算法LSL-GN。首先基于节点相似性和节点可达性刻画具有多关系的节点相似性度量指标LHN-ISL;然后利用该指标重构目标网络的低密度模型,并结合GN(Girvan-Newman)算法完成社团划分。将LSL-GN算法与多个经典社团挖掘算法在模块度(Q)、标准化互信息(NMI)和调整兰德指数(ARI)上进行对比,结果显示LSL-GN算法在3个指标上均优于经典算法,说明它的社团划分质量相对较好。将LSL-GN应用于“用户-应用”的移动漫游网络模型中,划分出了以携程旅行、高德地图、滴滴出行等为基础应用的社团结构,而这些社团划分结果可为设计个性化套餐业务提供策略参考信息。
近年来,联邦学习成为解决机器学习中数据孤岛与隐私泄露问题的新思路。联邦学习架构不需要多方共享数据资源,只要参与方在本地数据上训练局部模型,并周期性地将参数上传至服务器来更新全局模型,就可以获得在大规模全局数据上建立的机器学习模型。联邦学习架构具有数据隐私保护的特质,是未来大规模数据机器学习的新方案。然而,该架构的参数交互方式可能导致数据隐私泄露。目前,研究如何加强联邦学习架构中的隐私保护机制已经成为新的热点。从联邦学习中存在的隐私泄露问题出发,探讨了联邦学习中的攻击模型与敏感信息泄露途径,并重点综述了联邦学习中的几类隐私保护技术:以差分隐私为基础的隐私保护技术、以同态加密为基础的隐私保护技术、以安全多方计算(SMC)为基础的隐私保护技术。最后,探讨了联邦学习中隐私保护中的若干关键问题,并展望了未来研究方向。
针对汤永利等提出的9种无证书签名方案(汤永利,王菲菲,叶青,等.改进的可证明安全无证书签名方案.北京邮电大学学报,2016,39(1):112-116),首先使用线性化方程分析方法,发现所有方案中公钥之间存在线性关系,利用此缺陷完成对所有方案的签名伪造攻击;其次,为打破公钥之间的线性关系,使用改造哈希函数参数的方法改进方案,并在随机预言机模型下证明了改进方案的安全性;然后,提出一种无证书签名方案中的公钥构造格式,通过该格式构造出的签名方案无法被敌手进行公钥替换攻击;最后,通过仿真对改进方案与现有的无证书签名方案进行效率比较。实验结果表明,改进方案在提高安全性的同时未降低计算效率。
识别复杂网络中的关键节点对优化网络结构以及信息的有效传播起着至关重要的作用。局部结构熵(LE)利用局部网络对整个网络的影响代替节点对整个网络的影响以识别重要节点,然而LE未考虑高聚集性网络和节点与邻居节点形成环的情况,存在一定的局限性。针对以上不足,首先,提出了改进LE的节点重要性评价方法PLE(Penalized Local structural Entropy),即在LE的基础上引入集聚系数(CC)作为惩罚项,从而适当惩罚网络中的高聚集性节点;其次,由于PLE的惩罚项对三元闭包结构上的节点惩罚力度过大,又提出了PLE的改进方法PLEA(Penalized Local structural Entropy Advancement),即在惩罚项前引入一个控制系数,以控制惩罚力度。对5个不同规模的真实网络进行选择性攻击实验,实验结果表明,在美国西部各州电网和美国航空网两个网络中,与LE方法相比,PLEA的识别准确率分别提升了26.3%和3.2%;与K-Shell(KS)方法相比,PLEA的识别准确率分别提升了380%和5.43%;与DCL(Degree and Clustering coefficient and Location)方法相比,PLEA的识别准确率分别提升了14.4%和24%。同时,PLEA识别的重要节点对网络造成的破坏更大,验证了引入CC作为惩罚项的合理性,以及PLEA的有效性和优越性。PLEA综合考虑了节点的邻居个数和节点的局部网络结构,计算简单,对于刻画大规模网络的可靠性与抗毁性具有十分重要的意义。
将用户感兴趣的事件从非结构化信息中提取出来,然后以结构化的方式展示给用户,这就是事件抽取。事件抽取在信息收集、信息检索、文档合成、信息问答等方面有着广泛应用。从全局出发,事件抽取算法可以分为基于模式匹配的算法、触发词法、基于本体的算法以及前沿联合模型方法这四类。在研究过程中根据相关需求可使用不同评价方法和数据集,而不同的事件表示方法也与事件抽取研究有一定联系;以任务类型区分,元事件抽取和主题事件抽取是事件抽取的两大基本任务。其中,元事件抽取有基于模式匹配、基于机器学习和基于神经网络这三种方式,而主题事件抽取有基于事件框架和基于本体两种方式。事件抽取研究在中英等单语言上均已取得了优秀成果,而跨语言事件抽取依然面临着许多问题。最后,总结了事件抽取的相关工作并提出未来研究方向,以期为后续研究提供参考。
针对机器学习的发展需要大量兼顾数据安全性和可用性的真实数据集的问题,提出一种基于随机森林(RF)的K-匿名隐私保护算法——RFK-匿名隐私保护。首先,使用RF算法预测出每种属性值的敏感程度;然后,使用k-means聚类算法将属性值根据不同敏感程度进行聚类,再使用K-匿名算法根据属性值的敏感程度集群对数据进行不同程度的隐匿;最后,由用户自主地选择需要哪种隐匿程度的数据表。实验结果表明,在Adult数据集中,与K-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为3、4时的准确率分别提高了0.5、1.6个百分点;与(p,α,k)-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为4、5时的准确率分别提高了0.4、1.9个百分点。RFK-匿名隐私保护算法在保护数据的隐私安全的基础上能有效提高数据的可用性,更适合应用于机器学习中的分类预测。
针对当前医疗数据共享时访问控制粒度过粗、共享灵活性低、集中式医疗数据共享平台存在数据泄露的安全隐患等问题,提出一种基于区块链的医疗数据分级访问控制与共享系统。首先,对医疗数据按照敏感度分级,并提出了密文策略属性基分级加密(CP-ABHE)算法,实现对不同敏感度医疗数据的访问控制。该算法使用合并访问控制树和结合对称加密方法提升密文策略属性基加密(CP-ABE)算法的性能,并使用多授权中心解决密钥托管问题。然后,采用基于许可区块链的医疗数据共享模式解决集中式共享平台存在的中心化信任问题。安全性分析结果表明,所提系统在数据共享过程中保证了数据的安全性,可以抵御用户合谋攻击和权威合谋攻击。实验结果表明,CP-ABHE算法拥有比CP-ABE算法更低的计算开销,所提系统的最大平均时延为7.8 s,最高吞吐量为每秒处理236个事务,符合预期性能要求。
预训练模型(PTM)通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识。而在多模态中,PTM的发展还处于初期。根据具体模态的不同,将目前大多数的多模态PTM分为图像?文本PTM和视频?文本PTM;根据数据融合方式的不同,还可将多模态PTM分为单流模型和双流模型两类。首先,总结了常见的预训练任务和验证实验所使用的下游任务;接着,梳理了目前多模态预训练领域的常见模型,并用表格列出各个模型的下游任务以及模型的性能和实验数据比较;然后,介绍了M6(Multi-Modality to Multi-Modality Multitask Mega-transformer)模型、跨模态提示调优(CPT)模型、VideoBERT(Video Bidirectional Encoder Representations from Transformers)模型和AliceMind(Alibaba’s collection of encoder-decoders from Mind)模型在具体下游任务中的应用场景;最后,总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向。
针对生理信号情感识别问题,提出一种基于图神经网络(GNN)和注意力的双模态情感识别方法。首先,使用GNN对脑电(EEG)信号进行分类;然后,使用基于注意力的双向长短期记忆(Bi-LSTM)网络对心电(ECG)信号进行分类;最后,通过Dempster-Shafer证据理论融合EGG和ECG分类结果,从而提高情感识别任务的综合性能。为验证所提方法的有效性,邀请20名受试者参与情感激发实验,并收集了受试者的EGG、ECG信号。实验结果表明,所提方法的二分类准确率在valence维度和arousal维度分别为91.82%和88.24%,相较于单模态EEG方法分别提高2.65%和0.40%,相较于单模态ECG方法分别提高19.79%和24.90%。可见,所提方法能够有效地提高情感识别的准确率,为医疗诊断等领域提供决策支持。
智能合约技术作为区块链2.0的里程碑,受到学术界与企业界的广泛关注。智能合约运行在不具有可信计算环境的底层基础设施上,并且具有区别于传统程序的特性,在自身的安全性上存在许多影响很大的漏洞,针对它进行安全审计的研究也成为区块链安全领域的热门与亟需解决的关键科学问题。针对智能合约的漏洞检测与自动化修复,首先介绍智能合约漏洞的主要漏洞类型与分类;然后,调研回顾近五年智能合约漏洞检测的三类最重要的方法,并介绍每类方法具有代表性和创新性的研究技术;其次,详细介绍智能合约升级方案与具有前沿性的自动化修复技术;最后,分析与展望了面向在线、实时、多平台、自动化与智能化需求的智能合约漏洞检测与自动化修复技术的挑战与未来可展开的工作,并提出技术解决方案的框架。
在图结构数据上开展推理计算是一项重大的任务,该任务的主要挑战是如何表示图结构知识使机器可以快速理解并利用图数据。对比现有表示学习模型发现,基于随机游走方法的表示学习模型容易忽略属性对节点关联关系的特殊作用,因此提出一种基于节点邻接关系与属性关联关系的混合随机游走方法。首先通过邻接节点间的共同属性分布计算属性权重,并获取节点到每个属性的采样概率;然后分别从邻接节点与含有共有属性的非邻接节点中提取网络信息;最后构建基于节点-属性二部图的网络表示学习模型,并通过上述采样序列学习得到节点向量表达。在Flickr、BlogCatalog、Cora公开数据集上,用所提模型得到的节点向量表达进行节点分类的Micro-F1平均准确率为89.38%,比GraphRNA(Graph Recurrent Networks with Attributed random walks)高出了2.02个百分点,比经典工作DeepWalk高出了21.12个百分点;同时,对比不同随机游走方法发现,提高对节点关联有促进作用的属性的采样概率可以增加采样序列所含信息。
针对高分辨率人体姿态估计网络存在参数量大、运算复杂度高等问题,提出一种基于高分辨率网络(HRNet)的轻量型沙漏坐标注意力网络(SCANet)用于人体姿态估计。首先引入沙漏(Sandglass)模块和坐标注意力(CoordAttention)模块;然后在此基础上构建了沙漏坐标注意力瓶颈(SCAneck)模块和沙漏坐标注意力基础 (SCAblock)模块两种轻量型模块,在降低模型参数量和运算复杂度的同时,获取特征图空间方向的长程依赖和精确位置信息。实验结果显示,在相同图像分辨率和环境配置的情况下,在COCO(Common Objects in COntext)校验集上,SCANet模型与HRNet模型相比参数量降低了52.6%,运算复杂度降低了60.6%;在MPII(Max Planck Institute for Informatics)校验集上,SCANet模型与HRNet模型相比参数量和运算复杂度分别降低了52.6%和61.1%;与常见的人体姿态估计网络如堆叠沙漏网络(Hourglass)、级联金字塔网络(CPN)和SimpleBaseline相比,SCANet模型在拥有更少的参数量与运算复杂度的情况下,仍能实现对人体关键点的高准确度预测。
为高效地自动挖掘开源异构大数据中的威胁情报实体和关系,提出一种威胁情报实体关系抽取(TIERE)方法。首先,通过分析开源网络安全报告的特点,研究并提出一种数据预处理方法;然后,针对网络安全领域文本复杂度高、标准数据样本集少的问题,提出基于改进自举法的命名实体识别(NER-IBS)算法和基于语义角色标注的关系抽取(RE-SRL)算法。利用少量样本和规则构建初始种子,通过迭代训练挖掘非结构化文本中的实体,并通过构建语义角色的策略挖掘实体之间的关系。实验结果表明,在少样本网络安全信息抽取数据集上,NER-IBS算法的F1值为84%,与RDF-CRF (Regular expression and Dictionary combined with Feature templates as well as Conditional Random Field)算法相比提高了2个百分点,且RE-SRL算法对于无类别关系抽取的F1值为94%,说明TIERE方法具有高效的实体关系抽取能力。
目前,医学图像分割模型广泛采用基于全卷积网络(FCN)的U型网络(U-Net)作为骨干网,但卷积神经网络(CNN)在捕捉长距离依赖能力上的劣势限制了分割模型性能的进一步提升。针对上述问题,研究者们将Transformer应用到医学图像分割模型中以弥补CNN的不足,结合Transformer和U型结构的分割网络成为研究热点之一。在详细介绍U-Net和Transformer之后,按医学图像分割模型中Transformer模块所处的位置,包括仅在编码器或解码器、同时在编码器和解码器、作为过渡连接和其他位置进行分类,讨论各模型的基本内容、设计理念以及可改进的地方,并分析了Transformer处于不同位置的优缺点。根据分析结果可知,决定Transformer所在位置的最大因素是目标分割任务的特点,而且Transformer结合U-Net的分割模型能更好地利用CNN和Transformer各自的优势,提高模型的分割性能,具有较大的发展前景和研究价值。
大宗商品线上交易面临由交易欺诈、交接违规等问题带来的巨大风险。为实现更加可信的大宗商品交易,提出一套长期可追溯的线上交易机制,以实现信息的真实防篡改、流程的可信抗欺诈。首先,基于“申请?验证?记录”的思想,结合区块链提出线上交易框架,并利用智能合约实现对交易流程各阶段的多方监督和详细记录;其次,基于局部二值模式(LBP)算法对外观上具有纹理特征的大宗商品的商品外观指纹进行提取和核验,从而保障商品信息的真实性;最后,基于环境指纹,提出商品规范交接方法,以保证交接流程的可信性。上述交易框架、商品外观指纹提取及核验算法、商品规范交接方法共同构成了防欺诈抗篡改的线上交易机制。分析结果表明,该交易框架能够从用户选择和流程规范两个角度规避大部分的欺诈,且识别交易中发生的单方和两方欺诈行为;基于真实原木图像数据的实验结果表明,所提商品外观指纹提取及核验算法能够以94.00%的准确率判断同一商品的不同图像,并以78.30%的准确率区分不同商品的图像;系统性能测试表明,所提交易机制各阶段的时延均在可接受范围内,满足线上交易要求。
在边缘计算(EC)网络中,针对边缘节点计算资源和存储空间有限的问题,提出一种基于改进深度强化学习(DRL)的边缘计算服务卸载(ECSO)算法,以降低节点处理时延和提高服务性能。具体来说,将边缘节点服务卸载问题转化为资源受限的马尔可夫决策过程(MDP),利用DRL算法解决边缘节点的请求状态转移概率难以精确预测的问题;考虑到边缘节点执行缓存服务的状态动作空间过大,定义新的动作行为替代原有动作,并依据提出的动作筛选算法得到最优动作集合,以改进计算动作行为奖励值的过程,进而大幅度降低动作空间大小,提高算法训练的效率以及收益。仿真实验结果表明,对比原深度Q网络(DQN)算法、邻近策略优化(PPO)算法以及传统的最流行(MP)算法,ECSO算法的总奖励值分别提升了7.0%、12.7%和65.6%,边缘节点服务卸载时延分别降低了13.0%、18.8%和66.4%,验证了算法的有效性,说明ECSO能有效提升边缘计算服务的卸载性能。
随着深度学习的发展和成熟,神经机器翻译的质量也越来越高,然而仍不完美,为了达到可接受的翻译效果,需要人工进行后期编辑。交互式机器翻译(IMT)是这种串行工作的一个替代,即在翻译过程中进行人工互动,由用户对翻译系统产生的候选翻译进行验证,并且,如有必要,由用户提供新的输入,系统根据用户当前的反馈生成新的候选译文,如此往复,直到产生一个使用户满意的输出。首先,介绍了IMT的基本概念以及当前的研究进展;然后,分类对一些常用方法和前沿工作加以介绍,并简述每个工作的背景和创新之处;最后,探讨了IMT的发展趋势和研究难点。
通过分析分布式机器学习中作业性能干扰的问题,发现性能干扰是由于内存过载、带宽竞争等GPU资源分配不均导致的,为此设计并实现了快速预测作业间性能干扰的机制,该预测机制能够根据给定的GPU参数和作业类型自适应地预测作业干扰程度。首先,通过实验获取分布式机器学习作业运行时的GPU参数和干扰率,并分析出各类参数对性能干扰的影响;其次,依托多种预测技术建立GPU参数-干扰率模型进行作业干扰率误差分析;最后,建立自适应的作业干扰率预测算法,面向给定的设备环境和作业集合自动选择误差最小的预测模型,快速、准确地预测作业干扰率。选取5种常用的神经网络作业,在两种GPU设备上设计实验并进行结果分析。结果显示,所提出的自适应干扰预测(AIP)机制能够在不提供任何预先假设信息的前提下快速完成预测模型的选择和性能干扰预测,耗时在300 s以内,预测干扰率误差在2%~13%,可应用于作业调度和负载均衡等场景。
应用基于混合整数线性规划(MILP)模型的S盒紧凑约束计算方法,可以较好地解决SPONGENT在差分密码分析过程中差分路径搜索效率低下的问题;为寻找S盒的最优描述,提出一种紧凑性验证算法从约束条件存在必要性的角度验证S盒的不等式约束的紧凑性问题。首先,引入MILP模型分析SPONGENT S盒的不等式约束,得到了由23个不等式组成的约束;然后,提出一种用于评价约束不等式存在必要性的指标,并基于该指标提出了一种验证约束不等式组紧凑程度的紧凑性验证算法;最后,使用所提算法验证所求得的SPONGENT S盒约束的紧凑性。计算分析表明,23个不等式都具有唯一可以排除的不可能差分模式,即每个不等式都有存在的必要性;同时,对于同一案例,与利用贪心算法原理筛选的不等式相比,数量减少了20%。因此,所得到的SPONGENT的S盒不等式约束是紧凑的,且所提紧凑性验证算法的效果要优于对比的贪心算法。
针对多任务学习模型中相关度低的任务之间存在的负迁移现象和信息共享困难问题,提出了一种基于交叉层级数据共享的多任务模型。该模型关注细粒度的知识共享,且能保留浅层共享专家的记忆能力和深层特定任务专家的泛化能力。首先,统一多层级共享专家,以获取复杂相关任务间的公共知识;然后,将共享信息分别迁移到不同层级的特定任务专家之中,从而在上下层之间共享部分公共知识;最后,利用基于数据样本的门控网络自主选择不同任务所需信息,从而减轻样本依赖性对模型的不利影响。相较于多门控混合专家(MMOE)模型,所提模型在UCI census-income数据集上对两个任务的F1值分别提高了7.87个百分点和1.19个百分点;且在MovieLens数据集上的回归任务的均方误差(MSE)值降低到0.004 7,分类任务的AUC值提高到0.642。实验结果表明,所提出的模型适用于改善负迁移现象的影响,且能更高效地学习复杂相关任务之间的公共信息。
代码图像化技术被提出后在Android恶意软件研究领域迅速普及。针对使用单个DEX文件转换而成的代码图像表征能力不足的问题,提出了一种基于代码图像合成的Android恶意软件家族分类方法。首先,将安装包中的DEX、XML与反编译生成的JAR文件进行灰度图像化处理,并使用Bilinear插值算法来放缩处理不同尺寸的灰度图像,然后将三张灰度图合成为一张三维RGB图像用于训练与分类。在分类模型上,将软阈值去噪模块与基于Split-Attention的ResNeSt相结合提出了STResNeSt。该模型具备较强的抗噪能力,更能关注代码图像的重要特征。针对训练过程中的数据长尾分布问题,在数据增强的基础上引入了类别平衡损失函数(CB Loss),从而为样本不平衡造成的过拟合现象提供了解决方案。在Drebin数据集上,合成代码图像的准确率领先DEX灰度图像2.93个百分点,STResNeSt与残差神经网络(ResNet)相比准确率提升了1.1个百分点,且数据增强结合CB Loss的方案将F1值最高提升了2.4个百分点。实验结果表明,所提方法的平均分类准确率达到了98.97%,能有效分类Android恶意软件家族。
针对深度神经网络(DNN)的参数和计算量过大问题,提出一种基于贝叶斯优化的无标签网络剪枝算法。首先,利用全局剪枝策略来有效避免以逐层方式修剪而导致的模型次优压缩率;其次,在网络剪枝过程中不依赖数据样本标签,并通过最小化剪枝网络与基线网络输出特征的距离对网络每层的压缩率进行优化;最后,利用贝叶斯优化算法寻找网络每一层的最优剪枝率,以提高子网搜索的效率和精度。实验结果表明,使用所提算法在CIFAR-10数据集上对VGG-16网络进行压缩,参数压缩率为85.32%,每秒浮点运算次数(FLOPS)压缩率为69.20%,而精度损失仅为0.43%。可见,所提算法可以有效地压缩DNN模型,且压缩后的模型仍能保持良好的精度。
单目标跟踪是计算机视觉领域的一个重要研究方向,在视频监控、自动驾驶等领域应用广泛。对于单目标跟踪算法,尽管已有大量总结研究,但大多基于相关滤波或深度学习。近年来,基于孪生网络的跟踪算法因在精度和速度之间取得的平衡受到研究者们的广泛关注,然而目前对该类型算法的总结分析相对较少,并且对这些算法的架构层面缺少系统分析。为深入了解基于孪生网络的单目标跟踪算法,对大量相关文献进行了总结与分析。首先阐述孪生网络的结构和应用,并根据孪生跟踪算法架构组成的分类介绍了各跟踪算法;然后列举单目标跟踪领域常用的数据集和评价指标,对25个主流跟踪算法在OTB2015数据集上分别进行整体和各属性的性能比较与分析,并列出23个孪生跟踪算法在LaSOT和GOT-10K测试集上的性能以及推理时的速度;最后对基于孪生网络的目标跟踪算法的研究进行总结,并对未来的发展方向进行展望。
移动边缘计算(MEC)通过将资源部署在用户的近邻区域,可以减少移动设备的能耗,降低用户获取服务的时延;然而,大多数有关缓存方面的研究忽略了用户所请求服务的地域差异特性。通过研究区域所请求内容的特点和内容的动态性特性,提出一种收益最大化的缓存协作策略。首先,考虑用户偏好的区域性特征,将基站分为若干协作域,使每一个区域内的基站服务偏好相同的用户;然后,根据自回归移动平均(ARIMA)模型和内容的相似度预测每个区域的内容的流行度;最后,将缓存协作问题转化为收益最大化问题,根据存放内容所获得的收益,使用贪心算法解决移动边缘环境中缓存的内容的放置和替换问题。仿真实验表明,与基于MEC分组的协作缓存算法(GHCC)相比,所提算法在缓存命中率方面提高了28%,且平均传输时延低于GHCC。可见,所提算法可以有效提高缓存命中率,减少平均传输时延。
药物合成反应,特别是不对称反应是现代药物化学的重要组成部分。化学家们投入了巨大的人力和资源来识别各种化学反应模式,以实现高效合成和不对称催化。量子力学计算和机器学习算法在这一领域的最新研究证明了通过计算机学习现有药物合成反应数据并进行精确虚拟筛选的巨大潜力。然而,现有方法局限于单一模态的数据来源,并且由于数据少的限制,只能使用基本的机器学习方法,使它们在更广泛场景中的普遍应用受到阻碍。因此,提出两种融合多模态数据的药物合成反应的筛选模型来进行反应产率和对映选择性的虚拟筛选,并给出了一种基于Boltzmann分布进行加权的3D构象描述符,从而将分子的立体空间信息与量子力学性质结合起来。这两种多模态数据融合模型在两个代表性的有机合成反应(C-N偶联反应和N,S-缩醛反应)中进行了训练和验证,结果表明前者的R2相对于基线方法在大多数据划分上的提升超过了1个百分点,后者的平均绝对误差(MAE)相对于基线方法在大多数据划分上的下降超过了0.5个百分点。可见,在有机反应筛选的不同任务中采用基于多模态数据融合的模型都会带来好的性能。
针对时间序列的数据不平衡和高度复杂的时间相关性导致的异常检测准确率低的问题,以生成对抗网络(GAN)作为基础提出一种基于再编码的无监督时间序列异常检测模型RTGAN。首先,使用具有周期一致性的多个生成器保证生成样本的多样性,从而学习不同的异常模式;其次,使用堆叠式LSTM-dropout RNN捕获时间相关性;然后,使用二次编码在潜在空间中比较生成样本和真实样本之间的差异,并将此差异作为再编码误差当作异常分数的一部分,从而提高异常检测的准确率;最后,使用新的异常分数对单变量和多变量时间序列数据集进行异常检测。将所提模型与七种基线异常检测模型在单变量和多变量时间序列上进行了比较。实验结果表明,所提模型在所有数据集上均获得了最高的平均F1值(0.815),并且总体性能分别比原始自编码器(AE)模型Dense-AE和最新的基准模型USAD高出36.29%和8.52%。通过不同的信噪比(SNR)检测模型的健壮性,结果表明所提模型一直优于LSTM-VAE、USAD和OmniAnomaly,尤其在SNR为30%情况下,RTGAN的F1值分别比USAD和OmniAnomaly高出13.53%和10.97%。可见所提模型能有效提高异常检测的准确率和鲁棒性。
当前的中文问答匹配技术大多都需要先进行分词,中文医疗文本的分词问题需要维护医学词典来缓解分词错误对后续任务影响,而维护词典需要大量人力和知识,致使分词问题一直具有极大的挑战性。同时,现有的中文医疗问答匹配方法都是对问题和答案分开建模,并未考虑问题和答案中各自包含的关键词汇间的关联关系。因此,提出了一种基于注意力机制的栈卷积神经网络(Att-StackCNN)模型来解决中文医疗问答匹配问题。首先,使用字嵌入对问题和答案进行编码以得到二者各自的字嵌入矩阵;然后,通过利用问题和答案的字嵌入矩阵构造注意力矩阵来得到二者各自的特征注意力映射矩阵;接着,利用栈卷积神经网络(Stack-CNN)模型同时对上述矩阵进行卷积操作,从而得到问题和答案各自的语义表示;最后,进行相似度计算,并利用相似度计算最大边际损失以更新网络参数。所提模型在cMedQA数据集上的Top-1正确率比Stack-CNN模型高接近1个百分点,比Multi-CNNs模型高接近0.5个百分点。实验结果表明,Att-StackCNN模型可以提升中文医疗问答匹配效果。
针对以往流行度预测方法未利用演化模式之间的差异和忽略预测时效性的问题,提出了一种基于演化模式的推特话题流行度预测方法。首先,基于K?SC算法对大量历史话题的流行度序列进行聚类,并得到6类演化模式;然后,使用各类演化模式下的历史话题数据分别训练全连接网络(FCN)作为预测模型;最后,为选择待预测话题的预测模型,提出幅度对齐的动态时间规整(AADTW)算法来计算待预测话题的已知流行度序列与各演化模式的相似度,并选取相似度最高的演化模式的预测模型进行流行度预测。在根据已知前20 h的流行度预测后5 h的流行度的任务中,与差分整合移动平均自回归(ARIMA)方法以及使用单一的全连接网络进行预测的方法相比,所提方法的预测结果的平均绝对百分比误差(MAPE)分别降低了58.2%和31.0%。实验结果表明,基于演化模式得到的模型群相较于单一模型能更加准确地预测推特话题流行度。
科普文本分类是将科普文章按照科普分类体系进行划分的任务。针对科普文章篇幅超过千字,模型难以聚焦关键信息,造成传统模型分类性能不佳的问题,提出一种结合知识图谱进行两级筛选的科普长文本分类模型,来减少主题无关信息的干扰,提升模型的分类性能。首先,采用四步法构建科普领域的知识图谱;然后,将该知识图谱作为距离监督器,并通过训练句子过滤器来过滤掉无关信息;最后,使用注意力机制对过滤后的句子集做进一步的信息筛选,并实现基于注意力的主题分类模型。在所构建的科普文本分类数据集(PSCD)上的实验结果表明,基于领域知识图谱的知识增强的文本分类算法模型具有更高的F1-Score,相较于TextCNN模型和BERT模型,在F1-Score上分别提升了2.88个百分点和1.88个百分点,验证了知识图谱对于长文本信息筛选的有效性。