重大突发性传染病以它的强传染性、快变异性和高风险性,对人类生命安全与经济发展构成重大威胁。流行病学调查是遏制传染病扩散的关键步骤和落实全链路精准防控的前提。针对现有流调系统存在的人工效率低下、数据质量差、专业知识不足等问题,在现有数字化的基础上结合知识图谱,提出一套辅助流行病学调查的技术应用方案。首先,基于人、地、事、物、组织五大类实体及其关系和属性构建知识图谱;其次,根据病例查风险点位查密接的思路,以病例为起点,以点位为重心,辅助判定风险人群和风险点位;最后,通过对流调数据的可视化分析,实现流调信息落位、传播扩散溯源和疫情态势感知等多个应用,从而辅助重大突发性传染病防控工作的顺利开展。在相同的误差范围内,基于图谱增强的轨迹落位方法的准确率显著高于传统基于人工问询的方法,千米内的判定准确率达到85.15%;基于图谱增强的风险点位和人群的判定方法使得效率显著提升,生成报告的平均耗时降至1 h内。实验结果表明,所提方案有效融合了知识图谱的技术优势,不仅提高了精准疫情防控策略制定的科学性与时效性,更为流行病传染预防领域的实践探索提供了重要的参考价值。
针对小样本学习模型在数据域存在偏移时分类准确度不高的问题,提出一种基于关系网络和ViT (Vision Transformer)的跨域小样本图像分类模型ReViT (Relation ViT)。首先,引入ViT作为特征提取器,并使用经过预训练的深层神经网络解决浅层神经网络的特征表达能力不足的问题;其次,以浅层卷积网络作为任务适配器提升模型的知识迁移能力,并基于关系网络和通道注意力机制构建非线性分类器;随后,将特征提取器和任务适配器进行特征融合,从而增强模型的泛化能力;最后,采取“预训练-元学习-微调-元测试”四阶段学习策略训练模型,有效融合迁移学习与元学习,进一步提升ReViT的跨域分类性能。以平均分类准确率为评估指标的实验结果表明,ReViT在跨域小样本分类问题上有良好的性能。具体地,ReViT的分类准确度在Meta-Dataset的域内场景下和域外场景下相较于次优的模型分别提升了5.82和1.71个百分点,在BCDFSL (Broader study of Cross-Domain Few-Shot Learning)数据集的3个子问题EuroSAT(European SATellite data)、CropDisease和ISIC (International Skin Imaging Collaboration)的5-way 5-shot上相较于次优的模型分别提升了1.00、1.54和2.43个百分点,在EuroSAT、CropDisease和ISIC的5-way 20-shot上相较于次优的模型分别提升了0.13、0.97和3.40个百分点,在CropDisease的5-way 50-shot上相较于次优的模型提升了0.36个百分点。可见,ReViT能在样本量稀少的图像分类任务上保持良好的准确率。
深度卷积神经网络(CNN)在图像超分辨率重建领域表现出卓越性能,然而现有的许多相关方法的模型参数量较多,无法应用至计算资源较低的设备。为缓解上述问题,提出一个轻量级的非对称信息蒸馏网络(AIDN)模型。首先,输入原始图像及其边缘图像以提取有效的特征信息;其次,设计一个非对称信息蒸馏块对提取到的特征进行非线性映射学习;再次,使用上采样模块重建多个残差图像后,将这些残差图像经过注意力机制融合成一个残差图像;最后,将融合的残差图像与输入图像的插值相加后得到超分图像。在Set14、Urban100和Manga109数据集上的实验结果表明,相较于空间自适应特征调制网络(SAFMN),AIDN模型的4倍超分峰值信噪比(PSNR)值分别提升了0.03 dB、0.14 dB和0.06 dB,说明了AIDN模型在模型参数量和模型性能之间取得了更好的平衡。
针对政务协同场景需求复杂多样、人员流动管理困难、数据隐私度高和数据量大的特点,提出面向政务协同办公的访问控制(GBAC)模型。政务协同场景中的访问控制需要实现多部门对同一资源进行不同操作的需求,而现有的主流访问控制技术面临访问控制粒度不够精细和管理维护成本过高的问题,缺乏安全、灵活、精准的访问控制模型。因此,结合政务部门的运行机制,首先,将政府组织结构和行政区划结构融入访问控制模型,并构建政务人员、组织、资源和行政区划的归属关系树;其次,结合政务工作人员所属组织和岗位等属性,构建联合主体,以实现自动化的权限授予和解除;然后,根据组织职能和行政区划等级设计主客体属性匹配策略,从而打通数据壁垒,并提高鉴权效率;最后,引入权限分级思想,为资源设置数据级别和功能级别,以控制主体的访问阈值,从而提高模型灵活性,并进一步保障数据安全。实验结果表明,与基准模型如基于角色的访问控制(RBAC)和基于属性的访问控制(ABAC)相比,GBAC模型的内存消耗大幅减小,访问时延更低。可见,所提模型能安全、高效、灵活地实现政务协同场景下的权限管理。
方面级情感分析领域主要采用基于注意力机制的神经网络模型,这类模型忽略了方面词与观点词之间的依存关系和方面词与上下文词之间的距离,导致该类模型情感分类结果不够精确。为了解决上述问题,建立一种交互式关系图注意力网络(RI-GAT)模型。首先,通过长短期记忆(LSTM)网络学习句子的语义特征;然后,将学习的语义特征结合句子的位置信息生成新的特征;最后,在新的特征中提取各方面词和观点词之间的依存关系,实现对句法依存信息和位置信息的高效利用。在Laptop、Restaurant和Twitter数据集上的实验结果表明,相较于次优的动态多通道图卷积网络(DM-GCN),RI-GAT模型分类准确率(Acc)提高了0.67、1.65和1.36个百分点,说明了RI-GAT模型可以更好地建立方面词和意见词之间的联系,使得情感分类更加精确。
交通智能(IC)卡可以记录居民的移动出行,反映居民的源-目的地(OD)信息;但智能卡记录的OD流数据规模大,直接可视化空间分布容易导致视觉杂乱,并且多元数据类型多,更难以和流数据结合对比分析。首先,针对直接可视化大规模OD数据的空间分布容易视觉遮挡的问题,提出基于正交非负矩阵分解(ONMF)的流聚类方法。所提方法对源-目的地数据聚类后再可视化,可以减少不必要的遮挡。然后,针对多元时空数据类型多难以结合对比分析的问题,设计了公交站点多元时序数据视图。该可视化方法将公交站点的流量大小和空气质量、空气温度、相对湿度、降雨量这四类多元数据在同一时间序列上编码,提高了视图的空间利用率并且可以对比分析。再次,为了辅助用户探索分析,开发了基于OD流和多元数据的交互式可视分析系统,并设计了多种交互操作提升用户探索效率。最后,基于新加坡交通智能卡数据集,从聚类效果和运行时间对该聚类方法评估。结果显示,在用轮廓系数评估聚类效果上,所提方法比原始方法提升了0.028,比用K均值聚类方法提升了0.253;在运行时间上比聚类效果较好的ONMFS(ONMF through Subspace exploration)方法少了254 s。通过案例分析和系统功能对比验证了系统的有效性。
针对医学领域知识密集、实体抽取和关系分类存在误差传递的问题,提出一种基于伪实体数据增强的高精准率的实体关系抽取框架。首先,在实体抽取模块添加基于Transformer的特征读取单元捕捉类别信息,以在密集的实体中准确识别医学长实体;其次,在流水线抽取框架的基础上插入关系负例生成模块,通过基于欠采样的伪实体生成模型生成混淆关系分类模型的伪实体,并通过三种数据增强生成策略提升模型鉴别主语宾语颠倒、主语宾语边界错误和关系分类错误的能力;最后,通过基于悬浮标记的关系分类模型缓解数据增强带来的训练时间剧增的问题。在CMeIE数据集中,对比了目前主流的4个模型。实体抽取部分相较于次优模型PL-Marker(Packed Levitated Marker),F1值提升了2.26%;实体关系抽取相较于次优模型CBLUE(Chinese Biomedical Language Understanding Evaluation)提出的流水线抽取模型,F1值提升了5.45%,精准率提升了15.62%。实验结果表明使用特征读取单元和伪实体数据增强模块可有效提高抽取的精准率。
针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符序列的上下文信息并捕捉较长距离的依赖关系;然后,对字符序列中每个字符的潜在单词信息进行字词对建模,采用自注意力机制实现不同单词之间的内部交互;最后,通过基于双线性注意力机制的词汇适配器将词汇信息集成到文本序列中的每个字符中,有效增强语义信息的同时充分利用单词丰富的边界信息,并抑制相关性低的单词。实验结果表明,所提模型与基于字符的基线模型相比,平均F1值分别提升了1.37~2.38个百分点,并在结合BERT后取得了最优的效果。
传统多维标度方法学习得到的低维嵌入保持了数据点的拓扑结构,但忽略了低维嵌入数据类别间的判别性。基于此,提出一种基于多维标度法的无监督判别性特征学习方法——判别多维标度模型(DMDS),该模型能在学习低维数据表示的同时发现簇结构,并通过使同簇的低维嵌入更接近,让学习到的数据表示更具有判别性。首先,设计了DMDS对应的目标公式,体现所学习特征在保留拓扑性的同时增强判别性;其次,对目标函数进行了推理和求解,并根据推理过程设计所对应的迭代优化算法;最后,在12个公开的数据集上对聚类平均准确率和平均纯度进行对比实验。实验结果表明,根据Friedman统计量综合评价DMDS在12个数据集上的性能优于原始数据表示和传统多维标度模型的数据表示,它的低维嵌入更具有判别性。
动态特征选择算法能够大幅提升处理动态数据的效率,然而目前基于模糊粗糙集的无监督的动态特征选择算法较少。针对上述问题,提出一种特征分批次到达情况下的基于模糊粗糙集的无监督动态特征选择(UDFRFS)算法。首先,通过定义伪三角范数和新的相似关系在已有数据的基础上进行模糊关系值的更新过程,从而减少不必要的运算过程;其次,通过利用已有的特征选择结果,在新的特征到达后,使用依赖度判断原始特征部分是否需要重新计算,以减少冗余的特征选择过程,从而进一步提高特征选择的速度。实验结果表明,UDFRFS相较于静态的基于依赖度的无监督模糊粗糙集特征选择算法,在时间效率方面能够提升90个百分点以上,同时保持较好的分类精度和聚类表现。
针对周期汇报型无线传感器网络(WSN)中的无线信号冲突和能量利用效率问题,提出了一种基于网络效用最大化与冲突避免的媒体访问控制(UM-MAC)协议。该协议基于时分多路复用(TDMA)调度机制,将效用模型引入无冲突的节点工作时隙分配过程中,把链路可靠性、网络能耗归纳到一个统一的效用优化框架中;进而提出了一个启发式算法,使网络能够快速找到一个基于网络效用最大化与冲突避免的节点工作时隙调度方案。将UM-MAC协议与S-MAC协议和冲突避免MAC(CA-MAC)协议进行比较,在不同节点数量的网络环境中,UM-MAC获得的网络效用较大,平均数据包成功发送率较高,生命周期介于S-MAC与CA-MAC之间,在不同的网络负载下所有节点发数据包到汇聚节点的平均时延有所增加。仿真实验结果表明:UM-MAC协议较好地解决了冲突干扰问题,提高了网络的数据包成功发送率和能量利用效率等性能;在低网络负载时,TDMA类协议的性能并不比竞争类协议好。