接诉即办是实现社会治理智能化、提高人民满意度的重要举措,其中精准分析民众诉求智能匹配工单处理部门,实现诉求的快速响应、高效办理尤为关键;然而,民众诉求数据中的诉求描述不清晰、类别混淆且比例失衡会导致诉求类别分析困难,影响了智能派单的效率与准确性。针对上述问题,提出编解码器结构的诉求层次多标签分类模型(HMCHotline)。首先,在文本编码器中引入诉求领域中的细粒度关键词先验知识以抑制噪声干扰,并融合诉求的时空信息提高语义特征的判别力;其次,利用标签层次结构生成具有层次与语义感知的标签嵌入,并构建基于Transformer模型的标签解码器,利用诉求的语义特征和标签嵌入进行标签解码;同时,在标签的层级依赖关系基础上引入动态标签表策略限制标签的解码范围,以解决标签不一致问题;最后,采用Softmax分组策略将样本数量相近的标签类别分为同组进行Softmax操作,从而缓解由标签长尾分布导致的分类准确率低的问题。在Hotline、RCV1 (Reuters Corpus Volume I)-v2和WOS (Web Of Science)数据集上的实验结果表明,相较于层次感知的标签语义匹配网络(HiMatch),所提模型的Micro-F1分别提高了1.65、2.06和0.43个百分点,验证了模型的有效性。
KLEIN自提出之后经历了截断差分分析、积分分析等攻击,加密结构具有实际安全性,但是由于密钥扩展算法的脆弱性导致了全轮密钥恢复攻击。首先,修改密钥扩展算法,提出一种改进后的算法N-KLEIN;其次,采用in-place方法对S盒进行高效量子电路实现,减小了电路的宽度和深度,提高了量子电路的实现效率;再次,使用LUP分解技术实现混淆操作的量子化;继次,对N-KLEIN进行量子电路设计,提出全轮N-KLEIN的高效量子电路。最后,评估N-KLEIN算法量子实现的资源占用,并与PRESENT、HIGHT等现有的轻量级分组密码的量子实现占用资源进行对比;同时,基于Grover算法对密钥搜索攻击所需要的代价进行深入研究,给出Clifford+T模型下N-KLEIN-{64,80,96}使用Grover算法搜索密钥需要的代价,并评估了N-KLEIN的量子安全性。对比结果表明,N-KLEIN算法量子实现的成本明显较低。
量子技术的快速发展和量子计算效率的不断提高,以及Shor算法和Grover算法的出现,给传统公钥密码和对称密码的安全性造成了较大威胁。因此,基于Feistel结构设计的分组密码PFP算法,首先将轮函数的线性变换P融入Feistel结构的周期函数构造,推导得到PFP算法的4个5轮周期函数,比选择明文攻击模型下典型Feistel结构的周期函数多2轮,并通过实验验证正确性;进一步地,以其中一个5轮周期函数作为区分器,结合量子Grover算法和Simon算法,通过分析PFP密钥编排算法的特点对9、10轮PFP进行了安全性评估,得到正确密钥比特需要的时间复杂度为226、238.5,需要的量子资源为193、212个量子比特,可以恢复58、77比特密钥,优于已有不可能差分分析结果。
针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首先,提出基于各项出现位置与项重复关系数组的CSP(Calculation Support of Pattern)算法计算模式支持度,从而实现模式平均效用的快速计算;其次,采用项集扩展和序列扩展生成候选模式,并提出了最大平均效用上界,基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明,相较于TOUP-dfs和HAOP-ms算法,TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%;运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优,能更高效地挖掘用户感兴趣的模式。
随着射频识别(RFID)技术、无线传感器的应用越来越广泛,为了保护这类资源受限设备存储和传输的数据,轻量级密码应运而生。轻量级密码的密钥长度较短、轮数较少,因此在正式投入使用前,有必要对轻量级密码进行精确的安全性分析。针对轻量级密码安全需求,分析全轮Shadow算法的差分和线性特征。首先,提出一种二次差分的概念,从而更清楚地刻画差分特征,证明该算法存在概率为1的全轮差分特征,并通过实验验证差分特征的正确性;其次,给出全轮线性特征,即证明给定一组Shadow-32(或Shadow-64)的明密文,可以获取8(或16)比特的密钥信息,并通过实验验证以上说法的正确性;再次,基于明文、密文和轮密钥之间的线性等式关系估计2次布尔函数的方程数和自变量数,再得到求解初始密钥的计算复杂度为 2 63.4 ;最后,总结Shadow算法的结构特点,并提出下一步的研究重点。此外,全轮Shadow算法的差分和线性特征的分析工作对其他轻量级密码的差分和线性分析具有一定的借鉴作用。
序列数据中可能包含大量敏感信息,因此直接对序列数据的频繁模式进行挖掘存在泄露用户隐私信息的风险。本地化差分隐私(LDP)能够抵御具有任意背景知识的攻击者,可以对敏感信息提供更全面的保护。序列数据内在序列性和高维度的特点为LDP应用于频繁序列模式挖掘带来了挑战。为解决这个问题,提出一种满足ε-LDP的top-k频繁序列模式挖掘算法PrivSPM。该算法结合填充和采样技术、自适应频率估计算法与频繁项预测技术来构造候选集;基于新域,利用基于指数机制的策略对用户数据进行扰动,并结合频率估计算法识别最终的频繁序列模式。理论分析证明了该算法满足ε-LDP。在3个真实数据集上的实验结果表明,PrivSPM算法在纳真率(TPR)和归一化累积排名(NCR)上明显高于对比算法,能有效提高挖掘结果的准确度。
针对现有的对比序列模式挖掘方法主要针对字符序列数据集且难以应用于时间序列数据集的问题,提出一种对比保序模式挖掘(COPM)算法。首先,在候选模式生成阶段,采用模式融合策略减少候选模式数;其次在模式支持度计算阶段,利用子模式的匹配结果计算超模式的支持度;最后,设计了动态最小支持度阈值的剪枝策略,以进一步有效地剪枝候选模式。实验结果表明,在6个真实的时间序列数据集上,在内存消耗方面,COPM算法至少比COPM-o(COPM-original)算法降低52.1%,比COPM-e(COPM-enumeration)算法低36.8%,比COPM-p(COPM-prune)算法降低63.6%;同时在运行时间方面,COPM算法至少比COPM-o算法降低30.3%,比COPM-e算法降低8.8%,比COPM-p算法降低41.2%。因此,在算法性能方面,COPM算法优于COPM-o、COPM-e和COPM-p算法。实验结果验证了COPM算法可以有效挖掘对比保序模式,发现不同类别的时间序列数据集间的差异。
对称密码是信息系统中数据保密的核心技术,而非线性S盒通常是其中的关键密码组件,广泛用于分组密码、序列密码和MAC(Message Authentication Code)算法等设计。为了保障密码算法设计的安全性,首先,研究了差分均匀度、非线性度、不动点数、代数次数与项数、代数免疫度、雪崩特性、扩散特性的指标测试方法;其次,通过可视化窗口设计输出S盒的各个安全指标结果,并以弹窗形式给出对应安全指标的细节描述;再次,重点设计了S盒非线性度和代数免疫度的子模块,并对应非线性度简化了线性分布表,且基于定理对代数免疫度计算过程进行了优化和举例说明;最后,实现了S盒的测试工具,并给出了7种安全指标测试和案例演示。所提测试工具主要应用于对称密码算法的非线性组件S盒安全指标的测试,进而为算法整体提供安全保障。
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。
随着数据的海量型增长,如何存储并利用数据成为目前学术研究和工业应用等方面的热门问题。样例选择是解决此类问题的方法之一,它在原始数据中依据既定规则选出代表性的样例,从而有效地降低后续工作的难度。基于此,提出一种基于哈希学习的投票样例选择算法。首先通过主成分分析(PCA)方法将高维数据映射到低维空间;然后利用k-means算法结合矢量量化方法进行迭代运算,并将数据用聚类中心的哈希码表示;接着将分类后的数据按比例进行随机选择,在多次独立运行算法后投票选择出最终的样例。与压缩近邻(CNN)算法和大数据线性复杂度样例选择算法LSH-IS-F相比,所提算法在压缩比方面平均提升了19%。所提算法思想简单容易实现,能够通过调节参数自主控制压缩比。在7个数据集上的实验结果显示所提算法在测试精度相似的情况下在压缩比和运行时间方面较随机哈希有较大优势。
元学习即应用机器学习的方法(元算法)寻求问题的特征(元特征)与算法相对性能测度间的映射,从而形成元知识的学习过程,如何构建和提取元特征是其重要的研究内容。针对目前相关研究所用到的元特征大部分是数据的统计特征的问题,提出不确定性建模并研究不确定性对于学习系统的影响。根据样本的不一致性、边界的复杂性、模型输出的不确定性、线性可分度、属性的重叠度以及特征空间的不确定性,建立了六种数据或模型的不确定性元特征;同时,从不同角度衡量学习问题本身的不确定性大小,并给出了具体的定义。在大量分类问题的人工数据和真实数据集上实验分析了这些元特征之间的相关性,并使用K最近邻(KNN)等多个分类算法对元特征与测试精度之间的相关度进行初步分析。结果表明相关度平均在0.8左右,可见这些元特征对学习性能具有显著影响。
针对非负矩阵分解(NMF)语音增强算法在低信噪比(SNR)非稳定环境下存在噪声残留的问题,提出一种基于感知掩蔽的重构NMF(PM-RNMF)单通道语音增强算法。首先,将心理声学掩蔽特性应用于NMF语音增强算法中;其次,对不同频率位采用不同的掩蔽阈值,建立自适应感知掩蔽增益函数,通过阈值约束残余噪声能量和语音失真能量;最后,结合语音存在概率(SPP)进行感知增益修正,重构NMF算法,以此建立新的目标函数。仿真结果表明,在不同SNR的3种非稳定噪声环境下,与NMF、重构NMF(RNMF)、感知掩蔽深度神经网络(PM-DNN)算法相比,PM-RNMF算法的感知语音质量评估(PESQ)平均值分别提高了0.767、0.474、0.162,信源失真比(SDR)平均值分别提高了2.785、1.197、0.948。实验结果表明,无论是在低频还是高频PM-RNMF有更好的降噪效果。
针对当数据集含有敏感信息时,直接发布频繁序列模式本身及其支持度计数都有可能泄露用户隐私信息的问题,提出一种满足差分隐私(DP)的频繁序列模式挖掘(DP-FSM)算法。该算法利用向下封闭性质生成候选序列模式集,基于智能截断方法从候选模式中挑选出频繁的序列模式,最后采用几何机制对所选出模式的真实支持度添加噪声进行扰动。另外,为了提高挖掘结果的可用性,设计了一个阈值修正的策略来减小挖掘过程中的截断误差和传播误差。理论分析证明了该算法满足ε-差分隐私。实验结果表明了该算法在拒真率(FNR)和相对支持度误差(RSE)两个指标上明显低于对比算法PFS2,有效地提高了挖掘结果的准确度。
针对公交车内的车载监控技术不完善且很少有紧急状况检测技术的问题,提出了一种实时检测车内紧急状况(主要体现为人的快速移动)的图像处理算法。首先,根据乘客的运动轨迹划分出人群的主要活动区域;其次,运用改进的前景提取算法提取运动前景;然后,通过Harris算子对运动前景区域提取特征点,应用光流约束的光流法对特征点建立运动矢量场;最后,通过建立KPA模型来判断是否有紧急状况发生。从理论分析和实验表明,所提算法在不同环境下检测紧急状况的成功率达83.9%以上,在实际工程应用中有实时检测的优势。
身份认证是用户访问网络资源时的一个重要安全问题。近来,Xu等(XU C, JIA Z, WEN F, et al. Cryptanalysis and improvement of a dynamic ID based remote user authentication scheme using smart cards [J]. Journal of Computational Information Systems, 2013, 9(14): 5513-5520)提出了一个基于智能卡的动态身份用户认证方案。分析指出其方案不能抵抗中间人攻击和会话密钥泄露攻击,且无法实现会话密钥前向安全性。此外,指出Choi等(CHOI Y, NAM J, LEE D, et al. Security enhanced anonymous multiserver authenticated key agreement scheme using smart cards and biometrics [J]. The Scientific World Journal, 2014, 2014: 281305)提出的基于智能卡和生物特征的匿名多服务器身份认证方案(简称CNL方案)易遭受智能卡丢失攻击、服务器模仿攻击,且不能提保护用户的匿名性。最后,基于生物特征和扩展混沌映射,提出了一个安全的多服务器认证方案,安全分析结果表明,新方案消除了Xu方案和CNL方案的安全漏洞。
网络脆弱性评估是一种主动防范技术,意在攻击发生之前对安全态势进行分析进而制定防御措施,但传统的定量分析模型不能对实体间动态交互关系有很好的展现,而且大都不能得出风险扩散的全局化结果。将脆弱性扩散过程类比于社会网络中影响力传播过程,提出了基于累积效应的网络脆弱性扩散分析方法,定义的脆弱性扩散分析模型给出了细粒度级的主体关系结构,利用攻击效果累积特性提出的分析算法可以更准确地刻画脆弱性扩散规则,保证更好的影响范围。最后对该模型和算法进行了实例验证,在模型描述简洁性、分析结果准确性、安全建议合理性等方面的横向比较分析,验证了模型在评估结果直观性和制定成本最小安全措施等方面的优势。
标注数据的获取一直是有监督方法需要面临的一个难题,针对中文口语理解任务中的意图识别研究了结合主动学习和自训练、协同训练两种弱监督训练方法,提出在级联框架下,从关键语义概念识别中获取语义类特征子集和句子本身的字特征子集分别作为两个"视角"的特征进行协同训练。通过在中文口语语料上进行的实验表明:结合主动学习和自训练的方法与被动学习、主动学习相比较,可以最大限度地降低人工标注量;而协同训练在很少的初始标注数据的前提下,利用两个特征子集进行协同训练,最终使得单一字特征子集上的分类错误率平均下降了0.52%。
针对计算机网络访问请求具有实时到达以及动态变化的特点,为了实时检测网络入侵,并且适应网络访问数据的动态变化,提出一个基于数据流的网络入侵实时检测框架。首先,将误用检测模式与异常检测模式相结合,通过初始聚类建立由正常模式和异常模式构成的知识库;其次,采用数据点与数据簇之间的不相似性来度量网络访问数据与正常模式和异常模式的相似性,从而判定网络访问数据的合法性;最后,当网络访问数据流发生演化时,通过重新聚类来更新知识库以反映网络访问的最近状态。在入侵检测数据集KDDCup99上进行实验,当初始聚类的样本数为10000,缓冲区聚类的样本数为10000,调节系数为0.9时,召回率达到91.92%,误报率达到0.58%,接近传统非实时检测模式的结果,但整个学习和检测过程只需扫描网络访问数据一次,并引入了知识库的更新机制,在入侵检测的实时性和适应性方面更具有优势。