pSCAN算法的聚类结果受密度约束参数和相似度阈值参数的影响,如果用户提供的聚类参数得到的聚类结果无法满足需求,那么用户可以通过实例簇表达自己的聚类需求。针对实例簇表达聚类查询需求的问题,提出一种实例簇驱动的图结构聚类参数计算算法PART及其改进算法ImPART。首先,分析两个聚类参数对聚类结果的影响,并提取实例簇的相关子图;其次,对相关子图进行分析得到密度约束参数的可行区间,并根据当前密度约束参数和节点之间的结构相似度将实例簇内节点划分为核心节点和非核心节点;最后,依据节点划分结果计算出当前密度约束参数对应的最优相似度阈值参数,并在相关子图上对得到的参数进行验证和优化,直到得到满足实例簇需求的聚类参数。在真实数据集上的实验结果表明,所提算法能够为用户实例簇返回一组有效参数,且所提改进算法ImPART的运行时间比PART缩短了20%以上,能够快速有效地为用户返回满足实例簇要求的最优聚类参数。
短时交通流预测不仅与历史数据相关,而且也受相邻区域交通情况影响。针对传统时间序列分解(TSD)模型忽略交通流的趋势性和空间相关性的问题,提出了基于时间序列分解与时空特征(TSD-ST)结合的时间序列处理模型。首先,利用经验模态分解(EMD)和离散傅里叶变换(DFT)得到趋势分量和周期分量,利用互信息(MI)算法挖掘波动分量的时空(ST)相关性,并以此为根据重构状态向量;随后,通过长短期记忆(LSTM)网络利用状态向量对波动分量进行预测;最后,将序列的3部分的预测结果重构,得到最终预测值。利用美国华盛顿州I090号州际公路的真实数据验证模型的有效性。实验结果表明,与支持向量回归(SVR)、梯度提升回归树(GBRT)、LSTM相比,所提模型的均方根误差(RMSE)分别降低了16.5%、34.0%和36.6%。由此可见,所提模型在提升预测精度方面十分有效。
识别复杂网络中的关键节点对优化网络结构以及信息的有效传播起着至关重要的作用。局部结构熵(LE)利用局部网络对整个网络的影响代替节点对整个网络的影响以识别重要节点,然而LE未考虑高聚集性网络和节点与邻居节点形成环的情况,存在一定的局限性。针对以上不足,首先,提出了改进LE的节点重要性评价方法PLE(Penalized Local structural Entropy),即在LE的基础上引入集聚系数(CC)作为惩罚项,从而适当惩罚网络中的高聚集性节点;其次,由于PLE的惩罚项对三元闭包结构上的节点惩罚力度过大,又提出了PLE的改进方法PLEA(Penalized Local structural Entropy Advancement),即在惩罚项前引入一个控制系数,以控制惩罚力度。对5个不同规模的真实网络进行选择性攻击实验,实验结果表明,在美国西部各州电网和美国航空网两个网络中,与LE方法相比,PLEA的识别准确率分别提升了26.3%和3.2%;与K-Shell(KS)方法相比,PLEA的识别准确率分别提升了380%和5.43%;与DCL(Degree and Clustering coefficient and Location)方法相比,PLEA的识别准确率分别提升了14.4%和24%。同时,PLEA识别的重要节点对网络造成的破坏更大,验证了引入CC作为惩罚项的合理性,以及PLEA的有效性和优越性。PLEA综合考虑了节点的邻居个数和节点的局部网络结构,计算简单,对于刻画大规模网络的可靠性与抗毁性具有十分重要的意义。
现有的多视图聚类算法大多假设多视图数据点之间为线性关系,且在学习过程中无法保留原始特征空间的局部性;而在欧氏空间中进行子空间融合又过于单调,无法将学习到的子空间表示对齐。针对以上问题,提出了基于格拉斯曼流形融合子空间的多视图聚类算法。首先,将核技巧和局部流形结构学习结合以得到不同视图的子空间表示;然后,在格拉斯曼流形上融合这些子空间表示以得到一致性亲和矩阵;最后,对一致性亲和矩阵执行谱聚类来得到最终的聚类结果,并利用交替方向乘子法(ADMM)来优化所提模型。与核多视图低秩稀疏子空间聚类(KMLRSSC)算法相比,所提算法的聚类精度在MSRCV1、Prokaryotic、Not-Hill数据集上分别提高了20.83个百分点、9.47个百分点和7.33个百分点。实验结果验证了基于格拉斯曼流形融合子空间的多视图聚类算法的有效性和良好性能。
针对无人机(UAV)机载健康状态监测领域的UAV飞行数据异常检测问题,首先阐述了UAV飞行数据的特点、常见的飞行数据异常类型及对异常检测算法的要求;然后梳理了UAV飞行数据异常检测算法的研究现状,并归为3大类:基于先验知识的定性异常检测算法、基于模型的定量异常检测算法和基于数据驱动的异常检测算法,同时分析了各类算法的应用场景和优缺点;最后总结了UAV飞行数据异常检测算法目前存在的问题和挑战,展望了未来UAV飞行数据异常检测领域的重点发展方向,为新的研究提供了参考思路。
在自动化的工业场景中,大量工业设备产生的时序性日志数据量呈爆炸式增长,业务场景对时序数据的访问需求进一步提升。虽然目前基于分布式列族的数据库HBase能够存储工业时序大数据,但由于未考虑特定业务场景中数据与访问行为特征的关联,现有策略无法较好地满足工业时序数据的特定访问需求。针对上述问题,基于分布式存储系统HBase,利用工业场景中数据与访问行为特征的关联性,提出面向海量工业时序数据的分布式存储性能优化策略。针对工业时序数据特点引发的负载倾斜问题,提出基于冷热数据分区及访问行为分类的负载均衡优化策略。使用逻辑回归模型(LR)对数据进行冷热分类,并将热数据分散存储在不同节点;同时,为进一步降低存储集群中跨节点的通信开销,以提升工业时序数据高维索引的查询效率,提出索引主数据同Region化策略,设计索引RowKey字段及拼接规则,将索引存放到与它对应的主数据相同的Region中。在真实工业时序数据上的实验结果表明,引入优化策略后的数据负载分布倾斜度降低28.5%,查询效率提升27.7%,验证了所提优化策略能够有效地挖掘特定时序数据的访问模式,合理地分配负载,降低数据访问开销,有能力满足对特定时序大数据的访问需求。
针对时间序列子序列间的潜在信息交互不足导致分类准确率低的问题,提出时频域多尺度交叉注意力融合的时间序列分类方法TFFormer(Time-Frequency Transformer)。首先,将原始时间序列的时频域谱分别划分为等长子序列,经线性投影后加入位置信息解决时间序列的点值耦合问题;其次,通过改进的多头自注意力(IMHA)模块使模型关注更重要的序列特征,解决长时间序列的前后依赖问题;最后,构造多尺度时频域交叉注意力(CMA)模块增强时间序列在时域和频域之间的信息交互,使模型进一步挖掘序列的频域信息。实验结果表明,在Trace、StarLightCurves和UWaveGestureLibraryAll数据集上,相较于全卷积网络(FCN),所提方法的分类准确率分别提高了0.3、0.9和1.4个百分点,验证了通过增强时间序列时域和频域间的信息交互,可以提高模型收敛速度和分类精度。
针对传统推荐算法过度关注推荐的精度而导致的长尾问题,即热门项目拥有过高的推荐量的同时非热门项目长时间不被关注,提出一种基于欧氏距离构建二维加权相似度并融入自适应群组重排的多目标优化推荐模型(MDOM)——自适应群组重排的推荐模型(AGRM)。首先,利用欧氏距离构建二维加权相似度度量,根据个体历史行为记录动态设定替换比例,并利用融入群组的多目标优化算法解决长尾推荐问题;其次,设计两个简明的目标函数,并同时考虑流行度和长尾关注度,以降低目标函数的复杂性;然后,基于二维加权相似度度量,选择用户子集作为“最佳推荐用户组”,并计算帕累托最优解。在MovieLens 1M和Yahoo数据集上的实验结果表明,AGRM的覆盖率表现最优,与基于物品相似的协同过滤(ItemCF)算法相比,分别平均提升了4.11、25.38个百分点;与用于Top-N推荐的具有浅并行路径的深度变分自动编码器(VASP)模型相比,分别平均提升了8.38、33.19个百分点。在Yahoo数据集上,AGRM的推荐的平均流行度最低,表明AGRM能够推荐更多长尾项目。
针对动态时序数据部分周期模式挖掘过程存在的计算复杂度过高和扩展性差等问题,提出了一种结合多尺度理论的时间序列部分周期模式挖掘算法(MSI-PPPGrowth),所提算法充分利用了时序数据客观存在的时间多尺度特性,将多尺度理论引入时序数据的部分周期模式挖掘过程。首先,将尺度划分后的原始数据以及增量时序数据作为更细粒度的基准尺度数据集进行独立挖掘;然后,利用不同尺度数据间的相关性实现尺度转换,以间接获取动态更新后的数据集对应的全局频繁模式,从而避免了原始数据集的重复扫描和树结构的不断调整。其中,基于克里金法并考虑时序周期性设计了一个新的频繁缺失计数估计模型(PJK-EstimateCount),以有效估计在尺度转换过程中的缺失项支持度计数。实验结果表明,MSI-PPPGrowth具有良好的可扩展性和实时性,尤其是对于稠密数据集,其性能优势更为突出。
社会化推荐旨在融合社会关系改善传统推荐算法的推荐效果。当前基于网络嵌入(NE)的社会化推荐算法面临两个问题:一是在构建网络时未考虑对象间的不一致性,并且倾向于利用获取难度大、约束条件多的积极对象来约束算法;二是这些算法未能依据评分数量消除算法训练中的过拟合。因此,提出一种基于消极相似性的自适应社会化推荐(ASRNS)算法。首先通过一致性分析构建具有正向相关性的同构网络;接着联合加权随机游走与Skip-Gram算法得到嵌入向量;然后计算相似度,并从消极相似性的角度来约束矩阵分解(MF)算法;最后基于自适应机制将评分数量映射到理想评分数量区间,并对算法偏置项施加不同的惩罚。在FilmTrust和CiaoDVD数据集上实验结果表明,与协同用户网络嵌入(CUNE)算法、一致性邻居聚合的推荐(ConsisRec)算法等算法相比,ASRNS的均方根误差(RMSE)分别至少降低了2.60%和5.53%,平均绝对误差(MAE)分别至少降低了1.47%和2.46%。可见,ASRNS不仅可以有效降低评分预测误差,还能显著改善算法训练过程中的过拟合问题,对不同评分数量的对象都具有较好的健壮性。
针对深度子空间聚类问题中不同层次特征中互补信息挖掘困难的问题,在深度自编码器的基础上,提出了一种在编码器获取的低层和高层特征之间探索互补信息的多样性表示的深度子空间聚类(DRDSC)算法。首先,基于希尔伯特-施密特独立性准则(HSIC)建立了不同层次特征衡量多样性表示模型;其次,在深度自编码器网络结构中引入特征多样性表示模块,从而挖掘有利于提升聚类效果的图像特征;此外,更新了损失函数的形式,有效融合了多层次表示的底层子空间;最后,在常用的聚类数据集上进行了多次实验。实验结果表明,DRDSC在数据集Extended Yale B、ORL、COIL20和Umist上的聚类错误率分别达到1.23%、10.50%、1.74%和17.71%,与高效稠密子空间聚类(EDSC)相比,分别降低了10.41、16.75、13.12和12.92个百分点;与深度子空间聚类(DSC)相比,分别降低了1.44、3.50、3.68和9.17个百分点,说明所提出的DRDSC算法有更好的聚类效果。
针对现有的复杂事件匹配处理方法存在的匹配代价高的问题,提出了一种利用事件缓冲区(有序事件列表)进行递归遍历的复杂事件匹配算法ReCEP。不同于现有方法利用自动机在事件流上进行匹配,该算法将复杂事件查询模式中的约束条件分解为不同类型,再在有序列表上对不同约束分别进行递归校验。首先,根据查询模式将相关事件实例按照事件类型进行缓存;其次,在有序列表上对事件实例执行查询过滤操作,并给出了一种基于递归遍历的算法来确定初始事件实例并且获取候选序列;最后,对候选序列的属性约束进行进一步的校验。基于股票交易模拟数据进行的实验测试和分析的结果表明,与当前主流的匹配方法SASE和Siddhi相比,ReCEP算法能够有效地减少查询匹配的处理时间,总体性能上均更优,查询匹配效率提升了8.64%以上。可见,所提出的复杂事件匹配方法能够有效提高复杂事件匹配的效率。
不平衡分类的相关算法是机器学习领域的研究热点之一,其中的过采样通过重复抽取或者人工合成来增加少数类样本,以实现数据集的再平衡。然而当前的过采样方法大部分是基于原有的样本分布进行的,难以揭示更多的数据集分布特征。为了解决以上问题,首先,提出一种改进的半监督聚类算法来挖掘数据的分布特征;其次,基于半监督聚类的结果,在属于少数类的簇中选择置信度高的无标签数据(伪标签样本)加入原始训练集,这样做除了实现数据集的再平衡外,还可以利用半监督聚类获得的分布特征来辅助不平衡分类;最后,融合半监督聚类和分类的结果来预测最终的类别标签,从而进一步提高算法的不平衡分类性能。选择G-mean和曲线下面积(AUC)作为评价指标,将所提算法与TU、CDSMOTE等7个基于过采样或欠采样的不平衡分类算法在10个公开数据集上进行了对比分析。实验结果表明,与TU、CDSMOTE相比,所提算法在AUC指标上分别平均提高了6.7%和3.9%,在G-mean指标上分别平均提高了7.6%和2.1%,且在两个评价指标上相较于所有对比算法都取得了最高的平均结果。可见所提算法能够有效地提高不平衡分类性能。
针对已有的混合负载(HTAP)下物化视图异步增量维护任务生成算法主要面向多记录,无法面向单记录生成HTAP物化视图异步增量维护任务,导致磁盘IO开销的增加,进而降低HTAP物化视图异步增量维护性能的问题,提出面向单记录的HTAP物化视图异步增量维护任务的生成方法。首先,建立面向单记录的HTAP物化视图异步增量维护任务生成的效益模型;然后,基于Q-learning设计面向单记录的HTAP物化视图异步增量维护任务的生成算法。实验结果表明,所提算法在实现面向单记录生成HTAP物化视图异步增量维护任务的基础上,将平均每秒读写操作次数(IOPS)、平均CPU利用率(2核)和平均CPU利用率(4核)至少分别降低了8.49次、1.85个百分点和0.97个百分点。
为度量多关系节点相似性、挖掘具有多关系节点的社团结构,提出基于节点多关系的社团挖掘算法LSL-GN。首先基于节点相似性和节点可达性刻画具有多关系的节点相似性度量指标LHN-ISL;然后利用该指标重构目标网络的低密度模型,并结合GN(Girvan-Newman)算法完成社团划分。将LSL-GN算法与多个经典社团挖掘算法在模块度(Q)、标准化互信息(NMI)和调整兰德指数(ARI)上进行对比,结果显示LSL-GN算法在3个指标上均优于经典算法,说明它的社团划分质量相对较好。将LSL-GN应用于“用户-应用”的移动漫游网络模型中,划分出了以携程旅行、高德地图、滴滴出行等为基础应用的社团结构,而这些社团划分结果可为设计个性化套餐业务提供策略参考信息。