交通智能(IC)卡可以记录居民的移动出行,反映居民的源-目的地(OD)信息;但智能卡记录的OD流数据规模大,直接可视化空间分布容易导致视觉杂乱,并且多元数据类型多,更难以和流数据结合对比分析。首先,针对直接可视化大规模OD数据的空间分布容易视觉遮挡的问题,提出基于正交非负矩阵分解(ONMF)的流聚类方法。所提方法对源-目的地数据聚类后再可视化,可以减少不必要的遮挡。然后,针对多元时空数据类型多难以结合对比分析的问题,设计了公交站点多元时序数据视图。该可视化方法将公交站点的流量大小和空气质量、空气温度、相对湿度、降雨量这四类多元数据在同一时间序列上编码,提高了视图的空间利用率并且可以对比分析。再次,为了辅助用户探索分析,开发了基于OD流和多元数据的交互式可视分析系统,并设计了多种交互操作提升用户探索效率。最后,基于新加坡交通智能卡数据集,从聚类效果和运行时间对该聚类方法评估。结果显示,在用轮廓系数评估聚类效果上,所提方法比原始方法提升了0.028,比用K均值聚类方法提升了0.253;在运行时间上比聚类效果较好的ONMFS(ONMF through Subspace exploration)方法少了254 s。通过案例分析和系统功能对比验证了系统的有效性。
针对推荐系统中双塔型神经网络难以学习用户侧和商品侧交互信息以及图连接信息的问题,提出一种二阶段孪生卷积神经网络推荐算法(TSN)。首先,以用户行为构建异质图;然后,在双塔型神经网络之间设计图卷积孪生网络,从而在学习异质图连接信息的同时进行信息交互;最后,通过设计特殊结构的二阶段孪生信息共享机制,使得用户侧和商品侧的神经网络在训练过程中能够动态地、双向地传输信息,且有效避免神经网络串联。在基于MovieLens和豆瓣电影数据集的对比实验中,NDCG@10、NDCG@50、NDCG@100相较于最优基准算法DAT(Dual Augmented Two-tower model for online large-scale recommendation)提升了11.39%~23.98%。结果表明,所提算法能够缓解双塔型神经网络缺乏信息交互的问题,较对比算法推荐性能提升显著。
相似题检索旨在从数据库中找到与给定查询试题考查目标相似的试题。随着在线教育的不断发展,试题数据库日益庞大,且由于试题数据的专业属性使标注相关性非常困难,因此需要一种高效且无需标注的相似题检索模型。无监督语义哈希能在无监督信号的前提下将高维数据映射为低维且高效的二值表征。但不能简单地将语义哈希模型应用在相似题检索模型中,因为试题数据具有丰富的语义信息,而二值向量的表征空间有限。为此,提出一个能获取、保留关键信息的相似题检索模型。首先,设计了一个关键信息获取模块获取试题数据的关键信息,并引入去冗余目标损失去除冗余信息;其次,在编码过程中引入随时间变化的激活函数,减少编码信息损失;再次,为了最大化利用汉明空间,在优化过程中引入比特平衡目标和比特无关目标以优化二值表征的分布。在MATH和HISTORY数据集上的实验结果表明,相较于表现最好的文本语义哈希模型DHIM (Deep Hash InfoMax),所提模型在2个数据集的3个召回率设置上分别平均提升约54%和23%;在检索效率方面,所提模型比最优的相似题检索模型QuesCo具有明显的优势。
在社交事件网络(EBSN)中,推荐工作都是从用户的历史喜好出发建模用户偏好,阻碍了用户接触新事物的范围和途径。针对上述问题,提出基于新奇度量的社交事件推荐模型UER(Unexpectedness-based Event Recommendation)。UER模型包括Base和Unexpected两个子模型,首先,Base子模型基于用户、事件以及用户历史事件交互序列特征,通过注意力机制衡量事件在用户历史喜好中的权重,最终预测用户参加事件的概率;其次,Unexpected子模型通过自注意力机制提取用户的多个兴趣表示来计算用户自身新奇度和候选事件对用户的新奇值,从而衡量推荐事件的新奇程度。在Meetup-加州数据集上,UER模型相较于DIN(Deep Interest Network)和PURS(Personalized Unexpected Recommender System)的推荐命中率(HR)分别提高22.9%和30.3%,归一化折损累积收益(NDCG)分别提高27.5%和42.3%,推荐事件的新奇程度分别提高54.5%和21.4%;在Meetup-纽约数据集上,UER模型相较于DIN和PURS的HR分别提高18.2%和21.8%,NDCG分别提高26.9%和32.0%,推荐事件的新奇程度分别提高52.6%和20.8%。
多路复用网络可以形象地描述复杂系统中个体之间的相互作用关系,模体作为一种高阶结构在网络中频繁出现。与单层模体相比,多重模体具有数量多、种类繁、结构杂的特点。鉴于目前缺少针对多重模体的完整检测算法,提出一种适用于多路复用网络的快速多重模体检测算法(FAMMD)。首先,通过改进ESU(Enumerate SUbgraphs)算法进行多重子图枚举;其次,使用层标记和二进制字符串相结合的方法加速同构检测的过程,并且构造了保持度序列和层间依赖性不变的零模型进行多重子图测试;最后,在两层真实网络上进行了模体检测,多重模体表现出紧密相连的三联模式,且在社交网络中更加同质,在交通网络中则更加互补。实验结果表明,所提方法可以准确、快速地检测出反映网络结构特性和符合实际情况的多重模体。
时间序列早期分类(ETSC)有两个矛盾的目标:早期性和准确率。分类早期性的实现,总是以牺牲它的准确率为代价。现有基于优化的多变量时间序列(MTS)早期分类方法,虽然在成本函数中考虑了错误分类成本和延迟决策成本,却忽视了MTS数据集样本之间的局部结构对分类性能的影响。针对这个问题,提出一种基于正交局部保持映射(OLPP)和成本优化的MTS早期分类模型(OLPPMOAE)。首先,使用OLPP将MTS样本前缀映射到低维空间,保持原数据集的局部结构;其次,在低维空间训练一组高斯过程(GP)分类器,生成训练集每个时刻的类概率;最后,使用粒子群优化(PSO)算法从这些类概率中学习停止规则中的最优参数。在6个MTS数据集上的实验结果表明,在早期性基本持平的情况下,OLPPMOAE的准确率显著高于基于成本的 R 1 _ C l r (stopping Rule and Cost function with regularization term l1 and l2)模型,平均准确率能够提升11.33%~15.35%,调和均值(HM)能够提升4.71%~9.01%。因此,所提模型能够以较高的准确率尽早地分类MTS。
动态特征选择算法能够大幅提升处理动态数据的效率,然而目前基于模糊粗糙集的无监督的动态特征选择算法较少。针对上述问题,提出一种特征分批次到达情况下的基于模糊粗糙集的无监督动态特征选择(UDFRFS)算法。首先,通过定义伪三角范数和新的相似关系在已有数据的基础上进行模糊关系值的更新过程,从而减少不必要的运算过程;其次,通过利用已有的特征选择结果,在新的特征到达后,使用依赖度判断原始特征部分是否需要重新计算,以减少冗余的特征选择过程,从而进一步提高特征选择的速度。实验结果表明,UDFRFS相较于静态的基于依赖度的无监督模糊粗糙集特征选择算法,在时间效率方面能够提升90个百分点以上,同时保持较好的分类精度和聚类表现。
针对时间序列子序列间的潜在信息交互不足导致分类准确率低的问题,提出时频域多尺度交叉注意力融合的时间序列分类方法TFFormer(Time-Frequency Transformer)。首先,将原始时间序列的时频域谱分别划分为等长子序列,经线性投影后加入位置信息解决时间序列的点值耦合问题;其次,通过改进的多头自注意力(IMHA)模块使模型关注更重要的序列特征,解决长时间序列的前后依赖问题;最后,构造多尺度时频域交叉注意力(CMA)模块增强时间序列在时域和频域之间的信息交互,使模型进一步挖掘序列的频域信息。实验结果表明,在Trace、StarLightCurves和UWaveGestureLibraryAll数据集上,相较于全卷积网络(FCN),所提方法的分类准确率分别提高了0.3、0.9和1.4个百分点,验证了通过增强时间序列时域和频域间的信息交互,可以提高模型收敛速度和分类精度。
在大数据与云计算时代,时态大数据的查询分析面临许多重要挑战。针对其中时态聚合范围查询性能不佳和不能有效利用索引等问题,提出一种用于时态聚合范围查询的分布式时态索引(DTI)。首先,采用随机或轮询策略对时态数据分区;其次,采用基于时间位数组前缀的分区内索引构造算法建立索引,同时记录包括时间跨度在内的分区统计信息;再次,利用谓词下推筛选时间跨度与查询时间区间重叠的数据分区,扫描索引进行预聚合;最后,将各分区得到的预聚合值按时间归并并聚合。实验结果表明,索引的分区内构造算法处理时间密度2 400条每单位时间和0.001条每单位时间的数据的执行时间相近。索引的聚合查询算法相较于ParTime算法:在查询时间线前75%的数据时,每一步用时都至少减少22%;执行选择型聚合函数时,每一步用时都至少减少11%。因此,索引在多数时态聚合范围查询任务中具有更高的速度,它的分区内构造算法能解决数据稀疏问题且执行效率高。
针对现有的研究大多将短序列时间序列预测和长序列时间序列预测分开研究而导致模型在较短的长序列时序预测时精度较低的问题,提出一种较短的长序列时间序列预测模型(SLTSFM)。首先,利用卷积神经网络(CNN)和PBUSM(Probsparse Based on Uniform Selection Mechanism)自注意力机制搭建一个序列到序列(Seq2Seq)结构,用于提取长序列输入的特征;其次,设计“远轻近重”策略将多个短序列输入特征提取能力较强的长短时记忆(LSTM)模块提取的各时段数据特征进行重分配;最后,用重分配的特征增强提取的长序列输入特征,提高预测精度并实现时序预测。利用4个公开的时间序列数据集验证模型的有效性。实验结果表明,与综合表现次优的对比模型循环门单元(GRU)相比,SLTSFM的平均绝对误差(MAE)指标在4个数据集上的单变量时序预测分别减小了61.54%、13.48%、0.92%和19.58%,多变量时序预测分别减小了17.01%、18.13%、3.24%和6.73%。由此可见SLTSFM在提升较短的长序列时序预测精度方面的有效性。
学术社交网络中的某些学者可能组成异常引用群体,相互之间过度引用彼此的文章以谋取利益。现有的异常群体检测算法大多将社区检测与节点表示学习分离,导致最终异常群体检测性能受限。为此,提出一种基于局部扩展社区发现的异常引用群体检测(GADL)算法。所提算法利用论文研究领域、标题内容等语义信息提取作者异常引用特征;定义基于节点转移相似度、节点社区隶属度、引用异常度和广度优先遍历(BFS)深度的扩展度量函数;结合异常社区发现和异常节点检测,在统一框架下对二者联合优化,可获得最优的异常检测性能。在ACM、DBLP1和DBLP2数据集上,相较于ALP算法,所提算法分别提高了6.07%、5.35%和3.38%。在真实数据集上的实验结果表明,所提算法可有效地检测异常学术引用。
知识图谱(KG)作为一种辅助信息能够有效提高推荐模型的推荐质量,但现有的基于图神经网络(GNN)的知识感知推荐模型存在节点信息利用不均衡问题。为此,提出一种基于知识感知和跨层次对比学习的推荐方法(KCCL)。所提方法在GNN的知识感知推荐模型基础上引入对比学习范式,以缓解稀疏的交互数据和嘈杂的KG在信息聚合时节点间依赖的关系偏离真实表示导致节点信息利用不均衡的问题。首先,将用户?物品交互图和物品知识图整合为一个异质图,并通过基于图注意力机制的GNN实现用户和物品的节点表示;其次,在信息传播聚合层中加入一致的噪声进行数据增强,得到不同阶层的节点表示,并将获得的最外层节点表示与最内层节点表示进行跨层次对比学习;最后,联合优化推荐监督任务和对比学习辅助任务,得到最终各节点表示。在DBbook2014和MovieLens-1m数据集上的实验结果显示,相较于次优对比方法,KCCL的Recall@10分别提升了3.66%和0.66%,NDCG@10分别提升了3.57%和3.29%,验证了KCCL的有效性。
信念峰值聚类(BPC)算法是一种基于模糊视角的密度峰值聚类(DPC)算法的新变体,它用模糊数学的观点刻画数据的分布特征与相关性。但BPC算法的信念值计算主要基于局部数据点信息,未考察数据集整体的分布和结构,且原始的分配策略鲁棒性弱。针对以上问题,提出一种基于信念子簇切割的模糊聚类算法(BSCC),所提算法结合了信念峰值和谱方法。首先,通过局部信念信息将数据集划分为众多高纯度子簇;其次,将子簇视作新样本,通过簇间的相似关系,利用谱方法进行割图聚类,从而耦合局部信息与全局信息;最后,将子簇内的点分配至子簇所在类簇以完成最终聚类。与BPC算法相比,BSCC在带有多子簇结构的数据集上具有明显优势,如在americanflag数据集和Car数据集上的准确率(ACC)分别提高了16.38个百分点和21.35个百分点。在合成数据集和真实数据集上的聚类实验结果表明,BSCC在调整兰德系数(ARI)、归一化互信息(NMI)和ACC这3个评价指标上整体优于BPC和其他7种聚类算法。
聚类是根据样本之间的相似性将数据集划分为多个类簇。现有的大多数聚类方法都存在两个挑战:一方面,在定义样本间相似性时往往没有考虑样本的空间分布结构,无法构建稳定的相似度矩阵;另一方面,图聚类构造的样本图结构过于复杂,计算成本较高。为解决这两个问题,提出融合转移概率矩阵的多阶最近邻图聚类算法(MNNGC)。首先,综合样本的近邻关系和空间分布结构,将共享近邻定义的相似度进行趋密性加权,得到节点间的趋密性亲和矩阵;其次,利用节点间多阶概率转移预测非邻接点的关联程度,并通过融合多阶转移概率矩阵得到稳定的节点间亲和矩阵;再次,为进一步增强图局部结构,重新构建节点的多阶最近邻图,并对多阶最近邻图的局部结构分层聚类;最后,优化了边缘点分配策略。定位实验结果表明,MNNGC在合成数据集上的准确率(Acc)均优于对比算法,且在8个UCI数据集上的Acc为最大值。其中在Compound数据集上,MNNGC的Acc、调整互信息(AMI)、调整兰德指数(ARI)和FM指数(FMI)相较于基于局部密度峰值的谱聚类(LDP-SC)算法分别提高38.6、27.2、45.4、35.1个百分点。
常规的大规模子空间聚类算法在计算锚点亲和矩阵时忽略了数据之间普遍存在的局部结构,且在计算拉普拉斯(Laplacian)矩阵的近似特征向量时存在较大误差,不利于数据聚类。针对上述问题,提出一种融合局部结构学习的大规模子空间聚类算法(LLSC)。所提算法将局部结构学习嵌入锚点亲和矩阵的学习,从而能够综合利用全局和局部信息挖掘数据的子空间结构;此外,受非负矩阵分解(NMF)的启发,设计一种迭代优化方法以简化锚点亲和矩阵的求解过程;其次,根据Nystr?m近似方法建立锚点亲和矩阵与Laplacian矩阵的数学联系,并改进Laplacian矩阵特征向量的计算方法以提升聚类性能。相较于LMVSC(Large-scale Multi-View Subspace Clustering)、SLSR(Scalable Least Square Regression)、LSC-k(Landmark-based Spectral Clustering using k-means)和k-FSC(k-Factorization Subspace Clustering),LLSC在4个广泛使用的大规模数据集上显示出明显的提升,其中,在Pokerhand数据集上,LLSC的准确率比k-FSC高28.18个百分点,验证了LLSC的有效性。
针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首先,提出基于各项出现位置与项重复关系数组的CSP(Calculation Support of Pattern)算法计算模式支持度,从而实现模式平均效用的快速计算;其次,采用项集扩展和序列扩展生成候选模式,并提出了最大平均效用上界,基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明,相较于TOUP-dfs和HAOP-ms算法,TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%;运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优,能更高效地挖掘用户感兴趣的模式。
针对无人机(UAV)机载健康状态监测领域的UAV飞行数据异常检测问题,首先阐述了UAV飞行数据的特点、常见的飞行数据异常类型及对异常检测算法的要求;然后梳理了UAV飞行数据异常检测算法的研究现状,并归为3大类:基于先验知识的定性异常检测算法、基于模型的定量异常检测算法和基于数据驱动的异常检测算法,同时分析了各类算法的应用场景和优缺点;最后总结了UAV飞行数据异常检测算法目前存在的问题和挑战,展望了未来UAV飞行数据异常检测领域的重点发展方向,为新的研究提供了参考思路。
针对大多数特征选择算法未充分考虑数据的类不均匀分布、特征之间的相关性和不同参数对特征选择结果的影响等问题,提出一种基于邻域容差互信息和鲸鱼优化算法(WOA)的非平衡数据特征选择方法。首先,在不完备邻域决策系统中,针对二分类数据集和多分类数据集,基于上、下边界域定义两种非平衡数据的特征重要度;然后,为充分反映特征的决策能力和特征之间的相关性,构建邻域容差互信息;最后,通过将非平衡数据特征重要度和邻域容差互信息相结合,提出基于邻域容差互信息的非平衡数据特征选择(FSIDN)算法,该算法采用WOA获取特征选择算法中的最优参数,并引入非线性收敛因子和自适应惯性权重来改进WOA,以解决WOA易陷入局部最优的问题。在8个基准函数上进行实验,结果表明改进的WOA具有较好的优化性能;在13个二分类和4个多分类的非平衡数据集上进行特征选择实验,实验结果表明,与其他相关算法相比,所提算法能够有效地选择出具有良好分类性能的特征子集。
针对犹豫模糊聚类分析存在信息失真、属性权重客观性差、时间复杂度高的问题,提出一种基于犹豫模糊集的凝聚式层次聚类算法(AHCHF)。首先,采用犹豫模糊元的平均值扩充犹豫度小的数据对象;其次,利用原始信息熵和内部最大差异计算数据对象扩充前后的权重,并根据两个权重向量之间的最小鉴别信息确定属性的综合权重;最后,以加权距离和更小为目标,给出犹豫度恒定的中心点构造方法。在具体实例和人造数据集上进行的实验结果表明,相较于经典的犹豫模糊层次聚类算法(HFHC)和较新的模糊层次聚类算法(FHCA),AHCHF的轮廓系数(SC)均值分别提高了23.99%和9.28%,运行时间分别平均减少了27.18%和6.40%。以上结果验证了所提算法可以有效解决信息失真、属性权重客观性差的问题,并较好地提升聚类效果和聚类性能。
为了克服基于条件互信息的路径一致算法(PCA-CMI)无法识别调控方向的缺陷,并进一步提高网络推断准确率,提出了一种基于t检验和逐步网络搜索的有向网络推断算法(DNI-T-SRS)。首先,对不同实验条件下的表达数据进行t检验以辨别基因调控的上下游关系,指导路径一致(Path Consensus)算法中条件基因的选取,根据CMI2(Conditional Mutual Inclusive Information)剔除网络中的冗余边,得到了基于t检验的有向调控关系推断算法CMI2NI-T(CMI2-based Network Inference guided by t-Test);然后,建立有向调控关系对应的米氏微分方程模型对数据进行拟合,根据贝叶斯信息准则进行逐步网络搜索以修正网络推断结果。利用CMI2NI-T推断DREAM6挑战中的两个测试网络,所得到的曲线下面积(AUC)分别为0.767 9和0.979 6,相较于PCA-CMI分别提高了16.23%和11.62%;通过进一步的数据拟合后DNI-T-SRS的推断准确率分别达到了86.67%和100.00%,相较于PCA-CMI分别提高了18.19%和10.52%。实验结果表明,所提DNI-T-SRS算法能够有效剔除间接调控关系并保留直接调控连接,得到精确的基因调控网络推断结果。
社区搜索旨在从信息网络中找出包含用户查询顶点的高内聚连通子图,cycle truss是一种基于cycle三角形的社区搜索模型,而现有的基于索引的cycle truss社区搜索方法存在索引空间大、搜索效率低、社区内聚性低的缺点。为了解决这一问题,提出一种基于层次树索引的最大cycle truss社区搜索方法。首先,提出了k-cycle truss分解算法,并引入了两个重要的概念:cycle三角连通与k-层次等价。基于k-层次等价设计了层次树索引TreeCIndex与表结构索引SuperTable,在此基础上,并基于这两个新的索引,提出了两个高效的cycle truss社区搜索算法。在4个真实数据集上与已有的基于TrussIndex与EquiTruss的社区搜索算法进行了比较,实验结果表明,TreeCIndex与SuperTable比TrussIndex与EquiTruss节省至少41.5%的空间,索引构建的时间节省8.2%至98.3%,且搜索最大cycle truss社区的效率分别高出了一个和两个数量级。
针对多层超网络研究多集中于拓扑结构,且影响力节点识别方法中涉及指标较为单一,无法全面准确识别影响力节点的情况,提出一种基于证据理论的多层超网络影响力节点识别方法。首先,在多层超网络拓扑结构基础上,根据聚合网络思想构建多层聚合超网络;其次,基于证据理论定义问题的辨识框架;最后,利用D-S(Dempster-Shafer)证据组合方法,融合网络的局部、位置和全局指标以识别网络影响力节点。将该方法应用于arXiv数据集构建的物理-计算机科学双层科研合作超网络(MAH),在基于RP(Reactive Process)和CP(Contact Process)策略的易感-感染-易感(SIS)超网络传播模型中,与超度中心性、K-shell、接近中心性方法等相比,传播速度最快,且最先达到稳态;隔离影响力排名前6%节点后,网络平均超度、聚类系数以及网络效率均减小;随着隔离影响力节点比例的增大,网络子图数量增速与接近中心性方法相近;通过单调性指标值度量识别结果粗粒度,达到0.999 8,识别结果具有较高区分度。综合多个实验结果,表明该多层超网络影响力节点识别方法准确有效。
针对现有群体推荐方法较少考虑群体成员间社会化关系的隐式估计以及利用群体共识减少偏好冲突的问题,提出一种基于隐式信任和群体共识的群体推荐方法(GR-TC),所提方法分为推荐阶段和共识阶段。在推荐阶段根据成员间偏好信息和社交关系挖掘隐式信任值,估计成员的个人偏好、权重和初始群体偏好;在共识阶段通过共识测量和识别规则识别不一致成员,建立最大和谐度优化共识模型,调整更新群体偏好,传递群体推荐列表。实验结果表明,成员间社交关系影响群体推荐结果,合理选择隐式信任权值会提高不一致成员的和谐度;相较于传统共识反馈机制,隐式信任诱导的最大和谐共识反馈机制调整成本更小,对不一致成员的影响更小。
针对高维数据存在冗余信息且维度过高的问题,提出基于信息量的最大相关最大差异特征选择算法(MCD)。首先,利用互信息(MI)度量特征和标签之间的相关性,对特征进行排序,选择互信息最大的特征加入特征子集;然后,引入信息距离度量特征之间的信息冗余性及差异性,设计评价准则对每个特征进行评价,使特征子集中特征和标签的相关性、特征之间的差异性最大;最后,用前向搜索策略结合评价准则进行属性约简,最优化特征子集。采用2种不同的分类器,在6个数据集上和mRMR(minimal-Redundancy-Maximal-Relevance criterion)、RReliefF等5个经典算法进行对比实验,利用分类精度验证MCD的有效性。在支持向量机(SVM)分类器下,平均分类精度提高了5.67~23.80个百分点;在K-近邻(KNN)分类器下,平均分类精度提高了2.69~25.18个百分点。可见,MCD在绝大多数情况下,能有效去除冗余特征,分类精度有明显提高。
针对数据维度过高、冗余信息过多导致维度灾难的问题,提出一种基于异同矩阵的高维属性约简算法(ARSDM)。该算法在区分矩阵的基础上加入对同类样本的相似度衡量,形成对所有样本的综合评估。首先,计算样本在每个属性下的距离,并基于这些距离得到同类相似度和异类差异度;其次,建立异同矩阵,形成对整个数据集的评价;最后,进行属性约简,即将异同矩阵的每一列求和,依次选择值最大的特征进行约简,并将相应样本对的行向量置为零向量。实验结果表明,与经典属性约简算法DMG(Discernibility Matrix based on Graph theory)、FFRS(Fitting Fuzzy Rough Sets)以及GBNRS(Granular Ball Neighborhood Rough Sets)相比,在分类回归树(CART)分类器下,ARSDM的平均分类准确率分别提高了1.07、6.48、8.92个百分点;在支持向量机(SVM)分类器下,ARSDM的平均分类准确率分别提高了1.96、11.96、12.39个百分点;运行效率上ARSDM优于GBNRS和FFRS。可见,ARSDM能够有效去除冗余信息,提高分类准确率。
聚类集成使用合适的策略融合多个具有差异性的基聚类成员,能够有效提高聚类结果的稳定性、鲁棒性和准确率。当前聚类集成的研究较少利用已知的先验信息,面对复杂数据时难以刻画对象与类簇之间明确的归属关系。因此,提出一种基于Seeds集和成对约束的半监督三支聚类集成方法。首先,基于已有的标签信息提出一种新的三支标签传播算法构造基聚类成员;其次,提出一种半监督三支聚类集成框架集成基聚类成员,构造出一致性相似矩阵,并利用成对约束信息对该矩阵进行优化调整;最后,将三支谱聚类作为一致性函数对相似矩阵进行聚类,得到最终集成结果。在多个UCI真实数据集上的实验结果表明,与基于类簇的相似分区算法(CSPA)、超图分区算法(HGPA)、元类簇算法(MCLA)、标签传播算法(LPA)、Cop-Kmeans等半监督聚类集成算法相比,所提方法的归一化互信息(NMI)、调整兰德系数(ARI)和F测度在绝大多数据集上取得了最优值,获得了相对更好的聚类集成结果。
为度量多关系节点相似性、挖掘具有多关系节点的社团结构,提出基于节点多关系的社团挖掘算法LSL-GN。首先基于节点相似性和节点可达性刻画具有多关系的节点相似性度量指标LHN-ISL;然后利用该指标重构目标网络的低密度模型,并结合GN(Girvan-Newman)算法完成社团划分。将LSL-GN算法与多个经典社团挖掘算法在模块度(Q)、标准化互信息(NMI)和调整兰德指数(ARI)上进行对比,结果显示LSL-GN算法在3个指标上均优于经典算法,说明它的社团划分质量相对较好。将LSL-GN应用于“用户-应用”的移动漫游网络模型中,划分出了以携程旅行、高德地图、滴滴出行等为基础应用的社团结构,而这些社团划分结果可为设计个性化套餐业务提供策略参考信息。
动态社区发现研究是社交网络分析(SNA)的重要研究领域。随着节点加入或离开社交网络,节点间的关系也随之建立或消失,进而影响着社区结构的变化。针对社交网络静态社区发现算法缺少必要的社区节点历史信息而导致的网络结构分析、聚类信息不足和计算开销过大的问题,基于社区网络演化事件的划分并根据主要社区事件的分析,提出一种基于谱聚类的动态社区发现算法(SC-DCDA)。首先,根据实验观察使用谱映射的方法将高维数据降维,并采用改进的模糊C-均值聚类(FCM)算法确定动态社交网络中的节点与待发现社区的关联度;其次,根据演化相似度矩阵分析社区结构。通过使用真实网络数据集以及模块度得分、轮廓系数等社区发现算法衡量指标,评估所提算法的效果。实验结果表明,SC-DCDA的计算开销相较于传统谱聚类降低了8.37%,在所有数据集上的平均模块度得分是0.49,其他衡量指标的定性分析结果也较好,验证了所提算法在信息交互、聚类效果和精确度上表现较好。
协同过滤(CF)算法基于物品之间或用户之间的相似度能实现个性化推荐,然而CF算法普遍存在数据稀疏性的问题。针对用户?物品评分稀疏问题,为使预测更加准确,提出一种基于协同训练与Boosting的协同过滤算法(CFCTB)。首先,利用协同训练将两种CF集成于一个框架,两种CF互相添加置信度高的伪标记样本到对方的训练集中,并利用Boosting加权训练数据辅助协同训练;其次,采用加权集成预测最终的用户评分,有效避免伪标记样本所产生的噪声累加,进一步提高推荐性能。实验结果表明,在4个公开数据集上,所提算法的准确率优于单模型;在稀疏度最高的CiaoDVD数据集上,与面向推荐系统的全局和局部核(GLocal-K)相比,所提算法的平均绝对误差(MAE)降低了4.737%;与ECoRec(Ensemble of Co-trained Recommenders)算法相比,所提算法的均方根误差(RMSE)降低了7.421%。以上结果验证了所提算法的有效性。
基于张量的多聚类算法(TMC)在衡量属性重要性时忽略了对象张量内部属性组合的关联性,而且在不同的特征空间选择下,固定权重策略导致所选与未选择特征空间没有完全分离。针对上述问题,提出一种基于动态加权张量距离(DWTD)的多聚类算法(DWTD-MC)。首先,为提升各特征空间属性重要性衡量的准确性,建立了自-关联张量模型;其次,构建多视图权重张量模型,在不同特征空间选择下通过动态加权策略满足多聚类分析的需求;最后,使用DWTD衡量数据点的相似性,生成最终的多聚类结果。在真实数据集上的仿真实验结果表明,DWTD-MC在杰卡德指数(JI)、邓恩指数(DI)、DB指数(DB)和轮廓系数(SC)评价指标上均优于TMC等对比算法,而且可以在获得较高质量的聚类结果的同时,使各聚类结果之间保持较低的冗余度,满足多聚类分析的任务需求。