针对小样本学习模型在数据域存在偏移时分类准确度不高的问题,提出一种基于关系网络和ViT (Vision Transformer)的跨域小样本图像分类模型ReViT (Relation ViT)。首先,引入ViT作为特征提取器,并使用经过预训练的深层神经网络解决浅层神经网络的特征表达能力不足的问题;其次,以浅层卷积网络作为任务适配器提升模型的知识迁移能力,并基于关系网络和通道注意力机制构建非线性分类器;随后,将特征提取器和任务适配器进行特征融合,从而增强模型的泛化能力;最后,采取“预训练-元学习-微调-元测试”四阶段学习策略训练模型,有效融合迁移学习与元学习,进一步提升ReViT的跨域分类性能。以平均分类准确率为评估指标的实验结果表明,ReViT在跨域小样本分类问题上有良好的性能。具体地,ReViT的分类准确度在Meta-Dataset的域内场景下和域外场景下相较于次优的模型分别提升了5.82和1.71个百分点,在BCDFSL (Broader study of Cross-Domain Few-Shot Learning)数据集的3个子问题EuroSAT(European SATellite data)、CropDisease和ISIC (International Skin Imaging Collaboration)的5-way 5-shot上相较于次优的模型分别提升了1.00、1.54和2.43个百分点,在EuroSAT、CropDisease和ISIC的5-way 20-shot上相较于次优的模型分别提升了0.13、0.97和3.40个百分点,在CropDisease的5-way 50-shot上相较于次优的模型提升了0.36个百分点。可见,ReViT能在样本量稀少的图像分类任务上保持良好的准确率。
多视图聚类由于能从多个角度利用数据的信息引起了广泛的关注。然而,目前的多视图聚类算法普遍存在以下几个问题:1)专注数据的属性特征或结构特征,没有充分结合这两种信息,以提高潜在嵌入的质量;2)基于图神经网络的方法虽然能同时利用属性和结构数据,但是基于图卷积或图注意力的模型在网络层数过深时会产生过度平滑的问题。为了解决以上问题,提出一个图对比学习引导的多视图聚类网络(MCNGCL)。首先,使用多视图自编码器模块捕捉每个视图的私有表示;其次,通过自适应加权融合构造公共表示;再次,结合图对比学习模块,使相邻节点在聚类时更容易被划分为同簇,同时缓解网络在聚合邻居节点信息时产生的过度平滑的问题;最后,使用自监督聚类模块,使公共表示和视图的私有表示向有利于聚类的方向优化。实验结果表明,MCNGCL在多个数据集上都取得了不错的效果,在3sources数据集上,与次优的CMGEC(Consistent Multiple Graph Embedding for multi-view Clustering)相比,MCNGCL的准确率指标提升了2.83个百分点,规范化互信息(NMI)指标提升了3.70个百分点;消融实验和参数敏感性分析结果也验证了MCNGCL的有效性。
随着基于位置的社交网络(LBSN)迅速发展,作为缓解信息过载的有效手段,兴趣点(POI)推荐备受关注。由于用户签到数据是隐式反馈数据,且十分稀疏,为了有效地从用户签到数据中捕获用户POI偏好,提出了一个基于地理偏好排序的POI混合推荐模型。首先,考虑用户签到数据的隐式反馈特性及用户活动的空间约束,利用传统贝叶斯个性化排序(BPR)模型计算POI距离对POI排序的影响,提出加权BPR(GWBPR)模型;然后,针对用户签到数据的稀疏性,融合GWBPR模型和逻辑矩阵分解(LMF)模型,提出混合模型GWBPR-LMF。在两个真实数据集Foursquare和Gowalla上的实验结果表明,GWBPR-LMF模型的性能优于BPR、LMF、SAE-NAD(Self-Attentive Encoder and Neighbor-Aware Decoder)等对比模型。与较优的对比模型SAE-NAD相比,GWBPR-LMF模型的POI推荐的精确率、召回率、F1值、平均精度均值(mAP)、归一化折损累积增益(NDCG)在数据集Foursquare上分别平均提升了44.9%、57.1%、78.4%、55.3%和40.0%,在数据集Gowalla上分别平均提升了3.0%、6.4%、4.6%、11.7%和4.2%。
动态特征选择算法能够大幅提升处理动态数据的效率,然而目前基于模糊粗糙集的无监督的动态特征选择算法较少。针对上述问题,提出一种特征分批次到达情况下的基于模糊粗糙集的无监督动态特征选择(UDFRFS)算法。首先,通过定义伪三角范数和新的相似关系在已有数据的基础上进行模糊关系值的更新过程,从而减少不必要的运算过程;其次,通过利用已有的特征选择结果,在新的特征到达后,使用依赖度判断原始特征部分是否需要重新计算,以减少冗余的特征选择过程,从而进一步提高特征选择的速度。实验结果表明,UDFRFS相较于静态的基于依赖度的无监督模糊粗糙集特征选择算法,在时间效率方面能够提升90个百分点以上,同时保持较好的分类精度和聚类表现。
为了减少高光谱图像数据中的冗余信息,优化计算效率,并提升图像数据后续应用的有效性,提出一种基于邻域熵(NE)的高光谱波段选择算法。首先,为了高效计算样本的邻域子集,采用了局部敏感哈希(LSH)作为近似最近邻的搜索策略;然后,引入了NE理论来度量波段和类之间的互信息(MI),并把最小化特征集合与类变量之间的条件熵作为选取有效波段的方法;最后,采用两个数据集,通过支持向量机(SVM)和随机森林(RM)进行分类实验。实验结果表明,相较于四种基于MI的特征选择算法,从总体精度以及Kappa系数上看,所提算法能够在30个波段内较快地选取有效波段子集,并达到局部最优。该算法的部分实验结果的总体精度以及Kappa系数分别达到全局最优的92.99%以及0.860 8,表明所提算法能有效地处理高光谱波段选择问题。
波段选择能有效减少高光谱数据的空间冗余,为后续分类提供有效的支持。多核模糊粗糙集模型能够对包含不确定性的数值数据进行分析和近似描述,而蝗虫优化算法对优化问题求解具有较强的探索和开发能力,因而将多核模糊粗糙集模型引入高光谱的不确定性分析建模中,采用蝗虫优化算法对波段子集进行选择,提出了一种基于多核模糊粗糙集与蝗虫优化算法的高光谱波段选择算法。首先,使用多核算子来进行相似性度量,提高模型对数据分布的适应性。定义基于核模糊粗糙集的波段相关性度量,通过模糊粗糙集中不同像素点地物上的下近似分布来度量波段之间的相关性。然后,综合考虑波段依赖度、波段信息熵、波段间相关性来定义波段子集的适应度函数。最后,在常用高光谱数据集Indiana Pines农业区上,采用J48和 K近邻( KNN)作为分类算法,把所提算法与波段相关性分析(BCA)、标准化互信息(NMI)算法进行分类性能比较。实验结果表明,在选取较少波段个数时,所提算法的总体平均分类精度提高了2.46和1.54个百分点。
空间co-location模式是一组空间特征的子集,它们的实例在邻域内频繁并置出现。通常,空间co-location模式挖掘方法假设空间实例相互独立,并采用空间实例参与到模式实例的频繁性(参与率)来度量空间特征在模式中的重要性,采用空间特征的最小参与率(参与度)来度量模式的有趣程度,忽略了空间特征间的某些重要关系。因此为了揭示空间特征间的主导关系而提出主导特征co-location模式。现有主导特征模式挖掘方法是基于传统频繁模式及其团实例模型进行挖掘,然而,团实例模型可能会忽略非团的空间特征间的主导关系。因此,基于星型实例模型,研究空间亚频繁co-location模式的主导特征挖掘,以更好地揭示空间特征间的主导关系,挖掘更有价值的主导特征模式。首先,定义了两个度量特征主导性的指标;其次,设计了有效的主导特征co-location模式挖掘算法;最后,在合成数据集和真实数据集上通过大量实验验证了所提算法的有效性以及主导特征模式的实用性。
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法——NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。
空间并置(co-location)模式是指其实例在空间邻域内频繁共现的空间特征集的子集。现有的空间co-location模式挖掘的有趣性度量指标,没有充分地考虑特征之间以及同一特征的不同实例之间的差异;另外,传统的基于数据驱动的空间co-location模式挖掘方法的结果常常包含大量无用或是用户不感兴趣的知识。针对上述问题,提出一种更为一般的研究对象——带效用值的空间实例,并定义了新的效用参与度(UPI)作为高效用co-location模式的有趣性度量指标;将领域知识形式化为三种语义规则并应用于挖掘过程中,提出一种领域驱动的多次迭代挖掘框架;最后通过大量实验对比分析不同有趣性度量指标下的挖掘结果在效用占比和频繁性两方面的差异,以及引入基于领域知识的语义规则前后挖掘结果的变化情况。实验结果表明所提出的UPI度量是一种兼顾频繁和效用的更为合理的度量指标;同时,领域驱动的挖掘方法能有效地挖掘到用户真正感兴趣的模式。
针对含噪环境下数字调制混合信号盲源分离(BSS)误码率(BER)过高的问题,提出了一种基于RobustICA的二阶段盲源分离算法R-TSBS。该算法采用RobustICA算法对阵列响应向量构成的混合矩阵进行估计,然后利用数字调制信号的有限符号集特征,在第二阶段用最大似然估计(MLE)方法估计各个数字调制源信号发送的符号序列,达到盲源分离的目的。实验仿真表明,传统的独立成分分析(ICA)算法如RobustICA算法和FastICA算法误码率很高,在信噪比(SNR)为10 dB时,其误码率达到了3.5×10-2左右,而基于FastICA的二阶段盲源分离算法F-TSBS和基于RobustICA的二阶段盲源分离算法R-TSBS的误码率则下降到了10-3,分离性能得到了明显改善;在较低的信噪比(0~4 dB)下,R-TSBS算法较F-TSBS算法约有2 dB性能提升。
针对采用三次B样条小波矩提取的低空风切变图像的形状特征,提出了一种改进的遗传算法(GA)用于微下击暴流、低空急流、侧风以及顺逆风4种风切变的类型识别中。该算法中自适应交叉概率仅考虑了进化代数的影响,而变异概率强调个体与群体适应度的作用,使得在均匀把握群体演变方向时,极大程度地丰富种群的多样性。对由此改进算法选取的最优特征子集,采用三阶近邻分类器进行分类识别。实验结果表明,该自适应遗传算法操作方向性强,能快速收敛到全局最优解,稳定地提取出最优特征子集,最终使低空风切变的平均识别率达到97%以上,获取了较好的识别效果。
内存需求量大、计算复杂度高等问题很大程度上限制了JPEG2000的应用。基于行小波变换的图像压缩算法以累进方式完成列向小波变换,在不影响变换结果的前提下降低了对存储容量的需求。应用三项加法单元形式的提升格式代替原基于行的小波变换算法中的Mallat算法,充分利用了提升格式的全替换特性,加快了计算速度,节省了内存。同时针对基于行的小波变换的特点,设计了相应的上下文模板,可以简洁、高效地进行概率估计。应用该方法对JPEG2000进行改进,可大大提高其实用性。