摘要: 针对小样本学习模型在数据域存在偏移时分类准确度不高的问题,提出了一种基于关系网络和vision Transformer的跨域小样本图像分类模型ReViT(Relation Vision Transformer)。首先,引入vision Transformer作为特征提取器,经过预训练的深层神经网络解决了浅层神经网络的特征表达能力不足的问题;其次,以浅层卷积网络作为任务适配器提升模型的知识迁移能力,并基于关系网络和通道注意力机制构建非线性分类器,将特征提取器和任务适配器进行特征融合,从而增强模型的泛化能力;最后,采取“预训练-元学习-微调-元测试”的四阶段学习策略训练模型,通过迁移学习与元学习的有效融合,进一步提升ReViT的跨域分类性能。实验结果表明,ReViT在面对跨域小样本分类问题上有良好的性能,在Meta-Dataset数据集的域内场景下和域外场景下的分类准确度相较于次优的模型分别提升了5.82和1.17个百分点,在BCDFSL(Broader study of Cross-Domian Few-Shot Learning)数据集的三个子问题EuroSat(European Satellite data)、CropDiease和ISIC(International Skin Imaging Collaboration)的5-way 5-shot上相较于次优的模型分别提升了1.00、1.54和2.43个百分点,在EuroSat、CropDiease和ISIC的5-way 20-shot上相较于次优的模型分别提升了0.13、0.97和3.40个百分点,在CropDiease的5-way 50-shot上相较于次优的模型提升了0.36个百分点。ReViT能在样本量稀少的图像分类任务上保持良好的准确率,在卫星图像识别,人类皮肤病识别和农作物病害识别等实际应用中能够提高系统的效率。
中图分类号: