针对多项选择问答(MCQA)领域中原始数据信息不准确、样本质量低以及模型泛化能力差等问题,提出一种基于图卷积网络(GCN)的掩码数据增强模型GMDA(Graph convolution network-based MASK Data Augmentation)。该模型以GCN作为基础框架,首先将文章中的单词抽象为图节点,并利用问题-候选答案(QA)对节点进行连接,建立与相关的文章节点之间的联系;其次,计算节点之间的相似性,并应用掩码技术对图中的节点进行掩盖,从而生成增强样本;再次,利用GCN对增强样本进行特征扩充,以提升模型的信息表达能力;最后,引入打分器对原始样本和增强样本进行评分,并结合课程学习策略提高答案预测的准确性。综合评估实验结果表明:与RACE-M、RACE-H数据集上的最优基线模型EAM相比,所提模型GMDA的准确率分别平均提高了0.8、0.4个百分点,而与DREAM数据集上的最优基线模型STM(SelfTraining Method)相比,GMDA模型的准确率平均提高了1.4个百分点。此外,对比实验的结果也验证了GMDA模型在MCQA任务中的有效性,可为数据增强技术在该领域的进一步研究和应用提供帮助。
无参数保持投影算法无需参数设置且识别性能稳定,但算法不能有效地保持样本的局部结构,且忽略了非局部样本所起的作用,而且存在着小样本(SSS)问题,为此提出了一种完备的无参数近邻保持及最大化非近邻算法。算法以样本间余弦距离0.5为分界点将样本分成近邻及非近邻样本,为了充分利用近邻样本及非近邻样本,分别构造了近邻散度矩阵及非近邻散度矩阵,因此算法的目标函数就是求取能够最小化近邻散度矩阵的同时,最大化非近邻散度矩阵的投影矩阵。对于目标函数的求解,可先将高维样本通过主成分分析(PCA)算法降至一个低维的子空间,并通过两个定理证明了这种处理方法没有损失任何有效的判别信息;然后将目标函数转换为差形式,从而有效地解决了小样本问题。在人脸库及掌纹库上的实验结果表明,与无参数局部保持投影算法相比,所提算法平均识别率更高,验证了算法的有效性。
近似支持向量机(PSVM)在处理不平衡样本时,会过拟合样本点数较多的一类,低估样本点数较少的类的错分误差,从而导致整体样本的分类准确率下降。针对该问题,提出一种用于处理不平衡样本的改进的PSVM新算法。新算法不仅给正、负类样本赋予不同的惩罚因子,而且在约束条件中新增参数,使得分类面更具灵活性。该算法先对训练集训练获得最优参数,然后再对测试集进行训练获得分类超平面,最后输出分类结果。UCI数据库中9组数据集的实验结果表明:新算法提高了样本的分类准确率,在线性的情况下平均提高了2.19个百分点,在非线性的情况下平均提高了3.14个百分点,有效地提高了模型的泛化能力。