摘要: 摘 要: 针对多项选择问答(MCQA)领域中原始数据信息不准确、样本质量低以及模型泛化能力差等问题,提出一种基于图卷积网络(GCN)的掩码数据增强方法。该方法以GCN作为基础框架,首先将文章中的单词抽象为图节点,并利用问题-候选答案对(QA)节点进行连接,建立与相关的文章节点之间的联系;其次,通过计算节点之间的相似性,并应用掩码技术对图中的节点进行掩盖,生成增强样本;接着,利用GCN对增强样本进行特征扩充,以提升模型的信息表达能力;最后,引入打分器对原始样本和增强样本进行评分,并结合课程学习策略提高答案预测的准确性。所提方法在RACE-M、RACE-H和DREAM等三个数据集上进行了综合的实验评估,实验结果表明与RACE数据集上最优基线模型EAM相比,所提方法在准确率上平均分别提高了0.8、0.4个百分点,而与DREAM数据集上最优基线模型STM相比,所提方法所提方法在准确率上平均提高了1.4个百分点。通过对比实验证明了所提方法方法在MCQA任务中的有效性,并为数据增强技术在该领域的进一步研究和应用提供了新的启示。
中图分类号: