• • 下一篇
张瑜琦,沙灜
摘要: 中文语义错误不同于简单的拼写错误和语法错误,其隐藏在更深层次的语义层面。中文语义错误识别旨在判断中文句子是否包含语义错误,作为语义纠错的前置任务,识别模型的性能对语义错误校对至关重要。针对中文语义错误识别,文中提出了层次信息增强的图卷积神经网络(Hierarchical Information Enhancement Graph Convolutional Network, HIE-GCN). 旨在通过对句法树中节点的层次信息嵌入来缩小树结构与上下文结构之间的差异。首先,采用遍历算法提取句法树中节点的层次信息,其次,将层次信息嵌入添加到BERT模型中生成字符特征,图卷积神经网络将字符特征用于图上节点,在图卷积计算后得到整个句子的特征向量;最后,利用全连接层进行单分类或多分类语义错误识别。在FCGEC数据集上进行的语义错误识别和校对实验。在识别任务中,所提出方法的准确率、F1分数等指标相比基线提升0.6%至3.7%,并在消融实验中验证了层次信息嵌入的有效性,与大语言模型相比,模型识别的整体性能远高于大模型。在校对实验中,采用流水线可以将纠错的精确率提高8.01%,并且还发现向大语言模型提示句子错误类型时可以将纠错的精确率提高4.62%。
中图分类号: