摘要: 文本正则化是语音合成文本前端分析任务中不可或缺的步骤。语义歧义性是文本正则化任务面临的主要问题,特别是在非标准词汇,如数字、日期等方面。虽然神经网络系统可以利用上下文解决这些问题,但会产生不可恢复性的错误。因此,本文提出了一种基于编辑约束的端到端文本正则化方法,充分考虑了越南语的语言特点,设计专门用于越南语的标注方法,以提高模型对上下文语义信息的建模能力。同时,本文采用编辑对齐算法,有效地约束非标准词文本的范围,减小解码端搜索空间,从而避免了模型自身局限性所导致的非正则化文本预测错误。实验证明,本研究方法在越南语文本正则化中取得了97%的准确率,并且在中文开源数据集上也取得了显著的效果,验证了该方法在越南语之外的适用性。