摘要: 摘 要: 针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题,在改进的实例分割网络Mask R-CNN的基础上,提出一种针对越南场景文字的检测算法。为了准确地分割带声调符号的越南场景文本,该算法仅使用高分辨率的P2特征层来分割文本区域,并将文本区域的掩码矩阵大小从14×14调整为14×28以更好地适应文字区域的横纵比。针对存在用常规非极大值抑制算法不能剔除重复文本检测框的问题,设计了一个针对文本区域的过滤模块添加在检测模块之后,以有效地剔除冗余检测框。使用模型联合训练的方法训练网络,训练过程包含两部分:第一部分为特征金字塔网络和区域生成网络的训练,训练使用的数据集为大规模公开的拉丁文字数据,以增强模型在不同场景下提取文字的泛化能力;第二部分为候选框坐标回归模块和区域分割模块的训练,此部分模型参数使用像素级越南场景文字数据训练,使模型能对包括声调符号的越南文字区域进行分割。大量交叉验证实验和对比实验证实了本文提出的算法与Mask R-CNN相比,在不同的交并比(IOU)阈值下都具有更好的准确率与召回率。
中图分类号: