《计算机应用》唯一官方网站 ›› 2023, Vol. 43 ›› Issue (1): 227-231.DOI: 10.11772/j.issn.1001-9081.2021101845
所属专题: 多媒体计算与计算机仿真
方昕1,2, 黄泽鑫3, 张聿晗2, 高天2, 潘嘉2, 付中华4, 高建清2, 刘俊华2, 邹亮3
FANG Xin1,2, HUANG Zexin3, ZHANG Yuhan2, GAO Tian2, PAN Jia2, FU Zhonghua4, GAO Jianqing2, LIU Junhua2, ZOU Liang3
摘要: 现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(DP?Res2Net),提出一种基于时域波形的半监督端到端虚假语音检测方法。首先,为了解决训练数据集和测试数据集两者数据分布差异较大的问题,采用半监督学习进行领域迁移;然后,对于特征工程,直接将时域采样点输入DP?Res2Net中,增加局部的多尺度信息,并充分利用音频片段之间的依赖性;最后,输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量,用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能,实验结果表明它的等错误率(EER)为19.97%,与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的,且具有更高的泛化能力。
中图分类号: