《计算机应用》唯一官方网站 ›› 2022, Vol. 42 ›› Issue (6): 1724-1728.DOI: 10.11772/j.issn.1001-9081.2021061432
所属专题: 2021年全国开放式分布与并行计算学术年会(DPCS 2021)论文
• 2021年全国开放式分布与并行计算学术年会(DPCS 2021)论文 • 上一篇 下一篇
Mingyu DONG1, Diqun YAN1,2()
摘要:
针对造假成本低、不易察觉的音频场景声替换的造假样本检测问题,提出了基于ResNet的造假样本检测算法。该算法首先提取音频的常数Q频谱系数(CQCC)特征,之后由残差网络(ResNet)结构学习输入的特征,结合网络的多层的残差块以及特征归一化,最后输出分类结果。在TIMIT和Voicebank数据库上,所提算法的检测准确率最高可达100%,错误接收率最低仅为1.37%。在现实场景下检测由多种不同录音设备录制的带有设备本底噪声以及原始场景声音频,该算法的检测准确率最高可达99.27%。实验结果表明,在合适的模型下利用音频的CQCC特征来检测音频的场景替换痕迹是有效的。
中图分类号: