基于改进Transformer的端到端说话人确认模型

doi:10.11772/j.issn.1001-9081.2024071044

《计算机应用》唯一官方网站

• • 下一篇

基于改进Transformer的端到端说话人确认模型

周云龙¹,²,陈德富³,刘小湖¹,桑伊健²,周晗昀²

1. 杭州市滨江区浙工大人工智能创新研究院
2. 浙江工业大学信息工程学院
3. 浙江工业大学

收稿日期:2024-07-26 修回日期:2024-10-21 发布日期:2024-11-19 出版日期:2024-11-19
通讯作者: 周云龙
基金资助:
浙江省基础公益研究项目

End-to-end speaker verification model based on improved Transformer

Received:2024-07-26 Revised:2024-10-21 Online:2024-11-19 Published:2024-11-19
Supported by:
Basic Public Welfare Research Project of Zhejiang Province

摘要/Abstract

摘要： 基于自注意机制的Transformer在大多数自然语言处理(NLP)任务中表现出了一流的性能，但以往的工作表明，将Transformer应用于说话人确认时竞争力不强。主要体现在局部建模能力、轻量级的结构以及实时推理能力上。针对这些问题，本文从三个方面提出一种改进Transformer的端到端说话人确认模型DTF-Transformer (Deep Treatment Fusion-Transformer)。首先使用了一种简化多尺度注意力代替多头注意力来提升模型局部建模能力并且降低参数，其次设计了轻量级的前馈网络(FFN)进一步降低模型参数同时加快推理速度，最后对于不同深度下的特征应用融合机制提高模型对深层特征的表达与泛化能力。通过在VoxCeleb和CN-Celeb公共基准数据集上的实验结果表明，相较于较为流行的ResNet34和ECAPA-TDNN网络，DTF-Transformer在VoxCeleb-O和CN-Celeb(E)测试集上的等错误率(EER)分别下降14%、23%和43%、15%，并且，DTF-Transformer在不失精度的情况下更轻量化并且有着较优的推理速度。

关键词: 说话人确认, 说话人嵌入, Transformer, 自注意力机制, 特征融合

Abstract: The Transformer based on the self-attention mechanism has demonstrated superior performance in most Natural Language Processing (NLP) tasks. However, previous studies have indicated that the Transformer is not highly competitive when applied to speaker verification, particularly in terms of local modeling capability, lightweight structure, and real-time inference performance. To address these issues, an end-to-end speaker verification model Deep Treatment Fusion-Transformer (DTF-Transformer) based on an improved Transformer was proposed from three aspects. First, a simplified multi-scale attention mechanism was employed in place of multi-head attention to enhance the model's local modeling ability and reduce the number of parameters. Second, a lightweight Feed Forward Network (FFN) was designed to further reduce parameters and accelerate inference. Finally, a fusion mechanism was applied to features at different depths to improve the model’s ability to represent and generalize deep features. Experimental results on the VoxCeleb and CN-Celeb public benchmark datasets demonstrate that, compared to the popular ResNet34 and ECAPA-TDNN networks, the DTF-Transformer reduces the Equal Error Rate (EER) by 14% and 23% on the VoxCeleb-O test set, and by 14% and 15% on the CN-Celeb(E) test set, respectively. Furthermore, the DTF-Transformer is more lightweight and offers better inference speed without sacrificing accuracy.

Key words: speaker verification, speaker embedding, Transformer, self-attention mechanism, feature fusion

中图分类号:

周云龙陈德富刘小湖桑伊健周晗昀. 基于改进Transformer的端到端说话人确认模型[J]. 计算机应用, DOI: 10.11772/j.issn.1001-9081.2024071044.

[1]	李维刚, 邵佳乐, 田志强. 基于双注意力机制和多尺度融合的点云分类与分割网络[J]. 《计算机应用》唯一官方网站, 2025, 45(9): 3003-3010.
[2]	王翔, 陈志祥, 毛国君. 融合局部和全局相关性的多变量时间序列预测方法[J]. 《计算机应用》唯一官方网站, 2025, 45(9): 2806-2816.
[3]	许志雄, 李波, 边小勇, 胡其仁. 对抗样本嵌入注意力U型网络的3D医学图像分割[J]. 《计算机应用》唯一官方网站, 2025, 45(9): 3011-3016.
[4]	王芳, 胡静, 张睿, 范文婷. 内容引导下多角度特征融合医学图像分割网络[J]. 《计算机应用》唯一官方网站, 2025, 45(9): 3017-3025.
[5]	梁一鸣, 范菁, 柴汶泽. 基于双向交叉注意力的多尺度特征融合情感分类[J]. 《计算机应用》唯一官方网站, 2025, 45(9): 2773-2782.
[6]	李进, 刘立群. 基于残差Swin Transformer的SAR与可见光图像融合[J]. 《计算机应用》唯一官方网站, 2025, 45(9): 2949-2956.
[7]	邓伊琳, 余发江. 基于LSTM和可分离自注意力机制的伪随机数生成器[J]. 《计算机应用》唯一官方网站, 2025, 45(9): 2893-2901.
[8]	吕景刚, 彭绍睿, 高硕, 周金. 复频域注意力和多尺度频域增强驱动的语音增强网络[J]. 《计算机应用》唯一官方网站, 2025, 45(9): 2957-2965.
[9]	周金, 李玉芝, 张徐, 高硕, 张立, 盛家川. 复杂电磁环境下的调制识别网络[J]. 《计算机应用》唯一官方网站, 2025, 45(8): 2672-2682.
[10]	林进浩, 罗川, 李天瑞, 陈红梅. 基于跨尺度注意力网络的胸部疾病分类方法[J]. 《计算机应用》唯一官方网站, 2025, 45(8): 2712-2719.
[11]	颜承志, 陈颖, 钟凯, 高寒. 基于多尺度网络与轴向注意力的3D目标检测算法[J]. 《计算机应用》唯一官方网站, 2025, 45(8): 2537-2545.
[12]	习怡萌, 邓箴, 刘倩, 刘立波. 跨模态信息融合的视频-文本检索[J]. 《计算机应用》唯一官方网站, 2025, 45(8): 2448-2456.
[13]	陈亮, 王璇, 雷坤. 复杂场景下跨层多尺度特征融合的安全帽佩戴检测算法[J]. 《计算机应用》唯一官方网站, 2025, 45(7): 2333-2341.
[14]	梁辰, 王奕森, 魏强, 杜江. 基于Tsransformer-GCN的源代码漏洞检测方法[J]. 《计算机应用》唯一官方网站, 2025, 45(7): 2296-2303.
[15]	陶永鹏, 柏诗淇, 周正文. 基于卷积和Transformer神经网络架构搜索的脑胶质瘤多组织分割网络[J]. 《计算机应用》唯一官方网站, 2025, 45(7): 2378-2386.

基于改进Transformer的端到端说话人确认模型

End-to-end speaker verification model based on improved Transformer

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics