汉语语音识别中基于音节的声学模型改进算法

doi:10.3724/SP.J.1087.2013.01742

计算机应用 ›› 2013, Vol. 33 ›› Issue (06): 1742-1745.DOI: 10.3724/SP.J.1087.2013.01742

汉语语音识别中基于音节的声学模型改进算法

晁浩¹,²,杨占磊²,刘文举²

1. 河南理工大学计算机科学与技术学院，河南焦作 454000
2. 中国科学院自动化研究所模式识别国家重点实验室，北京100190

收稿日期:2012-12-03 修回日期:2013-01-05 发布日期:2013-06-05 出版日期:2013-06-01
通讯作者: 晁浩
作者简介:晁浩（1981-），男，河南许昌人，讲师，博士，主要研究方向:语音识别；杨占磊（1984-），男，河北石家庄人，助理研究员，博士，主要研究方向:语音识别；刘文举（1960-），男，北京人，研究员，博士生导师，博士，主要研究方向:语音识别、语音增强、计算听觉场景分析。
基金资助:
国家自然科学基金资助项目（51175135）;国家973计划项目(2004CB318105);国家863计划项目(20060101Z4073，2006AA01Z194)

Improved syllable-based acoustic modeling for continuous Chinese speech recognition

CHAO Hao¹,²,YANG Zhanlei¹,LIU Wenju¹

1. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190,China
2. School of Computer Science and Technology, Henan Polytechnic University, Jiaozuo Henan 454000,China

Received:2012-12-03 Revised:2013-01-05 Online:2013-06-05 Published:2013-06-01
Contact: CHAO Hao

摘要/Abstract

摘要： 针对汉语语音识别中协同发音现象引起的语音信号的易变性，提出一种基于音节的声学建模方法。首先建立基于音节的声学模型以解决音节内部声韵母之间的音变现象，并提出以音节内双音子模型来初始化基于音节声学模型的参数以缓解训练数据稀疏的问题；然后引入音节之间的过渡模型来处理音节之间的协同发音问题。在“863-test”测试集上进行的汉语连续语音识别实验显示汉语字的相对错误率下降了12.13%,表明了基于音节的声学模型和音节间过渡模型相结合在解决汉语协同发音问题上的有效性。

关键词: 语音识别, 协同发音, 音变, 声学建模, 音节模型

Abstract: Concerning the changeability of the speech signal caused by co-articulation phenomenon in Chinese speech recognition, a syllable-based acoustic modeling method was proposed. Firstly, context independent syllable-based acoustic models were trained, and the models were initialized by intra-syllable IFs based diphones to solve the problem of training data sparsity. Secondly, the inter-syllable co-articulation effect was captured by incorporating inter-syllable transition models into the recognition system. The experiments conducted on “863-test” dataset show that the relative character error rate is reduced by 12.13%. This proves that syllable-based acoustic model and inter-syllable transition model are effective in solving co-articulation effect.

中图分类号:

TP391.42

晁浩杨占磊刘文举. 汉语语音识别中基于音节的声学模型改进算法[J]. 计算机应用, 2013, 33(06): 1742-1745.

CHAO Hao YANG Zhanlei LIU Wenju. Improved syllable-based acoustic modeling for continuous Chinese speech recognition[J]. Journal of Computer Applications, 2013, 33(06): 1742-1745.

参考文献

[1] 周迅溢，王蓓，杨玉芳,等. 语句中协同发音对音节知觉的影响［J］.心理学报，2003,35(3):340-344.

[2] SCHULTZ T, WAND M. Modeling coarticulation in EMG-based continuous speech recognition［J］.Speech Communication, 2010, 53(4):341-353.

[3] GAO S, LEE T, WONG Y W, et al. Acoustic modeling for Chinese speech recognition: a comparative study of Mandarin and Cantonese ［C］// Proceedings of the 25th IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway:IEEE, 2000:1261-1264.

[4] ZHANG J, ZHENG F, LI J, et al. Improved context-dependent acoustic modeling for continuous Chinese speech recognition［C］// Proceedings of the 7th European Conference on Speech Communication and Technology. Aalborg:ISCA, 2001:1617-1620.

[5] 张辉，杜利民. 汉语连续语音识别中不同基元声学模型的复合［J］. 电子与信息学报,2006,28(11):2045-2049.

[6] LIU X, GALES M J F, HIERONYMUS J L, et al. Investigation of acoustic units for LVCSR systems ［C］// Proceedings of the 36th IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway:IEEE, 2011:4872-4875.

[7] 彭荻，刘刚，郭军. 语音识别系统中上下文相关声学模型建模优化［J］. 北京邮电大学学报,2006,29(z2):188-191.

[8] 高升.语境相关的声学模型和搜索策略的研究［D］. 北京：中国科学院自动化研究所, 2001.

[9] GANAPATHIRAJU A, HAMAKER J, PICONE J, et al. Syllable-based large vocabulary continuous speech recognition［J］. IEEE Transactions on Speech Audio Processing, 2001,9(4):358-366.

[10] WU H, WU X H. Context dependent syllable acoustic model for continuous Chinese speech recognition［C］// The 13th European Conference on Speech Communication and Technology. Aalborg:ISCA, 2007:1713-1716.

[11] DENG L, AKSMANOVIC M, SUN D, et al. Speech recognition using hidden Markov models with polynomial regression functions as nonstationary states［J］. IEEE Transactions on Speech Audio Processing, 1994, 2(4): 507-520.

[12] 唐赟,刘文举,徐波. 基于后验概率解码段模型的汉语语音数字串识别［J］. 计算机学报, 2006, 29(4):635-642.

[13] YOUNG S, EVERMANN G, GALES M, et al. Hidden Markov model toolkit ［EB/OL］. ［2012-10-20］. http://htk.eng.cam.ac.uk/docs/docs.shtml.

[14] 唐赟.基于随机段模型的汉语语音识别算法研究［D］.北京：中国科学院自动化研究所,2006.

[1]	赖华, 孙童, 王文君, 余正涛, 高盛祥, 董凌. 多模态特征的越南语语音识别文本标点恢复[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 418-423.
[2]	高建清, 屠彦辉, 马峰, 付中华. 基于渐进比率掩蔽目标的自适应噪声估计方法[J]. 《计算机应用》唯一官方网站, 2023, 43(4): 1303-1308.
[3]	刘聪, 万根顺, 高建清, 付中华. 基于韵律特征辅助的端到端语音识别方法[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 380-384.
[4]	柏财通, 崔翛龙, 郑会吉, 李爱. 基于自监督知识迁移的鲁棒性语音识别技术[J]. 《计算机应用》唯一官方网站, 2022, 42(10): 3217-3223.
[5]	陈玉娜, 史晓东. 通过标点恢复提高机器同传效果[J]. 计算机应用, 2020, 40(4): 972-977.
[6]	林晓丹, 邱应强. 基于翻转梅尔频率倒谱系数的语音变调检测方法[J]. 计算机应用, 2019, 39(12): 3510-3514.
[7]	刘伟波, 曾庆宁, 卜玉婷, 郑展恒. 基于双微阵列与卷积神经网络的语音识别方法[J]. 计算机应用, 2019, 39(11): 3268-3273.
[8]	姚煜, RYAD Chellali. 基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J]. 计算机应用, 2018, 38(9): 2495-2499.
[9]	解本铭, 韩明明, 张攀, 张威. 飞机牵引车语音识别的动态时间规整优化算法[J]. 计算机应用, 2018, 38(6): 1771-1776.
[10]	曹晶晶, 许洁萍, 邵聖淇. 多噪声环境下的层级语音识别模型[J]. 计算机应用, 2018, 38(6): 1790-1794.
[11]	秦楚雄, 张连海. 低资源语音识别中融合多流特征的卷积神经网络声学建模方法[J]. 计算机应用, 2016, 36(9): 2609-2615.
[12]	刘金刚, 周翊, 马永保, 刘宏清. 用于自动语音识别系统的切换语音功率谱估计算法[J]. 计算机应用, 2016, 36(12): 3369-3373.
[13]	晁浩, 宋成, 彭维平. 基于发音特征的声效相关鲁棒语音识别算法[J]. 计算机应用, 2015, 35(1): 257-261.
[14]	晁浩杨占磊刘文举. 基于发音特征的汉语声调建模方法及其在汉语语音识别中的应用[J]. 计算机应用, 2013, 33(10): 2939-2944.
[15]	周阿转俞一彪. 采用特征空间随机映射的鲁棒性语音识别[J]. 计算机应用, 2012, 32(07): 2070-2073.

汉语语音识别中基于音节的声学模型改进算法

Improved syllable-based acoustic modeling for continuous Chinese speech recognition

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics