可训练文语转换系统的时长模型优化

计算机应用 ›› 2010, Vol. 30 ›› Issue (1): 282-284.

• 典型应用 • 上一篇

可训练文语转换系统的时长模型优化

吕浩音

甘肃省陇东学院

收稿日期:2009-07-21 修回日期:2009-08-06 发布日期:2010-01-01 出版日期:2010-01-01
通讯作者: 吕浩音

Duration model optimization in HMM-based TTS

Received:2009-07-21 Revised:2009-08-06 Online:2010-01-01 Published:2010-01-01

摘要/Abstract

摘要： 文语转换是人机交互的一项关键技术。当前的基于隐马尔可夫模型的语音合成系统已经能够合成出较高自然度和可懂度的声音，但与自然语音相比，韵律的节奏感不强，其主要原因是受时长的影响。提出在生成状态时长时同时优化状态、音子和音节三层模型的似然值，并通过考虑状态和长时时长的信息，使在重估计的过程中减少状态时长的错误。在普通话语料库上的实验证明，优化后的时长模型能够产生更加准确的状态时长，与状态级的基线系统相比较，均方根误差由19.90提高到了17.45。主观评测也显示改进后的模型优于基线模型。

关键词: 隐马尔可夫模型, 音节时长, 高斯分布, 最大似然值

Abstract: Text-To-Speech (TTS) is one of the important technologies of humancomputer interaction. The current stateofart HMM based TTS can produce highly intelligible and natural output speech and deliver a decent segmental quality. However, its duration tends to be unnatural. In this paper, the state durations were generated by jointly maximizing the duration likelihoods of state, phone and syllable units. By considering the duration of state and longer units jointly, the accumulation of errors in estimated state durations was regulated in the optimization procedure. Experiments on Mandarin databases show that the optimized model yields more accurate duration predictions, compared with the baseline state duration model. The improvement of phone RMSE is 2.45ms. The perceptual test further confirms that the optimized duration model outperforms the baseline system.

Key words: Hidden Markov Model (HMM), syllable duration, Gaussian distribution, maximum likelihood value

吕浩音. 可训练文语转换系统的时长模型优化[J]. 计算机应用, 2010, 30(1): 282-284.

[1]	霍纬纲, 王慧芳. 基于自编码器和隐马尔可夫模型的时间序列异常检测方法[J]. 计算机应用, 2020, 40(5): 1329-1334.
[2]	王金策, 邓越萍, 史明, 周云飞. 多时间尺度时间序列趋势预测[J]. 计算机应用, 2019, 39(4): 1046-1052.
[3]	杨世强, 罗晓宇, 乔丹, 柳培蕾, 李德信. 基于滑动窗口和动态规划的连续动作分割与识别[J]. 计算机应用, 2019, 39(2): 348-353.
[4]	王岩, 罗倩, 邓辉. 基于Gibbs抽样的轴承故障诊断方法[J]. 计算机应用, 2018, 38(7): 2136-2140.
[5]	李龙澍, 翁晴晴. 基于反向学习的自适应差分进化算法[J]. 计算机应用, 2018, 38(2): 399-404.
[6]	张全贵, 蔡丰, 李志强. 基于耦合多隐马尔可夫模型和深度图像数据的人体动作识别[J]. 计算机应用, 2018, 38(2): 454-457.
[7]	郭雷勇, 李宇, 林胜义, 谭洪舟. 用于隐马尔可夫模型语音带宽扩展的激励分段扩展方法[J]. 计算机应用, 2017, 37(8): 2416-2420.
[8]	李方伟, 李骐, 朱江. 改进的基于隐马尔可夫模型的态势评估方法[J]. 计算机应用, 2017, 37(5): 1331-1334.
[9]	王董礼, 曹鹏, 黄国策, 孙启禄, 李连宝. 基于隐马尔可夫模型的短波认知频率选择方法[J]. 计算机应用, 2016, 36(5): 1179-1182.
[10]	张扬, 赵晓群, 王缔罡. 基于音节时间长度高斯拟合的汉语音节切分方法[J]. 计算机应用, 2016, 36(5): 1410-1414.
[11]	李强, 陈浩, 陈丁当. 基于隐马尔可夫模型的语音激活检测算法[J]. 计算机应用, 2016, 36(11): 3212-3216.
[12]	刘卫李和成. 基于局部保持投影与隐马尔可夫模型的维文字符识别[J]. 计算机应用, 2012, 32(08): 2309-2312.
[13]	温凯郭帆余敏. 自适应的Web攻击异常检测方法[J]. 计算机应用, 2012, 32(07): 2003-2006.
[14]	曲怀敬. 基于互补特征的纹理图像检索[J]. 计算机应用, 2012, 32(04): 1101-1103.
[15]	纪德志吴卫东. Wspruce:一种改进的可用带宽测量方法[J]. 计算机应用, 2012, 32(04): 932-934.

可训练文语转换系统的时长模型优化

Duration model optimization in HMM-based TTS

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics