合成语音攻击给人们的生活带来巨大的威胁。为了解决现有模型从冗余信息中提取关键信息能力不足和单一模型无法综合利用多检测模型优势的问题,提出一种基于注意力和挤压-激励(SE)模块Inception (SE-Inc)的双分支(Dual-ABIB)合成语音检测模型。首先,基于SincNet(Sinc-based convolutional neural Network)提取的初始特征图训练注意力分支合成语音检测模型,并输出注意力图;其次,将注意力图和初始特征图相乘后再叠加,并将结果作为SE-Inc分支的输入进行训练;最后,通过决策级加权融合处理2个分支获得的分类分数,从而实现合成语音检测。实验结果表明,所提模型在参数量为539×103的情况下,在ASVspoof2019数据集上获得了0.033 2的最小串联检测代价函数(min t-DCF)和1.15%的等错误率(EER);与SE-ResABNet (Squeeze-Excitation ResNet Attention Branch Network)相比,所提模型在参数量仅为它的56%的情况下,min t-DCF和EER分别下降了34.5%和39.2%;同时,在ASVspoof2015和ASVspoof2021数据集上所提模型表现了更好的泛化能力。以上结果验证了所提模型能够在参数量较小的情况下,获得更低的min t-DCF和EER。
示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。
在多交叉通道余度系统中,最大限度恢复个别通道出现的输出错误,是表决结果正确性的前提,也是余度系统中的基本问题。在一个指令周期中,多交叉通道针对任务在时间分配上存在一定冗余,对当前表决面之前时间的冗余进行汇总,并假设之后阶段不出现瞬时故障,进行后期冗余时间的估计;累计这两部分冗余,构造一个较大的时间窗口,利用该窗口,在故障时增加回卷深度,实现瞬时故障的最大恢复。基于上述思想,提出了多通道交叉余度模型中的动态时间序列,针对该序列,进行时间回卷深度分析,由此设计了支持后向恢复的算法和具有后向恢复能力的故障监测逻辑。理论分析和实验表明,提出的方法对于提高多通道系统的故障恢复率、减少失步次数等方面十分有效:与静态回卷相比,4通道和6通道下恢复成功率分别提高了47.49%和72.35%,失步次数分别下降了58%和85%,进而较大幅度促进了系统可靠性的提高,尤其是表决面数目较大时效果更为明显。
分析了面向对象理论遇到的难以解决的问题。针对此类问题提出了利用产生式编程构建通用领域模型和低耦合的模块的思想。以AspectOrientedProgramming(AOP)为例,列举了其主要实现手段,分析了它们的利弊,对比了传统OO方法的Observer模式实现和利用AOP的Observer模式实现。