针对现有语音情感识别(SER)模型精度较低、泛化能力较差的问题,提出一种孪生的Multi-scale CNN-BiGRU网络。该网络通过引入多尺度特征提取器(MSFE)和多维度注意力(MDA)模块构建孪生网络,并利用样本对的形式增加模型训练量,从而提高模型的识别精度,使它能更好地适应复杂的真实应用场景。在IEMOCAP和EMO-DB这2个公开数据集上的实验结果表明,所提模型在识别精确率上较CNN-BiGRU分别提升了8.28和7.79个百分点。此外,通过收集客服真实语音对话录音构建一个客服语音情感数据集,在该数据集上的实验结果表明,所提模型的识别精确率可达到87.85%,证明所提模型具有良好的泛化性。