基于混合注意力机制的动态人脸表情识别

doi:10.11772/j.issn.1001-9081.2022101472

《计算机应用》唯一官方网站 ›› 2023, Vol. 43 ›› Issue (S1): 1-7.DOI: 10.11772/j.issn.1001-9081.2022101472

• 人工智能 •

基于混合注意力机制的动态人脸表情识别

刘希未¹^,², 宫晓燕¹^,², 赵红霞¹, 边思宇¹, 邵帅³, 戴亚平³, 代文鑫¹^,³()

^1.多模态人工智能系统全国重点实验室(中国科学院自动化研究所), 北京 100190
^2.青岛智能产业技术研究院智慧教育研究所, 青岛山东 266044
^3.北京理工大学自动化学院, 北京100081

收稿日期:2022-10-11 修回日期:2022-12-20 接受日期:2022-12-26 发布日期:2023-07-04 出版日期:2023-06-30
通讯作者: 代文鑫
作者简介:刘希未（1978—），男，河南濮阳人，高级工程师，博士，主要研究方向：智慧教育、复杂系统建模与仿真、虚拟现实、人因工程学
宫晓燕（1976—），女，山东滨州人，高级工程师，博士，主要研究方向：智慧教育、复杂系统管理与控制、智慧交通
赵红霞（1982—），女，湖北孝感人，工程师，博士，主要研究方向：智慧教育、复杂系统管理与控制、智慧交通
边思宇（1998—），女，海南海口人，主要研究方向：智慧教育、虚拟现实
邵帅（1992—），男，北京人，博士，主要研究方向：智能家居、多传感器融合、人机交互系统
戴亚平（1963—），女，山东淄博人，教授，博士，主要研究方向：图像特征提取与识别、多传感器数据融合与决策诊断技术、人工智能与专家系统
代文鑫（1999—），女，河北沧州人，硕士研究生，主要研究方向：计算机视觉、情感识别。 dwx08042@163.com
基金资助:
科技创新2030“新一代人工智能”重大项目(2020AAA0108801);新时期铁路安全发展效能提升关键技术研究系统性重大专项项目(P2021T002)

Dynamic facial expression recognition based on hybrid attention mechanism

Xiwei LIU¹^,², Xiaoyan GONG¹^,², Hongxia ZHAO¹, Siyu BIAN¹, Shuai SHAO³, Yaping DAI³, Wenxin DAI¹^,³()

^1.State Key Laboratory of Multimodal Artificial intelligence Systems （Institute of Automation，Chinese Academy of Sciences），Beijing 100190，China
^2.Institute of Smart Education Systems，Qingdao Academy of Intelligent Industries，Qingdao Shandong 266044，China
^3.School of Automation，Beijing Institute of Technology，Beijing 100081，China

Received:2022-10-11 Revised:2022-12-20 Accepted:2022-12-26 Online:2023-07-04 Published:2023-06-30
Contact: Wenxin DAI

摘要/Abstract

摘要：

针对自然环境中存在人脸遮挡、姿势变化等复杂因素，以及卷积神经网络（CNN）中的卷积滤波器由于空间局部性无法学习大多数神经层中不同面部区域之间的长程归纳偏差的问题，提出一种用于动态人脸表情识别（DFER）的混合注意力机制模型（HA-Model），以提升DFER的鲁棒性和准确性。HA-Model由空间特征提取和时序特征处理两部分组成：空间特征提取部分通过两种注意力机制——Transformer和包含卷积块注意力模块（CBAM）的网格注意力模块，引导网络从空间角度学习含有遮挡、姿势变化的鲁棒面部特征并关注人脸局部显著特征；时序特征处理部分通过Transformer引导网络学习高层语义特征的时序联系，用于学习人脸表情特征的全局表示。实验结果表明，HA-Model在DFEW和AFEW基准上的准确率分别达到了67.27%和50.41%，验证了HA-Model可以有效提取人脸特征并提升动态人脸表情识别的精度。

关键词: 动态人脸表情识别, 深度学习, 卷积神经网络, 注意力机制, Transformer, 卷积块注意力模块

Abstract:

Complex factors such as face occlusion and pose variation exist in the wild， and the convolution filter in Convolutional Neural Network （CNN） cannot learn the long-range induction bias between different facial regions in most neural layers due to spatial locality. In order to solve the problem above， an HA-Model （Hybrid-Attention-mechanism-Model） was proposed for Dynamic Facial Expression Recognition （DFER）， which was used to improve the robustness and accuracy of DFER. HA-Model was composed of spatial feature extraction and temporal feature processing. Transformer and grid attention module in Convolution Block Attention Module （CBAM） in the spatial feature extraction part were used to guide the network to learn robust facial features including occlusion and pose variation from a spatial perspective， and pay attention to local significant features of the face. The temporal feature processing part was used to guide the network to learn the temporal connections of high-level semantic features through Transformer， which was used to learn the global representation of facial expression features. The experimental results show that the accuracy of HA-Model on DFEW and AFEW benchmarks reaches 67.27% and 50.41% respectively， which verifies that HA-Model can effectively extract facial features and improve the accuracy of DFER.

Key words: Dynamic Facial Expression Recognition (DFER), deep learning, Convolutional Neural Network (CNN), attention mechanism, Transformer, Convolutional Block Attention Module (CBAM)

中图分类号:

TP391.41

刘希未, 宫晓燕, 赵红霞, 边思宇, 邵帅, 戴亚平, 代文鑫. 基于混合注意力机制的动态人脸表情识别[J]. 计算机应用, 2023, 43(S1): 1-7.

Xiwei LIU, Xiaoyan GONG, Hongxia ZHAO, Siyu BIAN, Shuai SHAO, Yaping DAI, Wenxin DAI. Dynamic facial expression recognition based on hybrid attention mechanism[J]. Journal of Computer Applications, 2023, 43(S1): 1-7.

图/表 10

参考文献 29

1	MEHRABIAN A， RUSSELL J A. An Approach to Environmental Psychology［M］. Cambridge， MA： MIT Press， 1974： 150-163.
2	刘婷婷，刘箴，柴艳杰，等.人机交互中的智能体情感计算研究［J］.中国图象图形学报，2021，26（12）：2767-2777. 10.11834/jig.200498
3	潘仙张，陈坚，马仁利.基于面部表情识别的课堂教学反馈系统［J］.计算机系统应用，2021，30（10）：102-108.
4	LI B， MEHTA S， ANEJA D， et al. A facial affect analysis system for autism spectrum disorder［C］// Proceedings of the 2019 IEEE International Conference on Image Processing. Piscataway： IEEE， 2019：4549-4553. 10.1109/icip.2019.8803604
5	刘鹏，刘峰.融合脸部红外信息与深度信息的驾驶员路怒表情识别方法［J］.软件导刊，2017，16（10）：198-201.
6	WANG Z， WANG S， JI Q. Capturing complex spatio-temporal relations among facial muscles for facial expression recognition［C］// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2013：3422-3429. 10.1109/cvpr.2013.439
7	ZHAO Z， LIU Q， WANG S. Learning deep global multi-scale and local attention features for facial expression recognition in the wild［J］. IEEE Transactions on Image Processing， 2021， 30： 6544-6556. 10.1109/tip.2021.3093397
8	DHALL A， GOECKE R， LUCEY S， et al. Collecting large， richly annotated facial-expression databases from movies［J］. IEEE MultiMedia， 2012， 19（3）： 34-41. 10.1109/mmul.2012.26
9	ZAFEIRIOU S， KOLLIAS D， NICOLAOU M A， et al. Aff-Wild： valence and arousal‘In-the-Wild’challenge［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway： IEEE， 2017：1980-1987. 10.1109/cvprw.2017.248
10	LEE J， KIM S， KIM S， et al. Context-aware emotion recognition networks［C］// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2019：10142-10151. 10.1109/iccv.2019.01024
11	JIANG X， ZONG Y， ZHENG W， et al. DFEW： a large-scale database for recognizing dynamic facial expressions in the wild［C］// Proceedings of the 28th ACM International Conference on Multimedia. New York： ACM， 2020： 2881-2889. 10.1145/3394171.3413620
12	LI S， DENG W. Deep facial expression recognition： a survey［J］. IEEE Transactions on Affective Computing， 2022，13（3）：1195-1215. 10.1109/taffc.2020.2981446
13	LIU D， ZHANG H， ZHOU P. Video-based facial expression recognition using graph convolutional networks［C］// Proceedings of the 2020 25th International Conference on Pattern Recognition. Piscataway： IEEE， 2021： 607-614. 10.1109/icpr48806.2021.9413094
14	LEE M K， CHOI D Y， KIM D H， et al. Visual scene-aware hybrid neural network architecture for video-based facial expression recognition［C］// Proceedings of the 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition. Piscataway： IEEE， 2019： 1-8. 10.1109/fg.2019.8756551
15	KOSSAIFI J， TOISOUL A， BULAT A， et al. Factorized higher-order CNNs with an application to spatio-temporal emotion estimation［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020： 6059-6068. 10.1109/cvpr42600.2020.00610
16	ZHAO Z， LIU Q， WANG S. Learning deep global multi-scale and local attention features for facial expression recognition in the wild［J］. IEEE Transactions on Image Processing， 2021， 30： 6544-6556. 10.1109/tip.2021.3093397
17	KHAN S， NASEER M， HAYAT M， et al. Transformers in vision： a survey［J］. ACM Computing Surveys， 2022，54（10s）： 200.1-200.41. 10.1145/3505244
18	DOSOVITSKIY A， BEYER L， KOLESNIKOV A， et al. An image is worth 16×16 words： Transformers for image recognition at scale ［C］ // Proceedings of the 2021 International Conference on Learning Representations. New Orleans： ICLR， 2021： 1-21.
19	FAN H， XIONG B， MANGALAM K， et al. Multiscale vision transformers ［C］// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2021： 6804-6815. 10.1109/iccv48922.2021.00675
20	ZHAO Z， LIU Q. Former-DFER： dynamic facial expression recognition transformer［C］// Proceedings of the 29th ACM International Conference on Multimedia. New York： ACM， 2021： 1553-1561. 10.1145/3474085.3475292
21	WOO S， PARK J， LEE J-Y， et al. CBAM： convolutional block attention module［C］// Proceedings of the 2018 European Conference on Computer Vision. Cham： Springer， 2018： 3-19. 10.1007/978-3-030-01234-2_1
22	VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need［C］// Proceedings of the 31st International Conference on Neural Information Processing Systems. New York： ACM， 2017， 6000–6010.
23	HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 770-778. 10.1109/cvpr.2016.90
24	CHUNG J， GULCEHRE C， CHO K H， et al. Empirical evaluation of gated recurrent neural networks on sequence modeling ［EB/OL］. （2014-12-11）［2021-12-02］. . 10.1007/978-3-030-89929-5_3
25	HARA K， KATAOKA H， SATOH Y. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet？［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018： 6546-6555. 10.1109/cvpr.2018.00685
26	HOCHREITER S， SCHMIDHUBER J. Long short-term memory［J］. Neural Computation， 1997， 9（8）： 1735-1780. 10.1162/neco.1997.9.8.1735
27	DHALL A. EmotiW 2019： automatic emotion， engagement and cohesion prediction tasks［C］// Proceedings of the 2019 International Conference on Multimodal Interaction. New York： ACM， 2019： 546-550. 10.1145/3340555.3355710
28	TRAN D， BOURDEV L， FERGUS R， et al. Learning spatiotemporal features with 3D convolutional networks［C］// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2015： 4489-4497. 10.1109/iccv.2015.510
29	CARREIRA J， ZISSERMAN A. Quo vadis， action recognition？ a new model and the kinetics dataset［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE. 2017： 4724-4733. 10.1109/cvpr.2017.502

名称	输入尺寸	操作	输出尺寸
Conv1	［3，112，112］	Conv2d，卷积核7×7，步长2	［64，56，56］
Conv2	［64，56，56］	最大池化3×3	［64，28，28］
Conv2	［64，28，28］	2×基本块	［64，28，28］
Conv3	［64，28，28］	2×基本块	［128，14，14］
Transformer	［128，14，14］	编码器并调整尺寸	［128，14，14］
Conv4	［128，14，14］	分离	4×［128，7，7］
Conv4	4×［128，7，7］	2×注意力块	4×［256，4，4］
Conv5	4×［256，4，4］	2×注意力块	4×［512，4，4］
Conv5	4×［512，4，4］	拼接	［512，8，8］
GAP	［512，8，8］	全局平均池化	［512，1，1］
GAP	［512，1，1］	Flatten	［512］

名称	输入尺寸	操作	输出尺寸
Conv1	［3，112，112］	Conv2d，卷积核7×7，步长2	［64，56，56］
Conv2	［64，56，56］	最大池化3×3	［64，28，28］
Conv2	［64，28，28］	2×基本块	［64，28，28］
Conv3	［64，28，28］	2×基本块	［128，14，14］
Transformer	［128，14，14］	编码器并调整尺寸	［128，14，14］
Conv4	［128，14，14］	分离	4×［128，7，7］
Conv4	4×［128，7，7］	2×注意力块	4×［256，4，4］
Conv5	4×［256，4，4］	2×注意力块	4×［512，4，4］
Conv5	4×［512，4，4］	拼接	［512，8，8］
GAP	［512，8，8］	全局平均池化	［512，1，1］
GAP	［512，1，1］	Flatten	［512］

模型		UAR	WAR
空间特征处理部分	时序特征处理部分	UAR	WAR
ResNet18	GRU	51.68	64.02
ResNet18	Transformer	54.34	66.23
ResNet18+Transformer+GAM	Transformer	54.96	67.27

模型		UAR	WAR
空间特征处理部分	时序特征处理部分	UAR	WAR
ResNet18	GRU	51.68	64.02
ResNet18	Transformer	54.34	66.23
ResNet18+Transformer+GAM	Transformer	54.96	67.27

模型	UAR	WAR
3D ResNet18^{［23，25］}	46.52	58.27
ResNet18+LSTM^{［23，26］}	51.32	63.85
ResNet18+GRU^{［23，24］}	51.68	64.02
Former-DFER^［20］	53.69	65.70
HA-Model	54.96	67.27

基于混合注意力机制的动态人脸表情识别

Dynamic facial expression recognition based on hybrid attention mechanism

RichHTML

PDF

可视化

摘要/Abstract

引用本文

使用本文

图/表 10

参考文献 29

相关文章 15

编辑推荐

Metrics

模型	UAR	WAR
EmotiW2019^［27］	N/A	38.81
C3D^［28］	43.75	46.72
I3D-RGB^［29］	41.86	45.41
3D Resnet18^{［23，25］}	42.89	46.19
ResNet18+LSTM^{［23，26］}	43.96	48.82
Resnet18+GRU^{［23，24］}	45.12	49.34
HA-Model	46.00	50.41

表情类型	DFEW	AFEW
高兴（happy）	0.840	0.836
悲伤（sad）	0.636	0.379
中立（neutral）	0.674	0.635
生气（angry）	0.735	0.742
惊讶（surprise）	0.639	0.455
恶心（disgust）	0.034	0.100
恐惧（fear）	0.397	0.073

[1]	张慧斌, 冯丽萍, 郝耀军, 王一宁. 基于注意力机制和迁移学习的古壁画朝代识别[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1826-1832.
[2]	郑智雄, 刘建华, 孙水华, 徐戈, 林鸿辉. 融合多窗口局部信息的方面级情感分析模型[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1796-1802.
[3]	王辉, 李建红. 基于Transformer的三维模型小样本识别方法[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1750-1758.
[4]	秦静, 马雪倩, 高福杰, 季长清, 汪祖民. 基于步态分析的帕金森病辅助诊断方法综述[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1687-1695.
[5]	张奕, 王真梅. 图自动编码器上二阶段融合实现的环状RNA-疾病关联预测[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1979-1986.
[6]	陈一驰, 陈斌. 计算机视觉中的终身学习综述[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1785-1795.
[7]	方可, 刘蓉, 魏驰宇, 张心月, 刘杨. 复杂场景下的行人跌倒检测算法[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1811-1817.
[8]	鲁斌, 柳杰林. 基于特征增强的三维点云语义分割[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1818-1825.
[9]	王利, 宣士斌, 秦续阳, 李紫薇. 基于双解码器的Transformer多目标跟踪方法[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1919-1929.
[10]	靳鑫, 刘仰川, 朱叶晨, 张子健, 高欣. 基于残差编解码-生成对抗网络的正弦图修复的稀疏角度锥束CT图像重建[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1950-1957.
[11]	董润婷, 吴利, 王晓英, 曹腾飞, 黄建强, 管琴, 吴洁瑕. 深度学习在天气预报领域的应用分析及研究进展综述[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1958-1968.
[12]	王先兰, 周金坤, 穆楠, 王晨. 基于多任务联合学习的跨视角地理定位方法[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1625-1635.
[13]	杨森淇, 段旭良, 肖展, 郎松松, 李志勇. 基于ERNIE+DPCNN+BiGRU的农业新闻文本分类[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1461-1466.
[14]	吴家皋, 章仕稳, 蒋宇栋, 刘林峰. 基于状态精细化长短期记忆和注意力机制的社交生成对抗网络用于行人轨迹预测[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1565-1570.
[15]	刘阳, 陆志扬, 王骏, 施俊. 基于自注意力连接UNet的磁共振成像去吉布斯伪影算法[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1606-1611.