《计算机应用》唯一官方网站 ›› 2025, Vol. 45 ›› Issue (7): 2245-2252.DOI: 10.11772/j.issn.1001-9081.2024070945
赵小强1,2,3(), 柳勇勇1, 惠永永1,2,3, 刘凯1
收稿日期:
2024-07-08
修回日期:
2024-09-27
接受日期:
2024-09-29
发布日期:
2025-07-10
出版日期:
2025-07-10
通讯作者:
赵小强
作者简介:
赵小强(1969—),男,陕西岐山人,教授,博士,博士生导师,主要研究方向:故障诊断、图像处理与数据挖掘 xqzhao@lut.edu.cn基金资助:
Xiaoqiang ZHAO1,2,3(), Yongyong LIU1, Yongyong HUI1,2,3, Kai LIU1
Received:
2024-07-08
Revised:
2024-09-27
Accepted:
2024-09-29
Online:
2025-07-10
Published:
2025-07-10
Contact:
Xiaoqiang ZHAO
About author:
ZHAO Xiaoqiang, born in 1969, Ph. D., professor. His research interests include fault diagnosis, image processing and data mining.Supported by:
摘要:
为提高时域卷积网络(TCN)在批量大小变化时的训练稳定性,并解决间歇过程质量预测在捕捉长期依赖性和全局关联性上存在不足而导致的预测准确度不高的问题,提出一种基于批量组规范化(BGN)和Mish激活函数改进残差结构的TCN(BMTCN)与多头自注意力机制(MHSA)的间歇过程质量预测模型(BMTCN-MHSA)。首先,将间歇过程的三维数据展开为二维矩阵形式,并对数据进行归一化处理,再引入奇异谱分析法(SSA)分解重构数据;其次,在时域卷积的残差部分融入BGN以降低网络模型在批量大小变化时的敏感度,引入Mish激活函数以提高模型的泛化能力,并利用多头自注意力机制对序列中不同位置的特征信息进行关联和权重分配,从而进一步提取序列中的关键特征信息和相互依赖关系,进而更好地捕捉间歇过程的动态特征;最后,使用青霉素仿真实验数据进行实验验证。实验结果表明,相较于TCN模型,BMTCN-MHSA模型的平均绝对误差(MAE)降低了56.86%,均方误差(MSE)降低了48.80%,而决定系数(R2)达到了99.48%,这表明BMTCN-MHSA模型提高了间歇过程质量预测的准确性。
中图分类号:
赵小强, 柳勇勇, 惠永永, 刘凯. 基于改进时域卷积网络与多头自注意力机制的间歇过程质量预测模型[J]. 计算机应用, 2025, 45(7): 2245-2252.
Xiaoqiang ZHAO, Yongyong LIU, Yongyong HUI, Kai LIU. Batch process quality prediction model using improved time-domain convolutional network with multi-head self-attention mechanism[J]. Journal of Computer Applications, 2025, 45(7): 2245-2252.
模式 | 参数 | 值 |
---|---|---|
离线建模 | 历史数据总量 | 16 000 |
历史数据特征数 | 11 | |
历史数据缺失值统计 | 0 | |
历史数据异常值统计 | 0 | |
数据预处理时间/s | 0.014 1 | |
离线建模时间/s | 618.3 | |
训练模型时内存占比/% | 46.1 | |
数据存储空间/MB | 1.34 | |
模型参数存储空间/MB | 0.25 | |
在线预测 | 数据预处理时间/s | 0.063 |
模型计算与推理时间/s | 0.027 |
表1 离线建模与在线预测分析参数设置
Tab. 1 Offline modelling and online predictive analysis parameter settings
模式 | 参数 | 值 |
---|---|---|
离线建模 | 历史数据总量 | 16 000 |
历史数据特征数 | 11 | |
历史数据缺失值统计 | 0 | |
历史数据异常值统计 | 0 | |
数据预处理时间/s | 0.014 1 | |
离线建模时间/s | 618.3 | |
训练模型时内存占比/% | 46.1 | |
数据存储空间/MB | 1.34 | |
模型参数存储空间/MB | 0.25 | |
在线预测 | 数据预处理时间/s | 0.063 |
模型计算与推理时间/s | 0.027 |
序号 | 变量名称(单位) |
---|---|
1 | 通风速率(L/h) |
2 | 搅拌速率(r/min) |
3 | 底物流加速率(L/h) |
4 | 补料温度(K) |
5 | 溶解氧浓度(mmol/L) |
6 | 反应器体积(L) |
7 | CO2浓度(mmol/L) |
8 | pH值 |
9 | 发酵罐温度(K) |
10 | 产生热(cal) |
11 | 青霉素浓度(g/L) |
表2 青霉素发酵过程中的变量
Tab. 2 Variables in penicillin fermentation process
序号 | 变量名称(单位) |
---|---|
1 | 通风速率(L/h) |
2 | 搅拌速率(r/min) |
3 | 底物流加速率(L/h) |
4 | 补料温度(K) |
5 | 溶解氧浓度(mmol/L) |
6 | 反应器体积(L) |
7 | CO2浓度(mmol/L) |
8 | pH值 |
9 | 发酵罐温度(K) |
10 | 产生热(cal) |
11 | 青霉素浓度(g/L) |
参数 | 设置 |
---|---|
输入维度 | 10 |
批大小 | 128 |
基础学习率 | 0.001 |
权重衰减系数 | 0.001 |
Dropout | 0.1 |
Epoch | 100 |
输出维度 | 1 |
表3 实验参数设置
Tab. 3 Experimental parameter setting
参数 | 设置 |
---|---|
输入维度 | 10 |
批大小 | 128 |
基础学习率 | 0.001 |
权重衰减系数 | 0.001 |
Dropout | 0.1 |
Epoch | 100 |
输出维度 | 1 |
模型 | MSE | MAE | R2 | RMSE | Test_loss | 运行时间/s |
---|---|---|---|---|---|---|
LSTM | 0.004 91 | 0.037 29 | 0.985 12 | 0.025 68 | 0.134 90 | 8 979.480 |
GRU | 0.003 93 | 0.021 55 | 0.988 11 | 0.019 77 | 0.107 85 | 793.491 |
TCN | 0.003 34 | 0.027 49 | 0.989 82 | 0.017 43 | 0.031 42 | 248.216 |
BMTCN | 0.003 10 | 0.025 77 | 0.990 59 | 0.016 69 | 0.024 77 | 230.384 |
TCN-MHSA | 0.002 50 | 0.012 73 | 0.992 43 | 0.014 15 | 0.014 03 | 816.454 |
BMTCN-MHSA | 0.001 71 | 0.011 86 | 0.994 82 | 0.008 43 | 0.006 98 | 727.576 |
表4 不同模型对青霉素浓度预测结果
Tab. 4 Prediction results of penicillin concentration of different models
模型 | MSE | MAE | R2 | RMSE | Test_loss | 运行时间/s |
---|---|---|---|---|---|---|
LSTM | 0.004 91 | 0.037 29 | 0.985 12 | 0.025 68 | 0.134 90 | 8 979.480 |
GRU | 0.003 93 | 0.021 55 | 0.988 11 | 0.019 77 | 0.107 85 | 793.491 |
TCN | 0.003 34 | 0.027 49 | 0.989 82 | 0.017 43 | 0.031 42 | 248.216 |
BMTCN | 0.003 10 | 0.025 77 | 0.990 59 | 0.016 69 | 0.024 77 | 230.384 |
TCN-MHSA | 0.002 50 | 0.012 73 | 0.992 43 | 0.014 15 | 0.014 03 | 816.454 |
BMTCN-MHSA | 0.001 71 | 0.011 86 | 0.994 82 | 0.008 43 | 0.006 98 | 727.576 |
模型 | Mish激活函数 | BGN | 奇异谱分解 | 多头自注意力机制 | MSE | MAE | RMSE | R2 | Test loss |
---|---|---|---|---|---|---|---|---|---|
M_1 | √ | 0.003 39 | 0.025 87 | 0.018 82 | 0.989 36 | 0.030 67 | |||
M_2 | √ | √ | 0.003 14 | 0.025 53 | 0.016 48 | 0.990 33 | 0.024 61 | ||
M_3 | √ | √ | √ | 0.002 82 | 0.020 64 | 0.014 71 | 0.991 94 | 0.018 63 | |
本文模型 | √ | √ | √ | √ | 0.001 74 | 0.012 05 | 0.008 581 | 0.994 76 | 0.007 24 |
表5 不同改进条件下的消融实验预测指标
Tab. 5 Prediction indicators of ablation experiments under different improved conditions
模型 | Mish激活函数 | BGN | 奇异谱分解 | 多头自注意力机制 | MSE | MAE | RMSE | R2 | Test loss |
---|---|---|---|---|---|---|---|---|---|
M_1 | √ | 0.003 39 | 0.025 87 | 0.018 82 | 0.989 36 | 0.030 67 | |||
M_2 | √ | √ | 0.003 14 | 0.025 53 | 0.016 48 | 0.990 33 | 0.024 61 | ||
M_3 | √ | √ | √ | 0.002 82 | 0.020 64 | 0.014 71 | 0.991 94 | 0.018 63 | |
本文模型 | √ | √ | √ | √ | 0.001 74 | 0.012 05 | 0.008 581 | 0.994 76 | 0.007 24 |
[1] | 王雅琳,潘雨晴,刘晨亮.基于GSA-LSTM动态结构特征提取的间歇过程监测方法[J].化工学报,2022, 73(9): 3994-4002. |
WANG Y L, PAN Y Q, LIU C L. Intermittent process monitoring based on GSA-LSTM dynamic structural feature extraction [J]. CIESC Journal, 2022, 73(9): 3994-4002. | |
[2] | 卢静宜,曹志兴,高福荣.批次过程控制——回顾与展望[J].自动化学报,2017, 43(6): 933-943. |
LU J Y, CAO Z X, GAO F R. Batch process control — overview and outlook [J]. Acta Automatica Sinica, 2017, 43(6): 933-943. | |
[3] | YAMAGUCHI T, YAMASHITA Y. Quality prediction for multi-grade batch process using sparse flexible clustered multi-task learning [J]. Computers and Chemical Engineering, 2021, 150: No.107320. |
[4] | 王硕,王培良.基于深层长短期记忆网络与批规范化的间歇过程故障检测方法[J].计算机应用,2019, 39(2): 370-375. |
WANG S, WANG P L. Fault detection method for batch process based on deep long short-term memory network and batch normalization [J]. Journal of Computer Applications, 2019, 39(2): 370-375. | |
[5] | 李征,王普,高学金,等.基于信息增量矩阵的多阶段间歇过程质量预测[J].化工学报,2018, 69(12): 5164-5172. |
LI Z, WANG P, GAO X J, et al. Information increment matrix based quality prediction for multi-phase batch processes [J]. CIESC Journal, 2018, 69(12): 5164-5172. | |
[6] | SUN Y N, QIN W, XU H W, et al. A multiphase information fusion strategy for data-driven quality prediction of industrial batch processes [J]. Information Sciences, 2022, 608: 81-95. |
[7] | CHO K, VAN MERRIËNBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2014: 1724-1734. |
[8] | CHU F, CHANG X, JIA R, et al. Final quality prediction method for new batch processes based on improved JYKPLS process transfer model [J]. Chemometrics and Intelligent Laboratory Systems, 2018, 183: 1-10. |
[9] | JIANG Q, YAN X, YI H, et al. Data-driven batch-end quality modeling and monitoring based on optimized sparse partial least squares [J]. IEEE Transactions on Industrial Electronics, 2020, 67(5): 4098-4107. |
[10] | ZHAO X, TUO B, HUI Y. Deep learning with CBAM-based CNN for batch process quality prediction [J]. Measurement Science and Technology, 2023, 34(11): No.115123. |
[11] | BAI S, KOLTER J Z, KOLTUN V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling [EB/OL]. [2024-06-21]. . |
[12] | 汪琪,段湘煜.基于注意力卷积的神经机器翻译[J].计算机科学,2018, 45(11): 226-230. |
WANG Q, DUAN X Y. Neural machine translation based on attention convolution [J]. Computer Science, 2018, 45(11): 226-230. | |
[13] | 石磊,王毅,成颖,等.自然语言处理中的注意力机制研究综述[J].数据分析与知识发现,2020, 4(5): 1-14. |
SHI L, WANG Y, CHENG Y, et al. Review of attention mechanism in natural language processing [J]. Data Analysis and Knowledge Discovery, 2020, 4(5): 1-14. | |
[14] | 张振坤,张冬梅,李江,等.基于多头自注意力机制的LSTM-MH-SA滑坡位移预测模型研究[J].岩土力学,2022, 43(S2): 477-486, 507. |
ZHANG Z K, ZHANG D M, LI J, et al. LSTM-MH-SA landslide displacement prediction model based on multi-head self-attention mechanism [J]. Rock and Soil Mechanics, 2022, 43(S2): 477-486, 507. | |
[15] | 李磊,林珊,贾颉辉.基于TCN-Attention神经网络的短期负荷预测[J].电力信息与通信技术,2023, 21(3): 10-16. |
LI L, LIN S, JIA J H. Short-term load forecasting based on TCN-Attention neural network [J]. Electric Power Information and Communication Technology, 2023, 21(3): 10-16. | |
[16] | WAN R, MEI S, WANG J, et al. Multivariate temporal convolutional network: a deep neural networks approach for multivariate time series forecasting [J]. Electronics, 2019, 8(8): No.876. |
[17] | 翟乃举,周晓锋,李帅,等.基于迁移学习和知识蒸馏的加热炉温度预测[J].计算机集成制造系统,2022, 28(6): 1860-1869. |
ZHAI N J, ZHOU X F, LI S, et al. Prediction method of furnace temperature based on transfer learning and knowledge distillation [J]. Computer Integrated Manufacturing Systems, 2022, 28(6): 1860-1869. | |
[18] | LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3431-3440. |
[19] | 孙衍宁,王无印,许鸿伟,等.基于非线性因果效应的间歇过程软测量方法[J].华中科技大学学报(自然科学版), 2022, 50(6): 48-54. |
SUN Y N, WANG W Y, XU H W, et al. A nonlinear causal effect-based soft sensing method for batch processes [J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2022, 50(6): 48-54. | |
[20] | 赵小强,脱奔奔,惠永永,等.基于ISTA-LSTM模型的间歇过程质量预测[J].控制与决策,2023, 38(11): 3279-3289. |
ZHAO X Q, TUO B B, HUI Y Y, et al. Batch process quality prediction based on ISTA-LSTM model [J]. Control and Decision, 2023, 38(11): 3279-3289. | |
[21] | ZHOU X Y, SUN J, YE N, et al. Batch group normalization [EB/OL]. [2024-06-21]. . |
[22] | MISRA D. Mish: a self regularized non-monotonic activation function [C]// Proceedings of the 2020 British Machine Vision Conference. Durham: BMVA Press, 2020: No.928. |
[23] | BIROL G, ÜNDEY C, ÇINAR A. A modular simulation package for fed-batch fermentation: penicillin production [J]. Computers and Chemical Engineering, 2002, 26(11): 1553-1565. |
[24] | LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization [EB/OL]. [2024-06-21]. . |
[1] | 李慧, 贾炳志, 王晨曦, 董子宇, 李纪龙, 仲兆满, 陈艳艳. 基于Swin Transformer的生成对抗网络水下图像增强模型[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1439-1446. |
[2] | 马汉达, 吴亚东. 多域时空层次图神经网络的空气质量预测[J]. 《计算机应用》唯一官方网站, 2025, 45(2): 444-452. |
[3] | 宋鹏程, 郭立君, 张荣. 利用局部-全局时间依赖的弱监督视频异常检测[J]. 《计算机应用》唯一官方网站, 2025, 45(1): 240-246. |
[4] | 石乾宏, 杨燕, 江永全, 欧阳小草, 范武波, 陈强, 姜涛, 李媛. 面向空气质量预测的多粒度突变拟合网络[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2643-2650. |
[5] | 仇丽青, 苏小盼. 个性化多层兴趣提取点击率预测模型[J]. 《计算机应用》唯一官方网站, 2024, 44(11): 3411-3418. |
[6] | 陈佳, 张鸿. 基于特征增强和语义相关性匹配的图像文本检索方法[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 16-23. |
[7] | 朱嘉豪, 郑巍, 杨丰玉, 樊鑫, 肖鹏. 基于蚁群算法优化反向传播神经网络的软件质量预测[J]. 《计算机应用》唯一官方网站, 2023, 43(11): 3568-3573. |
[8] | 聂青青, 万定生, 朱跃龙, 李致家, 姚成. 基于时域卷积网络的水文模型[J]. 《计算机应用》唯一官方网站, 2022, 42(6): 1756-1761. |
[9] | 刘世泽, 朱奕达, 陈润泽, 罗海勇, 赵方, 孙艺, 王宝会. 基于残差时域注意力神经网络的交通模式识别算法[J]. 计算机应用, 2021, 41(6): 1557-1565. |
[10] | 徐金荣, 郭彩萍, 童恩栋. 面向服务遥感图像处理平台中时间感知的服务质量预测[J]. 计算机应用, 2020, 40(6): 1714-1721. |
[11] | 张小川, 戴旭尧, 刘璐, 冯天硕. 融合多头自注意力机制的中文短文本分类模型[J]. 计算机应用, 2020, 40(12): 3485-3489. |
[12] | 黄伟建, 李丹阳, 黄远. 面向空气质量的时空混合预测模型[J]. 计算机应用, 2020, 40(11): 3385-3392. |
[13] | 王硕, 王培良. 基于深层长短期记忆网络与批规范化的间歇过程故障检测方法[J]. 计算机应用, 2019, 39(2): 370-375. |
[14] | 程进, 王坚. 基于多任务学习的炼钢终点预测方法[J]. 计算机应用, 2017, 37(3): 889-895. |
[15] | 刘志中 宋成 安吉宇 鲁保云. Web服务质量动态预测方法研究[J]. 计算机应用, 2014, 34(5): 1326-1330. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||