FCMdepth：多尺度特征优化的单目深度估计框架

doi:10.11772/j.issn.1001-9081.2025070890

《计算机应用》唯一官方网站

• • 下一篇

FCMdepth：多尺度特征优化的单目深度估计框架

刘凤春¹,邵馨莹¹,张春英²,王立亚¹,任静¹,¹

1. 华北理工大学
2. 华北理工大学主校区

收稿日期:2025-08-05 修回日期:2025-10-14 发布日期:2025-11-05 出版日期:2025-11-05
通讯作者: 张春英

FCMdepth: monocular depth estimation framework with multi-scale feature optimization

Received:2025-08-05 Revised:2025-10-14 Online:2025-11-05 Published:2025-11-05

摘要/Abstract

摘要： 针对单目深度估计中特征提取不足、上下文建模不充分的问题，提出一种融合多尺度特征的优化框架——FCMdepth，以提升预测性能。FCMdepth采用编解码结构，编码器FC-Net由MobileNetV3-F与CDBlock组成，通过多尺度特征及空洞卷积优化特征；解码器LapMA-Net结合拉普拉斯金字塔与高效多尺度注意力模块（Efficient Multi-Scale Attention, EMA）模块，增强跨尺度特征融合，输出准确深度图。在KITTI和NYU-Depth V2两个数据集上实验结果表明，FCMdepth框架相较于Lite-mono、Hr-depth、Lapdepth等模型，均方根误差（RMSE）、均方根对数误差（RMSE_Log）、绝对相对误差（Abs_Rel）、平方相对误差（Sq_Rel）四项误差指标均值分别低0.605、0.117、0.183、0.279，三项准确率指标均值分别提高1.5、1.4、0.8个百分点。FCMdepth在多数指标上优于对比模型，为单目深度估计和复杂场景的三维重建提供有效参考。

Abstract: To address the issues of insufficient feature extraction and inadequate context modeling in monocular depth estimation, a multi-scale feature fusion optimization framework, FCMdepth, was proposed to enhance prediction performance. FCMdepth adopts an encoder-decoder structure, where the encoder, FC-Net, consists of MobileNetV3-F and CDBlock, and features were optimized through multi-scale extraction and dilated convolutions. The decoder, LapMA-Net, combines the Laplacian pyramid with an Efficient Multi-scale Attention (EMA) module to enhance cross-scale feature fusion and outputs accurate depth maps. Experiments on the KITTI and NYU-Depth V2 datasets show that FCMdepth outperforms models such as Lite-mono, Hr-depth, and Lapdepth in four error metrics: Root Mean Square Error (RMSE), Root Mean Square Logarithmic Error (RMSE_Log), Absolute Relative error (Abs_Rel), and Square Relative error (Sq_Rel), with average reductions of 0.605, 0.117, 0.183, and 0.279, respectively. Furthermore, FCMdepth framework improves three accuracy metrics by an average of 1.5, 1.4, and 0.8 percentage points. FCMdepth demonstrates superior performance compared to other methods and provides an effective reference for monocular depth estimation and 3D reconstruction in complex scenes.

中图分类号:

TP391.41

刘凤春邵馨莹张春英王立亚任静. FCMdepth：多尺度特征优化的单目深度估计框架[J]. 计算机应用, DOI: 10.11772/j.issn.1001-9081.2025070890.

[1]	白杰龙方晨韵乔志伟. 基于多尺度注意力自适应融合的稀疏CT伪影抑制Transformer网络[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[2]	吕仁堃孙鹏郎宇博郭弘沈喆田迪. 多模态物理先验特征融合的深度伪造检验方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[3]	王成刘志龙杜俊男杨雯王天一. 基于Hyper-YOLO模型改进的输电线异物检测方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[4]	颜建强董贝贝曲博婷彭晨. 融合多源信息与图级注意力的双向扩散动态图卷积交通流预测网络[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[5]	刘明沈东奇孟子洋. 双分支结构下多层次特征融合的点云配准网络[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[6]	汤莉张健宇姚睿. 基于改进YOLOv11的雾天目标检测算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[7]	张国有聂宏宇潘理虎雷润东. 基于多层感知机级联宽度学习系统的点云语义分割网络Point-MLPBLS[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[8]	杜秀丽高星张校毓潘成胜邹启杰. 基于密集时空可变形注意力的视频快照压缩成像重建方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[9]	汪书民, 李生林, 周香伶. 基于特征融合的低光照场景下的自适应人脸识别[J]. 《计算机应用》唯一官方网站, 2025, 45(10): 3320-3327.
[10]	王子怡, 李卫军, 刘雪洋, 丁建平, 刘世侠, 苏易礌. 基于Swin Transformer与多尺度特征融合的图像描述方法[J]. 《计算机应用》唯一官方网站, 2025, 45(10): 3154-3160.
[11]	况世雄, 姚俊波, 陆佳炜, 王琪冰, 肖刚. 基于动态图卷积网络的电梯乘客异常行为数据增强方法[J]. 《计算机应用》唯一官方网站, 2025, 45(10): 3187-3194.
[12]	张佳慧, 李晓明, 张嘉祥. 强化形态感知的路面缺陷检测算法[J]. 《计算机应用》唯一官方网站, 2025, 45(10): 3342-3352.
[13]	袁家奇, 黄荣, 董爱华, 周树波, 刘浩. 聚合广义上下文特征的人体解析方法[J]. 《计算机应用》唯一官方网站, 2025, 45(10): 3170-3178.
[14]	高照耀, 张展, 胡亮亮, 许光宇, 周胜, 胡雨欣, 林子捷, 周超. 基于残差复卷积网络的7T超高场磁共振并行成像算法[J]. 《计算机应用》唯一官方网站, 2025, 45(10): 3381-3389.
[15]	尹学辉, 傅林琳, 周尚波. 渐进式上下文交互和注意力机制的混凝土路面裂缝检测网络[J]. 《计算机应用》唯一官方网站, 2025, 45(10): 3353-3362.

FCMdepth：多尺度特征优化的单目深度估计框架

FCMdepth: monocular depth estimation framework with multi-scale feature optimization

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics