针对半监督视频目标分割(VOS)领域中基于记忆的方法存在由于目标交互造成的物体遮挡以及背景中类似对象或噪声的干扰等问题,提出一种基于时空解耦和区域鲁棒性增强的半监督VOS方法。首先,构建一个结构化Transformer架构去除所有像素共有的特征信息,突出每个像素之间的差异,深入挖掘视频帧中目标的关键特征;其次,解耦当前帧与长期记忆帧之间的相似性,区分为时空相关性和目标重要性2个关键维度,使得对像素级时空特征和目标特征的分析更精确,从而解决由目标交互造成的物体遮挡问题;最后,设计一个区域条形注意力(RSA)模块,利用长期记忆中的目标位置信息增强对前景区域的关注度并抑制背景噪声。实验结果表明,所提方法在DAVIS 2017验证集上比重新训练的AOT(Associating Objects with Transformers)模型的J&F指标高1.7个百分点,在YouTube-VOS 2019验证集上比重新训练的AOT模型的总分高1.6个百分点。可见所提方法可有效解决半监督VOS存在的问题。
针对人群分析任务中往往存在的因监控与人群距离不同而导致的尺度变化大的问题,提出一种基于正态逆伽马分布的多尺度融合人群计数算法MSF(Multi-Scale Fusion crowd counting)。首先,使用传统骨架提取公共特征,通过多尺度信息提取模块获得图像中不同尺度的行人信息;其次,每个尺度的网络各自包含一个人群密度估计模块和一个用于评估每个尺度预测结果可信度的不确定估计模块;最后,多尺度预测融合模块依据可信度对多尺度预测结果进行动态融合,以获得更准确的密度回归结果。实验结果表明,现有算法密集场景识别网络(CSRNet)在通过多尺度可信融合扩展后,在UCF-QNRF数据集上人群计数的平均绝对误差(MAE)和均方误差(MSE)分别减小了4.43%和1.37%,验证了MSF算法的合理性和有效性。此外,与现有算法不同,MSF算法不仅可以预测人群密度,还可以在部署阶段提供预测的可信程度,从而使算法在实际应用中能及时预警模型预测不准确的区域,降低后续分析任务出现错误预判的风险。
针对目前基于惯性传感的动作捕捉系统存在的姿态漂移、实时性不强和价格较高的问题,设计了一种低功耗、低成本,能够有效克服姿态数据漂移的人体实时动作捕捉系统。首先通过人体运动学原理,构建分布式关节运动捕捉节点,各捕捉节点采用低功耗模式,当节点采集数据低于预定阈值时,自动进入休眠模式,降低系统功耗;结合惯性导航和Kalman滤波算法对人体运动姿态进行实时的解算,以降低传统的算法存在的数据漂移问题;基于Wi-Fi模块,采用TCP-IP协议对姿态数据进行转发,实现对模型的实时驱动。选取多轴电机测试平台对算法的精度进行了评估,并对比了系统对真实人体的跟踪效果。实验结果表明,改进算法与传统的互补滤波算法相比具有更高的精度,基本能将角度漂移控制在1°以内;且算法的时延相对于互补滤波没有明显的滞后,基本能够实现对人体运动的准确跟踪。