摘要: 视频关键帧提取是视频摘要、检索等领域的热点研究问题。目前,视频关键信息提取技术主要集中于根据视频低层特征进行关键帧的提取,忽略了与用户兴趣相关的语义信息。对视频进行语义建模需收集大量已标注的视频训练样本,这个过程费时费力。为缓解这一问题,本文使用大量互联网图像数据构建基于用户兴趣的语义模型,这些图像数据内容丰富、同时涵盖大量事件信息。然而,从互联网获取的图像知识多样且常伴随图像噪声,使用蛮力迁移将大大影响视频最终提取效果。本文提出使用近义词联合权重模型衡量互联网中存在差异但语义相近的图像组,并利用这些图像组构建语义模型。在此框架下,通过联合权重学习获取语义权重,每一图像组在知识迁移中所起的作用由权重值决定。本文使用来自不同视频网站的多段视频对该方法进行验证,实验结果表明对用户感兴趣的内容进行联合权重语义建模能更加全面、准确地获取信息,从而有效指导视频关键帧提取。
中图分类号: