当期目录

    2016年 第36卷 第2期 刊出日期:2016-02-10
    第三届CCF大数据学术会议(CCF BigData 2015)
    基于概率校准的集成学习
    姜正申, 刘宏志
    2016, 36(2):  291-294.  DOI: 10.11772/j.issn.1001-9081.2016.02.0291
    摘要 ( )   PDF (800KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对原有集成学习多样性不足而导致的集成效果不够显著的问题,提出一种基于概率校准的集成学习方法以及两种降低多重共线性影响的方法。首先,通过使用不同的概率校准方法对原始分类器给出的概率进行校准;然后使用前一步生成的若干校准后的概率进行学习,从而预测最终结果。第一步中使用的不同概率校准方法为第二步的集成学习提供了更强的多样性。接下来,针对校准概率与原始概率之间的多重共线性问题,提出了选择最优(choose-best)和有放回抽样(bootstrap)的方法。选择最优方法对每个基分类器,从原始分类器和若干校准分类器之间选择最优的进行集成;有放回抽样方法则从整个基分类器集合中进行有放回的抽样,然后对抽样出来的分类器进行集成。实验表明,简单的概率校准集成学习对学习效果的提高有限,而使用了选择最优和有放回抽样方法后,学习效果得到了较大的提高。此结果说明,概率校准为集成学习提供了更强的多样性,其伴随的多重共线性问题可以通过抽样等方法有效地解决。
    基于高精度室内位置感知的大数据研究与应用
    邓中亮, 张森杰, 焦继超, 徐连明
    2016, 36(2):  295-300.  DOI: 10.11772/j.issn.1001-9081.2016.02.0295
    摘要 ( )   PDF (985KB) ( )  
    参考文献 | 相关文章 | 计量指标
    随着室内定位技术的发展,室内位置数据和用户消费行为数据的大量产生为室内位置大数据(LBD)研究和应用提供了可能。基于高精度室内位置感知,突破了室内定位位置数据不准确的瓶颈。通过对室内位置数据聚类、降维等预处理,建立挖掘模型分析并提取了室内商圈区域的聚散和流动等特性,进一步通过特征关联预测用户的消费等行为,提出了室内位置大数据协同挖掘的方法和架构。在某机场商圈、西单某商场亿级用户位置数据集上进行了有效性实验和应用,通过实测数据对比验证了基于此架构室内定位数据的精准性和挖掘方法的可行性。
    手机内置加速度传感器数据的空间坐标转换算法
    赵宏, 郭立渌
    2016, 36(2):  301-306.  DOI: 10.11772/j.issn.1001-9081.2016.02.0301
    摘要 ( )   PDF (896KB) ( )  
    参考文献 | 相关文章 | 计量指标
    手机内置加速度传感器坐标系固定于设备自身,其采集的数据因手机姿态的改变而不断发生漂移,受此影响即使同一运动过程,加速度数据也难以同前一个时刻保持一致。为解决该问题,提出利用空间坐标转换算法将加速度数据从手机坐标系映射至惯性坐标系,从而确保数据在手机任意姿态下均能准确反映实际的运动状态。为验证该方法的有效性,设计一种手机传感器数据在线采集与实时处理新方法,实现Matlab中数据动态特征的实时观测及算法性能的在线评估。利用此方法,在旋转实验中分别测试方向余弦与四元数两种算法的可行性,并在计步器实验中进一步测试四元数算法性能。实验结果表明,基于方向传感器数据的方向余弦算法因测量范围限制,不能实现全方位空间坐标转换;而基于旋转矢量传感器数据的四元数算法则能够实现全方位转换,且转换后的加速度对步态识别率达到95%以上,较准确地反映了实际运动状态。
    因子分解机算法在基于深度数据包检测的手机应用推荐中的应用
    孙良君, 范剑锋, 杨婉琪, 史颖欢
    2016, 36(2):  307-310.  DOI: 10.11772/j.issn.1001-9081.2016.02.0307
    摘要 ( )   PDF (550KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为了从网络数据包中抽取相关特征进行手机应用推荐,使用江苏电信运营商在互联网服务提供商(ISP)机房抽取的网络深度数据包数据,从中抽取运营商所关心的热点手机用户的App访问信息,然后使用基于矩阵分解(包括奇异值分解(SVD)和非负矩阵分解(NMF))的推荐算法、奇异值分解推荐算法以及因子分解机推荐算法进行手机App推荐。实验表明,因子分解机算法取得了较好的推荐效果。这说明因子分解机在手机应用推荐的场景中可以更好地描述用户和物品之间的隐含关联。
    面向大数据处理的并行优化抽样聚类K-means算法
    周润物, 李智勇, 陈少淼, 陈京, 李仁发
    2016, 36(2):  311-315.  DOI: 10.11772/j.issn.1001-9081.2016.02.0311
    摘要 ( )   PDF (883KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题,提出一种基于优化抽样聚类的K-means算法(OSCK)。首先,该算法从海量数据中概率抽样多个样本;其次,基于最佳聚类中心的欧氏距离相似性原理,建模评估样本聚类结果并去除抽样聚类结果的次优解;最后,加权整合评估得到的聚类结果得到最终k个聚类中心,并将这k个聚类中心作为大数据集聚类中心。理论分析和实验结果表明,OSCK面向海量数据分析相对于对比算法具有更好的聚类精度,并且具有很强的稳健性和可扩展性。
    基于位置的社会化网络的并行化推荐算法
    曾雪琳, 吴斌
    2016, 36(2):  316-323.  DOI: 10.11772/j.issn.1001-9081.2016.02.0316
    摘要 ( )   PDF (1398KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统的协同过滤算法在利用签到记录进行兴趣点(POI)推荐时不能充分利用签到信息所隐含的偏好、位置和社交网络信息而损失准确率的问题,以及传统的单机串行算法在大数据处理能力上的弱势,提出一种基于位置和朋友关系的协同过滤(LFBCF)算法,以用户历史偏好为基础,综合考虑用户社交关系网络进行协同过滤,并以用户的活动范围作为约束实现对用户的兴趣点推荐。为了支持大数据量的实验,将算法在Spark分布式计算平台上进行了并行化实现。研究过程中使用了Gowalla和Brightkite这两个基于位置的社会化网络数据集,分析了数据集中签到数量、签到位置之间距离、社交关系等可能对推荐结果造成影响的因素,以此来支持提出的算法。实验部分通过与传统的协同过滤算法等经典算法在准确率、F-measure上的对比验证了算法在推荐效果上的优越性,并通过并行算法与单机串行算法在不同数据规模上加速比的对比验证了算法并行化的意义以及性能上的优越性。
    基于多目标免疫系统算法的云任务调度策略
    段凯蓉, 张功萱
    2016, 36(2):  324-329.  DOI: 10.11772/j.issn.1001-9081.2016.02.0324
    摘要 ( )   PDF (874KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对云计算环境下任务调度问题,为减少任务完工时间,同时降低任务执行费用,提出一种改进的基于多目标免疫系统的任务调度算法IMISA来寻找较优的可行分配方案。与传统分配适应度值不同,该算法将抗体群划分为非支配解集和支配解集,分别将非支配解的独立支配区域面积、支配解与所有非支配解所围成的多边形面积作为相应的抗体-抗原亲和力,根据相应亲和度计算克隆比例后克隆变异生成子代。在CloudSim平台上进行仿真实验,结果表明,与NSGA-Ⅱ及多目标免疫系统算法(MISA)相比,IMISA能够找到具有更短完工时间及更小的执行费用的调度方案,同时获得的Pareto解集也具有更好的分布性。
    基于Hadoop平台的分布式重删存储系统
    刘青, 付印金, 倪桂强, 梅建民
    2016, 36(2):  330-335.  DOI: 10.11772/j.issn.1001-9081.2016.02.0330
    摘要 ( )   PDF (985KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。
    基于隐回归的用户关系强度模型
    韩忠明, 谭旭升, 陈炎, 杨伟杰
    2016, 36(2):  336-341.  DOI: 10.11772/j.issn.1001-9081.2016.02.0336
    摘要 ( )   PDF (1017KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为了科学合理地度量社会网络中用户间的有向关系强度,基于用户有向交互次,提出一个度量用户交互强度的光滑模型。将用户关系强度作为隐变量,交互强度作为因变量,构建度量用户关系强度的隐变量回归模型,并给出求解隐变量回归模型的最大期望(EM)算法。分别从人人网和新浪微博采集了数据集,从最佳好友、强度排序等方面进行了大量实验。在人人网实验中,通过关系模型选择的TOP-10好友与人工标注结果比较,得出NDCG均值为69.48%,平均查准率均值(MAP)为66.3%,与对比算法相比有明显提高;在大规模新浪微博数据集实验中,将关系强度大的节点作为传染模型的源节点的传播范围相较于选择其他节点作为源节点平均提高了80%。实验结果说明所提模型能够有效度量用户间的关系强度。
    Spark环境下的并行模糊C均值聚类算法
    王桂兰, 周国亮, 萨初日拉, 朱永利
    2016, 36(2):  342-347.  DOI: 10.11772/j.issn.1001-9081.2016.02.0342
    摘要 ( )   PDF (901KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对聚类算法需要处理数据集的规模越来越大、时效性要求越来越高,对算法的大数据适应能力和性能要求更高的问题,提出一种在Spark分布式内存计算平台下的模糊C均值(FCM)算法Spark-FCM。首先对矩阵通过水平分割实现分布式存储,不同向量存储在不同节点;然后基于FCM算法的计算特点,设计了分布式和缓存敏感的常用矩阵操作,包括乘法、转置和加法等;最后基于矩阵操作和Spark平台特点,设计了Spark-FCM算法,主要数据结构采用分布式矩阵存储,具有节点间数据移动少和每个步骤分布式计算特点。通过在单机和集群环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集,算法性能与数据量成线性关系,集群环境下性能比单机提高2~3倍。
    Spark环境下并行立方体计算方法
    萨初日拉, 周国亮, 时磊, 王刘旺, 石鑫, 朱永利
    2016, 36(2):  348-352.  DOI: 10.11772/j.issn.1001-9081.2016.02.0348
    摘要 ( )   PDF (769KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统联机分析处理(OLAP)处理大数据时实时响应能力差的问题,研究基于分布式内存计算框架Spark加速的数据立方体计算方法,设计基于Spark内存集群的自底向上构造(BUC)算法——BUCPark,来提高BUC的并行度和大数据适应能力。在此基础上,为避免内存中迭代的立方体单元膨胀,基于内存重复利用和共享的思想设计改进的BUCPark算法——LBUCPark。实验结果表明:LBUCPark算法性能优于BUC算法和BUCPark算法,能够胜任大数据背景下的快速数据立方体计算任务。
    Spark环境下基于多维布隆过滤器的星型连接算法
    周国亮, 萨初日拉, 朱永利
    2016, 36(2):  353-357.  DOI: 10.11772/j.issn.1001-9081.2016.02.0353
    摘要 ( )   PDF (765KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为了适应联机分析处理(OLAP)系统中实时数据高性能分析需求不断提高的需求,提出一种能够适合Spark环境并结合多维Bloom Filter(MDBF)的星型连接算法SMDBFSJ。首先,根据多个维表构建MDBF,利用其占用空间小的特点,广播到所有节点;然后,在本地节点完成事实表过滤操作,事实表不需要在节点间移动数据;最后,过滤后的事实表与维表采用重划分方式进行连接,进而得到最终结果。SMDBFSJ算法避免了事实表数据移动,通过MDBF减小了需要广播的数据量,充分结合了广播连接和重划分连接的优势。实验结果表明了该算法的有效性,在单机和集群环境下,该算法相比重划分连接均获得了3倍左右的性能提升。
    基于快照的大规模动态图相似节点查询算法
    宋宝燕, 纪婉婷, 丁琳琳
    2016, 36(2):  358-363.  DOI: 10.11772/j.issn.1001-9081.2016.02.0358
    摘要 ( )   PDF (951KB) ( )  
    参考文献 | 相关文章 | 计量指标
    动态图拓扑结构演进过程中,为了量化在一定时间域内节点间联系的变化情况,定义了一种泛相似节点的概念,通过衡量其与当前节点的联系是否频繁、分布是否均匀来确定与当前节点的泛相似程度,并提出了一种基于快照的大规模动态图泛相似节点查询处理算法。具体包括:图动态演进过程的快照集表示,即演进动态图;图动态演进过程中的节点泛相似的语义及其形式化表示方式,从联系的频繁程度与分布的均匀程度对节点的相似程度进行了刻画;节点泛相似语义的矩阵表示及处理方式;针对这种语义的泛相似节点查询处理算法。真实数据集和合成数据集上的实验结果均表明算法能够处理大规模动态图上泛相似节点的查询问题,并在实际应用中运用实现。
    面向移动社会网络的用户年龄与性别特征识别
    李源昊, 陆平, 吴一凡, 韦薇, 宋国杰
    2016, 36(2):  364-371.  DOI: 10.11772/j.issn.1001-9081.2016.02.0364
    摘要 ( )   PDF (1248KB) ( )  
    参考文献 | 相关文章 | 计量指标
    移动社会网络数据存在网络结构复杂,节点间标签相互影响,包含交互信息、位置信息等多种复杂信息等特点,给识别用户的特征带来了许多挑战。针对这些挑战,通过分析一个真实的移动网络数据,利用统计学分析提取出已标记的不同特征用户间的差异,并利用这些差异,借助关系马尔可夫网络建立预测模型对未标记用户的年龄与性别进行特征识别。分析表明,不同年龄、性别的用户在不同时段的通话概率、通话熵,位置信息的分布、离散性,在社会网络中的集聚程度,以及相互之间二元、三元的交互频率方面都存在明显的差异。利用这些特征,提出了利用二元和三元交互的关系基团模板,结合用户自身的时间空间特征,通过关系马尔可夫网络计算用户特征的全联合分布概率,进而以此推断用户的年龄与性别的方法。经过实验分析,利用关系马尔可夫网络、用户时空信息和用户交互的关系基团的分类方法相较于传统的C4.5决策树、随机森林、Logistic回归和Naive Bayes等分类方法,能够提高最高约8%的预测准确率。
    利用坐标下降实现并行稀疏子空间聚类
    吴杰祺, 李晓宇, 袁晓彤, 刘青山
    2016, 36(2):  372-376.  DOI: 10.11772/j.issn.1001-9081.2016.02.0372
    摘要 ( )   PDF (877KB) ( )  
    参考文献 | 相关文章 | 计量指标
    随着数据规模的不断扩大,稀疏子空间聚类问题面临计算上的巨大挑战。现有稀疏子空间聚类算法如交替方向乘子法(ADMM)往往基于串行实现,难以利用多核处理器提高处理大规模聚类问题的效率。针对这个问题,提出一种基于坐标下降的并行稀疏子空间聚类方法。该方法利用稀疏子空间聚类可以建模为求解一系列的样本自稀疏表达子问题的特点,使用坐标下降方法来求解每个子问题,具有参数少、收敛快的优点;同时结合自稀疏表达子问题独立的特点,在处理器的各个核心上同时求解不同样本对应的子问题,因此可以充分利用计算机资源,减少运行时间开销。在模拟数据和运动分割数据集Hopkins-155上与常用的ADMM算法进行对比实验,结果表明该算法在多核处理器上可以显著提升运行速度且聚类精度与ADMM相当。
    基于最近邻的随机非线性降维
    田守财, 孙喜利, 路永钢
    2016, 36(2):  377-381.  DOI: 10.11772/j.issn.1001-9081.2016.02.0377
    摘要 ( )   PDF (781KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对线性降维技术应用于具有非线性结构的数据时无法得到令人满意的结果的问题,提出一种新的着重于保持高维空间局部最近邻信息的非线性随机降维算法(NNSE)。该算法首先在高维空间中通过计算样本点之间的欧氏距离找出每个样本点的最近邻点,接着在低维空间中产生一个随机的初始分布;然后通过将低维空间中的样本点不断向其最近邻点的平均位置移动,直到产生稳定的低维嵌入结果。与一种先进的非线性随机降维算法——t分布随机邻域嵌入(t-SNE)相比,NNSE算法得到的低维结果在可视化方面与t-SNE算法相差不大,但通过比较两者的量化指标可以发现,NNSE算法在保持最近邻信息方面上明显优于t-SNE算法。
    面向高级音频编码的通用隐写分析方法
    熊浩, 任延珍, 王丽娜
    2016, 36(2):  382-386.  DOI: 10.11772/j.issn.1001-9081.2016.02.0382
    摘要 ( )   PDF (893KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对面向高级音频编码(AAC)音频压缩标准的内容安全和隐写分析算法相对滞后的问题,提出一种面向AAC压缩域的通用隐写分析方法。该算法利用相邻的修正的离散余弦变换(MDCT)系数之间的相关性,构建基于帧间帧内多阶差分相关性的隐写分析子特征,结合AAC编码特性对子特征进行加权融合,得到用于通用隐写分析的特征集合,并采用随机森林组合分类器,实现了面向AAC MDCT系数修改的通用隐写分析。实验结果表明,所提算法对现有隐写算法能够实现有效的通用检测,在相对嵌入率为50%的条件下,各种隐写算法的检测率都能达到80%以上。
    半监督极限学习机及其在近红外光谱数据分析中的应用
    井诗博, 杨丽明, 李军会, 张思韫
    2016, 36(2):  387-391.  DOI: 10.11772/j.issn.1001-9081.2016.02.0387
    摘要 ( )   PDF (729KB) ( )  
    参考文献 | 相关文章 | 计量指标
    当数据集中包含的训练信息不充分时,监督的极限学习机较难应用,因此将半监督学习应用到极限学习机,提出一种半监督极限学习机分类模型;但其模型是非凸、非光滑的,很难直接求其全局最优解。为此利用组合优化方法,将提出的半监督极限学习机化为线性混合整数规划,可直接得到其全局最优解。进一步,利用近红外光谱技术,将半监督极限学习机应用于药品和杂交种子的近红外光谱数据的模式分类。与传统方法相比,在不同的光谱区域的数值实验结果显示:当数据集中包含训练信息不充分时,提出的半监督极限学习机提高了模型的推广能力,验证了所提出方法的可行性和有效性。
    基于信息浓缩的隐私保护支持向量机分类算法
    狄岚, 于晓瞳, 梁久祯
    2016, 36(2):  392-396.  DOI: 10.11772/j.issn.1001-9081.2016.02.0392
    摘要 ( )   PDF (862KB) ( )  
    参考文献 | 相关文章 | 计量指标
    支持向量机(SVM)的分类决策过程涉及到对原始训练样本的学习,容易导致数据中隐私信息的泄漏。为解决上述问题,提出一种基于信息浓缩的隐私保护分类方法IC-SVM。该算法首先根据样本的邻域信息,通过模糊C均值(FCM)聚类算法进行聚类分析;接着,使用信息浓缩准则对聚类中心进行处理,得到浓缩点组成的新样本;最后,使用新样本进行训练并得到决策函数,并用它去进行分类测试,可以较好地保护数据的隐私。在UCI真实数据和PIE人脸数据上的实验结果表明,IC-SVM方法既能保护数据信息的安全,又有较高的分类准确率。
    结合局部敏感哈希的k近邻数据填补算法
    郑奇斌, 刁兴春, 曹建军, 周星, 许永平
    2016, 36(2):  397-401.  DOI: 10.11772/j.issn.1001-9081.2016.02.0397
    摘要 ( )   PDF (814KB) ( )  
    参考文献 | 相关文章 | 计量指标
    k近邻(kNN)算法是缺失数据填补的常用算法,但由于需要逐个计算所有记录对之间的相似度,因此其填补耗时较高。为提高算法效率,提出结合局部敏感哈希(LSH)的kNN数据填补算法LSH-kNN。首先,对不存在缺失的完整记录进行局部敏感哈希,为之后查找近似最近邻提供索引;其次,针对枚举型、数值型以及混合型缺失数据分别提出对应的局部敏感哈希方法,对每一条待填补的不完整记录进行局部敏感哈希,按得到的哈希值找到与其疑似相似的候选记录;最后在候选记录中通过逐个计算相似度来找到其中相似程度最高的k条记录,并按照kNN算法对不完整记录进行填补。通过在4个真实数据集上的实验表明,结合局部敏感哈希的kNN填补算法LSH-kNN相对经典的kNN算法能够显著提高填补效率,并且保持准确性基本不变。
    基于等级的电子政务云跨域访问控制技术
    池亚平, 王艳, 王慧丽, 李欣
    2016, 36(2):  402-407.  DOI: 10.11772/j.issn.1001-9081.2016.02.0402
    摘要 ( )   PDF (875KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对电子政务云跨域访问中用户资源共享访问控制细粒度不足的安全问题,提出一种基于用户等级的跨域访问控制方案。该方案采用了云计算典型访问控制机制——身份和访问控制管理(IAM),实现了基于用户等级的断言属性认证,消除了用户在资源共享中由于异构环境带来的阻碍,提供一种细粒度的跨域访问控制机制。基于Shibboleth和OpenStack的keystone安全组件,搭建了云计算跨域访问系统,通过测试对比用户的域外和域内token,证明了方案的可行性。
    基于灰色关联分析的中文新闻事件关联性识别
    刘盼盼, 洪旭东, 郭剑毅, 余正涛, 文永华, 陈玮
    2016, 36(2):  408-413.  DOI: 10.11772/j.issn.1001-9081.2016.02.0408
    摘要 ( )   PDF (895KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对中文新闻事件关联性识别准确率较低的问题,提出一种基于灰色关联分析(GRA)的中文新闻事件关联性识别算法,该算法是一种多因素分析法。首先,通过分析中文新闻事件的特性,提出三个影响事件关联性的因素,分别为触发词的共现性、事件的共享名词以及事件句的相似度;其次,对多个影响因素进行量化处理,计算每个影响因素的影响权值;最后,运用GRA将多个影响因素结合在一起,建立事件之间的灰色关联性分析模型,实现事件关联性识别。通过实验验证了三个影响因素对事件关联性识别的有效性,而且相对于只考虑单一影响因素的关联性识别算法,所提算法提高了事件关联性识别的准确率。
    基于内容的推荐与协同过滤融合的新闻推荐方法
    杨武, 唐瑞, 卢玲
    2016, 36(2):  414-418.  DOI: 10.11772/j.issn.1001-9081.2016.02.0414
    摘要 ( )   PDF (678KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对基于内容的新闻推荐方法中用户兴趣多样性的缺乏问题和混合推荐方法存在的冷启动问题,提出一种基于内容与协同过滤融合的方法进行新闻推荐。首先利用基于内容的方法发现用户既有兴趣;再用内容与行为的混合相似度模式,寻找目标用户的相似用户群,预测用户对特征词的兴趣度,发现用户潜在兴趣;然后将用户既有兴趣与潜在兴趣融合,得到兼具个性化和多样性的用户兴趣模型;最后将候选新闻与融合模型进行相似度计算,形成推荐列表。实验结果显示,与基于内容的推荐方法相比,所提方法的F-measure和整体多样性Diversity均有明显提高;与混合推荐方法相比,性能相当,但候选新闻无需耗时积累足够的用户点击量,不存在冷启动问题。
    基于位置编码索引树的个性化推荐算法
    梁俊杰, 甘文婷, 余敦辉
    2016, 36(2):  419-423.  DOI: 10.11772/j.issn.1001-9081.2016.02.0419
    摘要 ( )   PDF (915KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对协同过滤算法在海量数据环境个性化推荐应用中存在的低效率问题,结合MapReduce框架特点,设计了一种应用于个性化推荐的基于位置编码的索引树(LB-Tree),创新性地将索引结构应用于个性化推荐。利用聚类资源的差异性存储策略,提升MapReduce任务处理并行性;根据聚类数据分布特征,以质心为圆心对聚类中的数据对象进行同心圆分层,并对每层采用不同长度的二进制编码来表达,将所有数据对象的编码组织成索引树结构,缩短频繁推荐的数据查找路径,达到个性化推荐时利用索引结构快速确定搜索空间的目的。与基于项目的Top-N推荐算法和基于最近邻的推荐算法(SBNM)相比,LB-Tree所需时间开销增长最慢,准确率最高,验证了方法的有效性和高效性。
    基于词语相关度的微博新情感词自动识别
    陈鑫, 王素格, 廖健
    2016, 36(2):  424-427.  DOI: 10.11772/j.issn.1001-9081.2016.02.0424
    摘要 ( )   PDF (609KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对微博中新情感词的识别问题,提出了一种基于词语相关度的微博新情感词自动识别方法。首先,对于分词软件把一个新词错分成几个词的问题,利用组合思想将相邻词进行合并作为新词的候选词;其次,为了充分利用词语上下文的语义信息,采用神经网络训练语料获得候选新词的空间表示向量;最后,利用已有的情感词典作为指导,融合基于词表集合的关联度排序和最大关联度排序算法,在候选词上筛选,获得最终的情感新词。在COAE2014(第六届中文倾向性分析评测)任务3语料上,提出的融合算法与点互信息(PMI)、增强互信息(EMI)、多词表达距离(MED)、新词语概率(NWP)以及基于词向量的新词识别方法相比,准确率至少提高了22%,说明该方法自动识别微博新情感词效果优于其他五种方法。
    基于卷积神经网络的图文融合媒体情感预测
    蔡国永, 夏彬彬
    2016, 36(2):  428-431.  DOI: 10.11772/j.issn.1001-9081.2016.02.0428
    摘要 ( )   PDF (787KB) ( )  
    参考文献 | 相关文章 | 计量指标
    近年来,用户在社交媒体上越来越多地使用多媒体内容来分享经历和表达情绪。相比单独的文本和图像,融合文本和图像的多媒体内容能够更为充分地揭示用户的真实情感。针对单一文本或图像的情感不明显问题,提出了一种基于卷积神经网络(CNN)的图文融合媒体的情感分析方法。该方法融合图像特征与三个不同级别(词语级、短语级和句子级)的文本特征构建CNN模型,以分析比较不同层次的语义特征对情感预测的影响。在真实数据集上的实验结果表明,通过捕捉文本情感特征和图像情感特征之间的内部联系,可以更准确地实现对图文融合媒体情感的预测。
    基于多重映射的自动短文摘方法
    卢玲, 杨武, 曹琼
    2016, 36(2):  432-436.  DOI: 10.11772/j.issn.1001-9081.2016.02.0432
    摘要 ( )   PDF (860KB) ( )  
    参考文献 | 相关文章 | 计量指标
    传统自动文摘一般对字数没有明确限制,运用传统技术进行短文摘提取时,受字数限制,难以获取均衡的性能。针对该问题,提出一种多重映射的自动短文摘方法。通过计算关联度映射值、长度映射值、标题映射值和位置映射值,分别形成多个候选文摘句子集;再运用多重映射策略,将多个候选子集映射到文摘句子集中,同时使用提取文本中心句的方法提高召回率。实验表明,多重映射可在短文摘提取上获得稳定的性能。在NLP&CC2015评测中,该方法的ROUGE-1测试F值达到0.49,ROUGE-2测试F值达到0.35,均优于评测的平均水平,表明了该方法的有效性。
    基于深度神经网络的特征加权融合人脸识别方法
    孙劲光, 孟凡宇
    2016, 36(2):  437-443.  DOI: 10.11772/j.issn.1001-9081.2016.02.0437
    摘要 ( )   PDF (1056KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对目前难以提取到适合用于分类的人脸特征以及在非限条件下进行人脸识别准确率低的问题,提出了一种基于深度神经网络的特征加权融合人脸识别方法(DLWF)。首先,应用主动形状模型(ASM)提取出人脸面部的主要特征点,并根据主要特征点对人脸不同器官区域进行采样;然后,将所得采样块分别输入到对应的深度信念网络(DBN)中进行训练,获得网络最优参数;最后,利用Softmax回归求出各个区域的相似度向量,将多区域的相似度向量加权融合得到综合相似度评分进行人脸识别。经ORL和WFL人脸库上进行实验验证,DLWF算法的识别准确率分别达到97%和88.76%,与传统算法主成分分析(PCA)、支持向量机(SVM)、DBN及FIP+线性判别式分析(LDA)相比,无论是限制条件还是非限制条件下,识别率均有提高。实验结果表明,该算法具有高效的人脸识别能力。
    基于联合层特征的卷积神经网络在车标识别中的应用
    张力, 张洞明, 郑宏
    2016, 36(2):  444-448.  DOI: 10.11772/j.issn.1001-9081.2016.02.0444
    摘要 ( )   PDF (800KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对现有智能交通系统仅仅通过车牌信息获取车辆信息存在不准确的情况,提出一种基于联合层特征的卷积神经网络(Multi-CNN)进行车标识别。该方法将通过卷积神经网络中不同层提取的特征联合起来,一起作为全连接层的输入,训练获得分类器。通过理论分析和实验表明,与传统的卷积神经网络训练获得的分类器相比,Multi-CNN方法能够减少训练所需计算量,同时将车标识别准确率提升至98.7%。
    基于构成模式和条件随机场的企业简称预测
    孙丽萍, 过弋, 唐文武, 徐永斌
    2016, 36(2):  449-454.  DOI: 10.11772/j.issn.1001-9081.2016.02.0449
    摘要 ( )   PDF (990KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对目前企业营销的不断深入,企业简称被各大新闻广泛使用,而作为新词又难以被有效识别的问题,提出一种基于构成模式和条件随机场(CRF)的企业简称预测方法。首先,从语言学的角度对企业全称和简称的构成规律进行了总结,并采用词库以及规则相结合的方式对Bi-gram算法进行改进,提出CBi-gram算法,实现了对企业全称的结构化切分,并提高了企业全称中核心词识别的准确性。然后,依据上述切分结果对企业类型进行再次细分,并通过人工总结和规则自学习的方法形成不同企业类型下的简称规则集。最后再基于规则生成企业的候选简称集,降低了不适用的规则对于不同类型的企业在生成简称过程中产生的噪声。另外,为了弥补单纯基于规则在解决全称缩写和简写缩写混合的局限性,引入CRF,从统计的角度对简称进行预测,并选取词、音调以及词在全称组成成分中的位置作为模型特征,进行模型训练,以实现两种方法的相互补充。实验结果显示,该方法具有较高的准确率,输出的企业简称集基本覆盖了企业的常用简称范围。
    基于远距离监督和模式匹配的职衔履历属性抽取
    于东, 刘春花, 田悦
    2016, 36(2):  455-459.  DOI: 10.11772/j.issn.1001-9081.2016.02.0455
    摘要 ( )   PDF (1000KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具有高覆盖度的模式库,用于发现职衔履历属性和抽取候选集;其次利用职衔机构等属性间的文字接续关系,以及特定人物与候选属性的依存关系,设计候选集的过滤规则对候选项进行筛选,实现高准确度的属性抽取。实验结果显示,所提方法在CLP2014-PAE测试集上的F值达到55.37%,显著高于评测最好成绩(F值34.38%)和基于条件随机场(CRF)的有监督序列标注方法(F值43.79%),表明该方法能高覆盖度挖掘并抽取非结构化文档中的职衔履历属性。
    基于话题标签和转发关系的微博聚类和主题词提取
    束珏, 成卫青, 邓聪
    2016, 36(2):  460-464.  DOI: 10.11772/j.issn.1001-9081.2016.02.0460
    摘要 ( )   PDF (813KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对微博聚类正确率不高的问题,在研究微博数据特点的基础上,利用微博hashtag来增强向量空间模型,使用微博之间的转发关系提升聚类的准确性,并利用微博的转发、评论数以及微博发布者信息来提取聚类中的主题词。在新浪微博数据集上进行实验发现,与k-means算法和基于加权语义和贝叶斯的中文短文本增量聚类算法(ICST-WSNB)相比,基于话题标签和转发关系的微博聚类算法的准确率比k-means算法提高了18.5%,比ICST-WSNB提高了6.48%,召回率以及F-值也有了一定的提高。实验结果表明基于话题标签和转发关系的微博聚类算法能够有效地提高微博聚类的正确率,进而获取更加合适的主题词。
    面向创新设计的专利知识抽取方法
    马建红, 张明月, 赵亚男
    2016, 36(2):  465-471.  DOI: 10.11772/j.issn.1001-9081.2016.02.0465
    摘要 ( )   PDF (1005KB) ( )  
    参考文献 | 相关文章 | 计量指标
    专利蕴含丰富的背景、技术、功能等知识,对创新设计领域起着重要的作用。对创新知识进行有效提取,能推动人们对知识的利用,助于突破固有的思维定势及知识面的限制,启发设计者从独特、新颖的角度进行产品设计。从创新设计的角度,提出基于组合特征和最大熵分类器的专利创新知识抽取方法。该方法运用自然语言处理方法,增加专利领域术语识别算法,联合词特征和最短路径闭包树句法特征,最后采用最大熵进行基于语义分析的知识提取,并对知识属性进行标注。实验结果表明,引入组合特征,能高效地处理专利要解决的问题,以及技术方案中的目标功能、作用原理、位置特征等创新知识之间的语义角色关系。
    信任模型在雾霾感知源评价中的应用
    陈振国, 田立勤
    2016, 36(2):  472-477.  DOI: 10.11772/j.issn.1001-9081.2016.02.0472
    摘要 ( )   PDF (868KB) ( )  
    参考文献 | 相关文章 | 计量指标
    雾霾监测点作为雾霾数据感知的源头,由于缺乏有效的评价方法,导致感知的数据不可靠。针对此问题,提出一种感知源信任评价和筛选模型,该模型采用数据触发检测方式来进行。当感知源的数据到达时,首先采用K-Means聚类算法和统计结果计算感知源基准数据,根据当前感知数据、基准数据和所设定的门限值计算得到感知源的数据信任度;然后根据感知源所处地理位置确定邻居关系,将感知源当前所感知的数据和各个邻居所感知的数据进行比较,根据差值的绝对值和门限值的大小关系计算得到邻居推荐信任度;最后使用感知源的数据信任度、历史信任度和邻居推荐信任度三种信任度计算得到最终的综合信任度。其中历史信任度初始为所监测的指标数,而后使用综合信任度进行更新。从理论分析和仿真结果看,该方法可有效对感知源进行客观的评价,同时能够规避异常感知源的数据,降低后期处理开销。
    网络与通信
    无线传感器网络中载体的自主移动策略
    汤海建, 鲍宇, 闵玄, 罗煜璇, 邹宇驰
    2016, 36(2):  478-482.  DOI: 10.11772/j.issn.1001-9081.2016.02.0478
    摘要 ( )   PDF (806KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对部署在复杂环境中或者不易抵达区域的无线传感器网络(WSN)由于受环境影响,其节点修复、定点投放或搜索救援等环节存在人身安全、不易修复等问题,提出一种WSN中载体的自主移动策略。该策略首先基于少量锚节点,结合最大似然估计算法和接收的信号强度指示(RSSI)定位技术实现移动载体自身定位;然后依靠数学模型,根据当前获取的定位信息及目标节点坐标,完成下一步目标节点的选取和前进角度的修正,以最终实现移动载体的自主移动。仿真结果表明,该策略能够确保载体沿较短路径,在较短时间内到达目的地;且传感器节点密度越大,该策略成功率越高,分别对规模为130、180、300的无线传感器网络进行了仿真,成功率高达96.7%。
    容迟网络中基于演化博弈的合作行为
    徐小琼, 周朝荣, 马小霞, 杨柳
    2016, 36(2):  483-487.  DOI: 10.11772/j.issn.1001-9081.2016.02.0483
    摘要 ( )   PDF (883KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对容迟网络中节点由于资源有限而表现出来的自私特性,为改善网络中节点的合作行为,进而提高网络的整体性能,提出一种基于演化博弈(EGT)的节点合作行为促进机制。首先,采用囚徒困境模型建立节点与其邻居博弈的收益矩阵;其次,基于度中心性定义节点的社会权威性;进一步地,在节点策略更新规则时考虑社会权威的影响,选择当前邻居中社会权威较高的节点进行模仿学习;最后,在机会网络环境仿真器上基于真实的动态网络拓扑数据进行仿真实验。仿真结果表明,与随机选择邻居的费米(Fermi)更新规则相比,考虑社会权威的更新规则能够更好地促进节点合作行为的涌现,进而提升网络的整体性能。
    Wi-Fi指纹聚类在室内感兴趣区域定位中的应用
    王玙璠, 艾浩军, 涂卫平
    2016, 36(2):  488-491.  DOI: 10.11772/j.issn.1001-9081.2016.02.0488
    摘要 ( )   PDF (606KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对广域室内位置服务中Wi-Fi指纹图谱构建与维护困难的问题,论证无监督聚类算法实现感兴趣区域(POI)定位的可行性,从而为众包模式生成POI关联定位指纹图谱提供依据。首先介绍Wi-Fi指纹定位算法的基本框架,并将k均值算法、近邻传播算法、自适应传播算法应用到Wi-Fi指纹定位;然后以一个实验室为例,分析室内POI划分与空间区域的关系,建立无线信号强度指示(RSSI)特征库,以BP神经网络算法作为对比,评价三类无监督聚类算法在POI定位的性能,其定位的平均精度和查全率均高于90%。实验结果表明,无监督聚类算法生成无线指纹图谱可以作为粗粒度的室内POI定位的解决方案。
    非等间隔采样信号傅里叶频谱分析方法
    方建超, 毛雪松
    2016, 36(2):  492-494.  DOI: 10.11772/j.issn.1001-9081.2016.02.0492
    摘要 ( )   PDF (629KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对伪随机(PN)码调制的多普勒激光雷达中固有的对外差信号不能等间隔采样的问题,提出一种新的非均匀采样信号的离散傅里叶变换(DFT)方法。首先,给出距离速度同步测量多普勒激光雷达系统模型,指出对外差信号不能等间隔采样的原因;然后,通过理论推导,提出一种新的非均匀采样信号的频谱分析方法;最后,通过仿真验证该方法可用于分析非等间隔采样信号的频谱。结果表明,在道路运动目标产生的多普勒频率范围内,接收信号信噪比(SNR)为0 dB的情况下,该方法仍可有效分析出不等间隔采样多普勒信号的频率。
    网络空间安全
    分布式系统中抵御错误注入攻击的优化设计
    文亮, 江维, 潘雄, 周可染, 董琪, 王峻龙
    2016, 36(2):  495-498.  DOI: 10.11772/j.issn.1001-9081.2016.02.0495
    摘要 ( )   PDF (613KB) ( )  
    参考文献 | 相关文章 | 计量指标
    安全关键分布式系统面临恶意窃听和错误注入攻击的挑战。以往研究主要针对防止恶意窃听,即考虑提供保密性服务,而忽略了错误注入的安全威胁。针对上述问题,考虑为消息的加解密过程进行错误检测,并最大化系统的错误覆盖率,最小化系统的异构度。首先选取AES对消息进行加解密;然后基于错误检测码确定了五种不同的错误检测方案,并求出了对应的错误覆盖率及时间开销;最后在保证实时性的约束下,提出了一种基于模拟退火(SA)的启发式算法,该算法能最大化系统的错误覆盖率和最小化系统的异构度。实验结果表明,所提算法与贪心算法相比,目标函数值提高了18%以上,该算法具有一定有效性和健壮性。
    基于时间对抗的网络报警深度信息融合方法
    邱辉, 王坤, 杨豪璞
    2016, 36(2):  499-504.  DOI: 10.11772/j.issn.1001-9081.2016.02.0499
    摘要 ( )   PDF (932KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对目前网络报警信息融合方法仅以单时间点为处理单元,无法适应网络攻击逐渐呈现出的隐蔽性强、持续时间长等特点,提出一种基于时间对抗的网络报警深度信息融合方法。面对多源异构报警数据流,首先采集并保存当前一个较长时间窗口内的报警信息,然后利用基于滑动窗口的流聚类算法对报警信息进行聚类,最后引入窗口衰减因子对聚类后的报警进行深度融合。真实数据的实验结果显示,与基本DS证据理论(Basic-DS)和指数加权DS证据理论(EWDS)融合方法方法相比,该方法有较高的检测率和较低的误检率,但因为采用了更长的时间窗口,精简率上略低;实际测试与性能分析也表明,该算法的时延较小,能更加有效地检测网络攻击,且能完成实时处理。
    面向服务计算的拜占庭容错方案及其正确性证明
    陈柳, 周伟
    2016, 36(2):  505-510.  DOI: 10.11772/j.issn.1001-9081.2016.02.0505
    摘要 ( )   PDF (1007KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对现有拜占庭容错协议的假设(要求被保护的对象是被动的和独立的)不适用于服务计算等新兴计算模型的问题,提出一种面向服务计算的拜占庭容错协议。该协议在服务请求方和服务提供方两端均创建服务复制品,采用基于状态机的主动复制技术,在服务复制品间进行三轮通信,就该请求的编号和内容达成一致,随后该请求被提交给上层应用逻辑处理;收到应答后,服务请求方的复制品进行三轮通信就应答的编号和内容达成一致后接受该应答。针对现有面向服务计算的拜占庭容错协议只有简单的正确性推理缺乏形式化验证的问题,采用I/O自动机和模拟关系方法进行正确性证明,更加严谨和正式。构造一个高度抽象的简单I/O自动机S,此自动机满足安全性和及时性;将协议中的各方分解成若干简单I/O自动机:前端自动机、后端自动机和多播通道自动机;最后用模拟关系方法证明各成员自动机构成的系统实现了自动机S,从而证明协议的正确性。使用I/O自动机可以精确描述协议,以此为基础进行证明比感性推理的证明方法更加规范。
    基于虚拟机监控器的Windows剪贴板操作监控
    周登元, 李清宝, 张擂, 孔维亮
    2016, 36(2):  511-515.  DOI: 10.11772/j.issn.1001-9081.2016.02.0511
    摘要 ( )   PDF (803KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对现有剪贴板操作监控无法抵御内核层攻击,且所采取的单一保护策略无法满足现实需求的问题,提出一种基于虚拟机监控器(VMM)的文档内容剪贴板操作监控技术,并提出基于剪贴板操作监控的电子文档分级保护策略。首先,通过修改影子寄存器的方法在VMM层截获并识别系统调用;其次,监控文档打开操作建立进程标识符和文档路径之间的映射表,并在截获到剪贴板操作后通过进程标识符解析文档路径;最后,根据电子文档分级保护策略对剪贴板操作进行过滤。实验结果表明,监控系统给客户机文件系统带来的性能损耗随着文件读写块的增大而减小,当读写块大小达到64 KB以上时,客户机性能损耗在10%以内,对用户影响不大。
    虚拟现实与数字媒体
    移动音频带宽扩展算法计算复杂度优化
    杭波, 王毅, 康长青
    2016, 36(2):  516-520.  DOI: 10.11772/j.issn.1001-9081.2016.02.0516
    摘要 ( )   PDF (761KB) ( )  
    参考文献 | 相关文章 | 计量指标
    移动通信设备由于计算资源有限,对计算复杂度较为敏感。我国自主研发提出的移动音频编解码算法标准AVS P10中的带宽扩展算法有利于提高移动音频编解码质量,但其计算复杂度较高,不利于该编解码算法在移动环境中应用。通过分析该带宽扩展算法的流程,发现其计算复杂度较高的主要原因是时频变换次数过多,为此从算法和代码两个方面对该算法进行优化:算法方面通过减少快速傅里叶变换(FFT)次数来降低算法计算复杂度;而代码方面则通过空间换时间等方法来减少算法消耗时间。测试结果表明,在不降低整体音频编解码主观质量的情况下,带宽扩展模块在编码端和解码端运行时间比例分别降低了4.5和14.3个百分点,算法计算复杂度显著降低,这有利于进一步在移动音频领域推广应用该编解码算法。
    基于图像块迭代和稀疏表示的超分辨率图像重建算法
    杨存强, 韩晓军, 张南
    2016, 36(2):  521-525.  DOI: 10.11772/j.issn.1001-9081.2016.02.0521
    摘要 ( )   PDF (830KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对待复原图像内容间差异和重建速度缓慢的问题,提出基于图像块迭代分类和稀疏表示的超分辨率图像重建算法。首先,根据阈值把图像迭代分块为三种不同形态。然后,对三种形态分别处理:在重建时,对4N×4N块利用双三次插值(BI)算法重建;对2N×2N块由K-奇异值分解(K-SVD)算法得到对应的高、低分辨率字典,通过正交匹配追踪(OMP)算法重建;对N×N块用形态成分分析(MCA)法分解为平滑层和纹理层,然后由各层相应的字典对通过OMP算法重建。将所提方法与基于稀疏基的方法、基于MCA的方法和基于两级与分频带字典的方法相比,所提算法在主观视觉效果、评测指标和重建速度上都有明显的改善。实验结果表明,该方法在图像的边缘块和不规则区域获得了更为精细的细节,重建效果更明显。
    基于水平集的手指静脉图像分割
    王保生, 陈宇飞, 赵卫东, 周强强
    2016, 36(2):  526-530.  DOI: 10.11772/j.issn.1001-9081.2016.02.0526
    摘要 ( )   PDF (752KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对手指静脉图像中存在的弱边缘、灰度不均匀以及低对比度等现象,提出一种结合偶对称Gabor滤波与水平集思想的分割算法,并应用于手指静脉图像的分割。首先,使用偶对称Gabor滤波算法,对手指静脉图像从8个不同的方向分别进行滤波运算;然后,根据8个方向上的滤波结果进行图像重建,得到目标与背景灰度对比度显著提高的图像;最后,应用结合局部与全局信息的水平集方法对手指静脉图像进行分割。将所提算法与Li等水平集算法(LI C, HUANG R, DING Z, et al. A variational level set approach to segmentation and bias correction of images with intensity inhomogeneity. MICCAI'08: Proceedings of the 11th International Conference on Medical Image Computing and Computer-Assisted Intervention, Part II. Berlin: Springer, 2008: 1083-1091)、Legendre水平集(L2S)算法相比,所提算法在分割精度评价标准面积差异(AD)百分比上分别降低了1.116%、0.370%,相对差异度(RDD)分别降低了1.661%、1.379%。实验结果表明,与传统只考虑局部信息或全局信息的水平集图像分割算法相比,所提算法能取得更高的分割精度。
    基于卷积神经网络和流形排序的图像检索算法
    刘兵, 张鸿
    2016, 36(2):  531-534.  DOI: 10.11772/j.issn.1001-9081.2016.02.0531
    摘要 ( )   PDF (802KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对基于内容的图像检索(CBIR)中低层视觉特征与用户对图像理解的高层语义不一致以及传统的距离度量方式难以真实反映图像之间相似程度等问题,提出了一种基于卷积神经网络(CNN)和流形排序的图像检索算法。首先,将图像输入CNN,通过多层神经网络对图像的监督学习,提取网络中全连接层的图像特征;其次,对图像特征进行归一化处理,然后用高效流形排序(EMR)算法对查询图像所返回的结果进行排序;最后,根据排序的结果返回最相似的图像。在corel数据集上,深度图像特征比基于场景描述的图像特征的平均查准率(mAP)提高了53.74%,流形排序比余弦距离度量方式的mAP提高了18.34%。实验结果表明,所提算法能够有效地提高图像检索的准确率。
    结合边折叠和局部优化的网格简化算法
    刘峻, 范豪, 孙宇, 陆向艳, 刘艳
    2016, 36(2):  535-540.  DOI: 10.11772/j.issn.1001-9081.2016.02.0535
    摘要 ( )   PDF (927KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对目前网格简化算法在将三维模型简化到较低分辨率时,网格模型的细节特征丢失、网格质量不佳的问题,提出一种保持特征的高质量网格简化算法。引入顶点近似曲率的概念,并将其与边折叠的误差矩阵结合,使得简化模型的细节特征在最大限度上得到保持。同时分析简化后三角网格的质量,对三角网格作局部优化处理,减少狭长三角形的数量,提高简化模型的网格质量。使用Apple模型和Horse模型进行实验,并与一种经典的基于边折叠的网格简化算法以及其改进算法之一进行对比。实验结果显示,两种对比算法三角网格分布过于均匀,局部细节模糊不清,而所提算法的三角网格在曲率大的区域稠密,在平坦处稀疏,细节特征清晰可辨;简化模型的几何误差的数量值与两种对比算法处于同一数量级;所提算法的简化网格的平均质量远高于两种对比算法。实验结果表明,在不扩大几何误差的情况下,所提算法不仅具有较强的细节特征保持能力,而且简化模型的网格质量较高,视觉效果较好。
    基于不确定度评价的Kinect深度图预处理
    余亚玲, 张华, 刘桂华, 史晋芳
    2016, 36(2):  541-545.  DOI: 10.11772/j.issn.1001-9081.2016.02.0541
    摘要 ( )   PDF (936KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对应用在机器人三维(3D)场景感知测量中,Kinect深度图的联合双边滤波(JBF)存在降低原始场景深度信息精确度的制约性问题,提出一种新的预处理算法。首先,通过构建深度图的测量和采样模型,得到深度图的蒙特卡罗不确定度评价模型;其次,依据该模型计算得到深度值估计区间,实现噪声点与非噪声点的判定及滤除;最后,利用估计区间均值完成噪声点的修复。实验结果表明,该算法在噪声滤波的同时保证了非噪声的不变性;非噪声的不变性以及基于估计均值的噪声修复使原始深度梯度具有不变性;与联合彩色深度图的双边滤波相比,预处理结果图物体边缘轮廓清晰不变且其均方误差降低了15.25%~28.79%。因此,该预处理算法达到了提高三维场景深度信息精确度的目的。
    新颖的网格模型压缩算法——网格切片
    何辰, 王磊, 王春萌
    2016, 36(2):  546-550.  DOI: 10.11772/j.issn.1001-9081.2016.02.0546
    摘要 ( )   PDF (818KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对三维(3D)网格模型的存储与网络传输问题,提出一种新颖的三维模型压缩算法。该算法基于对网格模型的切片处理,主要由以下三个步骤组成:切片顶点的计算、切片边界的均匀采样以及对切片所得图像的编码。对于一个给定的三维模型,首先,计算模型的包围盒;然后,沿包围盒长度最长的方向进行切片;同时计算切片与网格模型表面每条边的交点,构成一个多边形,这个多边形即为切片的边界;其次,对切片边界进行均匀的重采样,使每层切片具有相同的顶点数;最后,把每层的顶点坐标转化为极坐标形式,这样,所有层顶点的ρ-坐标以及θ-坐标能分别构成一张图像,原始的三维模型即能由这两张图像表示。这种表示方法具有以下两个明显的优势:第一,降低了数据的维度,有效减少了数据量;第二,具有极大的数据相关性,进一步减少了数据的熵。基于这两个优势,该算法对图像数据进行差值编码以及算术编码,最后得到压缩后的文件。与增量参数细化(IPR)方法相比,在解码模型同等质量的前提下,所提算法的编码效率提高了23%。实验结果表明,所提算法在模型存储和传输应用中能取得很好的压缩效率,有效减少了数据量。
    基于稀疏表示与非局部相似的图像去噪算法
    赵井坤, 周颖玥, 林茂松
    2016, 36(2):  551-555.  DOI: 10.11772/j.issn.1001-9081.2016.02.0551
    摘要 ( )   PDF (1050KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对受加性高斯白噪声(AWGN)与椒盐噪声(SPIN)以及随机值冲击噪声(RVIN)组成的混合噪声污染的图像进行去噪的问题,提出一种在现有加权编码算法的基础上将图像稀疏表示和非局部相似先验融合的改进算法。首先,利用基于字典的图像稀疏表示构建去噪变分模型,对模型中的数据保真项设计一个权重因子来抑制冲击噪声的干扰;其次,利用非局部平均思想对混合噪声图像进行初始去噪,在得到的图像中构建掩膜矩阵将冲击噪声点排除进而求取非局部相似先验知识;最后,将非局部相似先验与稀疏先验融合进变分模型的正则项中,求解变分模型得到最终去噪图像。实验结果表明,在不同的噪声比率下,所提算法与模糊加权非局部平均算法相比,峰值信噪比(PSNR)提高了1.7 dB,特征相似性指数(FSIM)提高了0.06;与加权编码算法相比,PSNR提高了0.64 dB,FSIM提高了0.03。该算法对于纹理较强的图像可以显著提升去噪效果,能有效地保留图像的本真信息。
    混合相似性权重的非局部均值去噪算法
    黄智, 付兴武, 刘万军
    2016, 36(2):  556-562.  DOI: 10.11772/j.issn.1001-9081.2016.02.0556
    摘要 ( )   PDF (1247KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统非局部均值(NLM)滤波在噪声标准差较大时,加权欧氏距离不能真实反映邻域块相似度的问题,提出一种新的混合相似性权重的非局部均值去噪算法。首先,利用平稳小波变换的特点对噪声图像进行分解,并利用滤波函数对细节子带进行预去噪处理;然后,根据预去噪图像计算块间相似性参考因子,并使用其替换传统NLM算法中高斯核函数;最后,为使相似性权重更符合人眼视觉系统(HVS)特点,使用基于图像结构感知的块奇异值分解(SVD)方法定义邻域间相似性度量,与传统NLM算法相比能更为真实地反映邻域间相似度。实验结果表明,混合相似性权重的非局部均值去噪算法较传统NLM算法在视觉上能更好地保留纹理细节及边缘信息,而且结构相似度(SSIM)指标较传统NLM算法也有一定提高,在噪声标准差较大情况下具有有效性和鲁棒性。
    人工智能
    基于标签的微博关键词抽取排序方法
    叶菁菁, 李琳, 钟珞
    2016, 36(2):  563-567.  DOI: 10.11772/j.issn.1001-9081.2016.02.0563
    摘要 ( )   PDF (915KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对微博关键词抽取准确率不高的问题,提出一种基于标签优先的抽取排序方法。该方法利用微博本身具有的社交特征——标签,从微博内容集中抽取关键词。该方法首先根据微博自身建立初始词与微博之间的加权图,再将基于标签的随机游走方法应用于图中,随机游走反复跳跃到标签词节点上,经过一系列迭代得出每个词的平稳概率,并通过概率决定词的最终排序。该抽取方法根据真实的新浪微博内容进行测验,结果显示,与通过词与词的加权图来抽取关键词相比,基于标签的微博关键词抽取方法准确率提高了50%,在实际应用中能够有效提高关键词抽取的正确率。
    三维动作识别时空特征提取方法
    徐海宁, 陈恩庆, 梁成武
    2016, 36(2):  568-573.  DOI: 10.11772/j.issn.1001-9081.2016.02.0568
    摘要 ( )   PDF (1005KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统的彩色视频中动作识别算法成本高,且二维信息不足导致动作识别效果不佳的问题,提出一种新的基于三维深度图像序列的动作识别方法。该算法在时间维度上提出了时间深度模型(TDM)来描述动作。在三个正交的笛卡尔平面上,将深度图像序列分成几个子动作,对所有子动作作帧间差分并累积能量,形成深度运动图来描述动作的动态特征。在空间维度上,用空间金字塔方向梯度直方图(SPHOG)对时间深度模型进行编码得到了最终的描述符。最后用支持向量机(SVM)进行动作的分类。在两个权威数据库MSR Action3D和MSRGesture3D上进行实验验证,该方法识别率分别达到了94.90%(交叉测试组)和94.86%。实验结果表明,该方法能够快速对深度图像序列进行计算并取得较高的识别率,并基本满足深度视频序列的实时性要求。
    融合纹理结构的潜在狄利克雷分布铁路扣件检测模型
    罗建桥, 刘甲甲, 李柏林, 狄仕磊
    2016, 36(2):  574-579.  DOI: 10.11772/j.issn.1001-9081.2016.02.0574
    摘要 ( )   PDF (891KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了图像的结构特点;然后,将标注信息嵌入LDA,由单词和标注共同推导图像主题,改进之后的主题分布考虑了图像结构;最后,以该主题分布训练分类器,检测扣件状态。相比LDA方法,正常扣件与失效扣件在TS_LDA主题空间中的区分度增加了5%~35%,平均漏检率降低了1.8%~2.4%。实验结果表明,TS_LDA能够提高扣件图像建模精度,从而更加准确地检测扣件状态。
    基于图像超分辨极限学习机的极低分辨率人脸识别
    卢涛, 杨威, 万永静
    2016, 36(2):  580-585.  DOI: 10.11772/j.issn.1001-9081.2016.02.0580
    摘要 ( )   PDF (995KB) ( )  
    参考文献 | 相关文章 | 计量指标
    极低分辨率图像本身包含的判别信息少且容易受到噪声的干扰,在现有的人脸识别算法下识别率较低。为了解决这一问题,提出一种基于图像超分辨率(SR)极限学习机(ELM)的人脸识别算法。首先,从样本库学习耦合的高低分辨率图像稀疏表达字典,利用高低分辨率表达系数的流形一致性重建高分辨率图像;其次,在超分辨率重建的高分辨率(HR)图像上构建ELM模型,训练获得前向神经网络的连接权值;最后,通过ELM预测输入极低人脸图像的类别属性。实验结果表明,针对于重建后的极低分辨率人脸图片,与协同表示的分类(CRC)人脸识别算法相比,所提算法将识别率分别提升了2%;同时也大幅度缩短了识别的时间。结果表明所提算法能够有效解决极低分辨率图片判决信息不足的问题,具有较好的识别能力。
    基于梯度方向直方图与高斯金字塔的车牌模糊汉字识别方法
    刘军, 白雪
    2016, 36(2):  586-590.  DOI: 10.11772/j.issn.1001-9081.2016.02.0586
    摘要 ( )   PDF (832KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对现有车牌识别方法中对模糊车牌识别率不高的问题,提出一种结合高斯金字塔与梯度方向直方图(HOG)特征的车牌识别算法。利用金字塔模型多尺度表达的方法,首先对车牌模糊汉字图像建立两层高斯金字塔模型,第一层描述了模糊汉字的细节特征,通过对第一层作平滑处理并向下采样得到第二层,在描述模糊图像细节特征的基础上突出主体特征;然后对两层高斯金字塔模型提取HOG特征,拓展图像的特征维数,提高特征对模糊汉字的识别能力;最后采用BP神经网络分类器进行模糊且互为形近字间的汉字分类识别。仿真结果显示,在相同的样本空间下,与HOG特征法、K-L变换法相比,所提算法在识别率方面均有提高,能提高视频监控中对模糊汉字的有效识别率。
2022年 42卷 9期
刊出日期: 2022-09-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会