当期目录

    2018年 第38卷 第11期 刊出日期:2018-11-10
    全选:
    第七届中国数据挖掘会议(CCDM 2018)
    基于迁移学习的分层注意力网络情感分析算法
    曲昭伟, 王源, 王晓茹
    2018, 38(11):  3053-3056.  DOI: 10.11772/j.issn.1001-9081.2018041363
    摘要 ( )   PDF (759KB) ( )  
    参考文献 | 相关文章 | 计量指标
    文本情感分析的目的是判断文本的情感类型。传统的基于神经网络的研究方法主要依赖于无监督训练的词向量,但这些词向量无法准确体现上下文语境关系;常用于处理情感分析问题的循环神经网络(RNN),模型参数众多,训练难度较大。为解决上述问题,提出了基于迁移学习的分层注意力神经网络(TLHANN)的情感分析算法。首先利用机器翻译任务训练一个用于在上下文中理解词语的编码器;然后,将这个编码器迁移到情感分析任务中,并将编码器输出的隐藏向量与无监督训练的词向量结合。在情感分析任务中,使用双层神经网络,每层均采用简化的循环神经网络结构——最小门单元(MGU),有效减少了参数个数,并引入了注意力机制提取重要信息。实验结果证明,所提算法的分类准确率与传统循环神经网络算法、支持向量机(SVM)算法相比分别平均提升了8.7%及23.4%。
    融合微博情感分析和深度学习的宏观经济预测方法
    赵军豪, 李玉华, 霍林, 李瑞轩, 辜希武
    2018, 38(11):  3057-3062.  DOI: 10.11772/j.issn.1001-9081.2018041346
    摘要 ( )   PDF (994KB) ( )  
    参考文献 | 相关文章 | 计量指标
    现代市场经济快速发展的同时也伴随着较高的风险,通过对地区投资情况提前预测,能够提前发现投资风险,为国家、企业的投资决策提供参考。针对宏观经济预测中统计数据滞后和内部关系复杂的问题,提出融合情感分析和深度学习的预测方法(SA-LSTM)。首先考虑微博的强时效性,确定了微博爬取和情感分析的方法,得到微博情感分析的分值,进而结合政府统计的结构化经济指标和长短期记忆神经网络,实现地区投资总额预测。经过实际数据计算验证,在四个数据集上,与不加入微博情感分析的LSTM网络相比,SA-LSTM能够降低预测相对误差4.95,0.92,1.21,0.66个百分点;与差分自回归移动平均模型(ARIMA)、线性回归(LR)、反向传播(BP)神经网络、长短期记忆(LSTM)网络四个方法中的最优方法相比能够降低相对误差0.06,0.92,0.94,0.66个百分点。另外,SA-LSTM在多个时间片上,预测相对误差的方差最小,表明所提方法具有很好的鲁棒性,对数据抖动有良好的适应性。
    基于分层注意力机制的神经网络垃圾评论检测模型
    刘雨心, 王莉, 张昊
    2018, 38(11):  3063-3068.  DOI: 10.11772/j.issn.1001-9081.2018041356
    摘要 ( )   PDF (1130KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对现有垃圾评论识别方法很难揭示用户评论的潜在语义信息这一问题,提出一种基于层次注意力的神经网络检测(HANN)模型。该模型主要由以下两部分组成:Word2Sent层,在词向量表示的基础上,采用卷积神经网络(CNN)生成连续的句子表示;Sent2Doc层,基于上一层产生的句子表示,使用注意力池化的神经网络生成文档表示。生成的文档表示直接作为垃圾评论的最终特征,采用softmax分类器分类。此模型通过完整地保留评论的位置和强度特征,并从中提取重要的和综合的信息(文档任何位置的历史、未来和局部上下文),挖掘用户评论的潜在语义信息,从而提高垃圾评论检测准确率。实验结果表明,与仅基于神经网络的方法相比,该模型准确率平均提高5%,分类效果显著改善。
    基于Spark的并行FP-Growth算法优化及实现
    顾军华, 武君艳, 许馨匀, 谢志坚, 张素琪
    2018, 38(11):  3069-3074.  DOI: 10.11772/j.issn.1001-9081.2018041219
    摘要 ( )   PDF (928KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为了进一步提高在Spark平台上的频繁模式增长(FP-Growth)算法执行效率,提出一种新的基于Spark的并行FP-Growth算法——BFPG。首先,从频繁模式树(FP-Tree)规模大小和分区计算量对F-List分组策略进行改进,保证每个分区负载总和近似相等;然后,通过创建列表P-List对数据集划分策略进行优化,减少遍历次数,降低时间复杂度。实验结果表明,BFPG算法提高了并行FP-Growth算法挖掘效率,且算法具有良好的扩展性。
    基于CNN和BiLSTM网络特征融合的文本情感分析
    李洋, 董红斌
    2018, 38(11):  3075-3080.  DOI: 10.11772/j.issn.1001-9081.2018041289
    摘要 ( )   PDF (906KB) ( )  
    参考文献 | 相关文章 | 计量指标
    卷积神经网络(CNN)和循环神经网络(RNN)在自然语言处理上得到广泛应用,但由于自然语言在结构上存在着前后依赖关系,仅依靠卷积神经网络实现文本分类将忽略词的上下文含义,且传统的循环神经网络存在梯度消失或梯度爆炸问题,限制了文本分类的准确率。为此,提出一种卷积神经网络和双向长短时记忆(BiLSTM)特征融合的模型,利用卷积神经网络提取文本向量的局部特征,利用BiLSTM提取与文本上下文相关的全局特征,将两种互补模型提取的特征进行融合,解决了单卷积神经网络模型忽略词在上下文语义和语法信息的问题,也有效避免了传统循环神经网络梯度消失或梯度弥散问题。在两种数据集上进行对比实验,实验结果表明,所提特征融合模型有效提升了文本分类的准确率。
    基于评分可靠性的跨域个性化推荐方法
    曲立平, 吴家喜
    2018, 38(11):  3081-3083.  DOI: 10.11772/j.issn.1001-9081.2018041390
    摘要 ( )   PDF (589KB) ( )  
    参考文献 | 相关文章 | 计量指标
    在跨域推荐系统中,存在某些用户对所购买的物品进行随意评分的情况。由于对物品进行随意评分的用户的数量较少,当该物品的评分数量较多时随意评分对推荐效果的影响较小,但是当该物品的评分数量较少时,随意评分会对推荐效果产生较大的影响。针对这个问题,提出一种基于评分可靠性的跨域个性化推荐方法。该方法针对不同的评分可靠性,为用户设置不同的阈值。当将辅助域的数据向目标域迁移时,如果用户进行评分的某物品的评分数量低于该用户的阈值,则不将该用户对该物品的评分数据迁移到目标域,否则进行迁移,以此减少随意评分对推荐效果的影响。实验结果表明,整体上,与为所有用户设置统一的阈值和不为用户设置阈值的跨域推荐相比,所提方法具有更高的预测评分的准确度。
    基于词典和弱标注信息的电影评论情感分析
    樊振, 过弋, 张振豪, 韩美琪
    2018, 38(11):  3084-3088.  DOI: 10.11772/j.issn.1001-9081.2018041245
    摘要 ( )   PDF (804KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对评论文本情感分析研究中数据标注费时费力的问题,提出了一种新的数据自动标注方法。首先,通过基于情感词典的方法计算出评论文本的情感倾向;其次,利用用户评分的弱标注信息和基于词典方法的情感倾向对评论文本自动标注;最后,利用支持向量机(SVM)对评论文本进行情感分类。所提出的数据自动标注方法在两种类型数据集情感分类准确率上分别达到了77.2%和77.8%,相对于单一的利用用户评分对数据标注的方法,分别提高了1.7个百分点和2.1个百分点。实验结果表明,提出的数据自动标注方法在电影评论情感分析中能提高分类效果。
    基于实体相似度信息的知识图谱补全算法
    王子涵, 邵明光, 刘国军, 郭茂祖, 毕建东, 刘扬
    2018, 38(11):  3089-3093.  DOI: 10.11772/j.issn.1001-9081.2018041238
    摘要 ( )   PDF (784KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为了解决知识图谱的链接预测问题,提出了一种共享变量的神经网络模型(LCPE),该模型通过将实体和关系嵌入到向量空间中实现对链接的预测。通过分析Unstructured Model,推导出在向量空间中两个有关系的实体嵌入距离更近,即相似的实体之间更可能具有关系,LCPE模型将ProjE模型和实体之间的相似度信息进行融合,在判断两个实体是否有关系的基础上判断具体关系类型。三元组预测实验中,LCPE模型在与ProjE模型参数规模相同的情况下,在公开数据集WN18中,正例三元组的平均得分排名(Mean Rank)比ProjE提前了11,而正例三元组在前10名中出现的概率Hit@10比ProjE提升了0.2个百分点;在FB15k中,Mean Rank提前了7.5,Hits@10平均提升了3.05个百分点:证明了LCPE模型能够将实体相似度信息融入ProjE中并有效提升预测准确度。
    基于狄利克雷多项分配模型的多源文本主题挖掘模型
    徐立洋, 黄瑞章, 陈艳平, 钱志森, 黎万英
    2018, 38(11):  3094-3099.  DOI: 10.11772/j.issn.1001-9081.2018041359
    摘要 ( )   PDF (1100KB) ( )  
    参考文献 | 相关文章 | 计量指标
    随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。
    基于线索特征的Web信息时效性评价方法
    徐静, 杨小平
    2018, 38(11):  3100-3104.  DOI: 10.11772/j.issn.1001-9081.2018041355
    摘要 ( )   PDF (796KB) ( )  
    参考文献 | 相关文章 | 计量指标
    网络的快速发展使得在线新闻媒体成为人们获取信息的重要来源。Web站点发布的信息是否能够反映当前关注的热点,是否能够及时发布事件的最新进展情况,对Web站点的可用性有重大影响。在利用条件随机场(CRF)模型识别主题线索句的基础上,得到与Web信息相关的同一主题的线索发展趋势。通过获得的线索发展趋势来推断主题线索的时间区间,进而估计出Web信息的有效区间,在此基础上结合时效性所包含的发布及时性和内容新鲜性两个方面来对Web信息时效性进行合理的评价。实验结果表明,所提方法在Web信息时效性评价上有较好的效果。
    基于粗糙集的数据流多标记分布特征选择
    程玉胜, 陈飞, 王一宾
    2018, 38(11):  3105-3111.  DOI: 10.11772/j.issn.1001-9081.2018041275
    摘要 ( )   PDF (1135KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统特征选择算法无法处理流特征数据、冗余性计算复杂、对实例描述不够准确的问题,提出了基于粗糙集的数据流多标记分布特征选择算法。首先,将在线流特征选择框架引入多标记学习中;其次,用粗糙集中的依赖度替代原有的条件概率,仅仅利用数据自身的信息计算,使得数据流特征选择算法更加高效快捷;最后,由于在现实世界中,每个标记对实例的描述程度并不相同,为更加准确地描述实例,将传统的逻辑标记用标记分布的形式进行刻画。在多组数据集上的实验表明,所提算法能保留与标记空间有着较高相关性的特征,使得分类精度相较于未进行特征选择的有一定程度的提高。
    面向K最近邻分类的遗传实例选择算法
    黄宇扬, 董明刚, 敬超
    2018, 38(11):  3112-3118.  DOI: 10.11772/j.issn.1001-9081.2018041337
    摘要 ( )   PDF (1063KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统的实例选择算法会误删训练集中非噪声样本、算法效率低的不足,提出了一种面向K最近邻(KNN)的遗传实例选择算法。该算法采用基于决策树和遗传算法的二阶段筛选机制,先使用决策树确定噪声样本存在的范围;再使用遗传算法在该范围内精确删除噪声样本,可有效地降低误删率并提高效率,采用基于最近邻规则的验证集选择策略,进一步提高了遗传算法实例选择的准确度;最后引进基于均方误差(MSE)的分类精度惩罚函数来计算遗传算法中个体的适应度,提高有效性和稳定性。在20个数据集上,该方法相较于基于预分类的KNN (PRKNN)、基于协同进化的实例特征选择算法(IFS-CoCo)、K最近邻(KNN),在分类精度上的提升分别为0.07~26.9个百分点、0.03~11.8个百分点、0.2~12.64个百分点,在AUC和Kappa的上的提升分别为0.25~18.32个百分点、1.27~23.29个百分点、0.04~12.82个百分点。实验结果表明,该方法相较于当前实例选择算法在分类精度和分类效率上均具有优势。
    调整聚类假设联合成对约束半监督分类方法
    黄华, 郑佳敏, 钱鹏江
    2018, 38(11):  3119-3126.  DOI: 10.11772/j.issn.1001-9081.2018041220
    摘要 ( )   PDF (1174KB) ( )  
    参考文献 | 相关文章 | 计量指标
    当不同类别的样本严重重叠在分类边界时,由于聚类假设不能很好地反映出数据的真实分布,基于聚类假设的半监督分类方法的性能,可能比与之对立的监督分类方法更差。针对上述不安全的半监督分类问题,提出了调整聚类假设联合成对约束半监督分类方法(ACA-JPC-S3VM)。一方面,它将单个未标记样本到数据分布边界的距离融入到模型的学习中,能够一定程度上缓解此类情况下算法性能的下降程度;另一方面,它将成对约束信息引入,弥补了模型对监督信息利用方面的不足。在UCI数据集上的实验结果表明,ACA-JPC-S3VM方法的性能绝不会低于支持向量机(SVM),且在标记样本数量为10时的平均准确率较SVM高出5个百分点;在图像分类数据集上的实验结果表明,直推式支持向量机(TSVM)等半监督分类方法出现了不同程度的不安全学习情形(即性能相近或低于SVM),而ACA-JPC-S3VM却能安全地学习。因此,ACA-JPC-S3VM具有更好的安全性与正确性。
    基于用户行为特征的多维度文本聚类
    黎万英, 黄瑞章, 丁志远, 陈艳平, 徐立洋
    2018, 38(11):  3127-3131.  DOI: 10.11772/j.issn.1001-9081.2018041357
    摘要 ( )   PDF (970KB) ( )  
    参考文献 | 相关文章 | 计量指标
    传统多维度文本聚类一般是从文本内容中提取特征,而很少考虑数据中用户与文本的交互信息(如:点赞、转发、评论、关注、引用等行为信息),且传统的多维度文本聚类主要是将多个空间维度线性结合,没能深入考虑每个维度中属性间的关系。为有效利用与文本相关的用户行为信息,提出一种结合用户行为信息的多维度文本聚类模型(MTCUBC)。根据文本间的相似性在不同空间上应该保持一致的原则,该模型将用户行为信息作为文本内容聚类的约束来调节相似度,然后结合度量学习方法来改善文本间的距离,从而提高聚类效果。通过实验表明,与线性结合的多维度聚类相比,MTCUBC模型在高维稀疏数据中表现出明显的优势。
    基于模拟退火与贪心策略的平衡聚类算法
    唐海波, 林煜明, 李优, 蔡国永
    2018, 38(11):  3132-3138.  DOI: 10.11772/j.issn.1001-9081.2018041338
    摘要 ( )   PDF (1065KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对现实应用通常要求聚类的结果相对平衡的问题,提出了一种基于模拟退火与贪心策略的平衡聚类算法(BCSG),该算法包括基于模拟退火的初始点选择算法(SACI)与基于贪心策略的平衡聚类算法(BCGS)2个步骤,以提高平衡聚类算法的聚类效果与时间性能。首先基于模拟退火在数据集中快速定位出K个合适的数据点作为平衡聚类初始点,然后每个中心点分阶段贪婪地将距离其最近的数据点加入簇中直至达到簇规模上限。在6个UCI真实数据集与2个公开图像数据集上进行的聚类对比实验结果表明:在簇数目较大时相比Fuzzy C-Means聚类结果平衡度最高提升了50%以上;聚类结果的准确率相比Balanced K-Means、BCLS两个表现较好的算法平均提高了8个百分点;算法时间复杂度也更低,在较大规模的数据集上运行时间比Balanced K-Means最高减少了近40%。实验结果表明BCSG具有更佳的聚类效果和时间性能。
    基于主动学习先验的半监督K-means聚类算法
    柴变芳, 吕峰, 李文斌, 王垚
    2018, 38(11):  3139-3143.  DOI: 10.11772/j.issn.1001-9081.2018041251
    摘要 ( )   PDF (827KB) ( )  
    参考文献 | 相关文章 | 计量指标
    基于迭代框架的主动半监督聚类框架(IASSCF)是一个流行的半监督聚类框架。该框架存在两个问题:其一,初始先验信息较少导致迭代初期聚类效果不佳,进而影响后续聚类结果;其二,每次迭代只选择信息量最大的一个样本标记,导致运行速度慢、性能提升慢。针对这两个问题,设计了一种基于主动学习先验的半监督K-means聚类算法。该方法包含初始化阶段和迭代阶段。初始化阶段主动选择代表性较高的节点集合,并基于代表节点集合构建各类的先验节点集合和约束先验集合。迭代阶段,每次迭代包含三步:1)基于当前约束先验集合,利用约束半监督聚类算法PCK-means对数据进行聚类;2)依据当前聚类结果,主动选择每个簇中最具价值信息的未标注样本点;3)利用选择样本点扩充先验节点集合及约束集合。迭代此过程至达到收敛阈值。实验结果表明,与基于原IASSCF框架的半监督K-means聚类算法相比,所提算法运行速度更快,性能更优。
    规则半自动学习的概率软逻辑推理模型
    张嘉, 张晖, 赵旭剑, 杨春明, 李波
    2018, 38(11):  3144-3149.  DOI: 10.11772/j.issn.1001-9081.2018041308
    摘要 ( )   PDF (1047KB) ( )  
    参考文献 | 相关文章 | 计量指标
    概率软逻辑(PSL)作为一种基于声明式规则的概率模型,具有极强的扩展性和多领域适应性,目前为止,它需要人为给出大量的常识和领域知识作为规则确立的先决条件,这些知识的获取往往非常昂贵并且其中包含的不正确的信息可能会影响推理的正确性。为了缓解这种困境,将C5.0算法和概率软逻辑相结合,让数据和知识共同驱动推理模型,提出了一种规则半自动学习方法。该方法利用C5.0算法提取规则,再辅以人工规则和优化调节后的规则作为改进的概率软逻辑输入。实验结果表明,在学生成绩预测问题上所提方法比C5.0算法和没有规则学习的概率软逻辑具有更高的精度;和纯手工定义规则的方法相比,所提方法能大幅降低人工成本;和贝叶斯网络(BN)、支持向量机(SVM)等算法相比,该方法也表现出不错的效果。
    基于增强特征判别性的典型相关分析和分类集成的助学金预测方法
    张芳娟, 杨燕, 杜圣东
    2018, 38(11):  3150-3155.  DOI: 10.11772/j.issn.1001-9081.2018041259
    摘要 ( )   PDF (893KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对高校资助管理办法效率低下、工作量大等问题,提出一种增强特征判别性的典型相关分析(EN-DCCA)方法,并结合分类集成方法实现高校学生助学金预测。将学生在校多维度数据划分为两个不同视图,已有的各种多视图判别典型相关分析算法没有综合考虑视图类别之间的相关性和视图组合特征的判别性两者因素。EN-DCCA的优化目标在最大化类内相关的同时最小化类间相关,并且考虑了视图组合特征的判别性,进一步强化了属性的判别性能,更有利于分类预测。高校学生助学金预测的实现过程:首先,根据学生生活行为和学习表现将数据预处理为两个不同视图,然后用EN-DCCA方法对这两个视图数据进行特征学习,最后用分类集成方法完成预测。在真实的数据集上进行实验,所提方法的预测准确率达到90.01%,较增强视图组合特征判别性的典型相关分析(CECCA)的集成方法提高了2个百分点,实验结果表明,所提方法能有效实现高校助学金预测。
    基于多目标骨架粒子群优化的特征选择算法
    张翠军, 陈贝贝, 周冲, 尹心歌
    2018, 38(11):  3156-3160.  DOI: 10.11772/j.issn.1001-9081.2018041358
    摘要 ( )   PDF (908KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对在分类问题中,数据之间存在大量的冗余特征,不仅影响分类的准确性,而且会降低分类算法执行速度的问题,提出了一种基于多目标骨架粒子群优化(BPSO)的特征选择算法,以获取在特征子集个数与分类精确度之间折中的最优策略。为了提高多目标骨架粒子群优化算法的效率,首先使用了一个外部存档,用来引导粒子的更新方向;然后通过变异算子,改善粒子的搜索空间;最后,将多目标骨架粒子群算法应用到特征选择问题中,并利用K近邻(KNN)分类器的分类性能和特征子集的个数作为特征子集的评价标准,对UCI数据集以及基因表达数据集的12个数据集进行实验。实验结果表明,所提算法选择的特征子集具有较好的分类性能,最小分类错误率最大可以降低7.4%,并且分类算法的执行时间最多能缩短12 s,能够有效提高算法的分类性能与执行速度。
    基于孪生网络和重排序的行人重识别
    陈首兵, 王洪元, 金翠, 张玮
    2018, 38(11):  3161-3166.  DOI: 10.11772/j.issn.1001-9081.2018041223
    摘要 ( )   PDF (904KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对非重叠多摄像头下的行人重识别(Re-ID)易受到光照、姿势及遮挡等影响和实验过程中存在图像错误匹配的情况,提出一种基于孪生网络和重排序的行人重识别方法。首先,给定一对行人训练图像,孪生网络可以同时学习一个具有辨别力的卷积神经网络(CNN)特征和相似性度量,并预测两个输入图像的行人身份以及判断它们是否属于同一个行人;然后,通过k互近邻方法来降低图像错误匹配的情况;最后,将欧氏距离和杰卡德距离加权来对排序表进行重排序。在数据集Market1501和CUHK03上进行多次实验,实验结果显示在Market1501上Single Query情况下在图库中第一次就成功匹配的概率(Rank1)达到83.44%,平均精度均值(mAP)为68.75%,在CUHK03上single-shot情况下Rank1达到85.56%,mAP为88.32%,明显高于传统的基于特征表示和度量学习的方法。
    基于拉普拉斯评分的多标记特征选择算法
    胡敏杰, 林耀进, 王晨曦, 唐莉, 郑荔平
    2018, 38(11):  3167-3174.  DOI: 10.11772/j.issn.1001-9081.2018041354
    摘要 ( )   PDF (1178KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统的拉普拉斯评分特征选择算法只适应单标记学习,无法直接应用于多标记学习的问题,提出一种应用于多标记任务的拉普拉斯评分特征选择算法。首先,考虑样本在整体标记空间中共同关联和共同不关联的相关性,重新构建样本相似度矩阵;然后,将特征之间的相关性及冗余性判定引入拉普拉斯评分算法中,采用前向贪心搜索策略依次评价候选特征与已选特征的联合作用能力,用于评价特征的重要性;最后,在5个不同评价指标和6个多标记数据集上实验。实验结果表明:相比基于最大依赖的多标记维数约简方法(MDDM)、基于贝叶斯分类器的多标记特征选择算法(MLNB)及基于多元互信息的多标记分类特征选择算法(PMU),所提算法不仅分类性能最优,且存在显著性优异达65%。
    基于深度置信网络Otsu混合模型的自动云检测算法
    邱梦, 尹浩宇, 陈强, 刘颖健
    2018, 38(11):  3175-3179.  DOI: 10.11772/j.issn.1001-9081.2018041350
    摘要 ( )   PDF (996KB) ( )  
    参考文献 | 相关文章 | 计量指标
    地球表面一半以上被云覆盖,卫星遥感图像中的云检测主要是人工检测识别或者半自动化方法,依赖人工干预,效率不高,难以满足实时或准实时应用的需要。为了提高卫星遥感数据的可用性,基于深度置信网络(DBN)和最大类间方差法,提出一种自动云检测算法——DOHM。该算法采用自适应阈值代替人工标定阈值,实现云检测的全自动化,将云检测的正确率提高到95%以上;DOHM算法选取了维度为9的特征向量作为检测网络的输入,输入特征向量的多样性,有利于网络更全面有效地捕捉到云的特点。
    基于NARX神经网络的热负荷预测中关键影响因素分析
    谢吉洋, 闫冬, 谢垚, 马占宇
    2018, 38(11):  3180-3187.  DOI: 10.11772/j.issn.1001-9081.2018041222
    摘要 ( )   PDF (1202KB) ( )  
    参考文献 | 相关文章 | 计量指标
    在区域供热(DH)网络中,精确预测热负荷已被认为是提高效率和节省成本的重要环节。为了提高预测精度,研究不同影响因素对热负荷预测的影响极为重要。使用引入不同影响因素的数据集训练得到带外部输入的非线性自回归(NARX)神经网络模型,并比较其预测性能,以讨论直接太阳辐射和风速对热负荷预测的影响程度。实验结果表明,直接太阳辐射和风速都是热负荷预测中的关键影响因素。只引入风速时,预测模型的平均绝对百分比误差(MAPE)和均方根误差(RMSE)均低于只引入直接太阳辐射,同时引入风速和直接太阳辐射能够得到最佳的模型预测性能,但是对于MAPE和RMSE降低的贡献不大。
    规则网格数字高程模型中基于距离与坡度的路径规划算法
    张润莲, 张鑫, 张楚芸, 奚玉昂
    2018, 38(11):  3188-3192.  DOI: 10.11772/j.issn.1001-9081.2018041340
    摘要 ( )   PDF (985KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对A*算法在数字高程模型(DEM)路径规划中的低效问题,提出一种基于距离与坡度的改进A*寻路算法。该算法面向规则网格DEM,以距离和坡度作为路径搜索评估指标,设计新的评价函数,并以地表障碍评判路径的可通行性。在寻路过程中,根据实际场景DEM数据计算相匹配的参数,使得改进算法能自适应不同场景下DEM数据分辨率的变化;采用动态权值调整完备性函数和启发性函数对评价结果的影响,优化路径选择。仿真测试结果表明,改进算法能够通过参数调整适应DEM分辨率的变化,搜索出优化的路径,降低搜索时间,提高搜索效率。
    基于极端学习机的人脸特征深度稀疏自编码方法
    张欢欢, 洪敏, 袁玉波
    2018, 38(11):  3193-3198.  DOI: 10.11772/j.issn.1001-9081.2018041274
    摘要 ( )   PDF (1002KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对输入人脸特征的不准确性导致识别系统识别率不高的问题,提出了一种有效的基于极端学习机(ELM)的人脸特征深度稀疏自编码(DSAE)方法。首先,利用截断式核范数构造损失函数,通过最小化损失函数提取人脸图像的稀疏特征;其次,利用极端学习机自编码器(ELM-AE)模型进行人脸特征的自编码,实现数据维度的降低以及噪声过滤;最后,通过经验风险极小化得到最优的深度结构。在ORL、IMM、Yale和UMIST人脸数据集上的实验结果表明,DSAE方法对高维人脸图像的识别率明显优于极端学习机、随机森林(RF)等算法,且具有良好的泛化性能。
    基于迁移学习与多标签平滑策略的图像自动标注
    汪鹏, 张奥帆, 王利琴, 董永峰
    2018, 38(11):  3199-3203.  DOI: 10.11772/j.issn.1001-9081.2018041349
    摘要 ( )   PDF (960KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对图像标注数据集标签分布不平衡问题,提出了基于标签平滑策略的多标签平滑单元(MLSU)。MLSU在网络模型训练过程中自动平滑数据集中的高频标签,使网络适当提升了低频标签的输出值,从而提升了低频标注词的标注性能。为解决图像标注数据集样本数量不足造成网络过拟合的问题,提出了基于迁移学习的卷积神经网络(CNN)模型。首先利用互联网上的大型公共图像数据集对深度网络进行预训练,然后利用目标数据集对网络参数进行微调,构建了一个多标签平滑卷积神经网络模型(CNN-MLSU)。分别在Corel5K和IAPR TC-12图像标注数据集上进行实验,在Corel5K数据集上,CNN-MLSU较卷积神经网络回归方法(CNN-R)的平均准确率与平均召回率分别提升了5个百分点和8个百分点;在IAPR TC-12数据集上,CNN-MLSU较两场K最邻近模型(2PKNN_ML)的平均召回率提升了6个百分点。实验结果表明,基于迁移学习的CNN-MLSU方法能有效地预防网络过拟合,同时提升了低频词的标注效果。
    基于频繁模式发现的时间序列异常检测方法
    李海林, 邬先利
    2018, 38(11):  3204-3210.  DOI: 10.11772/j.issn.1001-9081.2018041252
    摘要 ( )   PDF (1091KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统异常片段检测方法在处理增量式时间序列时效率低的问题,提出一种基于频繁模式发现的时间序列异常检测(TSAD)方法。首先,将历史输入的时间序列数据进行符号转化;其次,利用符号化特征找出历史序列数据集中的频繁模式;最后,结合最长公共子序列匹配方法度量频繁模式与当前新增加时间序列数据之间的相似度,从而发现新增加数据中的异常模式。与基于滑动窗口预测的水文时间序列异常检测方法(TSOD)和基于扩展符号聚集近似的水文时间序列异常挖掘方法(ESAA)相比,对于实验选择的三种类型的时间序列数据,TSAD的检测率都超过90%;TSOD对规则性较强的序列检测率较高,能达到99%,但对噪声干扰较大的序列检测率较低,对数据偏向性较强;ESAA对三种类型的数据检测率均不超过70%。实验结果表明,TSAD在时间序列异常检测中能够较好地发现异常片段。
    基于深度学习的虚拟边界检测方法
    赖传滨, 韩越兴, 顾辉, 王冰
    2018, 38(11):  3211-3215.  DOI: 10.11772/j.issn.1001-9081.2018041347
    摘要 ( )   PDF (875KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统边缘检测方法无法对材料微观图像中不同区域间存在的"虚拟边界"(VB)进行准确检测的问题,提出一种基于卷积神经网络(CNN)的虚拟边界检测模型,称之为"虚拟边界网络"(VBN)。该模型对VGGNet深度学习模型进行了简化,并在模型训练过程中采用了dropout以及Adam算法等优化策略。VBN以图像中每个像素为中心所取的图像块作为输入,然后输出该图像块所属的类别并据此判断中心像素是否属于虚拟边界。在对两类材料图像进行虚拟边界检测的实验中,VBN的平均检测精度到达92.5%,平均召回率达到89.5%,证明该模型能够准确、有效地对图像中的虚拟边界进行检测,是一种替代低效率人工分析方法的有效手段。
    基于语义感知的图像美学质量评估方法
    杨文雅, 宋广乐, 崔超然, 尹义龙
    2018, 38(11):  3216-3220.  DOI: 10.11772/j.issn.1001-9081.2018041221
    摘要 ( )   PDF (866KB) ( )  
    参考文献 | 相关文章 | 计量指标
    当前图像美学质量评估的研究主要基于图像的视觉内容来给出评价结果,忽视了美感是人的认知活动的事实,在评价时没有考虑用户对图像语义信息的理解。为了解决这一问题,提出了一种基于语义感知的图像美学质量评估方法,将图像的物体类别信息以及场景类别信息也用于图像美学质量评估。运用迁移学习的思想,构建了一种可以融合图像多种特征的混合网络。对于每一幅输入图像,该网络可以分别提取出其物体类别特征、场景类别特征以及美学特征,并将这三种特征进行高质量的融合,以达到更好的图像美学质量评估效果。该方法在AVA数据集上的分类准确率达到89.5%,相对于传统方法平均提高了19.9%,在CUHKPQ数据集上的泛化性能也有了很大提升。实验结果表明,所提方法在图像美学质量评估问题上,能够取得更好的分类性能。
    基于模型过滤的多任务回归在帕金森症预测中的应用
    刘峰, 季薇, 李云
    2018, 38(11):  3221-3224.  DOI: 10.11772/j.issn.1001-9081.2018041329
    摘要 ( )   PDF (750KB) ( )  
    参考文献 | 相关文章 | 计量指标
    传统基于语音的帕金森症(PD)病情预测方法则是分别预测运动症状评分(motor-UPDRS)和总体症状评分(total-UPDRS)。为解决在单任务预测过程中,传统方法无法利用任务之间的共享信息和预测性能不佳的问题,提出了一种基于模型过滤的多任务回归方法来预测帕金森症患者的motor-UPDRS和total-UPDRS。首先,考虑到子任务语音特征对预测motor-UPDRS和total-UPDRS不同的影响,添加L1正则化项进行特征选择;其次,在构建模型的同时,根据不同帕金森患者对象分布在不同的域,添加了过滤机制,来提高预测精度。在远程帕金森数据集仿真实验中,基于模型过滤的多任务回归方法在预测UPDRS时,较单任务条件下最小二乘法(LS)模型预测motor值准确度提高了67.2%,预测total值则提高了83.3%;相比单任务条件下决策回归树(CART)模型预测motor值提高了64%,预测total值则提高了78.4%。实验结果表明,基于模型过滤的多任务回归算法对UPDRS预测要优于单任务回归算法。
    基于布谷鸟搜索和深度信念网络的肺部肿瘤图像识别算法
    杨健, 周涛, 郭丽芳, 张飞飞, 梁蒙蒙
    2018, 38(11):  3225-3230.  DOI: 10.11772/j.issn.1001-9081.2018041244
    摘要 ( )   PDF (957KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对深度信念网络(DBN)权值随机初始化易使网络陷入局部最优的问题,在传统DBN模型中引入布谷鸟搜索(CS)算法,提出一种基于CS-DBN的肺部肿瘤图像识别算法。首先,利用CS的全局寻优能力对DBN的初始权值进行优化,并在此基础上进行DBN的逐层预训练;然后,利用反向传播(BP)算法对整个网络进行微调,从而使网络权值达到最优;最后,将CS-DBN应用于肺部肿瘤图像的识别,实验从受限玻尔兹曼机(RBM)训练次数、训练批次大小、DBN隐层层数和隐层节点数四个角度将CS-DBN与传统DBN进行比较,以验证该算法的可行性和有效性。实验结果表明,CS-DBN的识别精度明显高于传统DBN,在不同RBM训练次数、训练批次大小、DBN隐层层数和隐层节点数条件下,CS-DBN较传统DBN识别率提高百分点的范围分别是1.13~4.33、2.00~3.34、1.07~3.34和1.40~3.34。CS-DBN能够在一定程度上提高肺部肿瘤的识别精度,从而提高肺部肿瘤计算机辅助诊断性能。
    改进的飞蛾扑火优化算法在网络入侵检测系统中的应用
    徐慧, 方策, 刘翔, 叶志伟
    2018, 38(11):  3231-3235.  DOI: 10.11772/j.issn.1001-9081.2018041315
    摘要 ( )   PDF (900KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对当前网络入侵检测中的数据量较大、数据维度较高的特点,将飞蛾扑火优化(MFO)算法应用于网络入侵检测的特征选择中。鉴于MFO算法收敛过快、易陷入局部最优的问题,提出一种融合粒子群优化(PSO)的二进制飞蛾扑火优化(BPMFO)算法。该算法引入MFO螺旋飞行公式,具有较强的局部搜索能力;结合了粒子群优化(PSO)算法的速度更新方法,让种群个体随着全局最优解和历史最优解的方向移动,增强算法的全局收敛性,从而避免易陷入局部最优。仿真实验以KDD CUP 99数据集为实验基础,分别采用支持向量机(SVM)、K最近邻(KNN)算法和朴素贝叶斯(NBC)3种分类器,与二进制飞蛾扑火优化(BMFO)算法、二进制粒子群优化(BPSO)算法、二进制遗传算法(BGA)、二进制灰狼优化(BGWO)算法和二进制布谷鸟搜索(BCS)算法进行了实验对比。实验结果表明,BPMFO算法应用于网络入侵检测的特征选择时,在算法精度、运行效率、稳定性、收敛速度以及跳出局部最优的综合性能上具有明显优势。
    基于深度卷积神经网络的色素性皮肤病识别分类
    何雪英, 韩忠义, 魏本征
    2018, 38(11):  3236-3240.  DOI: 10.11772/j.issn.1001-9081.2018041224
    摘要 ( )   PDF (810KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对当前皮肤病识别分类面临的两个主要问题:一是由于皮肤病种类繁多,病灶外观的类间相似度高和类内差异化大,尤其是色素性皮肤病,使得皮肤病的识别分类比较困难;二是皮肤病识别算法模型设计存在一定的局限性,识别率还有待进一步提高。为此,以VGG19模型为基础架构,训练了一个结构化的深度卷积神经网络(CNN),实现了色素性皮肤病的自动分类。首先,采用数据增强(裁剪、翻转、镜像)对数据进行预处理;其次,将在ImageNet上预训练好的模型,迁移至增强后的数据集进行调优训练,训练过程中通过设置Softmax损失函数的权重,增加少数类判别错误的损失,来缓解数据集中存在的类别不平衡问题,提高模型的识别率。实验采用深度学习框架PyTorch,在数据集ISIC2017上进行。实验结果表明,该方法的识别率和敏感性可分别达到71.34%、70.01%,相比未设置损失函数的权重时分别提高了2.84、11.68个百分点,说明该方法是一种有效的皮肤病识别分类方法。
    基于科优先策略的植物图像识别
    曹香滢, 孙卫民, 朱悠翔, 钱鑫, 李晓宇, 业宁
    2018, 38(11):  3241-3245.  DOI: 10.11772/j.issn.1001-9081.2018041309
    摘要 ( )   PDF (819KB) ( )  
    参考文献 | 相关文章 | 计量指标
    植物识别领域的研究包括单一背景和自然环境植物图像识别,由于背景噪声的存在,自然环境植物图像识别难度更大。针对如何降低卷积神经网络(CNN)的权重大小、如何改善过拟合、如何提高模型对自然环境植物的识别率和泛化能力的问题,提出科优先(FP)的植物识别方法。与轻量卷积神经网络MobileNet模型结合,利用迁移学习的方法,建立基于MobileNet的科优先(FP-MobileNet)植物识别模型。单纯使用MobileNet模型在单一背景植物数据集flavia上获得了99.8%的识别率;对于更具挑战的自然环境花卉数据集flower102,在训练集样本数量大于测试集时FP-MobileNet获得了99.56%识别率,在训练集样本数量小于测试集时FP-MobileNet仍获得了95.56%的识别率。实验结果表明,两种数据集划分方案下FP-MobileNet的识别率均高于单纯的MobileNet模型;并且FP-MobileNet模型在获得较高识别率的同时,权重仅占13.7 MB,兼顾了精度和延迟,适合推广到需要轻量模型的移动设备。
    网络空间安全
    基于预共享密钥的LAN安全关联方案改进与分析
    肖跃雷, 武君胜, 朱志祥
    2018, 38(11):  3246-3251.  DOI: 10.11772/j.issn.1001-9081.2018040896
    摘要 ( )   PDF (1018KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对基于预共享密钥的有线局域网(LAN)安全关联方案中交换密钥建立过程的通信浪费问题,提出了一种改进的LAN安全关联方案。该方案通过对基于预共享密钥的鉴别及单播密钥协商过程的改进,生成了新加入交换机和认证服务器之间的成对主密钥,并用于新加入交换机与各个不相邻交换机之间的交换密钥协商过程。然后,在该方案基础上提出了一种可信计算环境下的LAN安全关联方案。该方案在改进的基于预共享密钥的鉴别及单播密钥协商过程中进一步增加对终端设备的平台认证,从而实现终端设备的可信网络接入,有效增强了LAN的安全性。最后,利用串空间模型(SSM)证明了这两个LAN安全关联方案是安全的。性能对比分析结果表明,该方案有效减少了交换密钥建立过程的消息交互数和计算量。
    基于信息熵抑制的轨迹隐私保护方法
    汪逸飞, 罗永龙, 俞庆英, 刘晴晴, 陈文
    2018, 38(11):  3252-3257.  DOI: 10.11772/j.issn.1001-9081.2018040861
    摘要 ( )   PDF (1005KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统高维轨迹隐私保护模型抑制点数过多而导致的数据匿名性差及数据损失大的问题,提出了一种基于信息熵抑制的轨迹隐私保护方法。通过为轨迹数据建立基于熵的流量图,根据轨迹时空点信息熵大小设计合理的花费代价函数,局部抑制时空点以达到隐私保护的目的;同时改进了一种比较抑制前后流量图相似性的算法,并提出了一个衡量隐私收益的函数;最后,与LK-Local方法进行了轨迹隐私度与数据实用性的比较。在模拟地铁交通运输系统数据集上的实验结果表明,与LK-Local方法相比,在相同的匿名参数取值下,所提方法在相似性度量上提高了约27%,在数据损失度量上降低了约25%,在隐私收益上提高了约21%。
    基于软件定义网络的反嗅探攻击方法
    张传浩, 谷学汇, 孟彩霞
    2018, 38(11):  3258-3262.  DOI: 10.11772/j.issn.1001-9081.2018040836
    摘要 ( )   PDF (986KB) ( )  
    参考文献 | 相关文章 | 计量指标
    网络嗅探攻击中,攻击者从网络节点或链路捕获和分析网络通信数据、监视网络状态、窃取用户名和密码等敏感信息。在攻击发生时,攻击者通常处于静默状态,传统的网络防护手段如防火墙、入侵检测系统(IDS)或入侵防御系统(IPS)很难发现并有效抵御攻击。从网络结构入手,提出基于软件定义网络(SDN)的动态路径跳变(DPH)通信机制,依据空间和时间约束条件,动态改变通信节点之间的路径,宏观上将通信流量相对均匀地分布在多条传输链路中,增加网络嗅探攻击中获取完整数据的难度。实验仿真结果说明,在一定的网络规模下,动态路径跳变能够在不明显降低网络传输性能的条件下有效防御嗅探攻击。
    基于区域划分的轨迹隐私保护方法
    郭良敏, 王安鑫, 郑孝遥
    2018, 38(11):  3263-3269.  DOI: 10.11772/j.issn.1001-9081.2018050975
    摘要 ( )   PDF (1029KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对现有k匿名方法易受连续查询攻击以及在用户数稀少时难以构建匿名区域问题,提出一种基于区域划分的轨迹隐私保护方法。查询用户利用第三方辅助服务器获得拥有特定区域历史查询点的用户组,并通过P2P协议获得用户组中用户的历史查询点,从中搜索所需的查询结果,以提高查询效率。另外,该方法通过发送伪查询点迷惑攻击者,以及利用覆盖用户真实轨迹的区域划分方法,将多个查询点隐藏在同一子区域中,使攻击者无法重构用户的真实轨迹,以保证安全性。实验结果表明,所提方法随着偏离距离和缓存时间的增大,用户轨迹隐私的安全性会提高。在用户数为1500时,与协作轨迹隐私保护(CTPP)方法相比,安全性平均提高约50%,查询效率平均提高约35%(子区域数为400)。
    网络与通信
    窄带蜂窝物联网终端上行资源调度的分析与设计
    陈发堂, 邢苹苹, 杨艳娟
    2018, 38(11):  3270-3274.  DOI: 10.11772/j.issn.1001-9081.2018040849
    摘要 ( )   PDF (942KB) ( )  
    参考文献 | 相关文章 | 计量指标
    窄带蜂窝物联网(NB-IoT)技术发展迅猛,与原有的无线通信协议相比,NB-IoT的频谱带宽仅有180 kHz,因此,如何更有效地使用资源或频谱(即资源分配和调度)成为NB-IoT技术的关键问题。针对该问题,对NB-IoT上行链路资源调度的相关因素,其中包括资源分配、功率控制以及上行传输间隙进行了分析,并提供不同选择方案以选择出最优的方案;另外,针对调制与编码方案和重复传输次数的选择进行了重点分析,提出基于不同的覆盖等级联合功率余量报告的贪婪-稳定选择调制与编码策略以初步选择调制与编码级别,在选择重复传输次数时引入了一个补偿因子以衡量重传次数的大小以及对调制与编码等级更新;最后,对所提出方案进行了仿真分析。仿真结果表明,所提方案与直接传输方法相比,平均可节省超过56%的活动时间和46%的资源消耗。
    非对称占空比传感网中的广播能效优化算法
    徐力杰
    2018, 38(11):  3275-3281.  DOI: 10.11772/j.issn.1001-9081.2018040793
    摘要 ( )   PDF (1193KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对非对称占空比传感网中最小端到端延迟约束下的广播能效优化问题,首先构造了一个能够刻画广播时空特征的时空状态图,将目标问题建模成转发行为子集覆盖问题,然后分别提出了一种面向总能耗优化的最小代价转发行为子集覆盖算法(MC-SCA)和一种面向能量公平性的代价均衡转发行为子集覆盖算法(CB-SCA)。MC-SCA和CB-SCA都是采用迭代的方式选择最优转发行为子集。MC-SCA在每一轮迭代中贪心地选择转发行为代价与新增覆盖节点数量的比值最小的转发行为,而CB-SCA在每一轮迭代中贪心地选择带来更小节点转发能耗负载且更多新增覆盖节点数量的转发行为。仿真结果表明,MC-SCA与典型的随机父节点选择算法(RPNS-A)相比其广播总能耗平均降低了24.23%,而CB-SCA与RPNS-A、MC-SCA以及最小节点负载优先的贪心算法相比其节点最大广播负载值分别平均降低了48.69%、65.21%和10.64%,因此CB-SCA具有更好的广播能量公平性。
    多输入多输出—非正交多址接入系统融合用户调度的下行波束赋形设计
    刘依, 胡哲, 景小荣
    2018, 38(11):  3282-3286.  DOI: 10.11772/j.issn.1001-9081.2018040876
    摘要 ( )   PDF (774KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对多输入多输出—非正交多址接入(MIMO-NOMA)技术中用户间干扰较大的问题,提出了一种融合用户调度的波束赋形(BF)算法。首先,在进行用户调度时,为了同时兼顾簇内用户干扰和簇间用户干扰,根据各用户信道的差异性,利用L1-范数正则化方法对所有用户分组情况进行初步稀疏化处理,进而从各用户信道相关性角度出发,将信道相关性大的两个用户分为一簇;其次,结合部分发射功率控制(FTPC)策略实现簇内用户功率分配;最后,根据和速率最大化准则构建一目标优化函数,进而利用连续凸逼近(SCA)算法对其进行求解,以获得波束赋形矩阵。理论分析和链路仿真表明,与传统的正交多址接入技术相比,在系统容量方面实现了84.3%的提升;与传统的相关性用户分簇方法相比,在公平性方面实现了20.2%的提升。实验结果表明,该方案不仅有效地抑制了簇内用户干扰和簇间用户干扰,同时,又保证了用户间的公平性。
    基于序贯线性贝叶斯的RFID标签数量估计算法
    王帅, 杨晓东
    2018, 38(11):  3287-3292.  DOI: 10.11772/j.issn.1001-9081.2018040854
    摘要 ( )   PDF (923KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为解决现有标签数量估计算法中估计精度与复杂度之间的矛盾,在分析比较现有算法的基础上,提出一种基于序贯线性贝叶斯的射频识别(RFID)标签数量估计算法。首先,基于线性贝叶斯理论,充分利用空闲、成功和碰撞时隙数量观测值及相关性,建立了标签数量估计问题的线性模型;然后,推导了标签数量估计值的闭式表达式,给出了表达式各阶统计量的序贯式求解方法;最后,对序贯式贝叶斯算法的计算复杂度进行了分析和对比。仿真结果表明,所提算法通过序贯贝叶斯方法提高了估计精度和识别效率,当观测时隙数为帧长一半时估计误差仅为4%。该算法以线性解析式形式更新标签数量估计值,避免了穷举搜索,与高精度的最大后验概率和马氏距离算法相比,计算复杂度由On2)和On)下降为O(1)。经理论分析和仿真验证,基于序贯线性贝叶斯的RFID标签数量估计算法兼具高精度和低复杂度的特性,能很好地满足硬件资源受限应用场景下对标签数量的估计需求。
    软件定义网络的异构无线网络资源分配框架
    吴诗奎, 王艳
    2018, 38(11):  3293-3298.  DOI: 10.11772/j.issn.1001-9081.2018040826
    摘要 ( )   PDF (889KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对各种智能设备在移动蜂窝网络中的普及及移动流量需求日益增长的问题,研究控制无线电带宽并将其分配给多个无线电用户设备,提出了一个基于软件定义网络(SDN)的资源分配框架,以及LTE/WLAN多无线电网络中异构资源分配算法。该框架将SDN范式应用到LTE-WLAN集成网络的异构资源分配,并进行了扩展,以整体的方式分配LTE/WLAN多无线电网络中的异构射频带宽。通过将集中式解决方案的功能分解到指定的网络实体的方式,来处理异构资源。模拟实验表明,所提框架可以较好地平衡网络吞吐量和用户公平性,且算法收敛性较好。
    基于分层路径计算单元与双矩阵博弈的多域光网络静态组播专用保护算法
    陈浩, 吴启武, 李芳, 姜灵芝
    2018, 38(11):  3299-3304.  DOI: 10.11772/j.issn.1001-9081.2018051099
    摘要 ( )   PDF (1131KB) ( )  
    参考文献 | 相关文章 | 计量指标
    在预先配置组播业务的多域光网络中,如何保证静态组播业务的生存性已成为广泛关注的问题。针对此问题,通过采用基于分层路径计算单元(PCE)架构的全局拓扑信息调度计算模型,利用双矩阵博弈来生成链路不相交的组播树和组播保护树,最后提出了一种基于分层PCE与双矩阵博弈的多域光网络静态组播专用保护算法,并给出了算法的具体示例。理论分析和实验结果表明,在一定的冗余资源配置下,该算法具有较低的时间复杂度,在优化组播工作树和组播保护树的资源分配结构的同时,可明显提高多域光网络静态组播业务的生存能力。
    应用前沿、交叉与综合
    基于条件生成式对抗网络的数据增强方法
    陈文兵, 管正雄, 陈允杰
    2018, 38(11):  3305-3311.  DOI: 10.11772/j.issn.1001-9081.2018051008
    摘要 ( )   PDF (1131KB) ( )  
    参考文献 | 相关文章 | 计量指标
    深度卷积神经网络(CNN)在大规模带有标签的数据集训练下,训练后模型能够取得高的识别率或好的分类效果,而利用较小规模数据集训练CNN模型则通常出现过拟合现象。针对这一问题,提出了一种集成高斯混合模型(GMM)及条件生成式对抗网络(CGAN)的数据增强方法并记作GMM-CGAN。首先,通过围绕核心区域随机滑动采样的方法增加数据集样本数量;其次,假定噪声随机向量服从GMM描述的分布,将它作为CGAN生成器的初始输入,图像标签作为CGAN条件,训练CGAN以及GMM模型的参数;最后,利用已训练CGAN生成符合样本真实分布的新数据集。对包含12种雾型386个样本的天气形势图基准集利用GMM-CGAN方法进行数据增强,增强后的数据集样本数多达38600个,将该数据集训练的CNN模型与仅使用仿射变换增强的数据集及CGAN方法增强的数据集训练的CNN模型相比,实验结果表明,前者的平均分类正确率相较于后两个模型分别提高了18.2%及14.1%,达到89.1%。
    基于个体兴趣度差异和辟谣机制的谣言传播模型
    冉茂洁, 刘超, 黄贤英, 刘小洋, 杨宏雨, 张光建
    2018, 38(11):  3312-3318.  DOI: 10.11772/j.issn.1001-9081.2018040890
    摘要 ( )   PDF (951KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对现有谣言传播模型未同时考虑个体兴趣度差异和辟谣机制的问题,提出基于个体兴趣度差异和辟谣机制的IWSR谣言传播模型。计算了模型的平衡点和基本再生数,利用Lyapunov稳定性定理、Hurwitz判据和LaSalle不变性原理,得到部分谣言传播平衡点局部稳定和全局稳定的条件。通过数值仿真得出加强政府辟谣力度或提升个体判断能力等均能有效抑制谣言传播的结论,最后在WS小世界网络和BA无标度网络上的仿真结果得出在不同网络拓扑结构下谣言传播影响因子的影响力度存在差异性的结论。
    基于地质大数据的泥石流灾害易发性评价
    张永宏, 葛涛涛, 田伟, 夏广浩, 何静
    2018, 38(11):  3319-3325.  DOI: 10.11772/j.issn.1001-9081.2018040789
    摘要 ( )   PDF (1168KB) ( )  
    参考文献 | 相关文章 | 计量指标
    在地质大数据背景下,为了更加精准、客观地评估泥石流易发程度,提出一种基于神经网络的区域泥石流易发性评价模型,并结合使用平均影响值算法(MIV)、遗传算法(GA)、Borderline-SMOTE算法提升模型精度。在预处理阶段使用Borderline-SMOTE算法处理非平衡数据集的分类问题,之后采用神经网络拟合主要指标与易发程度的非线性关系并结合遗传算法提升拟合速度,最后结合MIV算法定量分析指标与易发程度相关性。选取雅鲁藏布江中上游流域作为研究区域,实验结果显示,模型能够有效降低非平衡数据集的过拟合,优化原始输入维度,同时在拟合速度上有了很大提升。采用AUC指标检验评价结果,测试集的分类精度达到97.95%,说明模型能够在非平衡数据集下为评价研究区域泥石流易发程度提供参考。
    基于空间邻近搜索的移动轨迹相对时间模式挖掘方法
    张海涛, 周欢, 张国楠
    2018, 38(11):  3326-3331.  DOI: 10.11772/j.issn.1001-9081.2018051023
    摘要 ( )   PDF (941KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统移动轨迹模式挖掘方法挖掘速度慢、占用最大内存大的问题,提出一种基于空间邻近搜索的移动轨迹相对时间模式挖掘方法。该方法包括5个阶段:1)对移动轨迹数据进行时空划分,并基于移动轨迹数据与时空格的匹配得到移动轨迹数据对应的时空格序列。2)扫描所有的时空格序列数据得到空间网格集合,并通过空间网格与时空格序列的包含运算得到所有的频繁空间网格。3)频繁空间网格转变为长度为1的频繁相对时间模式。4)基于空间邻近搜索的方式进行模式增长,得到以频繁空间网格为单元的候选相对时间模式,并通过相对时间模式与时空格序列的匹配运算,计算相对时间模式的支持度。5)基于设定的支持度阈值,得到所有频繁的相对时间模式。实验结果表明:所提方法由于采用了基于空间邻近搜索的方式进行模式扩展,大幅减小候选相对时间模式的搜索范围。与传统方法相比,所提方法具有挖掘速度快、占用最大内存少的优点。另外,方法在运行时间上具有更好的稳定性和可扩展性,而在占用最大内存上的稳定性与可扩展性与传统方法基本相近。该方法有助于移动轨迹模式挖掘方法提升挖掘速度、减少占用最大内存。
    基于船舶自动识别系统信息和Hough变换的海上船舶航道提取
    陈宏昆, 察豪, 刘立国, 孟薇
    2018, 38(11):  3332-3335.  DOI: 10.11772/j.issn.1001-9081.2018040841
    摘要 ( )   PDF (771KB) ( )  
    参考文献 | 相关文章 | 计量指标
    对远海大面积海域进行航道提取,由于缺少连续的船舶航行数据,传统轨迹聚类算法不再适用。针对该问题,提出了一种利用Hough变换提取船舶航道的方法。基于船舶自动识别系统(AIS)数据,对监视海域划分网格,分析海上船舶密度分布;针对网格大小影响密度分布分辨力问题,采用中值滤波和形态学滤波对船舶密度分布进行修正。基于此利用Hough变换和核密度估计结合的方法提取海上船舶航道,估计航道宽度,用真实历史AIS数据对该方法进行实验验证。实验结果表明:轨迹聚类算法无法提取船舶密度较低区域的航道,轨迹簇内的船舶轨迹数量占该区域轨迹总数的29.81%;而所提方法提取的航道内轨迹数量占比达95.89%,证明了所提方法的有效性。
    基于树结构长短期记忆神经网络的金融时间序列预测
    姚小强, 侯志森
    2018, 38(11):  3336-3341.  DOI: 10.11772/j.issn.1001-9081.2018040742
    摘要 ( )   PDF (941KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统方法对多噪声、非线性的时间序列无法进行有效预测的问题,以多尺度特征融合为切入点,提出并验证了基于树结构长短期记忆(LSTM)神经网络的预测方法。首先,提出了实现预测目标的核心方法,并分析了方法的内在优势;其次,构建了基于树结构长短期记忆神经网络的预测模型;最后,基于最近十年的国际黄金现货交易数据对模型进行了验证。实验结果表明,所提算法预测准确率高出最小成功率近10个百分点,证实了所提方法的有效性。
    基于因子图算法的INS/GPS信息滞后处理方法
    高军强, 汤霞清, 张环, 郭理彬
    2018, 38(11):  3342-3347.  DOI: 10.11772/j.issn.1001-9081.2018040814
    摘要 ( )   PDF (963KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对全球定位系统(GPS)信息滞后导致惯性导航系统(INS)/GPS组合导航系统实时性差的问题,利用因子图算法可以在一个信息融合时刻处理各信息源不同时刻量测信息的特点,提出了一种INS/GPS信息滞后处理方法。在系统接收到GPS信息之前,因子图模型中只添加关于INS信息的因子节点,经增量推理求出组合导航结果,保证系统的实时性。待系统接收到GPS信息之后,再将关于GPS信息的因子节点添加到因子图模型中,修正INS误差,从而保证系统长时间高精度运行。仿真结果表明,当上一时刻实时导航状态量对INS误差修正效果随GPS信息滞后时间变长而逐渐变差时,可以采用上一时刻刚刚完成量测更新的导航状态量实现INS误差的有效修正。因子图算法在保证系统精度的前提下,避免了GPS信息滞后对INS/GPS组合导航系统实时性的不良影响。
    基于全卷积网络和条件随机场的宫颈癌细胞学图像的细胞核分割
    刘一鸣, 张鹏程, 刘祎, 桂志国
    2018, 38(11):  3348-3354.  DOI: 10.11772/j.issn.1001-9081.2018050988
    摘要 ( )   PDF (1095KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对宫颈癌细胞学筛查中由于宫颈细胞核形状复杂多样等因素而导致分割不够精确的问题,提出了一种结合了全卷积网络(FCN)和全连接条件随机场(CRF)的细胞核分割方法。首先,根据Herlev数据集的特点搭建微型全卷积网络(T-FCN),利用细胞核区域像素级别的类别先验信息,自主学习多层次特征来获取细胞核的粗分割结果;然后,通过最小化包含有整幅细胞图像中所有像素类别、像素色彩值与位置等信息的全连接CRF的能量函数来剔除粗分割结果中微小的误分割,并细化分割边缘。在Herlev数据集上的实验结果显示,提出的方法在查准率(Precision)、查全率(Recall)与Zijdenbos相似性指数(ZSI)上均有高于0.9的表现,表明得到的细胞核分割结果与其真实轮廓高度匹配,分割精确。相较于传统方法中对异常细胞核的分割精度较正常细胞核低的情况,提出的方法在异常细胞核的分割指标上普遍优于正常细胞核。
2024年 44卷 3期
刊出日期: 2024-03-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会