栏目文章信息

    第七届中国数据挖掘会议(CCDM 2018) 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于迁移学习的分层注意力网络情感分析算法
    曲昭伟, 王源, 王晓茹
    计算机应用    2018, 38 (11): 3053-3056.   DOI: 10.11772/j.issn.1001-9081.2018041363
    摘要979)      PDF (759KB)(834)    收藏
    文本情感分析的目的是判断文本的情感类型。传统的基于神经网络的研究方法主要依赖于无监督训练的词向量,但这些词向量无法准确体现上下文语境关系;常用于处理情感分析问题的循环神经网络(RNN),模型参数众多,训练难度较大。为解决上述问题,提出了基于迁移学习的分层注意力神经网络(TLHANN)的情感分析算法。首先利用机器翻译任务训练一个用于在上下文中理解词语的编码器;然后,将这个编码器迁移到情感分析任务中,并将编码器输出的隐藏向量与无监督训练的词向量结合。在情感分析任务中,使用双层神经网络,每层均采用简化的循环神经网络结构——最小门单元(MGU),有效减少了参数个数,并引入了注意力机制提取重要信息。实验结果证明,所提算法的分类准确率与传统循环神经网络算法、支持向量机(SVM)算法相比分别平均提升了8.7%及23.4%。
    参考文献 | 相关文章 | 多维度评价
    2. 融合微博情感分析和深度学习的宏观经济预测方法
    赵军豪, 李玉华, 霍林, 李瑞轩, 辜希武
    计算机应用    2018, 38 (11): 3057-3062.   DOI: 10.11772/j.issn.1001-9081.2018041346
    摘要545)      PDF (994KB)(677)    收藏
    现代市场经济快速发展的同时也伴随着较高的风险,通过对地区投资情况提前预测,能够提前发现投资风险,为国家、企业的投资决策提供参考。针对宏观经济预测中统计数据滞后和内部关系复杂的问题,提出融合情感分析和深度学习的预测方法(SA-LSTM)。首先考虑微博的强时效性,确定了微博爬取和情感分析的方法,得到微博情感分析的分值,进而结合政府统计的结构化经济指标和长短期记忆神经网络,实现地区投资总额预测。经过实际数据计算验证,在四个数据集上,与不加入微博情感分析的LSTM网络相比,SA-LSTM能够降低预测相对误差4.95,0.92,1.21,0.66个百分点;与差分自回归移动平均模型(ARIMA)、线性回归(LR)、反向传播(BP)神经网络、长短期记忆(LSTM)网络四个方法中的最优方法相比能够降低相对误差0.06,0.92,0.94,0.66个百分点。另外,SA-LSTM在多个时间片上,预测相对误差的方差最小,表明所提方法具有很好的鲁棒性,对数据抖动有良好的适应性。
    参考文献 | 相关文章 | 多维度评价
    3. 基于分层注意力机制的神经网络垃圾评论检测模型
    刘雨心, 王莉, 张昊
    计算机应用    2018, 38 (11): 3063-3068.   DOI: 10.11772/j.issn.1001-9081.2018041356
    摘要488)      PDF (1130KB)(576)    收藏
    针对现有垃圾评论识别方法很难揭示用户评论的潜在语义信息这一问题,提出一种基于层次注意力的神经网络检测(HANN)模型。该模型主要由以下两部分组成:Word2Sent层,在词向量表示的基础上,采用卷积神经网络(CNN)生成连续的句子表示;Sent2Doc层,基于上一层产生的句子表示,使用注意力池化的神经网络生成文档表示。生成的文档表示直接作为垃圾评论的最终特征,采用softmax分类器分类。此模型通过完整地保留评论的位置和强度特征,并从中提取重要的和综合的信息(文档任何位置的历史、未来和局部上下文),挖掘用户评论的潜在语义信息,从而提高垃圾评论检测准确率。实验结果表明,与仅基于神经网络的方法相比,该模型准确率平均提高5%,分类效果显著改善。
    参考文献 | 相关文章 | 多维度评价
    4. 基于Spark的并行FP-Growth算法优化及实现
    顾军华, 武君艳, 许馨匀, 谢志坚, 张素琪
    计算机应用    2018, 38 (11): 3069-3074.   DOI: 10.11772/j.issn.1001-9081.2018041219
    摘要971)      PDF (928KB)(633)    收藏
    为了进一步提高在Spark平台上的频繁模式增长(FP-Growth)算法执行效率,提出一种新的基于Spark的并行FP-Growth算法——BFPG。首先,从频繁模式树(FP-Tree)规模大小和分区计算量对F-List分组策略进行改进,保证每个分区负载总和近似相等;然后,通过创建列表P-List对数据集划分策略进行优化,减少遍历次数,降低时间复杂度。实验结果表明,BFPG算法提高了并行FP-Growth算法挖掘效率,且算法具有良好的扩展性。
    参考文献 | 相关文章 | 多维度评价
    5. 基于CNN和BiLSTM网络特征融合的文本情感分析
    李洋, 董红斌
    计算机应用    2018, 38 (11): 3075-3080.   DOI: 10.11772/j.issn.1001-9081.2018041289
    摘要2957)      PDF (906KB)(1711)    收藏
    卷积神经网络(CNN)和循环神经网络(RNN)在自然语言处理上得到广泛应用,但由于自然语言在结构上存在着前后依赖关系,仅依靠卷积神经网络实现文本分类将忽略词的上下文含义,且传统的循环神经网络存在梯度消失或梯度爆炸问题,限制了文本分类的准确率。为此,提出一种卷积神经网络和双向长短时记忆(BiLSTM)特征融合的模型,利用卷积神经网络提取文本向量的局部特征,利用BiLSTM提取与文本上下文相关的全局特征,将两种互补模型提取的特征进行融合,解决了单卷积神经网络模型忽略词在上下文语义和语法信息的问题,也有效避免了传统循环神经网络梯度消失或梯度弥散问题。在两种数据集上进行对比实验,实验结果表明,所提特征融合模型有效提升了文本分类的准确率。
    参考文献 | 相关文章 | 多维度评价
    6. 基于评分可靠性的跨域个性化推荐方法
    曲立平, 吴家喜
    计算机应用    2018, 38 (11): 3081-3083.   DOI: 10.11772/j.issn.1001-9081.2018041390
    摘要521)      PDF (589KB)(378)    收藏
    在跨域推荐系统中,存在某些用户对所购买的物品进行随意评分的情况。由于对物品进行随意评分的用户的数量较少,当该物品的评分数量较多时随意评分对推荐效果的影响较小,但是当该物品的评分数量较少时,随意评分会对推荐效果产生较大的影响。针对这个问题,提出一种基于评分可靠性的跨域个性化推荐方法。该方法针对不同的评分可靠性,为用户设置不同的阈值。当将辅助域的数据向目标域迁移时,如果用户进行评分的某物品的评分数量低于该用户的阈值,则不将该用户对该物品的评分数据迁移到目标域,否则进行迁移,以此减少随意评分对推荐效果的影响。实验结果表明,整体上,与为所有用户设置统一的阈值和不为用户设置阈值的跨域推荐相比,所提方法具有更高的预测评分的准确度。
    参考文献 | 相关文章 | 多维度评价
    7. 基于词典和弱标注信息的电影评论情感分析
    樊振, 过弋, 张振豪, 韩美琪
    计算机应用    2018, 38 (11): 3084-3088.   DOI: 10.11772/j.issn.1001-9081.2018041245
    摘要738)      PDF (804KB)(691)    收藏
    针对评论文本情感分析研究中数据标注费时费力的问题,提出了一种新的数据自动标注方法。首先,通过基于情感词典的方法计算出评论文本的情感倾向;其次,利用用户评分的弱标注信息和基于词典方法的情感倾向对评论文本自动标注;最后,利用支持向量机(SVM)对评论文本进行情感分类。所提出的数据自动标注方法在两种类型数据集情感分类准确率上分别达到了77.2%和77.8%,相对于单一的利用用户评分对数据标注的方法,分别提高了1.7个百分点和2.1个百分点。实验结果表明,提出的数据自动标注方法在电影评论情感分析中能提高分类效果。
    参考文献 | 相关文章 | 多维度评价
    8. 基于实体相似度信息的知识图谱补全算法
    王子涵, 邵明光, 刘国军, 郭茂祖, 毕建东, 刘扬
    计算机应用    2018, 38 (11): 3089-3093.   DOI: 10.11772/j.issn.1001-9081.2018041238
    摘要1253)      PDF (784KB)(668)    收藏
    为了解决知识图谱的链接预测问题,提出了一种共享变量的神经网络模型(LCPE),该模型通过将实体和关系嵌入到向量空间中实现对链接的预测。通过分析Unstructured Model,推导出在向量空间中两个有关系的实体嵌入距离更近,即相似的实体之间更可能具有关系,LCPE模型将ProjE模型和实体之间的相似度信息进行融合,在判断两个实体是否有关系的基础上判断具体关系类型。三元组预测实验中,LCPE模型在与ProjE模型参数规模相同的情况下,在公开数据集WN18中,正例三元组的平均得分排名(Mean Rank)比ProjE提前了11,而正例三元组在前10名中出现的概率Hit@10比ProjE提升了0.2个百分点;在FB15k中,Mean Rank提前了7.5,Hits@10平均提升了3.05个百分点:证明了LCPE模型能够将实体相似度信息融入ProjE中并有效提升预测准确度。
    参考文献 | 相关文章 | 多维度评价
    9. 基于狄利克雷多项分配模型的多源文本主题挖掘模型
    徐立洋, 黄瑞章, 陈艳平, 钱志森, 黎万英
    计算机应用    2018, 38 (11): 3094-3099.   DOI: 10.11772/j.issn.1001-9081.2018041359
    摘要411)      PDF (1100KB)(458)    收藏
    随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。
    参考文献 | 相关文章 | 多维度评价
    10. 基于线索特征的Web信息时效性评价方法
    徐静, 杨小平
    计算机应用    2018, 38 (11): 3100-3104.   DOI: 10.11772/j.issn.1001-9081.2018041355
    摘要493)      PDF (796KB)(323)    收藏
    网络的快速发展使得在线新闻媒体成为人们获取信息的重要来源。Web站点发布的信息是否能够反映当前关注的热点,是否能够及时发布事件的最新进展情况,对Web站点的可用性有重大影响。在利用条件随机场(CRF)模型识别主题线索句的基础上,得到与Web信息相关的同一主题的线索发展趋势。通过获得的线索发展趋势来推断主题线索的时间区间,进而估计出Web信息的有效区间,在此基础上结合时效性所包含的发布及时性和内容新鲜性两个方面来对Web信息时效性进行合理的评价。实验结果表明,所提方法在Web信息时效性评价上有较好的效果。
    参考文献 | 相关文章 | 多维度评价
    11. 基于粗糙集的数据流多标记分布特征选择
    程玉胜, 陈飞, 王一宾
    计算机应用    2018, 38 (11): 3105-3111.   DOI: 10.11772/j.issn.1001-9081.2018041275
    摘要472)      PDF (1135KB)(416)    收藏
    针对传统特征选择算法无法处理流特征数据、冗余性计算复杂、对实例描述不够准确的问题,提出了基于粗糙集的数据流多标记分布特征选择算法。首先,将在线流特征选择框架引入多标记学习中;其次,用粗糙集中的依赖度替代原有的条件概率,仅仅利用数据自身的信息计算,使得数据流特征选择算法更加高效快捷;最后,由于在现实世界中,每个标记对实例的描述程度并不相同,为更加准确地描述实例,将传统的逻辑标记用标记分布的形式进行刻画。在多组数据集上的实验表明,所提算法能保留与标记空间有着较高相关性的特征,使得分类精度相较于未进行特征选择的有一定程度的提高。
    参考文献 | 相关文章 | 多维度评价
    12. 面向 K最近邻分类的遗传实例选择算法
    黄宇扬, 董明刚, 敬超
    计算机应用    2018, 38 (11): 3112-3118.   DOI: 10.11772/j.issn.1001-9081.2018041337
    摘要398)      PDF (1063KB)(339)    收藏
    针对传统的实例选择算法会误删训练集中非噪声样本、算法效率低的不足,提出了一种面向 K最近邻( KNN)的遗传实例选择算法。该算法采用基于决策树和遗传算法的二阶段筛选机制,先使用决策树确定噪声样本存在的范围;再使用遗传算法在该范围内精确删除噪声样本,可有效地降低误删率并提高效率,采用基于最近邻规则的验证集选择策略,进一步提高了遗传算法实例选择的准确度;最后引进基于均方误差(MSE)的分类精度惩罚函数来计算遗传算法中个体的适应度,提高有效性和稳定性。在20个数据集上,该方法相较于基于预分类的 KNN (PR KNN)、基于协同进化的实例特征选择算法(IFS-CoCo)、 K最近邻( KNN),在分类精度上的提升分别为0.07~26.9个百分点、0.03~11.8个百分点、0.2~12.64个百分点,在AUC和Kappa的上的提升分别为0.25~18.32个百分点、1.27~23.29个百分点、0.04~12.82个百分点。实验结果表明,该方法相较于当前实例选择算法在分类精度和分类效率上均具有优势。
    参考文献 | 相关文章 | 多维度评价
    13. 调整聚类假设联合成对约束半监督分类方法
    黄华, 郑佳敏, 钱鹏江
    计算机应用    2018, 38 (11): 3119-3126.   DOI: 10.11772/j.issn.1001-9081.2018041220
    摘要382)      PDF (1174KB)(445)    收藏
    当不同类别的样本严重重叠在分类边界时,由于聚类假设不能很好地反映出数据的真实分布,基于聚类假设的半监督分类方法的性能,可能比与之对立的监督分类方法更差。针对上述不安全的半监督分类问题,提出了调整聚类假设联合成对约束半监督分类方法(ACA-JPC-S3VM)。一方面,它将单个未标记样本到数据分布边界的距离融入到模型的学习中,能够一定程度上缓解此类情况下算法性能的下降程度;另一方面,它将成对约束信息引入,弥补了模型对监督信息利用方面的不足。在UCI数据集上的实验结果表明,ACA-JPC-S3VM方法的性能绝不会低于支持向量机(SVM),且在标记样本数量为10时的平均准确率较SVM高出5个百分点;在图像分类数据集上的实验结果表明,直推式支持向量机(TSVM)等半监督分类方法出现了不同程度的不安全学习情形(即性能相近或低于SVM),而ACA-JPC-S3VM却能安全地学习。因此,ACA-JPC-S3VM具有更好的安全性与正确性。
    参考文献 | 相关文章 | 多维度评价
    14. 基于用户行为特征的多维度文本聚类
    黎万英, 黄瑞章, 丁志远, 陈艳平, 徐立洋
    计算机应用    2018, 38 (11): 3127-3131.   DOI: 10.11772/j.issn.1001-9081.2018041357
    摘要904)      PDF (970KB)(483)    收藏
    传统多维度文本聚类一般是从文本内容中提取特征,而很少考虑数据中用户与文本的交互信息(如:点赞、转发、评论、关注、引用等行为信息),且传统的多维度文本聚类主要是将多个空间维度线性结合,没能深入考虑每个维度中属性间的关系。为有效利用与文本相关的用户行为信息,提出一种结合用户行为信息的多维度文本聚类模型(MTCUBC)。根据文本间的相似性在不同空间上应该保持一致的原则,该模型将用户行为信息作为文本内容聚类的约束来调节相似度,然后结合度量学习方法来改善文本间的距离,从而提高聚类效果。通过实验表明,与线性结合的多维度聚类相比,MTCUBC模型在高维稀疏数据中表现出明显的优势。
    参考文献 | 相关文章 | 多维度评价
    15. 基于模拟退火与贪心策略的平衡聚类算法
    唐海波, 林煜明, 李优, 蔡国永
    计算机应用    2018, 38 (11): 3132-3138.   DOI: 10.11772/j.issn.1001-9081.2018041338
    摘要519)      PDF (1065KB)(462)    收藏
    针对现实应用通常要求聚类的结果相对平衡的问题,提出了一种基于模拟退火与贪心策略的平衡聚类算法(BCSG),该算法包括基于模拟退火的初始点选择算法(SACI)与基于贪心策略的平衡聚类算法(BCGS)2个步骤,以提高平衡聚类算法的聚类效果与时间性能。首先基于模拟退火在数据集中快速定位出 K个合适的数据点作为平衡聚类初始点,然后每个中心点分阶段贪婪地将距离其最近的数据点加入簇中直至达到簇规模上限。在6个UCI真实数据集与2个公开图像数据集上进行的聚类对比实验结果表明:在簇数目较大时相比Fuzzy C-Means聚类结果平衡度最高提升了50%以上;聚类结果的准确率相比Balanced K-Means、BCLS两个表现较好的算法平均提高了8个百分点;算法时间复杂度也更低,在较大规模的数据集上运行时间比Balanced K-Means最高减少了近40%。实验结果表明BCSG具有更佳的聚类效果和时间性能。
    参考文献 | 相关文章 | 多维度评价
    16. 基于主动学习先验的半监督 K-means聚类算法
    柴变芳, 吕峰, 李文斌, 王垚
    计算机应用    2018, 38 (11): 3139-3143.   DOI: 10.11772/j.issn.1001-9081.2018041251
    摘要732)      PDF (827KB)(399)    收藏
    基于迭代框架的主动半监督聚类框架(IASSCF)是一个流行的半监督聚类框架。该框架存在两个问题:其一,初始先验信息较少导致迭代初期聚类效果不佳,进而影响后续聚类结果;其二,每次迭代只选择信息量最大的一个样本标记,导致运行速度慢、性能提升慢。针对这两个问题,设计了一种基于主动学习先验的半监督K-means聚类算法。该方法包含初始化阶段和迭代阶段。初始化阶段主动选择代表性较高的节点集合,并基于代表节点集合构建各类的先验节点集合和约束先验集合。迭代阶段,每次迭代包含三步:1)基于当前约束先验集合,利用约束半监督聚类算法PC K-means对数据进行聚类;2)依据当前聚类结果,主动选择每个簇中最具价值信息的未标注样本点;3)利用选择样本点扩充先验节点集合及约束集合。迭代此过程至达到收敛阈值。实验结果表明,与基于原IASSCF框架的半监督K-means聚类算法相比,所提算法运行速度更快,性能更优。
    参考文献 | 相关文章 | 多维度评价
    17. 规则半自动学习的概率软逻辑推理模型
    张嘉, 张晖, 赵旭剑, 杨春明, 李波
    计算机应用    2018, 38 (11): 3144-3149.   DOI: 10.11772/j.issn.1001-9081.2018041308
    摘要699)      PDF (1047KB)(550)    收藏
    概率软逻辑(PSL)作为一种基于声明式规则的概率模型,具有极强的扩展性和多领域适应性,目前为止,它需要人为给出大量的常识和领域知识作为规则确立的先决条件,这些知识的获取往往非常昂贵并且其中包含的不正确的信息可能会影响推理的正确性。为了缓解这种困境,将C5.0算法和概率软逻辑相结合,让数据和知识共同驱动推理模型,提出了一种规则半自动学习方法。该方法利用C5.0算法提取规则,再辅以人工规则和优化调节后的规则作为改进的概率软逻辑输入。实验结果表明,在学生成绩预测问题上所提方法比C5.0算法和没有规则学习的概率软逻辑具有更高的精度;和纯手工定义规则的方法相比,所提方法能大幅降低人工成本;和贝叶斯网络(BN)、支持向量机(SVM)等算法相比,该方法也表现出不错的效果。
    参考文献 | 相关文章 | 多维度评价
    18. 基于增强特征判别性的典型相关分析和分类集成的助学金预测方法
    张芳娟, 杨燕, 杜圣东
    计算机应用    2018, 38 (11): 3150-3155.   DOI: 10.11772/j.issn.1001-9081.2018041259
    摘要342)      PDF (893KB)(348)    收藏
    针对高校资助管理办法效率低下、工作量大等问题,提出一种增强特征判别性的典型相关分析(EN-DCCA)方法,并结合分类集成方法实现高校学生助学金预测。将学生在校多维度数据划分为两个不同视图,已有的各种多视图判别典型相关分析算法没有综合考虑视图类别之间的相关性和视图组合特征的判别性两者因素。EN-DCCA的优化目标在最大化类内相关的同时最小化类间相关,并且考虑了视图组合特征的判别性,进一步强化了属性的判别性能,更有利于分类预测。高校学生助学金预测的实现过程:首先,根据学生生活行为和学习表现将数据预处理为两个不同视图,然后用EN-DCCA方法对这两个视图数据进行特征学习,最后用分类集成方法完成预测。在真实的数据集上进行实验,所提方法的预测准确率达到90.01%,较增强视图组合特征判别性的典型相关分析(CECCA)的集成方法提高了2个百分点,实验结果表明,所提方法能有效实现高校助学金预测。
    参考文献 | 相关文章 | 多维度评价
    19. 基于多目标骨架粒子群优化的特征选择算法
    张翠军, 陈贝贝, 周冲, 尹心歌
    计算机应用    2018, 38 (11): 3156-3160.   DOI: 10.11772/j.issn.1001-9081.2018041358
    摘要498)      PDF (908KB)(363)    收藏
    针对在分类问题中,数据之间存在大量的冗余特征,不仅影响分类的准确性,而且会降低分类算法执行速度的问题,提出了一种基于多目标骨架粒子群优化(BPSO)的特征选择算法,以获取在特征子集个数与分类精确度之间折中的最优策略。为了提高多目标骨架粒子群优化算法的效率,首先使用了一个外部存档,用来引导粒子的更新方向;然后通过变异算子,改善粒子的搜索空间;最后,将多目标骨架粒子群算法应用到特征选择问题中,并利用 K近邻( KNN)分类器的分类性能和特征子集的个数作为特征子集的评价标准,对UCI数据集以及基因表达数据集的12个数据集进行实验。实验结果表明,所提算法选择的特征子集具有较好的分类性能,最小分类错误率最大可以降低7.4%,并且分类算法的执行时间最多能缩短12 s,能够有效提高算法的分类性能与执行速度。
    参考文献 | 相关文章 | 多维度评价
    20. 基于孪生网络和重排序的行人重识别
    陈首兵, 王洪元, 金翠, 张玮
    计算机应用    2018, 38 (11): 3161-3166.   DOI: 10.11772/j.issn.1001-9081.2018041223
    摘要1194)      PDF (904KB)(792)    收藏
    针对非重叠多摄像头下的行人重识别(Re-ID)易受到光照、姿势及遮挡等影响和实验过程中存在图像错误匹配的情况,提出一种基于孪生网络和重排序的行人重识别方法。首先,给定一对行人训练图像,孪生网络可以同时学习一个具有辨别力的卷积神经网络(CNN)特征和相似性度量,并预测两个输入图像的行人身份以及判断它们是否属于同一个行人;然后,通过k互近邻方法来降低图像错误匹配的情况;最后,将欧氏距离和杰卡德距离加权来对排序表进行重排序。在数据集Market1501和CUHK03上进行多次实验,实验结果显示在Market1501上Single Query情况下在图库中第一次就成功匹配的概率(Rank1)达到83.44%,平均精度均值(mAP)为68.75%,在CUHK03上single-shot情况下Rank1达到85.56%,mAP为88.32%,明显高于传统的基于特征表示和度量学习的方法。
    参考文献 | 相关文章 | 多维度评价
    21. 基于拉普拉斯评分的多标记特征选择算法
    胡敏杰, 林耀进, 王晨曦, 唐莉, 郑荔平
    计算机应用    2018, 38 (11): 3167-3174.   DOI: 10.11772/j.issn.1001-9081.2018041354
    摘要1139)      PDF (1178KB)(430)    收藏
    针对传统的拉普拉斯评分特征选择算法只适应单标记学习,无法直接应用于多标记学习的问题,提出一种应用于多标记任务的拉普拉斯评分特征选择算法。首先,考虑样本在整体标记空间中共同关联和共同不关联的相关性,重新构建样本相似度矩阵;然后,将特征之间的相关性及冗余性判定引入拉普拉斯评分算法中,采用前向贪心搜索策略依次评价候选特征与已选特征的联合作用能力,用于评价特征的重要性;最后,在5个不同评价指标和6个多标记数据集上实验。实验结果表明:相比基于最大依赖的多标记维数约简方法(MDDM)、基于贝叶斯分类器的多标记特征选择算法(MLNB)及基于多元互信息的多标记分类特征选择算法(PMU),所提算法不仅分类性能最优,且存在显著性优异达65%。
    参考文献 | 相关文章 | 多维度评价
    22. 基于深度置信网络Otsu混合模型的自动云检测算法
    邱梦, 尹浩宇, 陈强, 刘颖健
    计算机应用    2018, 38 (11): 3175-3179.   DOI: 10.11772/j.issn.1001-9081.2018041350
    摘要480)      PDF (996KB)(373)    收藏
    地球表面一半以上被云覆盖,卫星遥感图像中的云检测主要是人工检测识别或者半自动化方法,依赖人工干预,效率不高,难以满足实时或准实时应用的需要。为了提高卫星遥感数据的可用性,基于深度置信网络(DBN)和最大类间方差法,提出一种自动云检测算法——DOHM。该算法采用自适应阈值代替人工标定阈值,实现云检测的全自动化,将云检测的正确率提高到95%以上;DOHM算法选取了维度为9的特征向量作为检测网络的输入,输入特征向量的多样性,有利于网络更全面有效地捕捉到云的特点。
    参考文献 | 相关文章 | 多维度评价
    23. 基于NARX神经网络的热负荷预测中关键影响因素分析
    谢吉洋, 闫冬, 谢垚, 马占宇
    计算机应用    2018, 38 (11): 3180-3187.   DOI: 10.11772/j.issn.1001-9081.2018041222
    摘要589)      PDF (1202KB)(448)    收藏
    在区域供热(DH)网络中,精确预测热负荷已被认为是提高效率和节省成本的重要环节。为了提高预测精度,研究不同影响因素对热负荷预测的影响极为重要。使用引入不同影响因素的数据集训练得到带外部输入的非线性自回归(NARX)神经网络模型,并比较其预测性能,以讨论直接太阳辐射和风速对热负荷预测的影响程度。实验结果表明,直接太阳辐射和风速都是热负荷预测中的关键影响因素。只引入风速时,预测模型的平均绝对百分比误差(MAPE)和均方根误差(RMSE)均低于只引入直接太阳辐射,同时引入风速和直接太阳辐射能够得到最佳的模型预测性能,但是对于MAPE和RMSE降低的贡献不大。
    参考文献 | 相关文章 | 多维度评价
    24. 规则网格数字高程模型中基于距离与坡度的路径规划算法
    张润莲, 张鑫, 张楚芸, 奚玉昂
    计算机应用    2018, 38 (11): 3188-3192.   DOI: 10.11772/j.issn.1001-9081.2018041340
    摘要455)      PDF (985KB)(331)    收藏
    针对A *算法在数字高程模型(DEM)路径规划中的低效问题,提出一种基于距离与坡度的改进A *寻路算法。该算法面向规则网格DEM,以距离和坡度作为路径搜索评估指标,设计新的评价函数,并以地表障碍评判路径的可通行性。在寻路过程中,根据实际场景DEM数据计算相匹配的参数,使得改进算法能自适应不同场景下DEM数据分辨率的变化;采用动态权值调整完备性函数和启发性函数对评价结果的影响,优化路径选择。仿真测试结果表明,改进算法能够通过参数调整适应DEM分辨率的变化,搜索出优化的路径,降低搜索时间,提高搜索效率。
    参考文献 | 相关文章 | 多维度评价
    25. 基于极端学习机的人脸特征深度稀疏自编码方法
    张欢欢, 洪敏, 袁玉波
    计算机应用    2018, 38 (11): 3193-3198.   DOI: 10.11772/j.issn.1001-9081.2018041274
    摘要454)      PDF (1002KB)(323)    收藏
    针对输入人脸特征的不准确性导致识别系统识别率不高的问题,提出了一种有效的基于极端学习机(ELM)的人脸特征深度稀疏自编码(DSAE)方法。首先,利用截断式核范数构造损失函数,通过最小化损失函数提取人脸图像的稀疏特征;其次,利用极端学习机自编码器(ELM-AE)模型进行人脸特征的自编码,实现数据维度的降低以及噪声过滤;最后,通过经验风险极小化得到最优的深度结构。在ORL、IMM、Yale和UMIST人脸数据集上的实验结果表明,DSAE方法对高维人脸图像的识别率明显优于极端学习机、随机森林(RF)等算法,且具有良好的泛化性能。
    参考文献 | 相关文章 | 多维度评价
    26. 基于迁移学习与多标签平滑策略的图像自动标注
    汪鹏, 张奥帆, 王利琴, 董永峰
    计算机应用    2018, 38 (11): 3199-3203.   DOI: 10.11772/j.issn.1001-9081.2018041349
    摘要758)      PDF (960KB)(590)    收藏
    针对图像标注数据集标签分布不平衡问题,提出了基于标签平滑策略的多标签平滑单元(MLSU)。MLSU在网络模型训练过程中自动平滑数据集中的高频标签,使网络适当提升了低频标签的输出值,从而提升了低频标注词的标注性能。为解决图像标注数据集样本数量不足造成网络过拟合的问题,提出了基于迁移学习的卷积神经网络(CNN)模型。首先利用互联网上的大型公共图像数据集对深度网络进行预训练,然后利用目标数据集对网络参数进行微调,构建了一个多标签平滑卷积神经网络模型(CNN-MLSU)。分别在Corel5K和IAPR TC-12图像标注数据集上进行实验,在Corel5K数据集上,CNN-MLSU较卷积神经网络回归方法(CNN-R)的平均准确率与平均召回率分别提升了5个百分点和8个百分点;在IAPR TC-12数据集上,CNN-MLSU较两场 K最邻近模型(2P KNN_ML)的平均召回率提升了6个百分点。实验结果表明,基于迁移学习的CNN-MLSU方法能有效地预防网络过拟合,同时提升了低频词的标注效果。
    参考文献 | 相关文章 | 多维度评价
    27. 基于频繁模式发现的时间序列异常检测方法
    李海林, 邬先利
    计算机应用    2018, 38 (11): 3204-3210.   DOI: 10.11772/j.issn.1001-9081.2018041252
    摘要1052)      PDF (1091KB)(516)    收藏
    针对传统异常片段检测方法在处理增量式时间序列时效率低的问题,提出一种基于频繁模式发现的时间序列异常检测(TSAD)方法。首先,将历史输入的时间序列数据进行符号转化;其次,利用符号化特征找出历史序列数据集中的频繁模式;最后,结合最长公共子序列匹配方法度量频繁模式与当前新增加时间序列数据之间的相似度,从而发现新增加数据中的异常模式。与基于滑动窗口预测的水文时间序列异常检测方法(TSOD)和基于扩展符号聚集近似的水文时间序列异常挖掘方法(ESAA)相比,对于实验选择的三种类型的时间序列数据,TSAD的检测率都超过90%;TSOD对规则性较强的序列检测率较高,能达到99%,但对噪声干扰较大的序列检测率较低,对数据偏向性较强;ESAA对三种类型的数据检测率均不超过70%。实验结果表明,TSAD在时间序列异常检测中能够较好地发现异常片段。
    参考文献 | 相关文章 | 多维度评价
    28. 基于深度学习的虚拟边界检测方法
    赖传滨, 韩越兴, 顾辉, 王冰
    计算机应用    2018, 38 (11): 3211-3215.   DOI: 10.11772/j.issn.1001-9081.2018041347
    摘要685)      PDF (875KB)(432)    收藏
    针对传统边缘检测方法无法对材料微观图像中不同区域间存在的"虚拟边界"(VB)进行准确检测的问题,提出一种基于卷积神经网络(CNN)的虚拟边界检测模型,称之为"虚拟边界网络"(VBN)。该模型对VGGNet深度学习模型进行了简化,并在模型训练过程中采用了dropout以及Adam算法等优化策略。VBN以图像中每个像素为中心所取的图像块作为输入,然后输出该图像块所属的类别并据此判断中心像素是否属于虚拟边界。在对两类材料图像进行虚拟边界检测的实验中,VBN的平均检测精度到达92.5%,平均召回率达到89.5%,证明该模型能够准确、有效地对图像中的虚拟边界进行检测,是一种替代低效率人工分析方法的有效手段。
    参考文献 | 相关文章 | 多维度评价
    29. 基于语义感知的图像美学质量评估方法
    杨文雅, 宋广乐, 崔超然, 尹义龙
    计算机应用    2018, 38 (11): 3216-3220.   DOI: 10.11772/j.issn.1001-9081.2018041221
    摘要608)      PDF (866KB)(480)    收藏
    当前图像美学质量评估的研究主要基于图像的视觉内容来给出评价结果,忽视了美感是人的认知活动的事实,在评价时没有考虑用户对图像语义信息的理解。为了解决这一问题,提出了一种基于语义感知的图像美学质量评估方法,将图像的物体类别信息以及场景类别信息也用于图像美学质量评估。运用迁移学习的思想,构建了一种可以融合图像多种特征的混合网络。对于每一幅输入图像,该网络可以分别提取出其物体类别特征、场景类别特征以及美学特征,并将这三种特征进行高质量的融合,以达到更好的图像美学质量评估效果。该方法在AVA数据集上的分类准确率达到89.5%,相对于传统方法平均提高了19.9%,在CUHKPQ数据集上的泛化性能也有了很大提升。实验结果表明,所提方法在图像美学质量评估问题上,能够取得更好的分类性能。
    参考文献 | 相关文章 | 多维度评价
    30. 基于模型过滤的多任务回归在帕金森症预测中的应用
    刘峰, 季薇, 李云
    计算机应用    2018, 38 (11): 3221-3224.   DOI: 10.11772/j.issn.1001-9081.2018041329
    摘要449)      PDF (750KB)(410)    收藏
    传统基于语音的帕金森症(PD)病情预测方法则是分别预测运动症状评分(motor-UPDRS)和总体症状评分(total-UPDRS)。为解决在单任务预测过程中,传统方法无法利用任务之间的共享信息和预测性能不佳的问题,提出了一种基于模型过滤的多任务回归方法来预测帕金森症患者的motor-UPDRS和total-UPDRS。首先,考虑到子任务语音特征对预测motor-UPDRS和total-UPDRS不同的影响,添加L1正则化项进行特征选择;其次,在构建模型的同时,根据不同帕金森患者对象分布在不同的域,添加了过滤机制,来提高预测精度。在远程帕金森数据集仿真实验中,基于模型过滤的多任务回归方法在预测UPDRS时,较单任务条件下最小二乘法(LS)模型预测motor值准确度提高了67.2%,预测total值则提高了83.3%;相比单任务条件下决策回归树(CART)模型预测motor值提高了64%,预测total值则提高了78.4%。实验结果表明,基于模型过滤的多任务回归算法对UPDRS预测要优于单任务回归算法。
    参考文献 | 相关文章 | 多维度评价
    31. 基于布谷鸟搜索和深度信念网络的肺部肿瘤图像识别算法
    杨健, 周涛, 郭丽芳, 张飞飞, 梁蒙蒙
    计算机应用    2018, 38 (11): 3225-3230.   DOI: 10.11772/j.issn.1001-9081.2018041244
    摘要406)      PDF (957KB)(309)    收藏
    针对深度信念网络(DBN)权值随机初始化易使网络陷入局部最优的问题,在传统DBN模型中引入布谷鸟搜索(CS)算法,提出一种基于CS-DBN的肺部肿瘤图像识别算法。首先,利用CS的全局寻优能力对DBN的初始权值进行优化,并在此基础上进行DBN的逐层预训练;然后,利用反向传播(BP)算法对整个网络进行微调,从而使网络权值达到最优;最后,将CS-DBN应用于肺部肿瘤图像的识别,实验从受限玻尔兹曼机(RBM)训练次数、训练批次大小、DBN隐层层数和隐层节点数四个角度将CS-DBN与传统DBN进行比较,以验证该算法的可行性和有效性。实验结果表明,CS-DBN的识别精度明显高于传统DBN,在不同RBM训练次数、训练批次大小、DBN隐层层数和隐层节点数条件下,CS-DBN较传统DBN识别率提高百分点的范围分别是1.13~4.33、2.00~3.34、1.07~3.34和1.40~3.34。CS-DBN能够在一定程度上提高肺部肿瘤的识别精度,从而提高肺部肿瘤计算机辅助诊断性能。
    参考文献 | 相关文章 | 多维度评价
    32. 改进的飞蛾扑火优化算法在网络入侵检测系统中的应用
    徐慧, 方策, 刘翔, 叶志伟
    计算机应用    2018, 38 (11): 3231-3235.   DOI: 10.11772/j.issn.1001-9081.2018041315
    摘要588)      PDF (900KB)(410)    收藏
    针对当前网络入侵检测中的数据量较大、数据维度较高的特点,将飞蛾扑火优化(MFO)算法应用于网络入侵检测的特征选择中。鉴于MFO算法收敛过快、易陷入局部最优的问题,提出一种融合粒子群优化(PSO)的二进制飞蛾扑火优化(BPMFO)算法。该算法引入MFO螺旋飞行公式,具有较强的局部搜索能力;结合了粒子群优化(PSO)算法的速度更新方法,让种群个体随着全局最优解和历史最优解的方向移动,增强算法的全局收敛性,从而避免易陷入局部最优。仿真实验以KDD CUP 99数据集为实验基础,分别采用支持向量机(SVM)、 K最近邻( KNN)算法和朴素贝叶斯(NBC)3种分类器,与二进制飞蛾扑火优化(BMFO)算法、二进制粒子群优化(BPSO)算法、二进制遗传算法(BGA)、二进制灰狼优化(BGWO)算法和二进制布谷鸟搜索(BCS)算法进行了实验对比。实验结果表明,BPMFO算法应用于网络入侵检测的特征选择时,在算法精度、运行效率、稳定性、收敛速度以及跳出局部最优的综合性能上具有明显优势。
    参考文献 | 相关文章 | 多维度评价
    33. 基于深度卷积神经网络的色素性皮肤病识别分类
    何雪英, 韩忠义, 魏本征
    计算机应用    2018, 38 (11): 3236-3240.   DOI: 10.11772/j.issn.1001-9081.2018041224
    摘要781)      PDF (810KB)(698)    收藏
    针对当前皮肤病识别分类面临的两个主要问题:一是由于皮肤病种类繁多,病灶外观的类间相似度高和类内差异化大,尤其是色素性皮肤病,使得皮肤病的识别分类比较困难;二是皮肤病识别算法模型设计存在一定的局限性,识别率还有待进一步提高。为此,以VGG19模型为基础架构,训练了一个结构化的深度卷积神经网络(CNN),实现了色素性皮肤病的自动分类。首先,采用数据增强(裁剪、翻转、镜像)对数据进行预处理;其次,将在ImageNet上预训练好的模型,迁移至增强后的数据集进行调优训练,训练过程中通过设置Softmax损失函数的权重,增加少数类判别错误的损失,来缓解数据集中存在的类别不平衡问题,提高模型的识别率。实验采用深度学习框架PyTorch,在数据集ISIC2017上进行。实验结果表明,该方法的识别率和敏感性可分别达到71.34%、70.01%,相比未设置损失函数的权重时分别提高了2.84、11.68个百分点,说明该方法是一种有效的皮肤病识别分类方法。
    参考文献 | 相关文章 | 多维度评价
    34. 基于科优先策略的植物图像识别
    曹香滢, 孙卫民, 朱悠翔, 钱鑫, 李晓宇, 业宁
    计算机应用    2018, 38 (11): 3241-3245.   DOI: 10.11772/j.issn.1001-9081.2018041309
    摘要678)      PDF (819KB)(571)    收藏
    植物识别领域的研究包括单一背景和自然环境植物图像识别,由于背景噪声的存在,自然环境植物图像识别难度更大。针对如何降低卷积神经网络(CNN)的权重大小、如何改善过拟合、如何提高模型对自然环境植物的识别率和泛化能力的问题,提出科优先(FP)的植物识别方法。与轻量卷积神经网络MobileNet模型结合,利用迁移学习的方法,建立基于MobileNet的科优先(FP-MobileNet)植物识别模型。单纯使用MobileNet模型在单一背景植物数据集flavia上获得了99.8%的识别率;对于更具挑战的自然环境花卉数据集flower102,在训练集样本数量大于测试集时FP-MobileNet获得了99.56%识别率,在训练集样本数量小于测试集时FP-MobileNet仍获得了95.56%的识别率。实验结果表明,两种数据集划分方案下FP-MobileNet的识别率均高于单纯的MobileNet模型;并且FP-MobileNet模型在获得较高识别率的同时,权重仅占13.7 MB,兼顾了精度和延迟,适合推广到需要轻量模型的移动设备。
    参考文献 | 相关文章 | 多维度评价
2024年 44卷 3期
刊出日期: 2024-03-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会