当期目录

    2021年 第41卷 第1期 刊出日期:2021-01-10
    第八届中国数据挖掘会议(CCDM 2020)
    基于奖励高速路网络的多智能体强化学习中的全局信用分配算法
    姚兴虎, 谭晓阳
    2021, 41(1):  1-7.  DOI: 10.11772/j.issn.1001-9081.2020061009
    摘要 ( )   PDF (1410KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用“中心训练-分散执行”的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet)。通过在原有算法的奖励分配机制上引入奖励高速路连接,将每个智能体的值函数与全局奖励直接建立联系,进而使得每个智能体在进行策略选择时能够综合考虑全局的奖励信号与其自身实际分得的奖励值。首先,在训练过程中,通过中心化的值函数结构对每个智能体进行协调;同时,这一中心化的结构也能起到全局奖励分配的作用;然后,在中心值函数结构中引入奖励高速路链接来辅助进行全局奖励分配,从而构建出奖励高速路网络;之后,在执行阶段,每个智能体的策略仅仅依赖于其自身的值函数。在星际争霸多智能体挑战的微操作场景中的实验结果表明,相比当前较先进的反直觉的策略梯度(Coma)算法和单调Q值函数分解(QMIX)算法,该网络所提出的奖励高速路在4个复杂的地图上的测试胜率提升超过20%。更重要的是,在智能体数量较多且种类不同的3s5z和3s6z场景中,该网络在所需样本数量为QMIX和Coma等算法的30%的情况下便能取得更好的结果。
    图趋势过滤诱导的噪声容错多标记学习模型
    林腾涛, 查思明, 陈蕾, 龙显忠
    2021, 41(1):  8-14.  DOI: 10.11772/j.issn.1001-9081.2020060971
    摘要 ( )   PDF (972KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对多标记学习中特征噪声和标记噪声经常共同出现的问题,提出了一种图趋势过滤诱导的噪声容错多标记学习模型(GNTML)。该模型通过组稀疏约束桥接增强的标记,从而同时容忍特征噪声和标记噪声。模型的关键之处在于标记增强矩阵的学习。为了在混合噪声场景下学习到合理的标记增强矩阵,首先通过引入图趋势过滤(GTF)机制来容忍含噪示例特征与标记之间关联的不一致性,从而减轻特征噪声对标记增强矩阵学习的影响;然后通过引入组稀疏约束的标记保真惩罚来减轻标记噪声对标记增强矩阵学习的影响,同时引入标记关联矩阵的稀疏约束来刻画标记之间的局部关联特性,使得样本标记能够在相似样本之间得到更好的传播;最后在7个真实多标记数据集上进行5个不同评价指标下的实验。实验结果表明,提出的模型在66.67%的情况下取得最优值或次优值,优于其他5个多标记学习算法,能有效地提高多标记学习的鲁棒性。
    基于自适应反向学习的多目标分布估计算法
    李二超, 杨蓉蓉
    2021, 41(1):  15-21.  DOI: 10.11772/j.issn.1001-9081.2020060908
    摘要 ( )   PDF (4435KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对基于规则模型的多目标分布估计算法全局收敛性较弱的缺陷,提出了一种基于自适应反向学习(OBL)的多目标分布估计算法。该算法根据函数变化率的大小来决定是否进行OBL:当函数变化率较小时,算法可能陷入局部最优,所以进行OBL以提高当前种群中个体的多样性;当函数变化率较大时,运行基于规则模型的多目标分布估计算法。所提算法通过适时地引入OBL策略,减小了种群多样性及个体的分布情况对优化算法整体收敛质量以及收敛速度的影响。为了验证改进算法的性能,选取基于规则模型的多目标分布估计算法(RM-MEDA)、摸石头过河算法与分布估计混合算法(HWSA-EDA)以及基于逆建模的多目标进化算法(IM-MOEA)作为对比算法与所提算法分别在ZDT和DTLZ测试函数上进行测试。测试结果表明,除了在DTLZ2函数上以外,所提算法不仅有良好的全局收敛性,而且解的分布性和均匀性都有所提高。
    基于最小距离和聚合策略的分解多目标进化算法
    李二超, 李康伟
    2021, 41(1):  22-28.  DOI: 10.11772/j.issn.1001-9081.2020060891
    摘要 ( )   PDF (953KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对基于帕累托(Pareto)支配的多目标进化算法在解决高维问题时选择压力降低,以及基于分解的多目标进化算法在提高收敛性和分布性的同时降低了种群多样性的问题,提出了一种基于最小距离和聚合策略的分解多目标进化算法。首先,使用基于角度分解的技术将目标空间分解为指定个数的子空间来提高种群的多样性;然后,在生成新解的过程中加入基于聚合的交叉邻域方法,使生成的新解更接近于父代解;最后,分两阶段在每个子空间内基于最小距离和聚合策略来选择解以提高收敛性和分布性。为了验证所提算法的可行性,采用标准测试函数ZDT和DTLZ进行仿真实验,结果表明所提算法的总体性能均优于经典的基于分解的多目标进化算法(MOEA/D)、MOEA/D-DE、NSGA-Ⅲ和GrEA。可见,所提算法在提高多样性的同时可以有效平衡收敛性和多样性。
    基于关系自适应解码的实体关系联合抽取
    丁相国, 桑基韬
    2021, 41(1):  29-35.  DOI: 10.11772/j.issn.1001-9081.2020060934
    摘要 ( )   PDF (1053KB) ( )  
    参考文献 | 相关文章 | 计量指标
    基于编码器-解码器的实体关系联合抽取模型解决了流水线模型存在的误差传递问题,但是以往基于编码器-解码器的模型还是存在两点问题:一是在解码阶段同时生成实体和关系,而两者是不同的对象,使得同一语义空间的映射降低了抽取效果;二是没有考虑不同关系之间的交互信息。针对这两点问题,提出了关系自适应解码模型。所提模型将实体关系联合抽取任务转化为对应关系的实体对生成任务。首先以编码器-解码器为基础,将不同关系分而治之;根据不同的关系来自适应输出相应关系的实体对,使解码阶段更专注于实体的生成。然后不同关系之间共享同一模型的参数,使不同关系之间的关联信息得以利用。所提模型在两种版本的纽约时报(NYT)公开数据集上进行了实验,其F1值比当前最先进的模型分别提升了2.5个百分点和2.2个百分点。实验结果表明,所提模型能够通过关系自适应解码的方式有效提升实体关系的联合抽取能力。
    基于近邻图改进的块对角子空间聚类算法
    王丽娟, 陈少敏, 尹明, 许跃颖, 郝志峰, 蔡瑞初, 温雯
    2021, 41(1):  36-42.  DOI: 10.11772/j.issn.1001-9081.2020061005
    摘要 ( )   PDF (1491KB) ( )  
    参考文献 | 相关文章 | 计量指标
    块对角表示(BDR)模型可以通过利用线性表示对数据有效地进行聚类,却无法很好地利用高维数据常见的非线性流形结构信息。针对这一问题,提出了基于近邻图改进的块对角子空间聚类(BDRNG)算法来通过近邻图来线性拟合高维数据的局部几何结构,并通过块对角约束来生成具有全局信息的块对角结构。BDRNG同时学习全局信息以及局部数据结构,从而获得更好的聚类表现。由于模型包含近邻图算子和非凸的块对角表示范数,BDRNG 采用了交替最小化来优化求解算法。实验结果如下:在噪声数据集上,BDRNG能够生成稳定的块对角结构系数矩阵,这说明了BDRNG对于噪声数据具有鲁棒性;在标准数据集上,BDRNG的聚类表现均优于BDR,尤其在人脸数据集上,相较于BDR,BDRNG的聚类准确度提高了8%。
    基于邻居信息聚合的子图同构匹配算法
    徐周波, 李珍, 刘华东, 李萍
    2021, 41(1):  43-47.  DOI: 10.11772/j.issn.1001-9081.2020060935
    摘要 ( )   PDF (755KB) ( )  
    参考文献 | 相关文章 | 计量指标
    图匹配在现实中被广泛运用,而子图同构匹配是其中的研究热点,具有重要的科学意义与实践价值。现有子图同构匹配算法大多基于邻居关系来构建约束条件,而忽略了节点的局部邻域信息。对此,提出了一种基于邻居信息聚合的子图同构匹配算法。首先,将图的属性和结构导入到改进的图卷积神经网络中进行特征向量的表示学习,从而得到聚合后的节点局部邻域信息;然后,根据图的标签、度等特征对匹配顺序进行优化,以提高算法的效率;最后,将得到的特征向量和优化的匹配顺序与搜索算法相结合,建立子图同构的约束满足问题(CSP)模型,并结合CSP回溯算法对模型进行求解。实验结果表明,与经典的树搜索算法和约束求解算法相比,该算法可以有效地提高子图同构的求解效率。
    基于欠采样和代价敏感的不平衡数据分类算法
    王俊红, 闫家荣
    2021, 41(1):  48-52.  DOI: 10.11772/j.issn.1001-9081.2020060878
    摘要 ( )   PDF (752KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对不平衡数据集中的少数类在传统分类器上预测精度低的问题,提出了一种基于欠采样和代价敏感的不平衡数据分类算法——USCBoost。首先在AdaBoost算法每次迭代训练基分类器之前对多数类样本按权重由大到小进行排序,根据样本权重选取与少数类样本数量相当的多数类样本;之后将采样后的多数类样本权重归一化并与少数类样本组成临时训练集训练基分类器;其次在权重更新阶段,赋予少数类更高的误分代价,使得少数类样本权重增加更快,并且多数类样本权重增加更慢。在10组UCI数据集上,将USCBoost与AdaBoost、AdaCost、RUSBoost进行对比实验。实验结果表明USCBoost在F1-measure和G-mean准则下分别在6组和9组数据集获得了最高的评价指标。可见所提算法在不平衡数据上具有更好的分类性能。
    融合重叠社区正则化及隐式反馈的协同过滤方法
    李翔锟, 贾彩燕
    2021, 41(1):  53-59.  DOI: 10.11772/j.issn.1001-9081.2020060995
    摘要 ( )   PDF (956KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对目前推荐系统存在的数据稀疏和冷启动等问题,提出了一种融合重叠社区正则化及隐式反馈的协同过滤方法(OCRIF),该方法不仅考虑了用户在社交网络中的社区结构,而且将用户评分信息与社交信息的隐式反馈融入推荐模型之中。此外,由于网络表示学习可以有效学习节点在社交网络的全局结构上的近邻信息,提出了一种网络表示学习增强的OCRIF(OCRIF+),该方法结合社交网络中用户在网络中的低维表示与用户-商品特征,能更有效地刻画用户之间的相似度及用户对兴趣社区的归属度。多个真实数据集上的实验结果显示:所提出的方法的推荐效果优于同类方法,与TrustSVD方法相比,在FilmTrust、DouBan以及Ciao数据集上,该方法的均方根误差(RMSE)分别下降了2.74%、2.55%以及1.83%,平均绝对误差(MAE)分别下降了3.47%、2.97%以及2.40%。
    面向群组用户时序行为的动态推荐算法
    温雯, 刘芳, 蔡瑞初, 郝志峰
    2021, 41(1):  60-66.  DOI: 10.11772/j.issn.1001-9081.2020061010
    摘要 ( )   PDF (1014KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对现实系统中用户偏好随时间动态变化且一个用户ID背后可能是一个家庭的多个成员在共用的问题,提出一种为这类隐含多个类型成员行为的群组用户解决其偏好随时间而变化的动态推荐算法。首先,假设用户的历史行为数据包括曝光数据和点击数据,并通过学习当前时刻下群组用户的各类型角色权重来判别当前成员角色;其次,根据曝光数据提出两种设计思路来构造流行度模型,并采用逆倾向评分加权方法来平衡训练数据;最后,利用矩阵分解技术得出随时间变化的用户潜在偏好因子和物品潜在属性因子,计算两者内积后得出用户随时间变化的Top-K偏好推荐。实验结果表明,该算法在召回率、平均精度均值(MAP)、归一化折损累计增益(NDCG)这三个指标上一天24个时刻中均能有至少16个时刻的表现优于基准方法,并能缩短运行时间,降低计算的时间复杂度
    基于局部概率抽样的标签噪声过滤方法
    张增辉, 姜高霞, 王文剑
    2021, 41(1):  67-73.  DOI: 10.11772/j.issn.1001-9081.2020060970
    摘要 ( )   PDF (1462KB) ( )  
    参考文献 | 相关文章 | 计量指标
    分类学习任务中,在获取数据的过程中会不可避免地产生噪声,特别是标签噪声的存在不仅使得学习模型更复杂,而且容易造成过拟合并导致分类器泛化能力的下降。标签噪声过滤算法虽然在一定程度上可以解决上述问题,但是仍然存在噪声识别能力较差、分类效果不够理想以及过滤效率低等问题。针对这些问题,提出一种基于标签置信度分布的局部概率抽样方法来进行标签噪声过滤。首先利用随机森林分类器对样本的标签进行投票,从而获取每个样本的标签置信度;然后根据标签置信度的大小,将样本划分为易识别样本和难识别样本;最后分别采用不同的过滤策略对样本进行过滤。实验结果表明,在标签噪声存在的情况下,所提方法在大多数案例上能够保持较高的噪声识别能力,并且在分类泛化性能上也具有明显优势。
    基于随机森林和投票机制的大数据样例选择算法
    周翔, 翟俊海, 黄雅婕, 申瑞彩, 侯璎真
    2021, 41(1):  74-80.  DOI: 10.11772/j.issn.1001-9081.2020060982
    摘要 ( )   PDF (906KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点。接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集。重复上述过程p次,得到p个样例子集。最后,用这p个子集进行投票,得到最终选择的样例子集。在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制。此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短。证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题。
    带有自适应合并策略和导向算子的增强型烟花算法
    李克文, 马祥博, 候文艳
    2021, 41(1):  81-86.  DOI: 10.11772/j.issn.1001-9081.2020060887
    摘要 ( )   PDF (1056KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统烟花算法(FWA)在寻优过程中爆炸半径限制搜索范围、粒子间缺少有效交互的缺点,提出带有自适应合并策略和导向算子的增强型烟花算法(EFWA-GM)。首先根据烟花粒子间的位置关系,对寻优空间中重叠的爆炸范围进行自适应合并;其次通过对火花粒子进行分层来充分利用优质粒子的位置信息,从而设计导向算子引导次优粒子进化,以提高算法的寻优精度和收敛速度。在12个标准测试函数上的实验结果表明,所提出的EFWA-GM相较于标准粒子群(SPSO)算法、增强型烟花算法(EFWA)、自适应烟花算法(AFWA)、动态烟花算法(dynFWA)、有导烟花算法(GFWA)在寻优精度和收敛速度方面具有更好的优化性能,并在9个测试函数上取得最优的求解精度。
    求解0-1背包问题的混合贪婪遗传算法
    陈桢, 钟一文, 林娟
    2021, 41(1):  87-94.  DOI: 10.11772/j.issn.1001-9081.2020060981
    摘要 ( )   PDF (974KB) ( )  
    参考文献 | 相关文章 | 计量指标
    求解0-1背包问题(KP)的最优解的时候,传统遗传算法(GA)的局部求精能力不足而简单局部搜索算法的全局探索能力有限,针对上述问题,将这两个算法整合并提出了混合贪婪遗传算法(HGGA)。在GA全局搜索框架下增加局部搜索模块,并改进传统仅基于物品价值密度的修复算子,增加基于物品价值的贪婪混合选项,从而加速寻优过程。HGGA一方面引导种群在进化的优质解空间中展开精细搜索,另一方面依靠GA的经典操作算子开拓全局搜索空间,从而达到算法求精能力和开拓能力的良好平衡。HGGA分别在三组数据上做了测试,结果表明在第一组15个测试用例中的12个上,HGGA能够百分百找到最优解,成功率达到80%;在第二组小规模数据集上,HGGA的性能明显好于其他同类GA和其他元启发算法;在第三组大规模数据集上,HGGA较其他元启发式算法具有更好的稳定性和高效性。
    混合群体增量学习算法求解闭环布局问题
    邓文瀚, 张铭, 王李进, 钟一文
    2021, 41(1):  95-102.  DOI: 10.11772/j.issn.1001-9081.2020081218
    摘要 ( )   PDF (992KB) ( )  
    参考文献 | 相关文章 | 计量指标
    闭环布局问题(CLLP)是一种NP-困难的混合优化问题,它在大小可调的矩形环上寻找设施最佳放置次序,目标是最小化设施之间物料流的运输成本。现有方法均采用元启发式算法来寻找最优的设施放置次序,并且通过枚举方法来获得最优的矩形环大小,而枚举方法的计算效率不高。为了解决这个问题,提出了求解CLLP的混合群体增量学习(HPBIL)算法,分别使用离散群体增量学习(DPBIL)算子和连续PBIL(CPBIL)算子同时对设施放置次序和矩形环大小进行优化,提高了搜索效率;同时还设计了一个局部搜索算法来优化每代中的部分优质解,以提高算法的求精能力。在13个CLLP测试实例上进行实验,结果表明HPBIL算法在9个测试实例上找到了新的最优布局,它对CLLP的寻优能力明显优于对比算法。
    单调重叠联盟下的最优联盟结构生成
    郭志鹏, 刘惊雷
    2021, 41(1):  103-111.  DOI: 10.11772/j.issn.1001-9081.2020060973
    摘要 ( )   PDF (1073KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对重叠联盟的合作博弈框架(OCF games)中重叠联盟结构生成(OCSG)求解困难的问题,提出了一种基于贪心方法的有效算法。首先使用了一种带有联盟数量k约束的OCF博弈(kOCF games)模型来限制OCSG问题的规模;然后引入了一种相似度量来表示任意两个联盟结构之间的相似程度,并基于相似度量定义了单调性的性质,这意味着某一联盟结构与最优联盟结构的相似度越高,该联盟的单调性的值就越大;最后对于具有单调性质的kOCF博弈,采用了逐一插入玩家编号以逼近最优联盟结构的方法设计了联盟约束贪心(CCG)算法来求解给定的OCSG问题,并在理论上证明了CCG算法的复杂度是On2k+1)。通过实验分析和验证了不同参数和联盟值分布对所提算法性能的影响,并把该算法与Zick等提出的算法(ZICK Y,CHALKIADAKIS G,ELKIND E,et al. Cooperative games with overlapping coalitions: charting the tractability frontier. Artificial Intelligence,2019,271:74-97)在约束条件等方面进行了对比,得出了当联盟最大数量k被常数约束时所提算法的搜索次数随agent的个数基本呈线性增长的结果。可见CCG算法是固定参数k可解的,而且拥有更好的适用性。
    基于Dandelion编码生成有界树宽CP-nets
    李丛丛, 刘惊雷
    2021, 41(1):  112-120.  DOI: 10.11772/j.issn.1001-9081.2020060972
    摘要 ( )   PDF (1221KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对条件偏好网络(CP-nets)图模型在进行推理运算时的高时间复杂度的问题,提出了一种基于Dandelion编码生成有界树宽的CP-nets(BTW-CP-nets Gen)算法。首先,通过Dandelion编码与树宽为k的树结构(k-tree)之间的双向映射原理推导出Dandelion编码与k-tree之间的解码与编码算法,实现编码与树结构的一对一映射;其次,利用k-tree来约束CP-nets结构的树宽,并利用k-tree的特征树得到了CP-nets的有向无环图结构;最后,利用离散多值函数的双射计算出各CP-nets结构节点的条件偏好表,然后针对生成的有界树宽CP-nets进行占优查询检测。理论分析和实验数据表明,与Pruffer编码生成k-tree(Pruffer code)算法相比,BTW-CP-nets Gen算法的运行时间在生成简单结构和复杂结构时的下降幅度分别为21.1%和30.5%;而BTW-CP-nets Gen算法所生成的图模型在进行占优查询时的节点遍历比在简单结构和复杂结构上分别提高了18.48%和29.03%。BTW-CP-nets Gen算法在更短的时间内,占优查询时遍历的节点率更高。可见,BTW-CP-nets Gen算法在图模型的推理中能够有效提高算法效率。
    基于哈希学习的异常SQL检测
    李明威, 蒋庆远, 解银朋, 何金栋, 吴丹
    2021, 41(1):  121-126.  DOI: 10.11772/j.issn.1001-9081.2020060967
    摘要 ( )   PDF (816KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对最近邻(NN)方法在异常结构化查询语句(SQL)检测应用中面临的存储开销大、检索速度慢的问题,提出了一种基于哈希学习的异常SQL检测(HMSD)方法。该算法利用哈希学习来学习查询SQL语句的二值编码表示。首先,对查询SQL语句进行清洗去重,从而将查询SQL语句表示为实值特征形式;然后利用等方差哈希方法来学习查询SQL语句的二值编码表示;最后,通过二值编码表示进行检索并提高异常SQL检测的速度。实验结果表明,在异常SQL检测数据集Wafamole上,将数据集进行随机划分,使训练集包含10 000条SQL语句,测试集包含30 000条SQL语句,在128比特长度下,与最近邻方法相比,所提算法的检测精度提高了1.3%,假正例率(FPR)降低了0.19%,假负例率(FNR)降低了2.41%,检索时间减少了94%,存储开销降低了97.5%;与支持向量机方法相比,所提算法的检测精度提高了0.17%,验证了所提算法能解决最近邻方法在异常SQL检测中存在的问题。
    基于BERT-PGN模型的中文新闻文本自动摘要生成
    谭金源, 刁宇峰, 祁瑞华, 林鸿飞
    2021, 41(1):  127-132.  DOI: 10.11772/j.issn.1001-9081.2020060920
    摘要 ( )   PDF (857KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题,基于BERT和指针生成网络(PGN),提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络(BERT-PGN)。首先,利用BERT预训练语言模型结合多维语义特征获取词向量,从而得到更细粒度的文本上下文表示;然后,通过PGN模型,从词表或原文中抽取单词组成摘要;最后,结合coverage机制来减少重复内容的生成并获取最终的摘要结果。在2017年CCF国际自然语言处理与中文计算会议(NLPCC2017)单文档中文新闻摘要评测数据集上的实验结果表明,与PGN、伴随注意力机制的长短时记忆神经网络(LSTM-attention)等模型相比,结合多维语义特征的BERT-PGN模型对摘要原文的理解更加充分,生成的摘要内容更加丰富,全面且有效地减少重复、冗余内容的生成,Rouge-2和Rouge-4指标分别提升了1.5%和1.2%。
    基于注意力机制和集成学习的网页黑名单判别方法
    周超然, 赵建平, 马太, 周欣
    2021, 41(1):  133-138.  DOI: 10.11772/j.issn.1001-9081.2020081379
    摘要 ( )   PDF (1076KB) ( )  
    参考文献 | 相关文章 | 计量指标
    搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种基于注意力机制和集成学习的网页黑名单判别方法,并采用本方法构建了一种基于集成学习和注意力机制的卷积神经网络(EACNN)模型来过滤无用的网页。首先,根据网页上不同种类的HTML标签数据,构建多个基于注意力机制的卷积神经网络(CNN)基学习器;然后,采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算,从而实现EACNN的构建;最后,将EACNN的输出结果作为网页内容分析结果,从而实现网页黑名单的判别。所提方法通过注意力机制来关注网页语义信息,并通过集成学习的方式引入网页结构特征。实验结果表明,与支持向量机(SVM)、K近邻(KNN)、CNN、长短期记忆(LSTM)网络、GRU、结合注意力机制的卷积神经网络(ACNN)等基线模型相比,所提模型在所构建的面向地理信息领域的判别数据集上具有最高的准确率(0.97)、召回率(0.95)和F1分值(0.96),验证了EACNN在网页黑名单判别工作中的优势。
    基于BERT的不完全数据情感分类
    罗俊, 陈黎飞
    2021, 41(1):  139-144.  DOI: 10.11772/j.issn.1001-9081.2020061066
    摘要 ( )   PDF (921KB) ( )  
    参考文献 | 相关文章 | 计量指标
    不完全数据,如社交平台的互动信息、互联网电影资料库中的影评内容,广泛存在于现实生活中。而现有情感分类模型大多建立在完整的数据集上,没有考虑不完整数据对分类性能的影响。针对上述问题提出基于BERT的栈式降噪神经网络模型,用于面向不完全数据的情感分类。该模型由栈式降噪自编码器(SDAE)和BERT两部分组成。首先将经词嵌入处理的不完全数据输入到SDAE中进行去噪训练,以提取深层特征来重构缺失词和错误词的特征表示;接着将所得输出传入BERT预训练模型中进行精化以进一步改进词的特征向量表示。在两个常用的情感数据集上的实验结果表明,所提方法在不完全数据情感分类中的F1值和准确率分别提高了约6%和5%,验证了所提模型的有效性。
    基于BERT的心血管医疗指南实体关系抽取方法
    武小平, 张强, 赵芳, 焦琳
    2021, 41(1):  145-149.  DOI: 10.11772/j.issn.1001-9081.2020061008
    摘要 ( )   PDF (823KB) ( )  
    参考文献 | 相关文章 | 计量指标
    实体关系抽取是医疗领域知识问答、知识图谱构建及信息抽取的重要基础环节之一。针对在心血管专病知识图谱构建的过程中尚无公开数据集可用的情况,收集了心血管疾病领域的医疗指南并进行相应的实体和关系类别的专业标注,构建了心血管专病知识图谱实体关系抽取的专业数据集。基于该数据集,首先提出双向变形编码器卷积神经网络(BERT-CNN)模型以实现中文语料中的关系抽取,然后根据中文语义中主要以词而不是字为基本单位的特性,提出了改进的基于全词掩模的双向变形编码器卷积神经网络(BERT(wwm)-CNN)模型用于提升在中文语料中关系抽取的性能。实验结果表明,改进的BERT(wwm)-CNN在所构建的关系抽取数据集上准确率达到0.85,召回率达到0.80,F1值达到0.83,优于对比的基于双向变形编码器长短期记忆网络(BERT-LSTM)模型和BERT-CNN模型,验证了改进网络模型的优势。
    基于注视兴趣区域聚类和转移的群体扫视路径生成
    刘楠博, 肖芬, 张文雷, 李旺鑫, 翁尊
    2021, 41(1):  150-156.  DOI: 10.11772/j.issn.1001-9081.2020061147
    摘要 ( )   PDF (2048KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为解决自然场景下群体观察者扫视路径数据冗余繁乱、缺乏表征的问题,通过挖掘个体路径的潜在特性,提出了一种基于注视兴趣区域(ROI)时空聚类和转移的群体扫视路径生成方法。首先,分析同一刺激样本下多名观察者的扫视路径,利用亲和力传播聚类算法来聚类注视点以生成多个注视兴趣区域;其次,统计分析兴趣区域的观察者数量、注视频率以及注视时长等与注视强度相关的信息并筛选兴趣区域;然后,通过定义兴趣区域中的注视行为提取不同类型的兴趣子区域;最后,提出了基于注视优先度的兴趣区域和兴趣子区域转移模式,从而生成自然场景下的群体扫视路径。在MIT1003和OSIE公共数据集上进行群体扫视路径生成实验,结果表明,与目前先进的eMine、扫视路径趋势分析(STA)、序列模式挖掘算法(SPAM)、基于候选约束的动态时间规整质心平均方法(CDBA)和Heuristic方法相比,所提方法生成的群体扫视路径获得了较高的整体相似度,ScanMatch (w/o duration)分别可达0.426和0.467,ScanMatch(w/duration)分别可达0.404和0.439。可见该所生成的扫视路径与真实扫视路径的整体相似度较高,具有一定表征作用。
    共享转换矩阵的胶囊网络及其融合视角特征的跨视角步态识别
    李凯, 岳秉杰
    2021, 41(1):  157-163.  DOI: 10.11772/j.issn.1001-9081.2020060890
    摘要 ( )   PDF (1194KB) ( )  
    参考文献 | 相关文章 | 计量指标
    步态识别具有非接触性、非侵犯性、易感知等优势,然而,在跨视角的步态识别中,行人的轮廓会随人的视角的变化而不同,从而影响步态识别的性能。为此,提出了共享转换矩阵的胶囊网络及其改进的动态路由算法,从而减少了网络训练参数。在此基础上,通过融合视角特征,利用Triplet损失与Margin损失提出了融合视角特征的跨视角步态识别模型。在CASIA-B数据集上的实验结果表明,使用共享转换矩阵的胶囊网络提取步态特征是有效的,在正常行走、携带背包、穿戴外套条件下,所提融合视角特征的模型在识别准确率上比基于卷积神经网络的跨视角步态识别方法提高了4.13%,且对跨较大视角的步态识别具有更好的性能。
    联合均等采样随机擦除和全局时间特征池化的视频行人重识别方法
    陈莉, 王洪元, 张云鹏, 曹亮, 殷雨昌
    2021, 41(1):  164-169.  DOI: 10.11772/j.issn.1001-9081.2020060909
    摘要 ( )   PDF (1012KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对为解决视频监控中遮挡、背景物干扰,以及行人外观、姿势相似性等因素导致的视频行人重识别准确率较低的问题,提出了联合均等采样随机擦除和全局时间特征池化的视频行人重识别方法。首先针对目标行人被干扰或部分遮挡的情况,采用了均等采样随机擦除(ESE)的数据增强方法来有效地缓解遮挡,提高模型的泛化能力,更准确地匹配行人;其次为了进一步提高视频行人重识别的精度,学习更有判别力的特征表示,使用三维卷积神经网络(3DCNN)提取时空特征,并在网络输出行人特征表示前加上全局时间特征池化层(GTFP),这样既能获取上下文的空间信息,又能细化帧与帧之间的时序信息。通过在MARS、DukeMTMC-VideoReID 和PRID-2011三个公共视频数据集上的大量实验,证明所提出的联合均等采样随机擦除和全局时间特征池化的方法,相较于目前一些先进的视频行人重识别方法,具有一定的竞争力。
    基于改进投票证明共识协议的车联网系统
    陈锦宇, 刘兆伟
    2021, 41(1):  170-176.  DOI: 10.11772/j.issn.1001-9081.2020060987
    摘要 ( )   PDF (1142KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对车联网(IoV)中信息传播效率及用户安全隐私的问题,提出了一种基于改进投票证明(PoV)共识协议的IoV系统。首先,根据IoV的实际需求,选择使用区块链技术来保障IoV基本的信息传播效率及用户安全;其次,为了进一步提高整个IoV系统的传播效率,通过优化结构及算法的方式改进了传统的PoV共识协议;最后,为了保护IoV用户的安全隐私,设计了一种监督惩罚机制来保障系统的可靠性。该协议不依赖第三方中介,因而可以在保障共识效率的同时保护车辆及车主的相关隐私,更加贴近IoV的实际需求。理论分析和仿真实验表明,同传统的PoV共识协议相比,改进PoV共识协议的确认交易时长以及区块间隔时间均从0.25 min降低至0.2 min;而在共识协议的可靠性对比中,具有监督惩罚机制的改进共识协议的准确性比缺乏监督惩罚机制的改进共识协议提高了29.4%。实验结果表明,改进后的共识协议在IoV中具有较高的共识效率及安全性。
    基于城市交通监控大数据的工作位置推理方法
    陈凯, 于彦伟, 赵金东, 宋鹏
    2021, 41(1):  177-184.  DOI: 10.11772/j.issn.1001-9081.2020060937
    摘要 ( )   PDF (1377KB) ( )  
    参考文献 | 相关文章 | 计量指标
    基于时空数据的用户位置推理在产品推荐、精确营销、交通调度及城市规划等实际应用中有着重要的作用,然而,基于城市交通监控数据的位置推理问题尚未被探索,因此,提出了一种面向稀疏摄像头交通监控数据的工作位置推理方法。首先,收集了路网、兴趣点(POI)等城市交通外围数据,并通过路网匹配的预处理方式获取到了一个含有摄像头、POI等丰富语义信息的真实路网;其次,通过聚类车辆轨迹中所提取的起点-终点(O-D)对来获得车辆重要的停留区域,即候选工作区域;之后,利用所提的in/out访问时间模式的约束,从多个候选区域中匹配出最大可能的工作区域;最后,利用所获取的路网信息和路网周中POI的分布信息提取出车辆的可达POI集合,从而进一步缩小车主的工作位置范围。在一个省会城市真实的交通监控数据集上的综合实验评估和案例分析验证了所提方法的有效性。
    基于强化学习的城市交通路径规划
    刘思嘉, 童向荣
    2021, 41(1):  185-190.  DOI: 10.11772/j.issn.1001-9081.2020060949
    摘要 ( )   PDF (1042KB) ( )  
    参考文献 | 相关文章 | 计量指标
    城市交通路径规划需要考虑规划的快速性和车辆的安全性,而目前大多数强化学习算法不能兼顾两者。针对这个问题,首先提出采用基于模型的算法和与模型无关的算法相结合的Dyna框架,以提高规划的速度;然后使用经典的Sarsa算法作为选路策略,以提高算法的安全性;最后将两者结合提出了改进的基于Sarsa的Dyna-Sa算法。实验结果表明,提前规划步数越多的强化学习算法收敛速度越快。使用收敛速度和碰撞次数等指标,将Dyna-Sa算法与Q-学习算法、Sarsa算法和Dyna-Q算法进行对比,可知Dyna-Sa算法能够减少车辆在有障碍地图中的碰撞次数,保证车辆在城市交通环境中的安全性,同时能够提高算法收敛速度。
    基于虚拟导航线的农业机器人精确视觉导航方法
    梁臻, 房体育, 李金屏
    2021, 41(1):  191-198.  DOI: 10.11772/j.issn.1001-9081.2020060927
    摘要 ( )   PDF (1980KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对农田、野外环境中无人工标记情况下的导航问题,提出了一种基于虚拟导航线的农业机器人精确视觉导航方法。该方法不需要铺设导航线或者路标即可引导机器人行走直线。首先,根据需求确定需要跟踪的目标区域,之后控制机器人调整方向直到目标移至视野中央;其次,根据机器人和目标的位置确定参照目标,并依据两个目标的位置确定虚拟导航线;然后,动态更新导航线,并结合虚拟定标线和虚拟导航线确定偏移角度和偏移距离;最后,利用偏移参数构建模糊控制表,并以此实现对机器人旋转角度和行走速度的调整。实验结果表明,该算法能较为精确地实现对导航路线的识别,进而利用模糊控制策略使机器人沿直线向目标行走,且导航精度在10 cm以内。
    基于矩阵画像的金融时序数据预测方法
    高世乐, 王滢, 李海林, 万校基
    2021, 41(1):  199-207.  DOI: 10.11772/j.issn.1001-9081.2020060877
    摘要 ( )   PDF (1433KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对金融市场中机构交易对股票市场中的散户投资行为具有较强的误导性的现象,提出了一种基于机构交易行为影响的趋势预测方法。首先,利用时间序列的矩阵画像(MP)方法,以股票换手率数据为切入点,构建不同兴趣模式长度下的基于机构交易行为影响的换手率波动知识库;其次,确定待预测股票在兴趣模式长度取何值时的预测结果精确度高;最后,根据该兴趣模式长度下的知识库,预测在机构交易行为影响下的单支股票的波动趋势。为验证趋势预测新方法的可行性和准确性,将其与自回归滑动平均(ARMA)模型和长短时记忆(LSTM)网络这两种预测方法进行对比分析,运用均方根误差(RMSE)与平均绝对百分误差(MAPE)评价指标综合比较3种方法对70支股票的预测结果。实验结果分析表明,与ARMA模型和LSTM网络相比,在70支的股票价格趋势预测上,所提方法有80%以上的股票预测结果更准确。
    基于多级全局信息传递模型的视觉显著性检测
    温静, 宋建伟
    2021, 41(1):  208-214.  DOI: 10.11772/j.issn.1001-9081.2020060968
    摘要 ( )   PDF (1655KB) ( )  
    参考文献 | 相关文章 | 计量指标
    对神经网络中的卷积特征采用分层处理的思想能明显提升显著目标检测的性能。然而,在集成分层特征时,如何获得丰富的全局信息以及有效融合较高层特征空间的全局信息和底层细节信息仍是一个没有解决的问题。为此,提出了一种基于多级全局信息传递模型的显著性检测算法。为了提取丰富的多尺度全局信息,在较高层级引入了多尺度全局特征聚合模块(MGFAM),并且将多层级提取出的全局信息进行特征融合操作;此外,为了同时获得高层特征空间的全局信息和丰富的底层细节信息,将提取到的有判别力的高级全局语义信息以特征传递的方式和较低层次特征进行融合。这些操作可以最大限度提取到高级全局语义信息,同时避免了这些信息在逐步传递到较低层时产生的损失。在ECSSD、PASCAL-S、SOD、HKU-IS等4个数据集上进行实验,实验结果表明,所提算法相较于较先进的NLDF模型,其F-measure(F)值分别提高了0.028、0.05、0.035和0.013,平均绝对误差(MAE)分别降低了0.023、0.03、0.023和0.007。同时,所提算法在准确率、召回率、F-measure值及MAE等指标上也优于几种经典的图像显著性检测方法。
    基于带squeeze-and-excitation模块的ResNeXt的单目图像深度估计方法
    温静, 李智宏
    2021, 41(1):  215-219.  DOI: 10.11772/j.issn.1001-9081.2020060969
    摘要 ( )   PDF (2096KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对目前单目图像深度估计任务缺乏对特征通道之间的全局信息关系表示的问题,提出了一种基于SE-ResNeXt的单目图像深度估计方法。首先,通过建模特征通道间的动态且非线性的关系来提高网络的全局信息表示能力;然后,采用特征重标定策略来自适应地重新校准特征通道的响应,从而进一步提升特征利用率;最后,通过ResNeXt结构在不增加模型复杂度的基础上进一步提升方法的性能。实验结果表明,相比与没有采用ResNeXt结构的算法,该方法获得了更低的误差值,其均方根误差(RMSE)降低了10%,绝对相对误差(AbsRel)降低了27%。
    基于引导滤波和差分图像的多聚焦图像融合方法
    成亚玲, 柏智, 谭爱平
    2021, 41(1):  220-224.  DOI: 10.11772/j.issn.1001-9081.2020081456
    摘要 ( )   PDF (1626KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统的多聚焦图像的空间域融合容易出现边缘模糊的问题,提出了一种基于引导滤波(GF)和差分图像的多聚焦图像融合方法。首先,将源图像进行不同水平的GF,并对滤波后图像进行差分,从而获得聚焦特征图像;随后,利用聚焦特征图像的梯度能量(EOG)信息获得初始决策图,对初始决策图进行空间一致性检查以及形态学操作以消除因EOG相近而造成的噪点;然后,对初始决策图进行GF以得到优化后决策图,从而避免融合后的图像存在边缘骤变的问题;最后,基于优化后决策图对源图像进行加权融合,以得到融合图像。选取3组经典的多聚焦图像作为实验图像,将所提方法与其他9种多聚焦图像融合方法得到的结果进行比较。主观视觉效果显示,所提方法能更好地将多聚焦图像的细节信息保存下来,另外,经该方法处理后的图像的4项客观评价指标均显著优于对比方法。结果表明,所提方法能够获得高质量的融合图像,较好地保留原始图像信息,有效解决传统多聚焦图像融合出现的边缘模糊问题。
    基于经验模态分解和长短期记忆神经网络的短期交通流量预测
    张晓晗, 冯爱民
    2021, 41(1):  225-230.  DOI: 10.11772/j.issn.1001-9081.2020060919
    摘要 ( )   PDF (1687KB) ( )  
    参考文献 | 相关文章 | 计量指标
    交通流量预测作为智能交通的重要一环,所要处理的交通数据具有非线性、周期性和随机性的特点,导致在数据预测时,不稳定的交通流量数据依赖于长期数据范围,且由于一些外部因素使得原始数常包含一些噪声,可能导致预测性能的进一步下降。针对上述问题提出了一种能够去噪且能处理长时依赖的预测算法——EMD-LSTM。首先,通过经验模态分解(EMD)算法将交通时序数据中的不同尺度分量逐级分解出来,生成一系列具有相同特征尺度的本征模函数,从而去除一定的噪声影响;然后,借助长短期记忆(LSTM)神经网络解决数据的长期依赖问题,从而使所提算法在长时间视野预测方面表现更为突出。对实际数据集进行短期预测的实验结果表明,EMD-LSTM的平均绝对误差(MAE)比LSTM低了1.916 32,平均绝对百分误差(MAPE)比LSTM降低了4.645 45个百分点,可见所提出的混合模型使预测准确性得到显著提高,能够有效解决交通数据的问题。
    基于多尺度跳跃深度长短期记忆网络的短期多变量负荷预测
    肖勇, 郑楷洪, 郑镇境, 钱斌, 李森, 马千里
    2021, 41(1):  231-236.  DOI: 10.11772/j.issn.1001-9081.2020060929
    摘要 ( )   PDF (862KB) ( )  
    参考文献 | 相关文章 | 计量指标
    近年来,以循环神经网络(RNN)为主体构建的预测模型在短期电力负荷预测中取得了优越的性能。然而,由于RNN不能有效捕捉存在于短期电力负荷数据的多尺度时序特征,因而难以进一步提升负荷预测精度。为了捕获短期电力负荷数据中的多尺度时序特征,提出了一种基于多尺度跳跃深度长短期记忆(MSD-LSTM)网络的短期电力负荷预测模型。具体来说,以长短期记忆(LSTM)网络为主体构建预测模型能够较好地捕获长短期时序依赖,从而缓解时序过长时重要信息容易丢失的问题。进一步地,采用多层LSTM架构并且对各层设置不同的跳跃连接数,使得MSD-LSTM的每一层能够捕获不同时间尺度的特征。最后,引入全连接层把各层提取到的多尺度时序特征进行融合,再利用该融合特征进行短期电力负荷预测。实验结果表明,与单层LSTM和多层LSTM相比,MSD-LSTM的均方误差总体下降了10%。可见MSD-LSTM能够更好地提取短期负荷数据中的多尺度时序特征,从而提高短期电力负荷预测的精度。
    基于经验模态分解与多分支神经网络的超短期风功率预测
    孟鑫禹, 王睿涵, 张喜平, 王明杰, 丘刚, 王政霞
    2021, 41(1):  237-242.  DOI: 10.11772/j.issn.1001-9081.2020060930
    摘要 ( )   PDF (1078KB) ( )  
    参考文献 | 相关文章 | 计量指标
    风功率预测是实现风电场监控及信息化管理的重要基础,风功率超短期预测常用于平衡负荷、优化调度,对预测精度有较高的要求。由于风电场环境复杂、风速不确定性因素较多,风功率时序信号往往具有非平稳性和随机性。循环神经网络(RNN)适用于时间序列任务,但无周期、非平稳的时序信号会增加网络学习的难度。为了克服非平稳信号在预测任务中的干扰,提高风功率预测精度,提出了一种结合经验模态分解与多分支神经网络的超短期风功率预测方法。首先将原始风功率时序信号通过经验模态分解(EMD)以重构数据张量,然后用卷积层和门控循环单元(GRU)层分别提取局部特征和趋势特征,最后通过特征融合与全连接层得到预测结果。在内蒙古某风场实测数据集上的实验结果表明,与差分整合移动平均自回归(ARIMA)模型相比,所提方法在预测精度方面有将近30%的提升,验证了所提方法的有效性。
    基于残差连接长短期记忆网络的时间序列修复模型
    钱斌, 郑楷洪, 陈子鹏, 肖勇, 李森, 叶纯壮, 马千里
    2021, 41(1):  243-248.  DOI: 10.11772/j.issn.1001-9081.2020060928
    摘要 ( )   PDF (942KB) ( )  
    参考文献 | 相关文章 | 计量指标
    传统的时间序列缺失修复方法通常假设数据由线性动态系统产生,然而时间序列更多地表现为非线性。为此,提出了基于残差连接长短期记忆(LSTM)网络的时间序列修复模型,称为RSI-LSTM,用来有效捕获时间序列的非线性动态特性,并且挖掘缺失数据和最近的非缺失数据之间的潜在关联。具体来说,就是采用LSTM网络对时间序列的非线性动态特性进行建模,同时引入残差连接来挖掘历史值与缺失值的联系,从而提升模型的修复能力。首先使用RSI-LSTM对单变量日供电量数据集的缺失数据进行修复,然后在第九届电工数学建模竞赛A题的电力负荷数据集上,引入气象因素作为RSI-LSTM的多变量输入,以提升模型对时间序列缺失值的修复效果。此外,使用了两个通用的多变量时间序列数据集以验证模型的缺失修复能力。实验结果表明,在单变量和多变量数据集上,RSI-LSTM的缺失值修复效果均优于LSTM,得到的均方误差(MSE)总体下降了10%。
    面向高铁站的热舒适度和能耗综合预测
    蒋阳升, 王胜男, 涂家祺, 李莎, 王红军
    2021, 41(1):  249-257.  DOI: 10.11772/j.issn.1001-9081.2020060889
    摘要 ( )   PDF (1132KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对高铁站这类半封闭建筑的热舒适度影响因素众多,影响机制复杂以及热舒适度与能耗存在背反等问题,提出了基于机器学习的高铁站热舒适度与能耗综合预测方法。首先采用传感器数据捕获及Energy Plus仿真两种方式对高铁站室内外状态、多联机及热交换机等控制单元及热能传导环境进行建模;其次提出影响高铁站热舒适度的八类因素——多联机开启台数、多联机设置温度、热交换机开启台数、客流密度、室外温度、室内温度、室内湿度和室内二氧化碳浓度,并设计424种模型运行工况以及3 714 240个实例;最后设计6种机器学习模型——深度神经网络、支持向量回归、决策树回归、线性回归、岭回归和贝叶斯岭回归,来对高铁站室内热舒适度和空调能耗进行有效预测。实验结果表明,6种机器学习模型中决策树回归预测模型能够在较短的时间内获得最优的预测性能,其平均均方误差低至0.002 2。所得研究成果可直接为下一阶段的温控策略提供主动预判的环境状态参数并实现实时决策。
    基于深度森林的高铁站室内热舒适度等级预测
    陈彦如, 张涂静娃, 杜千, 冉茂亮, 王红军
    2021, 41(1):  258-264.  DOI: 10.11772/j.issn.1001-9081.2020060888
    摘要 ( )   PDF (1166KB) ( )  
    参考文献 | 相关文章 | 计量指标
    对于高铁站这类半封闭半开放空间的室内环境热舒适度等级难以准确预测的问题,提出基于深度森林(DF)的深度学习方法对热舒适度等级进行科学预测。首先基于现场调研和Energy Plus平台对高铁站室的热交换环境进行建模;其次提炼出客流密度、多联机开行台数和多联机设置温度等8个影响因素,并设计424种工况以获取海量数据;最后采用DF挖掘热舒适度与影响因素之间的关系,以对高铁站室内热舒适度等级进行预测。采用深度神经网络(DNN)和支持向量机(SVM)作为对比算法进行验证。实验结果表明,在3种模型中,DF在预测正确率和weighted-F1上表现最佳,DF的预测正确率最高达到99.76%,最低为98.11%。因此,DF能够有效预测高铁站室内的热舒适度等级。
    基于长短时记忆神经网络的手足口病发病趋势预测
    马停停, 冀天娇, 杨冠羽, 陈阳, 许文波, 刘宏图
    2021, 41(1):  265-269.  DOI: 10.11772/j.issn.1001-9081.2020060936
    摘要 ( )   PDF (892KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统手足口病(HFMD)发病趋势预测算法预测精度不高、未结合其他影响因素、预测时间较短等问题,提出结合气象因素使用长短时记忆(LSTM)网络进行长期预测的方法。首先,将发病序列通过滑动窗口的方式转化为网络的输入和输出;然后采用LSTM网络进行数据建模和预测,并使用迭代预测的方式获得较长期的预测结果;最后在网络中增加温度和湿度变量,比较这些变量对预测结果的影响。实验结果表明,加入气象因素能够提高模型的预测精度,所提模型在济南市数据集上的平均绝对误差(MAE)为74.9,在广州市数据集上的MAE为427.7,相较于常用的季节性差分自回归移动平均(SARIMA)模型和支持向量回归(SVR)模型,该模型的预测准确率更高。可见所提模型是HFMD发病趋势预测的一种有效的实验方法。
    复杂环境下的冰箱金属表面缺陷检测
    袁野, 谭晓阳
    2021, 41(1):  270-274.  DOI: 10.11772/j.issn.1001-9081.2020060964
    摘要 ( )   PDF (905KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为了提升冰箱金属表面的缺陷检测效率,从而应对复杂的生产情况,提出了Metal-YOLOv3模型。使用随机参数变换,将缺陷数据进行了数百倍的扩充,改变原有YOLOv3模型的损失函数,引入了基于完整交并比(CIoU)所设计的CIoU损失函数,用缺陷的分布特性来降低非极大值抑制算法的阈值,并基于K均值聚类算法计算出更适合数据特点的先验框(anchors)值以提升检测精度。在一系列的实验后,发现Metal-YOLOv3模型在检测速度上远胜于主流的区域卷积神经网络(R-CNN)模型,每秒传输帧数(FPS)达到7.59,是Faster R-CNN的14倍,而且平均精确度(AP)也达到了88.96%,比Faster R-CNN高11.33个百分点,说明所提模型同时具备良好的鲁棒性与泛化性能。可见该方法具备有效性,能实际应用于金属制品的生产。
    基于多尺度卷积神经网络和类内mixup操作的磁瓦表面质量识别
    张京爱, 王江涛
    2021, 41(1):  275-279.  DOI: 10.11772/j.issn.1001-9081.2020060886
    摘要 ( )   PDF (974KB) ( )  
    参考文献 | 相关文章 | 计量指标
    铁氧体磁瓦由于形状的不规则性和表面缺陷的多样性给基于计算机视觉的表面质量识别带来很大的挑战。针对该问题,将深度学习技术引入到磁瓦表面质量识别中,提出一种基于卷积神经网络的磁瓦表面质量识别系统。首先将磁瓦目标从采集到的图像中分割出来并进行旋转从而得到标准图像,然后把改进后的多尺度ResNet18作为骨干网络来设计识别系统。训练时,设计一种新颖的类内mixup操作来提高系统对样本的泛化能力。为了更加贴近实际应用场景,在考虑到光线变化、姿态差异等因素的前提下构建了磁瓦缺陷数据集。在自建的数据集中进行实验的结果表明,该系统可以达到97.9%的识别准确率,为磁瓦缺陷的自动识别提供了可行的思路。
    前沿与综合应用
    深度学习在主动脉中膜变性病理图像分类中的应用
    孙中杰, 万涛, 陈东, 汪昊, 赵艳丽, 秦曾昌
    2021, 41(1):  280-285.  DOI: 10.11772/j.issn.1001-9081.2020060895
    摘要 ( )   PDF (1150KB) ( )  
    参考文献 | 相关文章 | 计量指标
    胸主动脉瘤和夹层(TAAD)是严重的心血管疾病之一,而中膜变性(MD)的组织学改变对疾病的诊断及早期干预具有重要的临床意义。针对病理图像的高度复杂性使得MD的诊断过程耗时费力且一致性差的问题,提出了一种基于深度学习的病理图像分类方法,并将其应用于四种MD病变类型以进行性能验证。该方法使用了一种改进的基于GoogLeNet的卷积神经网络模型,首先采用迁移学习来将先验知识应用于TAAD病理图像的表达,然后使用Focal loss和L2正则化来解决数据不平衡问题,从而进一步优化模型性能。实验结果表明,所提模型的平均四分类准确率达到98.78%,表现出较好的泛化性能。可见所提方法可以有效地提升病理学家的诊断效率。
    考虑恶劣天气的班轮多阶段重调度方法
    王永航, 张天宇, 郑红星
    2021, 41(1):  286-294.  DOI: 10.11772/j.issn.1001-9081.2020040577
    摘要 ( )   PDF (1058KB) ( )  
    参考文献 | 相关文章 | 计量指标
    受恶劣天气影响的船舶调度是一个非常复杂的优化问题,也是班轮公司重点关注的问题之一。为此,针对某航运网络上的一家班轮公司的所有营运船舶,以获知设计的多阶段重调度机制时段内最新预报的天气信息和这些船舶的实时位置为前提,重点考虑班轮船期表的限制并兼顾港口间航速变化和船舶容量等现实约束,构建了以固定计划期内所有船舶的航运总成本最小为优化目标的非线性数学模型,并设计了嵌入基因修复算子的改进遗传算法用于求解该模型。由此,可以给出集成租船直运、跨航线调船、反挂和货物中转等解决策略的最佳多阶段重调度方案。通过对大、中、小规模的算例进行实验,实验结果表明,可知与传统等待办法相比,多阶段重调度节约了总航运成本的15%以上,验证了所提模型和方案的有效性;与Cplex相比,改进遗传算法的运算效率大大提高,且偏差值均在5%以内,而与蚁群优化(ACO)算法、禁忌搜索(TS)算法、量子差分进化(QDE)算法相比,改进遗传算法能在有效时间内降低10%左右的成本,验证了算法的科学性。所提方法可为班轮公司的实际船舶调度提供参考。
    基于马尔可夫链的书画时序感量化方法
    律睿慜, 梅莉琳, 邢红姹, 孟磊, 昃跃峰
    2021, 41(1):  295-299.  DOI: 10.11772/j.issn.1001-9081.2020061004
    摘要 ( )   PDF (1520KB) ( )  
    参考文献 | 相关文章 | 计量指标
    书法欣赏被广泛认为需要进行时序还原,而绘画的时序还原长期被忽略,并且笔触的细节特征被认为能增强时序的感知。为了量化时序感以及探究笔触细节特征对时序感的影响,提出了一种基于马尔可夫链熵率的书画作品时序感量化方法。首先,将个体在书画作品上标记点的感知时序建模为马尔可夫链;然后,计算马尔可夫模型的熵率得到感知时序的不确定性;最后,采用负熵来衡量感知时序的有序性,并将其归一化得到量化指标——时序感。通过对多个书画作品的时序感实测,验证了此方法的可行性,并基于该度量研究了图形变换对书画作品时序感知的影响。实验结果显示,原始图像在旋转或镜像变换后的时序感的一致性保持在较高水平,但正确率有显著变化。这意味着,笔触特征并非形成时序感受的首要因素,观者自身的笔顺经验在其中更加重要,而该推论还需进一步验证。
    求解需求可拆分车辆路径问题的改进的金字塔演化策略
    李华峰, 黄樟灿, 张蔷, 湛航, 谈庆
    2021, 41(1):  300-306.  DOI: 10.11772/j.issn.1001-9081.2020050615
    摘要 ( )   PDF (948KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为了更加合理地求解需求可拆分的车辆路径问题(SDVRP),克服传统先路径后优化两阶段的求解方法容易陷入局部最优的缺点,以及解决智能优化算法在优化阶段未能将竞争与协作有机地融合为一体的问题,以配送路径最短和配送车辆最少为优化目标,提出了一种改进的金字塔演化策略(IPES)。首先,以金字塔为基础,提出了求解SDVRP的编码、解码方式以及层级间的协作策略;其次,根据遗传算法的随机、“适者生存”的高度并行、自适应等特点,以及金字塔结构各层分工不同,设计了一种适合SDVRP的自适应邻域算子,使得算法能够快速收敛到最优;最后,得到最优解。相较于分段求解算法、聚类算法、粒子群算法、人工蜂群算法、禁忌搜索算法,四个仿真实验的结果表明,在求解各案例的最优路径时,所提IPES的求解精度分别至少提升了0.92%、0.35%、3.07%、9.40%,验证了在求解SDVRP时,IPES具有良好的性能。
2022年 42卷 6期
刊出日期: 2022-06-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会