第八届中国数据挖掘会议(CCDM 2020)

Select

1. 基于近邻图改进的块对角子空间聚类算法

王丽娟, 陈少敏, 尹明, 许跃颖, 郝志峰, 蔡瑞初, 温雯

计算机应用 2021, 41 (1): 36-42. DOI: 10.11772/j.issn.1001-9081.2020061005

摘要（372）

PDF （1491KB）（638）

块对角表示（BDR）模型可以通过利用线性表示对数据有效地进行聚类，却无法很好地利用高维数据常见的非线性流形结构信息。针对这一问题，提出了基于近邻图改进的块对角子空间聚类（BDRNG）算法来通过近邻图来线性拟合高维数据的局部几何结构，并通过块对角约束来生成具有全局信息的块对角结构。BDRNG同时学习全局信息以及局部数据结构，从而获得更好的聚类表现。由于模型包含近邻图算子和非凸的块对角表示范数，BDRNG 采用了交替最小化来优化求解算法。实验结果如下：在噪声数据集上，BDRNG能够生成稳定的块对角结构系数矩阵，这说明了BDRNG对于噪声数据具有鲁棒性；在标准数据集上，BDRNG的聚类表现均优于BDR，尤其在人脸数据集上，相较于BDR，BDRNG的聚类准确度提高了8%。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于哈希学习的异常SQL检测

李明威, 蒋庆远, 解银朋, 何金栋, 吴丹

计算机应用 2021, 41 (1): 121-126. DOI: 10.11772/j.issn.1001-9081.2020060967

摘要（358）

PDF （816KB）（553）

针对最近邻（NN）方法在异常结构化查询语句（SQL）检测应用中面临的存储开销大、检索速度慢的问题，提出了一种基于哈希学习的异常SQL检测（HMSD）方法。该算法利用哈希学习来学习查询SQL语句的二值编码表示。首先，对查询SQL语句进行清洗去重，从而将查询SQL语句表示为实值特征形式；然后利用等方差哈希方法来学习查询SQL语句的二值编码表示；最后，通过二值编码表示进行检索并提高异常SQL检测的速度。实验结果表明，在异常SQL检测数据集Wafamole上，将数据集进行随机划分，使训练集包含10 000条SQL语句，测试集包含30 000条SQL语句，在128比特长度下，与最近邻方法相比，所提算法的检测精度提高了1.3%，假正例率（FPR）降低了0.19%，假负例率（FNR）降低了2.41%，检索时间减少了94%，存储开销降低了97.5%；与支持向量机方法相比，所提算法的检测精度提高了0.17%，验证了所提算法能解决最近邻方法在异常SQL检测中存在的问题。

参考文献 | 相关文章 | 多维度评价

Select

3. 联合均等采样随机擦除和全局时间特征池化的视频行人重识别方法

陈莉, 王洪元, 张云鹏, 曹亮, 殷雨昌

计算机应用 2021, 41 (1): 164-169. DOI: 10.11772/j.issn.1001-9081.2020060909

摘要（403）

PDF （1012KB）（399）

针对为解决视频监控中遮挡、背景物干扰，以及行人外观、姿势相似性等因素导致的视频行人重识别准确率较低的问题，提出了联合均等采样随机擦除和全局时间特征池化的视频行人重识别方法。首先针对目标行人被干扰或部分遮挡的情况，采用了均等采样随机擦除（ESE）的数据增强方法来有效地缓解遮挡，提高模型的泛化能力，更准确地匹配行人；其次为了进一步提高视频行人重识别的精度，学习更有判别力的特征表示，使用三维卷积神经网络（3DCNN）提取时空特征，并在网络输出行人特征表示前加上全局时间特征池化层（GTFP），这样既能获取上下文的空间信息，又能细化帧与帧之间的时序信息。通过在MARS、DukeMTMC-VideoReID 和PRID-2011三个公共视频数据集上的大量实验，证明所提出的联合均等采样随机擦除和全局时间特征池化的方法，相较于目前一些先进的视频行人重识别方法，具有一定的竞争力。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于引导滤波和差分图像的多聚焦图像融合方法

成亚玲, 柏智, 谭爱平

计算机应用 2021, 41 (1): 220-224. DOI: 10.11772/j.issn.1001-9081.2020081456

摘要（411）

PDF （1626KB）（391）

针对传统的多聚焦图像的空间域融合容易出现边缘模糊的问题，提出了一种基于引导滤波（GF）和差分图像的多聚焦图像融合方法。首先，将源图像进行不同水平的GF，并对滤波后图像进行差分，从而获得聚焦特征图像；随后，利用聚焦特征图像的梯度能量（EOG）信息获得初始决策图，对初始决策图进行空间一致性检查以及形态学操作以消除因EOG相近而造成的噪点；然后，对初始决策图进行GF以得到优化后决策图，从而避免融合后的图像存在边缘骤变的问题；最后，基于优化后决策图对源图像进行加权融合，以得到融合图像。选取3组经典的多聚焦图像作为实验图像，将所提方法与其他9种多聚焦图像融合方法得到的结果进行比较。主观视觉效果显示，所提方法能更好地将多聚焦图像的细节信息保存下来，另外，经该方法处理后的图像的4项客观评价指标均显著优于对比方法。结果表明，所提方法能够获得高质量的融合图像，较好地保留原始图像信息，有效解决传统多聚焦图像融合出现的边缘模糊问题。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于注意力机制和集成学习的网页黑名单判别方法

周超然, 赵建平, 马太, 周欣

计算机应用 2021, 41 (1): 133-138. DOI: 10.11772/j.issn.1001-9081.2020081379

摘要（386）

PDF （1076KB）（438）

搜索引擎作为互联网主要应用之一，能够根据用户需求从互联网资源中检索并返回有效信息。然而，得到的返回列表往往包含广告和失效网页等噪声信息，而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息，提出了一种基于注意力机制和集成学习的网页黑名单判别方法，并采用本方法构建了一种基于集成学习和注意力机制的卷积神经网络（EACNN）模型来过滤无用的网页。首先，根据网页上不同种类的HTML标签数据，构建多个基于注意力机制的卷积神经网络（CNN）基学习器；然后，采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算，从而实现EACNN的构建；最后，将EACNN的输出结果作为网页内容分析结果，从而实现网页黑名单的判别。所提方法通过注意力机制来关注网页语义信息，并通过集成学习的方式引入网页结构特征。实验结果表明，与支持向量机（SVM）、 K近邻（ KNN）、CNN、长短期记忆（LSTM）网络、GRU、结合注意力机制的卷积神经网络（ACNN）等基线模型相比，所提模型在所构建的面向地理信息领域的判别数据集上具有最高的准确率（0.97）、召回率（0.95）和 F ₁分值（0.96），验证了EACNN在网页黑名单判别工作中的优势。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于残差连接长短期记忆网络的时间序列修复模型

钱斌, 郑楷洪, 陈子鹏, 肖勇, 李森, 叶纯壮, 马千里

计算机应用 2021, 41 (1): 243-248. DOI: 10.11772/j.issn.1001-9081.2020060928

摘要（712）

PDF （942KB）（599）

传统的时间序列缺失修复方法通常假设数据由线性动态系统产生，然而时间序列更多地表现为非线性。为此，提出了基于残差连接长短期记忆（LSTM）网络的时间序列修复模型，称为RSI-LSTM，用来有效捕获时间序列的非线性动态特性，并且挖掘缺失数据和最近的非缺失数据之间的潜在关联。具体来说，就是采用LSTM网络对时间序列的非线性动态特性进行建模，同时引入残差连接来挖掘历史值与缺失值的联系，从而提升模型的修复能力。首先使用RSI-LSTM对单变量日供电量数据集的缺失数据进行修复，然后在第九届电工数学建模竞赛A题的电力负荷数据集上，引入气象因素作为RSI-LSTM的多变量输入，以提升模型对时间序列缺失值的修复效果。此外，使用了两个通用的多变量时间序列数据集以验证模型的缺失修复能力。实验结果表明，在单变量和多变量数据集上，RSI-LSTM的缺失值修复效果均优于LSTM，得到的均方误差（MSE）总体下降了10%。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于多尺度跳跃深度长短期记忆网络的短期多变量负荷预测

肖勇, 郑楷洪, 郑镇境, 钱斌, 李森, 马千里

计算机应用 2021, 41 (1): 231-236. DOI: 10.11772/j.issn.1001-9081.2020060929

摘要（419）

PDF （862KB）（530）

近年来，以循环神经网络（RNN）为主体构建的预测模型在短期电力负荷预测中取得了优越的性能。然而，由于RNN不能有效捕捉存在于短期电力负荷数据的多尺度时序特征，因而难以进一步提升负荷预测精度。为了捕获短期电力负荷数据中的多尺度时序特征，提出了一种基于多尺度跳跃深度长短期记忆（MSD-LSTM）网络的短期电力负荷预测模型。具体来说，以长短期记忆（LSTM）网络为主体构建预测模型能够较好地捕获长短期时序依赖，从而缓解时序过长时重要信息容易丢失的问题。进一步地，采用多层LSTM架构并且对各层设置不同的跳跃连接数，使得MSD-LSTM的每一层能够捕获不同时间尺度的特征。最后，引入全连接层把各层提取到的多尺度时序特征进行融合，再利用该融合特征进行短期电力负荷预测。实验结果表明，与单层LSTM和多层LSTM相比，MSD-LSTM的均方误差总体下降了10%。可见MSD-LSTM能够更好地提取短期负荷数据中的多尺度时序特征，从而提高短期电力负荷预测的精度。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于多尺度卷积神经网络和类内mixup操作的磁瓦表面质量识别

张京爱, 王江涛

计算机应用 2021, 41 (1): 275-279. DOI: 10.11772/j.issn.1001-9081.2020060886

摘要（364）

PDF （974KB）（840）

铁氧体磁瓦由于形状的不规则性和表面缺陷的多样性给基于计算机视觉的表面质量识别带来很大的挑战。针对该问题，将深度学习技术引入到磁瓦表面质量识别中，提出一种基于卷积神经网络的磁瓦表面质量识别系统。首先将磁瓦目标从采集到的图像中分割出来并进行旋转从而得到标准图像，然后把改进后的多尺度ResNet18作为骨干网络来设计识别系统。训练时，设计一种新颖的类内mixup操作来提高系统对样本的泛化能力。为了更加贴近实际应用场景，在考虑到光线变化、姿态差异等因素的前提下构建了磁瓦缺陷数据集。在自建的数据集中进行实验的结果表明，该系统可以达到97.9%的识别准确率，为磁瓦缺陷的自动识别提供了可行的思路。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于矩阵画像的金融时序数据预测方法

高世乐, 王滢, 李海林, 万校基

计算机应用 2021, 41 (1): 199-207. DOI: 10.11772/j.issn.1001-9081.2020060877

摘要（567）

PDF （1433KB）（959）

针对金融市场中机构交易对股票市场中的散户投资行为具有较强的误导性的现象，提出了一种基于机构交易行为影响的趋势预测方法。首先，利用时间序列的矩阵画像（MP）方法，以股票换手率数据为切入点，构建不同兴趣模式长度下的基于机构交易行为影响的换手率波动知识库；其次，确定待预测股票在兴趣模式长度取何值时的预测结果精确度高；最后，根据该兴趣模式长度下的知识库，预测在机构交易行为影响下的单支股票的波动趋势。为验证趋势预测新方法的可行性和准确性，将其与自回归滑动平均（ARMA）模型和长短时记忆（LSTM）网络这两种预测方法进行对比分析，运用均方根误差（RMSE）与平均绝对百分误差（MAPE）评价指标综合比较3种方法对70支股票的预测结果。实验结果分析表明，与ARMA模型和LSTM网络相比，在70支的股票价格趋势预测上，所提方法有80%以上的股票预测结果更准确。

参考文献 | 相关文章 | 多维度评价

Select

10. 带有自适应合并策略和导向算子的增强型烟花算法

李克文, 马祥博, 候文艳

计算机应用 2021, 41 (1): 81-86. DOI: 10.11772/j.issn.1001-9081.2020060887

摘要（423）

PDF （1056KB）（366）

针对传统烟花算法（FWA）在寻优过程中爆炸半径限制搜索范围、粒子间缺少有效交互的缺点，提出带有自适应合并策略和导向算子的增强型烟花算法（EFWA-GM）。首先根据烟花粒子间的位置关系，对寻优空间中重叠的爆炸范围进行自适应合并；其次通过对火花粒子进行分层来充分利用优质粒子的位置信息，从而设计导向算子引导次优粒子进化，以提高算法的寻优精度和收敛速度。在12个标准测试函数上的实验结果表明，所提出的EFWA-GM相较于标准粒子群（SPSO）算法、增强型烟花算法（EFWA）、自适应烟花算法（AFWA）、动态烟花算法（dynFWA）、有导烟花算法（GFWA）在寻优精度和收敛速度方面具有更好的优化性能，并在9个测试函数上取得最优的求解精度。

参考文献 | 相关文章 | 多维度评价

Select

11. 共享转换矩阵的胶囊网络及其融合视角特征的跨视角步态识别

李凯, 岳秉杰

计算机应用 2021, 41 (1): 157-163. DOI: 10.11772/j.issn.1001-9081.2020060890

摘要（385）

PDF （1194KB）（495）

步态识别具有非接触性、非侵犯性、易感知等优势，然而，在跨视角的步态识别中，行人的轮廓会随人的视角的变化而不同，从而影响步态识别的性能。为此，提出了共享转换矩阵的胶囊网络及其改进的动态路由算法，从而减少了网络训练参数。在此基础上，通过融合视角特征，利用Triplet损失与Margin损失提出了融合视角特征的跨视角步态识别模型。在CASIA-B数据集上的实验结果表明，使用共享转换矩阵的胶囊网络提取步态特征是有效的，在正常行走、携带背包、穿戴外套条件下，所提融合视角特征的模型在识别准确率上比基于卷积神经网络的跨视角步态识别方法提高了4.13%，且对跨较大视角的步态识别具有更好的性能。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于邻居信息聚合的子图同构匹配算法

徐周波, 李珍, 刘华东, 李萍

计算机应用 2021, 41 (1): 43-47. DOI: 10.11772/j.issn.1001-9081.2020060935

摘要（514）

PDF （755KB）（416）

图匹配在现实中被广泛运用，而子图同构匹配是其中的研究热点，具有重要的科学意义与实践价值。现有子图同构匹配算法大多基于邻居关系来构建约束条件，而忽略了节点的局部邻域信息。对此，提出了一种基于邻居信息聚合的子图同构匹配算法。首先，将图的属性和结构导入到改进的图卷积神经网络中进行特征向量的表示学习，从而得到聚合后的节点局部邻域信息；然后，根据图的标签、度等特征对匹配顺序进行优化，以提高算法的效率；最后，将得到的特征向量和优化的匹配顺序与搜索算法相结合，建立子图同构的约束满足问题（CSP）模型，并结合CSP回溯算法对模型进行求解。实验结果表明，与经典的树搜索算法和约束求解算法相比，该算法可以有效地提高子图同构的求解效率。

参考文献 | 相关文章 | 多维度评价

Select

13. 复杂环境下的冰箱金属表面缺陷检测

袁野, 谭晓阳

计算机应用 2021, 41 (1): 270-274. DOI: 10.11772/j.issn.1001-9081.2020060964

摘要（478）

PDF （905KB）（515）

为了提升冰箱金属表面的缺陷检测效率，从而应对复杂的生产情况，提出了Metal-YOLOv3模型。使用随机参数变换，将缺陷数据进行了数百倍的扩充，改变原有YOLOv3模型的损失函数，引入了基于完整交并比（CIoU）所设计的CIoU损失函数，用缺陷的分布特性来降低非极大值抑制算法的阈值，并基于 K均值聚类算法计算出更适合数据特点的先验框（anchors）值以提升检测精度。在一系列的实验后，发现Metal-YOLOv3模型在检测速度上远胜于主流的区域卷积神经网络（R-CNN）模型，每秒传输帧数（FPS）达到7.59，是Faster R-CNN的14倍，而且平均精确度（AP）也达到了88.96%，比Faster R-CNN高11.33个百分点，说明所提模型同时具备良好的鲁棒性与泛化性能。可见该方法具备有效性，能实际应用于金属制品的生产。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于多级全局信息传递模型的视觉显著性检测

温静, 宋建伟

计算机应用 2021, 41 (1): 208-214. DOI: 10.11772/j.issn.1001-9081.2020060968

摘要（380）

PDF （1655KB）（618）

对神经网络中的卷积特征采用分层处理的思想能明显提升显著目标检测的性能。然而，在集成分层特征时，如何获得丰富的全局信息以及有效融合较高层特征空间的全局信息和底层细节信息仍是一个没有解决的问题。为此，提出了一种基于多级全局信息传递模型的显著性检测算法。为了提取丰富的多尺度全局信息，在较高层级引入了多尺度全局特征聚合模块（MGFAM），并且将多层级提取出的全局信息进行特征融合操作；此外，为了同时获得高层特征空间的全局信息和丰富的底层细节信息，将提取到的有判别力的高级全局语义信息以特征传递的方式和较低层次特征进行融合。这些操作可以最大限度提取到高级全局语义信息，同时避免了这些信息在逐步传递到较低层时产生的损失。在ECSSD、PASCAL-S、SOD、HKU-IS等4个数据集上进行实验，实验结果表明，所提算法相较于较先进的NLDF模型，其F-measure（F）值分别提高了0.028、0.05、0.035和0.013，平均绝对误差（MAE）分别降低了0.023、0.03、0.023和0.007。同时，所提算法在准确率、召回率、F-measure值及MAE等指标上也优于几种经典的图像显著性检测方法。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于Dandelion编码生成有界树宽CP-nets

李丛丛, 刘惊雷

计算机应用 2021, 41 (1): 112-120. DOI: 10.11772/j.issn.1001-9081.2020060972

摘要（301）

PDF （1221KB）（883）

针对条件偏好网络（CP-nets）图模型在进行推理运算时的高时间复杂度的问题，提出了一种基于Dandelion编码生成有界树宽的CP-nets（BTW-CP-nets Gen）算法。首先，通过Dandelion编码与树宽为 k的树结构（ k-tree）之间的双向映射原理推导出Dandelion编码与 k-tree之间的解码与编码算法，实现编码与树结构的一对一映射；其次，利用 k-tree来约束CP-nets结构的树宽，并利用 k-tree的特征树得到了CP-nets的有向无环图结构；最后，利用离散多值函数的双射计算出各CP-nets结构节点的条件偏好表，然后针对生成的有界树宽CP-nets进行占优查询检测。理论分析和实验数据表明，与Pruffer编码生成 k-tree（Pruffer code）算法相比，BTW-CP-nets Gen算法的运行时间在生成简单结构和复杂结构时的下降幅度分别为21.1%和30.5%；而BTW-CP-nets Gen算法所生成的图模型在进行占优查询时的节点遍历比在简单结构和复杂结构上分别提高了18.48%和29.03%。BTW-CP-nets Gen算法在更短的时间内，占优查询时遍历的节点率更高。可见，BTW-CP-nets Gen算法在图模型的推理中能够有效提高算法效率。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于奖励高速路网络的多智能体强化学习中的全局信用分配算法

姚兴虎, 谭晓阳

计算机应用 2021, 41 (1): 1-7. DOI: 10.11772/j.issn.1001-9081.2020061009

摘要（549）

PDF （1410KB）（1397）

针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题，采用“中心训练-分散执行”的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下，环境仅给出所有智能体的联合行为所对应的全局奖励这一问题，提出一种新的全局信用分配机制——奖励高速路网络（RHWNet）。通过在原有算法的奖励分配机制上引入奖励高速路连接，将每个智能体的值函数与全局奖励直接建立联系，进而使得每个智能体在进行策略选择时能够综合考虑全局的奖励信号与其自身实际分得的奖励值。首先，在训练过程中，通过中心化的值函数结构对每个智能体进行协调；同时，这一中心化的结构也能起到全局奖励分配的作用；然后，在中心值函数结构中引入奖励高速路链接来辅助进行全局奖励分配，从而构建出奖励高速路网络；之后，在执行阶段，每个智能体的策略仅仅依赖于其自身的值函数。在星际争霸多智能体挑战的微操作场景中的实验结果表明，相比当前较先进的反直觉的策略梯度（Coma）算法和单调Q值函数分解（QMIX）算法，该网络所提出的奖励高速路在4个复杂的地图上的测试胜率提升超过20%。更重要的是，在智能体数量较多且种类不同的3s5z和3s6z场景中，该网络在所需样本数量为QMIX和Coma等算法的30%的情况下便能取得更好的结果。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于BERT的不完全数据情感分类

罗俊, 陈黎飞

计算机应用 2021, 41 (1): 139-144. DOI: 10.11772/j.issn.1001-9081.2020061066

摘要（449）

PDF （921KB）（904）

不完全数据，如社交平台的互动信息、互联网电影资料库中的影评内容，广泛存在于现实生活中。而现有情感分类模型大多建立在完整的数据集上，没有考虑不完整数据对分类性能的影响。针对上述问题提出基于BERT的栈式降噪神经网络模型，用于面向不完全数据的情感分类。该模型由栈式降噪自编码器（SDAE）和BERT两部分组成。首先将经词嵌入处理的不完全数据输入到SDAE中进行去噪训练，以提取深层特征来重构缺失词和错误词的特征表示；接着将所得输出传入BERT预训练模型中进行精化以进一步改进词的特征向量表示。在两个常用的情感数据集上的实验结果表明，所提方法在不完全数据情感分类中的F1值和准确率分别提高了约6%和5%，验证了所提模型的有效性。

参考文献 | 相关文章 | 多维度评价

Select

18. 基于注视兴趣区域聚类和转移的群体扫视路径生成

刘楠博, 肖芬, 张文雷, 李旺鑫, 翁尊

计算机应用 2021, 41 (1): 150-156. DOI: 10.11772/j.issn.1001-9081.2020061147

摘要（434）

PDF （2048KB）（401）

为解决自然场景下群体观察者扫视路径数据冗余繁乱、缺乏表征的问题，通过挖掘个体路径的潜在特性，提出了一种基于注视兴趣区域（ROI）时空聚类和转移的群体扫视路径生成方法。首先，分析同一刺激样本下多名观察者的扫视路径，利用亲和力传播聚类算法来聚类注视点以生成多个注视兴趣区域；其次，统计分析兴趣区域的观察者数量、注视频率以及注视时长等与注视强度相关的信息并筛选兴趣区域；然后，通过定义兴趣区域中的注视行为提取不同类型的兴趣子区域；最后，提出了基于注视优先度的兴趣区域和兴趣子区域转移模式，从而生成自然场景下的群体扫视路径。在MIT1003和OSIE公共数据集上进行群体扫视路径生成实验，结果表明，与目前先进的eMine、扫视路径趋势分析（STA）、序列模式挖掘算法（SPAM）、基于候选约束的动态时间规整质心平均方法（CDBA）和Heuristic方法相比，所提方法生成的群体扫视路径获得了较高的整体相似度，ScanMatch （w/o duration）分别可达0.426和0.467，ScanMatch（w/duration）分别可达0.404和0.439。可见该所生成的扫视路径与真实扫视路径的整体相似度较高，具有一定表征作用。

参考文献 | 相关文章 | 多维度评价

Select

19. 融合重叠社区正则化及隐式反馈的协同过滤方法

李翔锟, 贾彩燕

计算机应用 2021, 41 (1): 53-59. DOI: 10.11772/j.issn.1001-9081.2020060995

摘要（364）

PDF （956KB）（429）

针对目前推荐系统存在的数据稀疏和冷启动等问题，提出了一种融合重叠社区正则化及隐式反馈的协同过滤方法（OCRIF），该方法不仅考虑了用户在社交网络中的社区结构，而且将用户评分信息与社交信息的隐式反馈融入推荐模型之中。此外，由于网络表示学习可以有效学习节点在社交网络的全局结构上的近邻信息，提出了一种网络表示学习增强的OCRIF（OCRIF+），该方法结合社交网络中用户在网络中的低维表示与用户-商品特征，能更有效地刻画用户之间的相似度及用户对兴趣社区的归属度。多个真实数据集上的实验结果显示：所提出的方法的推荐效果优于同类方法，与TrustSVD方法相比，在FilmTrust、DouBan以及Ciao数据集上，该方法的均方根误差（RMSE）分别下降了2.74%、2.55%以及1.83%，平均绝对误差（MAE）分别下降了3.47%、2.97%以及2.40%。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于改进投票证明共识协议的车联网系统

陈锦宇, 刘兆伟

计算机应用 2021, 41 (1): 170-176. DOI: 10.11772/j.issn.1001-9081.2020060987

摘要（505）

PDF （1142KB）（373）

针对车联网（IoV）中信息传播效率及用户安全隐私的问题，提出了一种基于改进投票证明（PoV）共识协议的IoV系统。首先，根据IoV的实际需求，选择使用区块链技术来保障IoV基本的信息传播效率及用户安全；其次，为了进一步提高整个IoV系统的传播效率，通过优化结构及算法的方式改进了传统的PoV共识协议；最后，为了保护IoV用户的安全隐私，设计了一种监督惩罚机制来保障系统的可靠性。该协议不依赖第三方中介，因而可以在保障共识效率的同时保护车辆及车主的相关隐私，更加贴近IoV的实际需求。理论分析和仿真实验表明，同传统的PoV共识协议相比，改进PoV共识协议的确认交易时长以及区块间隔时间均从0.25 min降低至0.2 min；而在共识协议的可靠性对比中，具有监督惩罚机制的改进共识协议的准确性比缺乏监督惩罚机制的改进共识协议提高了29.4%。实验结果表明，改进后的共识协议在IoV中具有较高的共识效率及安全性。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于BERT的心血管医疗指南实体关系抽取方法

武小平, 张强, 赵芳, 焦琳

计算机应用 2021, 41 (1): 145-149. DOI: 10.11772/j.issn.1001-9081.2020061008

摘要（837）

PDF （823KB）（973）

实体关系抽取是医疗领域知识问答、知识图谱构建及信息抽取的重要基础环节之一。针对在心血管专病知识图谱构建的过程中尚无公开数据集可用的情况，收集了心血管疾病领域的医疗指南并进行相应的实体和关系类别的专业标注，构建了心血管专病知识图谱实体关系抽取的专业数据集。基于该数据集，首先提出双向变形编码器卷积神经网络（BERT-CNN）模型以实现中文语料中的关系抽取，然后根据中文语义中主要以词而不是字为基本单位的特性，提出了改进的基于全词掩模的双向变形编码器卷积神经网络（BERT（wwm）-CNN）模型用于提升在中文语料中关系抽取的性能。实验结果表明，改进的BERT（wwm）-CNN在所构建的关系抽取数据集上准确率达到0.85，召回率达到0.80， F ₁值达到0.83，优于对比的基于双向变形编码器长短期记忆网络（BERT-LSTM）模型和BERT-CNN模型，验证了改进网络模型的优势。

参考文献 | 相关文章 | 多维度评价

Select

22. 基于城市交通监控大数据的工作位置推理方法

陈凯, 于彦伟, 赵金东, 宋鹏

计算机应用 2021, 41 (1): 177-184. DOI: 10.11772/j.issn.1001-9081.2020060937

摘要（468）

PDF （1377KB）（485）

基于时空数据的用户位置推理在产品推荐、精确营销、交通调度及城市规划等实际应用中有着重要的作用，然而，基于城市交通监控数据的位置推理问题尚未被探索，因此，提出了一种面向稀疏摄像头交通监控数据的工作位置推理方法。首先，收集了路网、兴趣点（POI）等城市交通外围数据，并通过路网匹配的预处理方式获取到了一个含有摄像头、POI等丰富语义信息的真实路网；其次，通过聚类车辆轨迹中所提取的起点-终点（O-D）对来获得车辆重要的停留区域，即候选工作区域；之后，利用所提的in/out访问时间模式的约束，从多个候选区域中匹配出最大可能的工作区域；最后，利用所获取的路网信息和路网周中POI的分布信息提取出车辆的可达POI集合，从而进一步缩小车主的工作位置范围。在一个省会城市真实的交通监控数据集上的综合实验评估和案例分析验证了所提方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于经验模态分解与多分支神经网络的超短期风功率预测

孟鑫禹, 王睿涵, 张喜平, 王明杰, 丘刚, 王政霞

计算机应用 2021, 41 (1): 237-242. DOI: 10.11772/j.issn.1001-9081.2020060930

摘要（588）

PDF （1078KB）（698）

风功率预测是实现风电场监控及信息化管理的重要基础，风功率超短期预测常用于平衡负荷、优化调度，对预测精度有较高的要求。由于风电场环境复杂、风速不确定性因素较多，风功率时序信号往往具有非平稳性和随机性。循环神经网络（RNN）适用于时间序列任务，但无周期、非平稳的时序信号会增加网络学习的难度。为了克服非平稳信号在预测任务中的干扰，提高风功率预测精度，提出了一种结合经验模态分解与多分支神经网络的超短期风功率预测方法。首先将原始风功率时序信号通过经验模态分解（EMD）以重构数据张量，然后用卷积层和门控循环单元（GRU）层分别提取局部特征和趋势特征，最后通过特征融合与全连接层得到预测结果。在内蒙古某风场实测数据集上的实验结果表明，与差分整合移动平均自回归（ARIMA）模型相比，所提方法在预测精度方面有将近30%的提升，验证了所提方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于经验模态分解和长短期记忆神经网络的短期交通流量预测

张晓晗, 冯爱民

计算机应用 2021, 41 (1): 225-230. DOI: 10.11772/j.issn.1001-9081.2020060919

摘要（560）

PDF （1687KB）（582）

交通流量预测作为智能交通的重要一环，所要处理的交通数据具有非线性、周期性和随机性的特点，导致在数据预测时，不稳定的交通流量数据依赖于长期数据范围，且由于一些外部因素使得原始数常包含一些噪声，可能导致预测性能的进一步下降。针对上述问题提出了一种能够去噪且能处理长时依赖的预测算法——EMD-LSTM。首先，通过经验模态分解（EMD）算法将交通时序数据中的不同尺度分量逐级分解出来，生成一系列具有相同特征尺度的本征模函数，从而去除一定的噪声影响；然后，借助长短期记忆（LSTM）神经网络解决数据的长期依赖问题，从而使所提算法在长时间视野预测方面表现更为突出。对实际数据集进行短期预测的实验结果表明，EMD-LSTM的平均绝对误差（MAE）比LSTM低了1.916 32，平均绝对百分误差（MAPE）比LSTM降低了4.645 45个百分点，可见所提出的混合模型使预测准确性得到显著提高，能够有效解决交通数据的问题。

参考文献 | 相关文章 | 多维度评价

Select

25. 面向群组用户时序行为的动态推荐算法

温雯, 刘芳, 蔡瑞初, 郝志峰

计算机应用 2021, 41 (1): 60-66. DOI: 10.11772/j.issn.1001-9081.2020061010

摘要（398）

PDF （1014KB）（541）

针对现实系统中用户偏好随时间动态变化且一个用户ID背后可能是一个家庭的多个成员在共用的问题，提出一种为这类隐含多个类型成员行为的群组用户解决其偏好随时间而变化的动态推荐算法。首先，假设用户的历史行为数据包括曝光数据和点击数据，并通过学习当前时刻下群组用户的各类型角色权重来判别当前成员角色；其次，根据曝光数据提出两种设计思路来构造流行度模型，并采用逆倾向评分加权方法来平衡训练数据；最后，利用矩阵分解技术得出随时间变化的用户潜在偏好因子和物品潜在属性因子，计算两者内积后得出用户随时间变化的Top- K偏好推荐。实验结果表明，该算法在召回率、平均精度均值（MAP）、归一化折损累计增益（NDCG）这三个指标上一天24个时刻中均能有至少16个时刻的表现优于基准方法，并能缩短运行时间，降低计算的时间复杂度

参考文献 | 相关文章 | 多维度评价

Select

26. 混合群体增量学习算法求解闭环布局问题

邓文瀚, 张铭, 王李进, 钟一文

计算机应用 2021, 41 (1): 95-102. DOI: 10.11772/j.issn.1001-9081.2020081218

摘要（476）

PDF （992KB）（380）

闭环布局问题（CLLP）是一种NP-困难的混合优化问题，它在大小可调的矩形环上寻找设施最佳放置次序，目标是最小化设施之间物料流的运输成本。现有方法均采用元启发式算法来寻找最优的设施放置次序，并且通过枚举方法来获得最优的矩形环大小，而枚举方法的计算效率不高。为了解决这个问题，提出了求解CLLP的混合群体增量学习（HPBIL）算法，分别使用离散群体增量学习（DPBIL）算子和连续PBIL（CPBIL）算子同时对设施放置次序和矩形环大小进行优化，提高了搜索效率；同时还设计了一个局部搜索算法来优化每代中的部分优质解，以提高算法的求精能力。在13个CLLP测试实例上进行实验，结果表明HPBIL算法在9个测试实例上找到了新的最优布局，它对CLLP的寻优能力明显优于对比算法。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于虚拟导航线的农业机器人精确视觉导航方法

梁臻, 房体育, 李金屏

计算机应用 2021, 41 (1): 191-198. DOI: 10.11772/j.issn.1001-9081.2020060927

摘要（454）

PDF （1980KB）（488）

针对农田、野外环境中无人工标记情况下的导航问题，提出了一种基于虚拟导航线的农业机器人精确视觉导航方法。该方法不需要铺设导航线或者路标即可引导机器人行走直线。首先，根据需求确定需要跟踪的目标区域，之后控制机器人调整方向直到目标移至视野中央；其次，根据机器人和目标的位置确定参照目标，并依据两个目标的位置确定虚拟导航线；然后，动态更新导航线，并结合虚拟定标线和虚拟导航线确定偏移角度和偏移距离；最后，利用偏移参数构建模糊控制表，并以此实现对机器人旋转角度和行走速度的调整。实验结果表明，该算法能较为精确地实现对导航路线的识别，进而利用模糊控制策略使机器人沿直线向目标行走，且导航精度在10 cm以内。

参考文献 | 相关文章 | 多维度评价

Select

28. 基于BERT-PGN模型的中文新闻文本自动摘要生成

谭金源, 刁宇峰, 祁瑞华, 林鸿飞

计算机应用 2021, 41 (1): 127-132. DOI: 10.11772/j.issn.1001-9081.2020060920

摘要（1506）

PDF （857KB）（2777）

针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题，基于BERT和指针生成网络（PGN），提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络（BERT-PGN）。首先，利用BERT预训练语言模型结合多维语义特征获取词向量，从而得到更细粒度的文本上下文表示；然后，通过PGN模型，从词表或原文中抽取单词组成摘要；最后，结合coverage机制来减少重复内容的生成并获取最终的摘要结果。在2017年CCF国际自然语言处理与中文计算会议（NLPCC2017）单文档中文新闻摘要评测数据集上的实验结果表明，与PGN、伴随注意力机制的长短时记忆神经网络（LSTM-attention）等模型相比，结合多维语义特征的BERT-PGN模型对摘要原文的理解更加充分，生成的摘要内容更加丰富，全面且有效地减少重复、冗余内容的生成，Rouge-2和Rouge-4指标分别提升了1.5%和1.2%。

参考文献 | 相关文章 | 多维度评价

Select

29. 面向高铁站的热舒适度和能耗综合预测

蒋阳升, 王胜男, 涂家祺, 李莎, 王红军

计算机应用 2021, 41 (1): 249-257. DOI: 10.11772/j.issn.1001-9081.2020060889

摘要（448）

PDF （1132KB）（572）

针对高铁站这类半封闭建筑的热舒适度影响因素众多，影响机制复杂以及热舒适度与能耗存在背反等问题，提出了基于机器学习的高铁站热舒适度与能耗综合预测方法。首先采用传感器数据捕获及Energy Plus仿真两种方式对高铁站室内外状态、多联机及热交换机等控制单元及热能传导环境进行建模；其次提出影响高铁站热舒适度的八类因素——多联机开启台数、多联机设置温度、热交换机开启台数、客流密度、室外温度、室内温度、室内湿度和室内二氧化碳浓度，并设计424种模型运行工况以及3 714 240个实例；最后设计6种机器学习模型——深度神经网络、支持向量回归、决策树回归、线性回归、岭回归和贝叶斯岭回归，来对高铁站室内热舒适度和空调能耗进行有效预测。实验结果表明，6种机器学习模型中决策树回归预测模型能够在较短的时间内获得最优的预测性能，其平均均方误差低至0.002 2。所得研究成果可直接为下一阶段的温控策略提供主动预判的环境状态参数并实现实时决策。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于深度森林的高铁站室内热舒适度等级预测

陈彦如, 张涂静娃, 杜千, 冉茂亮, 王红军

计算机应用 2021, 41 (1): 258-264. DOI: 10.11772/j.issn.1001-9081.2020060888

摘要（503）

PDF （1166KB）（769）

对于高铁站这类半封闭半开放空间的室内环境热舒适度等级难以准确预测的问题，提出基于深度森林（DF）的深度学习方法对热舒适度等级进行科学预测。首先基于现场调研和Energy Plus平台对高铁站室的热交换环境进行建模；其次提炼出客流密度、多联机开行台数和多联机设置温度等8个影响因素，并设计424种工况以获取海量数据；最后采用DF挖掘热舒适度与影响因素之间的关系，以对高铁站室内热舒适度等级进行预测。采用深度神经网络（DNN）和支持向量机（SVM）作为对比算法进行验证。实验结果表明，在3种模型中，DF在预测正确率和 weighted- F ₁上表现最佳，DF的预测正确率最高达到99.76%，最低为98.11%。因此，DF能够有效预测高铁站室内的热舒适度等级。

参考文献 | 相关文章 | 多维度评价

虚拟专题文章