《计算机应用》唯一官方网站

面向期限感知分布式矩阵相乘的高效存储方案

赵永柱, 黎卫东, 唐斌, 梅峰, 卢文达

2020, 40(2): 311-315. DOI: 10.11772/j.issn.1001-9081.2019091640

摘要 ( )

HTML ( )

PDF (742KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

分布式矩阵相乘是众多分布式机器学习、科学计算等应用中的关键操作，但其性能会受到系统中常见的落后节点的严重影响。最近研究者提出了基于喷泉码的编码矩阵相乘方法，能够充分利用落后节点的部分计算结果，从而大幅度减轻落后节点问题，但忽略了工作节点的存储开销。在考虑存储开销与计算完成时间之间的权衡关系的基础上，首先提出了面向异构工作节点的计算期限感知的存储优化问题；然后进一步通过理论分析，提出了基于期望近似的解决思路，并通过松弛将问题转化为凸优化问题以方便高效求解。仿真实验表明，在保证较大的任务成功率的情况下，所提方案的存储开销会随着任务期限的放宽迅速下降，并且该方案能够更大幅度降低编码带来的存储开销。也就是说，所提方案能够在保障整体计算在期限内大概率完成的前提下，大幅度降低总体的额外存储负载。

基于远程直接内存访问的高性能键值存储系统

王成, 叶保留, 梅峰, 卢文达

2020, 40(2): 316-320. DOI: 10.11772/j.issn.1001-9081.2019091635

摘要 ( )

HTML ( )

PDF (613KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

随着数据与系统规模的不断扩大，网络传输成为了键值存储系统的性能瓶颈。同时，远程直接内存访问（RDMA）技术能够支持高带宽和低时延的数据传输，为键值存储系统设计提供了新的思路。结合高性能网络中的RDMA技术，设计并实现了高性能、低CPU负载的键值存储系统Chequer；结合RDMA原语的特性，重新设计了键值存储系统的基本操作工作流程；并设计了基于线性探测的共享hash表，解决客户端缓存失效的问题以及提高hash命中率来减少客户端的读取轮数，进一步提高了系统的性能。在小规模集群上实现了Chequer系统，并通过实验验证了其性能。

基于增量学习的RocksDB键值系统主动缓存机制

骆克云, 叶保留, 唐斌, 梅峰, 卢文达

2020, 40(2): 321-327. DOI: 10.11772/j.issn.1001-9081.2019091616

摘要 ( )

HTML ( )

PDF (723KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

由于分层结构的约束，基于日志结构合并（LSM）树的RocksDB键值存储系统面临着读取性能低下的问题。一种有效的解决方法是对热点数据进行主动缓存，但其面临两个挑战：一是如何在数据分布持续动态变化时对热点数据进行预测，二是如何将主动缓存机制与RocksDB存储结构衔接起来。针对这些挑战，基于预测分析技术，构建了由数据采集、系统交互、系统测试等部分组成的面向RocksDB键值系统的主动缓存框架，能够将热点数据缓存在LSM树的较低层级中；并对数据访问模式进行建模，设计并实现了基于增量学习的热点数据预测分析方法，能够有效减少存储介质的I/O访问次数。实验结果表明该机制能有效提升RocksDB在不同动态工作负载下的数据读取性能。

基于多微云协作的计算任务卸载

王庆永, 毛莺池, 王绎超, 王龙宝

2020, 40(2): 328-334. DOI: 10.11772/j.issn.1001-9081.2019081367

摘要 ( )

HTML ( )

PDF (800KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对多微云计算模式下计算任务卸载过程复杂、任务响应时间长的问题，构建面向多微云协作的计算任务卸载模型，并提出加权自适应惯性权重的粒子群优化（WAIW-PSO）算法，快速求解最优卸载策略。首先，对移动终端-微云-远程云的任务执行过程进行建模；其次，考虑多用户对计算资源的竞争，构建基于多微云协作的任务卸载模型；最后，针对求解最佳任务卸载策略复杂度过高的情况，提出WAIW-PSO算法求解卸载问题。仿真实验结果表明，与标准粒子群优化（PSO）算法以及基于高斯函数递减惯性权重的粒子群优化（GDIWPSO）算法相比，WAIW-PSO算法可以根据进化代数和个体适应度综合调整惯性权重，寻优能力较强，求解最优卸载策略的时间最短；在不同设备数、任务数等情况下选择不同任务卸载策略进行对比实验的结果表明，基于WAIW-PSO算法的卸载策略可以明显缩短任务总完成时间。

基于DPDK并行通信的动态监控模型

李翠, 陈庆奎

2020, 40(2): 335-341. DOI: 10.11772/j.issn.1001-9081.2019081405

摘要 ( )

HTML ( )

PDF (846KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了更好地发挥通信系统的性能，充分利用系统节点的资源，提高系统的可靠性与稳定性，设计了一种基于DPDK并行通信的动态监控模型。该模型结合DPDK和通信系统的高速率、大流量、强实时性等特点，面向多节点备份、数据包与控制包分离、多网口并行收发数据包、多核并行处理数据包进行设计，分析了监控对象，研究了数据采集方法，设计了二层通信协议DMPD，并对网口进行了细粒度监控，给出了网口负载信息模型。另外，将散列函数、调整函数与动态负载信息结合起来设计了更有效、更公平的基于多网口的动态负载均衡算法。实验结果表明，该监控模型能够准确检测和及时处理系统出现的异常，并且实现了多网口的动态负载均衡。

基于边缘计算的分支神经网络模型推断延迟优化

樊琦, 李卓, 陈昕

2020, 40(2): 342-346. DOI: 10.11772/j.issn.1001-9081.2019081406

摘要 ( )

HTML ( )

PDF (629KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对云服务器上深度神经网络（DNN）模型推断任务延迟过高的问题，提出基于边缘计算的分支神经网络部署模型。分析了边缘计算场景中深度神经网络的分布式部署问题，证明该问题是NP-难的。设计了一种基于分支定界思想的部署算法（DBB），选择合适的边缘计算节点部署模型以减少推断任务的延迟。设计并实现了选择节点退出（SNE）算法，为不同任务选择合适的边缘计算节点来退出推断任务。仿真实验结果表明，与在云端部署神经网络模型的方法相比，基于边缘计算的分支神经网络模型的推断延迟平均降低了36%。

基于随机森林和遗传算法的Ceph参数自动调优

陈禹, 毛莺池

2020, 40(2): 347-351. DOI: 10.11772/j.issn.1001-9081.2019081366

摘要 ( )

HTML ( )

PDF (722KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

Ceph系统性能受Ceph配置参数的显著影响，在Ceph集群的配置优化中，配置参数种类繁多、含义复杂，导致难以实现快速准确寻优。针对以上问题，提出一种基于随机森林（RF）和遗传算法（GA）的参数调优方法，用于自动调整Ceph参数配置以优化Ceph系统性能。该方法使用RF算法为Ceph系统构建性能预测模型，并将预测模型的输出作为GA的输入，通过GA对参数配置方案进行自动迭代优化。仿真结果表明，调优后的参数配置较默认的参数配置相比，使Ceph文件系统的读写性能提高了约1.4倍，并且寻优耗时远低于黑盒参数调优方法。

基于线性分配的难负样本挖掘度量学习

傅泰铭, 陈燕, 李陶深

2020, 40(2): 352-357. DOI: 10.11772/j.issn.1001-9081.2019081403

摘要 ( )

HTML ( )

PDF (2386KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

科学家依靠鲸鱼尾巴的形状及其独特的标记来识别鲸鱼的种类，但靠人眼识别和手工标注的过程非常繁琐。而且鲸鱼尾巴照片数据集存在数据分布不均衡的特点，其中个别种类样本数量极少，甚至仅有一份；同时样本个体差异较小，并且包含未知类别，导致以图像分类的方式完成鲸鱼身份的自动标注存在困难。为解决度量学习在该任务下难以分类的问题，在孪生神经网络（SNN）的基础上，利用线性分配问题（LAP）算法进行难负样本挖掘训练过程从而动态地构筑训练批次。首先对训练样本提取图像特征向量，并计算特征向量的相似性度量；然后通过LAP为模型分配样本对，根据度量分数矩阵动态地构筑训练样本批次，针对性地训练困难样本对。在一个数据分布不平衡的鲸鱼尾巴图像数据集和CUB-200-2001数据集上得到的实验结果表明，所提算法在少数类学习和细粒度图像分类上能取得良好的效果。

移动群智感知中面向用户区域的分布式多任务分配方法

韩俊樱, 张振宇, 孔德仕

2020, 40(2): 358-362. DOI: 10.11772/j.issn.1001-9081.2019081402

摘要 ( )

HTML ( )

PDF (575KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

多数群智感知（MCS）任务分配方法针对单个任务，难以适用于多任务实时并发的现实场景，而且往往需要实时获取用户位置，不利于保护参与者隐私。针对上述问题，提出了一种面向用户区域的分布式多任务分配方法Crowd-Cluster。该方法首先通过贪心启发算法将全局感知任务及用户区域进行分簇；其次，基于空间关联性采用Q-learning算法将并发任务组合构成任务路径；接着，构建符合玻尔兹曼分布的用户意愿模型对任务路径进行动态定价；最后，基于历史信誉记录贪心优选参与者实现任务分配。基于真实数据集mobility的实验结果表明，Crowd-Cluster能有效减少参与者总人数及用户总移动距离，并且在低人群密度场景下，还能降低感知资源不足对任务完成度的影响。

最小化具有无线携能通信的全双工中继系统发射功率和

周叶宁, 李陶深, 曾敏, 肖楠

2020, 40(2): 363-368. DOI: 10.11772/j.issn.1001-9081.2019081477

摘要 ( )

HTML ( )

PDF (718KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

考虑在无线网络中采用信息与能量同步传输来提高无线中继系统的性能，提出了基于无线射频网络中采用无线携能通信（SWIPT）技术的具有自能量回收的双向传输全双工中继系统。SWIPT应用在双向全双工中继系统中是一个新的尝试，其中能量受限的目的节点使用从中继和环路信道捕获的能量来发送反馈信息，并给出了全双工中继系统工作的逻辑结构和能量受限的目的节点的物理结构。然后，以最小化系统发射功率和作为优化目标来描述系统的性能，采用功率分配方案进行信息解码和能量捕获，应用半定规划、秩松弛和拉格朗日方法将原始非凸优化方程转化为可解凸优化问题并求解，且联合优化了中继发射功率、发射波束成形向量和功率分配比率。最后，实验仿真对比了所提的新系统与传统双向传输中继系统，结果验证了利用自能量回收不仅可以消除自干扰，而且可以显著优化系统发射功率和，且由于SWIPT技术与全双工中继系统的结合，使得所提出的系统比传统的双向传输系统具有更高的性能增益。

基于分布式神经网络的苹果价格预测方法

刘斌, 何进荣, 李远成, 韩宏

2020, 40(2): 369-374. DOI: 10.11772/j.issn.1001-9081.2019081454

摘要 ( )

HTML ( )

PDF (672KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对传统农产品价格预测模型在大数据场景下无法快速准确对苹果市场价格进行预测的问题，提出一种基于分布式神经网络的苹果价格预测方法。首先，研究影响苹果市场价格的相关因素，选取苹果历史价格、替代品历史价格、居民消费水平和原油价格四个特征作为神经网络模型的输入；然后，构建蕴含价格波动规律的分布式神经网络模型，实现对苹果市场价格的短期预测。实验结果显示，基于分布式神经网络的苹果市场价格短期预测模型具有较高的预测精度，平均相对误差仅为0.50%，满足苹果市场价格预测的要求。实验结果表明，分布式神经网络模型能够通过自学习特性揭示出苹果市场价格的波动规律和发展趋势，所提方法能为稳定苹果市场秩序和市场价格宏观调控提供科学依据，有助于降低价格波动带来的危害，帮助果农规避市场风险。

基于卷积神经网络框架的回声隐藏检测方法

王杰, 王让定, 严迪群, 林昱臻

2020, 40(2): 375-380. DOI: 10.11772/j.issn.1001-9081.2019081400

摘要 ( )

HTML ( )

PDF (713KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

回声隐藏是一种以音频为载体的隐写技术，目前针对回声隐藏的隐写分析方法主要以倒谱系数作为手工特征进行分类。然而，这些传统方法普遍在回声幅度较低时检测性能不高。针对回声幅度较低的情况，提出一种基于卷积神经网络（CNN）的回声隐藏隐写分析方法。首先利用短时傅里叶变换（STFT）提取音频的幅度谱系数矩阵作为浅层特征，然后设计了一个卷积神经网络框架对浅层特征进行进一步的深度特征提取，网络框架中包含了四个卷积模块以及三层全连接层，最后分类结果以Softmax进行输出。在三种经典的回声隐藏算法上对提出的方法进行了隐写分析实验评估，实验结果表明，该方法在低回声幅度条件下的检测率分别为98.62%、98.53%和93.20%，与目前所提出的传统基于手工特征的方法和基于深度学习的方法相比，检测性能提升10%以上。

使用深度对抗子空间聚类实现高光谱波段选择

曾梦, 宁彬, 蔡之华, 谷琼

2020, 40(2): 381-385. DOI: 10.11772/j.issn.1001-9081.2019081385

摘要 ( )

HTML ( )

PDF (714KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

高光谱图像（HSI）由数百个波段组成，波段之间的相关性强且具有较高的冗余度，导致出现维度灾难并且分类的复杂性很高。为此，使用深度对抗子空间聚类（DASC）网络进行高光谱的波段选择，并引入拉普拉斯正则化使网络更优，在保证分类精度的前提下降低分类的复杂度。该网络通过在编码器和解码器中引入自表达层来模仿传统子空间聚类的“自表达”属性，充分运用光谱信息和非线性特征转换得到波段之间的相互关系，解决传统波段选择方法无法同时考虑光谱和空间信息的问题。同时，引入对抗学习来监督自编码器的样本表示和子空间聚类，使得子空间聚类具有更好的自表达性能。为了使网络性能更优，加入拉普拉斯正则化来考虑反映图像几何信息的局部流形结构。实验在两个公开的高光谱数据集上进行，所提出的方法和几种主流的波段选择方法进行对比的结果表明，DASC方法在分类精度上优于对比方法，其选出的波段子集可以满足应用需求。

多种任务调度混合的IB-LBM并行优化方法

刘智翔, 刘慧超, 黄冬梅, 周丽萍, 苏诚

2020, 40(2): 386-391. DOI: 10.11772/j.issn.1001-9081.2019081401

摘要 ( )

HTML ( )

PDF (941KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在使用浸入边界-格子玻尔兹曼方法（IB-LBM）求解流场时，为了得出比较精确的结果，往往需要规模较大、较密集的流场网格，这就会造成模拟过程时间长的问题。为了提高模拟的效率，利用IB-LBM局部计算的特点，结合OpenMP中三种不同的任务调度方式，给出了IB-LBM的并行优化方法。在并行优化中混合使用三种任务调度方式，以弥补单一任务调度造成的负载不均衡问题；将IB-LBM进行结构化分解，测试每一结构部分的最优调度方式，根据实验结果选择最优的调度组合方式，而在不同线程数下，最优的组合方式是不同的。优化结果通过并行加速比来检验，可以得出：在线程数较少的情况下，加速比趋近于理想状态；在线程数较多的情况下，虽然线程开辟和销毁的额外时间消耗对性能的优化产生了影响，模型的并行性能仍有了很大的提升。流场的模拟结果显示，在进行并行优化后， IB-LBM对流固耦合问题模拟的准确性并没有受到影响。

圆片下料并行遗传算法的设计与实现

曾志阳, 陈燕, 王珂

2020, 40(2): 392-397. DOI: 10.11772/j.issn.1001-9081.2019081397

摘要 ( )

HTML ( )

PDF (658KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对制造行业中的圆片下料问题，为了在合理的计算时间内使材料的利用率尽可能高，提出并行遗传下料算法（PGBA），以下料方案的材料利用率作为优化目标函数，将下料方案作为个体，采用多线程的方式对多个子种群并行进行遗传操作。首先，在并行遗传算法的基础上设计特定的个体编码方式，采用启发式方法生成种群的个体，以提高算法的搜索能力和效率，避免早熟现象的发生；然后，采用性能较好的遗传算子进行自适应的遗传操作，搜索出一种近似最优的下料方案；最后，通过多种实验验证算法的有效性。结果表明，与启发式算法相比，PGBA的计算时间有所增加，但材料利用率得到了较大的提高，能有效提高企业的经济效益。

Graphlet Degree Vector方法的优化与并行

宋祥帅, 杨伏长, 谢江, 张武

2020, 40(2): 398-403. DOI: 10.11772/j.issn.1001-9081.2019081387

摘要 ( )

HTML ( )

PDF (742KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

Graphlet Degree Vector （GDV）是一种研究生物网络的重要方法，能揭示生物网络中各节点与其局部网络结构的相关性，但随着需要挖掘的自同构轨道数量的增加以及生物网络规模的增大，GDV方法的时间复杂度会呈指数级增长。针对这个问题，在现有串行GDV方法的基础上，实现了基于消息传递接口（MPI）的GDV方法并行化；此外又将GDV方法进行了改进并将改进后的方法实现了并行优化，改进后的方法在寻找不同节点自同构轨道的过程中优化了计算过程以解决重复计算的问题，同时结合负载均衡策略合理分配任务。模拟网络数据和真实生物网络数据上的实验结果表明，并行化的GDV方法与改进后的并行化GDV方法都具有较好的并行性能，并且对不同类型不同规模的网络都具有较强的适用性，扩展性强，可有效地保持寻找网络中自同构轨道的高效率。

基于格子Boltzmann方法和大涡模拟的颈动脉分叉狭窄流动并行计算

张毅卓, 葛森, 王良军, 谢江, 曹洁, 张武

2020, 40(2): 404-409. DOI: 10.11772/j.issn.1001-9081.2019081388

摘要 ( )

HTML ( )

PDF (1296KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

颈动脉斑块的形成与复杂的血流动力学因素密切相关，血液流动状况的精确模拟对颈动脉斑块的临床诊断具有重要意义。为了精确模拟脉动流场，在格子Boltzmann方法（LBM）的基础上，添加大涡模拟（LES）模型，建立了LBM-LES颈动脉模拟算法。利用医学图像重构软件，建立颈动脉狭窄真实几何模型，对颈动脉狭窄脉动流动进行了数值模拟，通过计算血液流动速度、壁面剪切应力（WSS）等，得出了有意义的流动结果，验证了LBM-LES对颈动脉狭窄后段血液流动研究的有效性。基于OpenMP编程环境，在高性能集群机全互联胖节点上进行了千万量级网格的并行计算，结果表明LBM-LES颈动脉模拟算法具有较好的并行性能。

TiDB的多索引访问优化

兰海, 韩珂, 申砾, 崔秋, 彭煜玮

2020, 40(2): 410-415. DOI: 10.11772/j.issn.1001-9081.2019081908

摘要 ( )

HTML ( )

PDF (613KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

当查询条件涉及多个已建立索引的属性时，TiDB不能利用多个索引产生更优的执行计划。为了解决此问题，在研究现有数据库解决方案（如PostgreSQL和MySQL等）后，在TiDB中提出一种同时利用多个索引的新类型数据访问路径，称为MultiIndexPath。首先，设计算法生成一个查询可能的MultiIndexPath，并产生该路径的物理计划MultiIIndexPlan，然后计算物理计划的代价；其次，结合TiDB的架构与实现，提出MultiIndexPlan的通用执行框架；最后，当条件为合取范式时，提出Pipeline执行方案。整个工作基于TiDB 3.0实现并进行若干实验，结果表明：当条件为析取范式时，所提方案的性能比原TiDB至少有一个数量级提升；当条件为合取范式时，性能也优于原TiDB。

大数据上函数查询解答的复杂度分析

吴文莉, 刘国华, 张君宝

2020, 40(2): 416-419. DOI: 10.11772/j.issn.1001-9081.2019091618

摘要 ( )

HTML ( )

PDF (436KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

函数查询是大数据应用中重要的操作，查询解答问题一直是数据库理论中的核心问题。为了分析大数据上函数查询解答问题的复杂度，首先，使用映射归约方法将函数查询语言归约到已知的可判定语言，证明了函数查询解答问题的可计算性；其次，使用一阶语言描述函数查询，并分析了一阶语言的复杂度；在此基础上，使用NC-factor归约方法将函数查询类归约到已知的 $Π Τ Q$ -complete类中。证明函数查询解答问题经过PTIME（多项式时间）预处理后，可以在NC（并行多项式-对数）时间内求解。通过以上证明可以推出，函数查询解答问题在大数据上是可处理的。

并行查询下查询执行计划的选择

裴泽锋, 牛保宁, 张锦文, Muhammad Amjad

2020, 40(2): 420-425. DOI: 10.11772/j.issn.1001-9081.2019101762

摘要 ( )

HTML ( )

PDF (477KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

查询是数据库系统的主要负载，其效率决定了数据库性能的好坏。一个查询存在多种执行计划，当前，查询优化器只能按照数据库系统的配置参数，静态地为查询选择一个较优的执行计划。并行查询间存在复杂多变的资源争用，很难通过配置参数准确反映，而且同一执行计划在不同情景下的效率并不一致。并行查询下执行计划的选择需考虑查询间的相互影响——查询交互。基于此，提出了一种在并行查询下度量查询受查询交互影响大小的标准QIs。针对并行查询下查询执行计划的选择，还提出了一种动态地为查询选择执行计划的方法TRating，该方法通过比较查询组合中按不同执行计划执行的查询受查询交互影响的大小，选择受查询交互影响较小的执行计划作为该查询的较优执行计划。实验结果表明，TRating方法为查询选择较优执行计划的准确率达61%，相比查询优化器提高了25%；而且在为查询选择次优执行计划时，其准确率也高达69%。

有向无环图上k步可达查询优化算法

杜明, 杨安平, 周军锋, 陈子阳, 杨云

2020, 40(2): 426-433. DOI: 10.11772/j.issn.1001-9081.2019081605

摘要 ( )

HTML ( )

PDF (654KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

k步可达查询用于在给定的有向无环图（DAG）中回答两点之间是否存在长度不超过k的路径。针对现有方法的索引规模大、查询处理效率低的问题，提出一种基于部分点的双向最短路径索引来提升索引的可达信息覆盖率，并提出一组优化规则来减小索引规模；然后提出基于简化图的正反互逆拓扑索引来加速回答不可达查询；最后提出远距离优先的双向遍历策略来提高查询处理的效率。基于21个真实数据集（如引用网络、社交网络等）的实验结果表明，相比已有的高效方法PLL及BFSI-B，所提出的算法具有更小的索引规模和更快的查询响应速度。

基于聚类的超链路预测

齐鹏飞, 周丽华, 杜国王, 黄皓, 黄通

2020, 40(2): 434-440. DOI: 10.11772/j.issn.1001-9081.2019101730

摘要 ( )

HTML ( )

PDF (2588KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

超链路预测是利用已观测到网络的特性来复现网络中缺失的链路。现有的超链路预测算法通常利用整个网络来进行预测，预测结果会遗漏训练样本数据较少的链路类别，导致预测种类不够全面。为了解决这个问题，提出了基于聚类的超链路预测算法C-CMM，首先对数据集进行聚类分簇，进而对每一个簇建立模型进行超链路预测。所提算法能够充分利用各个簇的观察样本所蕴含的信息，扩大预测结果覆盖的类别。在三个真实数据集上的实验结果表明，C-CMM和多个先进的链路预测算法相比具有更高的预测精度和效率，同时其预测覆盖种类也更加全面。

主题关注网络的表示学习

郭景峰, 董慧, 张庭玮, 陈晓

2020, 40(2): 441-447. DOI: 10.11772/j.issn.1001-9081.2019081529

摘要 ( )

HTML ( )

PDF (955KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对异质网络表示学习仅从结构方面考虑社交关系而忽略语义这一问题，结合用户间的社交关系和用户对主题的偏好两个方面，提出基于主题关注网络的表示学习算法。首先，针对主题关注网络的特点，结合集对分析理论的同异反（确定与不确定）思想，给出转移概率模型；然后，在转移概率模型的基础上提出了一种基于两类节点的随机游走算法，以得到相对高质量的随机游走序列；最后，基于序列中两类节点建模得到主题关注网络的嵌入向量空间表示。理论分析和在豆瓣数据集上的实验结果表明，结合转移概率模型的随机游走算法能更全面地分析网络中节点的连接关系，当划分社区的个数为13时，所提算法的模块度为0.699 8，相比metapath2vec算法提高了近5%，可以更详细地捕获网络中的信息。

事件社交网中基于有向标签图及用户反馈的活动推荐方法

单晓欢, 张志国, 宋宝燕, 任成林

2020, 40(2): 448-453. DOI: 10.11772/j.issn.1001-9081.2019081565

摘要 ( )

HTML ( )

PDF (859KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

由于基于事件的社交网络（EBSN）中的活动具有时效性，传统社交网络推荐算法无法适用于EBSN。此外，大多数算法忽略了能影响后续推荐质量的前用户是否接受活动的反馈意见。为此，提出一种EBSN中基于有向标签图及用户反馈的活动推荐方法。首先，将EBSN抽象为有向标签图，并抽取图节点及边的属性特征信息，构建有向图结构特征（DGSF）索引，该索引由节点属性特征索引、有向边属性特征索引以及时间特征索引构成，利用该索引对节点及边进行初次过滤。其次，提出基于DGSF索引的多属性候选集过滤策略，利用时间、节点的出入度、标签类型等特征的限制，实现对查询图候选集的进一步剪枝，避免冗余计算。然后，提出一种具有用户反馈的改进UCB（Upper Confidence Bound）活动推荐算法——EN_UCB，通过引入弹性网回归，根据多影响因素计算用户对活动的兴趣值，为用户推荐兴趣值高的活动，同时接收用户是否接受该活动的反馈，以优化后续用户的推荐。大量实验结果表明，EN_UCB算法的接受率高于TS（Thompson Sampling）、UCB以及eGreedy算法，遗憾率远远低于TS和eGreedy算法，且运行效率高于TS、UCB以及eGreedy算法，活动数越大，优势越明显。所提算法能有效实现EBSN上的在线活动推荐。

关注长尾物品的推荐方法

秦婧, 张青博, 王斌

2020, 40(2): 454-458. DOI: 10.11772/j.issn.1001-9081.2019091665

摘要 ( )

HTML ( )

PDF (799KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对推荐系统算法中覆盖率和多样性偏低所带来的长尾问题，提出了一种长尾物品的推荐框架以及关注长尾物品的推荐算法FLTI。长尾物品的推荐框架是基于卷积神经网络（CNN）模型构建的，分为数据处理层、推荐算法层和推荐列表生成层。将FLTI算法加入到了框架中的推荐算法层，该算法首先计算了频繁推荐项以及非频繁推荐项，然后采用使用长尾物品替换频繁推荐项的方法来满足系统中指定的长尾比例。实验结果表明，在Movielens 1M和BookCrossing数据集上，FLTI算法比传统的基于用户的协同过滤（UserCF）算法、基于物品的协同过滤（ItemCF）算法、奇异值分解（SVD）推荐算法以及协同去噪自动编码（CDAE）算法在覆盖率指标上最多提高了51%，多样性指标上最多提高了59%。

基于BTM的物联网服务发现方法

王舒漫, 李爱萍, 段利国, 付佳, 陈永乐

2020, 40(2): 459-464. DOI: 10.11772/j.issn.1001-9081.2019091662

摘要 ( )

HTML ( )

PDF (1058KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对物联网（IoT）服务描述文本篇幅较短、特征稀疏，直接采用传统的主题模型对IoT服务建模得到的聚类效果不佳，从而导致无法发现最佳服务的问题，提出了一种基于BTM的IoT服务发现方法。该方法首先利用BTM挖掘现有IoT服务的隐含主题，并通过全局主题分布和主题-词分布计算推理得到服务文档-主题概率分布；其次利用K-means算法对服务进行聚类，并返回服务请求的最佳匹配结果。实验结果分析表明，该方法能够有效提高IoT服务的聚类效果，从而得到匹配的最佳服务。与现有的HDP（Hierarchical Dirichlet Process）、基于K-means的隐狄利克雷分配（LDA-K）等方法相比，该方法进行最佳服务发现的准确度（Precision）和归一化折损累积增益（NDCG）均有一定幅度的提高。

空间亚频繁co-location模式的主导特征挖掘

马董, 陈红梅, 王丽珍, 肖清

2020, 40(2): 465-472. DOI: 10.11772/j.issn.1001-9081.2019081900

摘要 ( )

HTML ( )

PDF (1839KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

空间co-location模式是一组空间特征的子集，它们的实例在邻域内频繁并置出现。通常，空间co-location模式挖掘方法假设空间实例相互独立，并采用空间实例参与到模式实例的频繁性（参与率）来度量空间特征在模式中的重要性，采用空间特征的最小参与率（参与度）来度量模式的有趣程度，忽略了空间特征间的某些重要关系。因此为了揭示空间特征间的主导关系而提出主导特征co-location模式。现有主导特征模式挖掘方法是基于传统频繁模式及其团实例模型进行挖掘，然而，团实例模型可能会忽略非团的空间特征间的主导关系。因此，基于星型实例模型，研究空间亚频繁co-location模式的主导特征挖掘，以更好地揭示空间特征间的主导关系，挖掘更有价值的主导特征模式。首先，定义了两个度量特征主导性的指标；其次，设计了有效的主导特征co-location模式挖掘算法；最后，在合成数据集和真实数据集上通过大量实验验证了所提算法的有效性以及主导特征模式的实用性。

目标依赖的作者身份识别方法

李扬, 张伟, 彭晨

2020, 40(2): 473-478. DOI: 10.11772/j.issn.1001-9081.2019101768

摘要 ( )

HTML ( )

PDF (650KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

作者身份识别任务旨在判断一篇文档的作者，但目前已有的作者身份识别方法都是目标独立的，意味着这些方法在预测作者身份时假设没有任何限定条件，这与实际情况不相符合。为了解决限定条件下的作者身份识别问题，提出了一种目标依赖的作者身份识别方法TDAA。首先，使用用户评论对应的商品ID作为限定信息；其次，为了使文本建模过程更加具有普适性，使用BERT提取预训练的评论文本特征；然后，使用卷积神经网络（CNN）进行深层次的文本特征提取；最后，为了将两种不同的信息融合起来，讨论了两种不同的融合方式。在亚马逊电影评论（Amazon Movie_and_TV）和CD评论（CDs_and_Vinyl_5）两个数据集上的实验结果表明，所提出的方法在精确率评价指标上较对比方法提高了4%~5%。

防止暴露位置攻击的轨迹隐私保护

刘向宇, 陈金梅, 夏秀峰, Singh Manish, 宗传玉, 朱睿

2020, 40(2): 479-485. DOI: 10.11772/j.issn.1001-9081.2019081612

摘要 ( )

HTML ( )

PDF (836KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为解决移动对象轨迹信息被大量收集所导致的轨迹隐私泄露问题，提出了基于假轨迹的轨迹隐私保护算法。在该算法中，考虑了用户的暴露位置，基于轨迹相似性和位置多样性的综合度量，设计了一种启发式规则来选择假轨迹，从而使得生成的假轨迹能有效隐匿真实轨迹和敏感位置。此外，还提出了轨迹有向图策略和基于网格划分的地图策略来优化算法的执行效率。基于真实的轨迹数据进行实验测试和分析，实验结果表明所提算法在保持数据可用性的情况下能有效保护真实轨迹。

结合梯度投影稀疏重构和复数小波的图像重构

高彦彦, 李莉, 张晶, 贾英茜

2020, 40(2): 486-490. DOI: 10.11772/j.issn.1001-9081.2019101719

摘要 ( )

HTML ( )

PDF (680KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

压缩感知主要包括随机投影和重构两部分。针对迭代收缩算法收敛速度较慢，普通二维小波变换缺少方向性表示的缺点，利用置乱离散余弦变换（PDCT）实现随机投影，重构时采用梯度投影算法，在简化计算的基础上，通过迭代的方式完善图像在双树复数小波域的变换系数，最后经反变换后得到重构图像。在同一重构算法下，比较了利用双树复数小波变换和双正交小波变换的重构结果，结果表明前者重构后的图像在细节和平滑度上优于后者，在峰值信噪比（PSNR）上平均高出约1.5 dB；同一稀疏域中，梯度投影算法的收敛速度优于迭代收缩算法；相同稀疏域和重构算法下，PDCT与结构随机矩阵相比在PSNR上略高。

多维数值型敏感属性数据的个性化隐私保护方法

张梅舒, 徐雅斌

2020, 40(2): 491-496. DOI: 10.11772/j.issn.1001-9081.2019091639

摘要 ( )

HTML ( )

PDF (588KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了解决多维数值型敏感属性数据隐私保护方法中存在的准标识符属性信息损失大，以及不能满足用户对数值型敏感属性重要性排序的个性化需求问题，提出一种基于聚类和加权多维桶分组（MSB）的个性化隐私保护方法。首先，根据准标识符的相似程度，将数据集划分成若干准标识符属性值相近的子集；然后，考虑到用户对敏感属性的敏感程度不同，将敏感程度和多维桶的桶容量用于计算加权选择度和构建加权多维桶；最后，依此对数据进行分组和匿名化处理。选用UCI的标准Adult数据集中的8个属性进行实验，并与基于聚类和多维桶的数据隐私保护方法MNSACM和基于聚类和加权多维桶分组的个性化隐私保护方法WMNSAPM进行对比。实验结果表明，所提方法整体较优，并且在减少信息损失和运行时间方面明显优于对比方法，提高了数据质量和运行效率。

基于属性加密的多用户共享ORAM方案

付伟, 顾晨阳, 高强

2020, 40(2): 497-502. DOI: 10.11772/j.issn.1001-9081.2019091634

摘要 ( )

HTML ( )

PDF (550KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

不经意随机访问机（ORAM）是保护用户访问行为隐私安全的关键技术之一，但现有ORAM方案主要针对单用户访问需求，不支持多用户之间的数据共享。结合Ring ORAM方案和属性加密（ABE）技术，设计并实现了一种基于属性加密的多用户共享ORAM方案ABE-M-ORAM。该方案利用属性加密实现了细粒度的访问控制，既保护了用户访问行为的安全，又实现了用户之间便捷的数据共享。理论分析和仿真实验证明该方案具有较高的安全性、实用性以及较好的访问性能。

基于专家特征的条件互信息多标记特征选择算法

程玉胜, 宋帆, 王一宾, 钱坤

2020, 40(2): 503-509. DOI: 10.11772/j.issn.1001-9081.2019091626

摘要 ( )

HTML ( )

PDF (818KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

特征选择对于分类器的分类精度和泛化性能起重要作用。目前的多标记特征选择算法主要利用最大相关性最小冗余性准则在全部特征集中进行特征选择，没有考虑专家特征，因此多标记特征选择算法的运行时间较长、复杂度较高。实际上，在现实生活中专家依据几个或者多个关键特征就能够直接决定整体的预测方向。如果提取关注这些信息，必将减少特征选择的计算时间，甚至提升分类器性能。基于此，提出一种基于专家特征的条件互信息多标记特征选择算法。首先将专家特征与剩余的特征相联合，再利用条件互信息得出一个与标记集合相关性由强到弱的特征序列，最后通过划分子空间去除冗余性较大的特征。该算法在7个多标记数据集上进行了实验对比，结果表明该算法较其他特征选择算法有一定优势，统计假设检验与稳定性分析进一步证明了所提出算法的有效性和合理性。

低冗余计算的可达性查询保持图压缩策略

赵丹枫, 林俊辰, 宋巍, 王建, 黄冬梅

2020, 40(2): 510-517. DOI: 10.11772/j.issn.1001-9081.2019091666

摘要 ( )

HTML ( )

PDF (634KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对可达性查询保持图压缩（QPGC）算法存在冗余计算的问题，提出了一种高性能压缩策略。在求解顶点的祖先后代集阶段，针对普通图数据，提出一种基于拓扑排序的求解算法TSB，首先将图数据顶点拓扑排序，然后沿拓扑序列顺序（逆序）求解顶点的祖先（后代）集，避免了求解顺序不明确导致的冗余计算；针对最长路径较短的图数据，提出一种基于图聚合运算的求解算法AGGB，可在确定次数的聚合运算内完成顶点的祖先和后代集的求解。在求解可达性等价类阶段，提出一种分段统计剪枝算法PSP，先对祖先后代集分段统计，再比较统计值以实现粗匹配，剪除了部分不必要的精细匹配。实验结果表明，与QPGC算法相比：在祖先后代集求解阶段，TSB和AGGB在不同数据集上的性能平均提升94.22%和90.00%；在求解可达性等价类阶段，PSP算法在大部分数据集上性能提升超过70%；随着数据集的增大，TSB和AGGB配合PSP算法，性能提升了近28倍。理论分析和模拟实验表明，该策略与QPGC算法相比冗余计算更少、压缩速度更快。

Spark下的分布式粗糙集属性约简算法

章夏杰, 朱敬华, 陈杨

2020, 40(2): 518-523. DOI: 10.11772/j.issn.1001-9081.2019091642

摘要 ( )

HTML ( )

PDF (560KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

属性约简（特征选择）作为数据预处理的重要环节，大多以属性依赖作为筛选属性子集的标准。设计了一种快速依赖计算方法FDC，通过直接寻找基于相对正域的对象来计算依赖度，而不需要预先求出相对正域，相比传统方法在速度上有明显的性能提升。另外，改进鲸鱼优化算法（WOA）使其能够有效应用于粗糙集属性约简。结合上述两个方法，提出一种基于Spark的分布式粗糙集属性约简算法SP-WOFRST，并在两组人工合成的大数据集上与另一种基于Spark的粗糙集属性约简算法SP-RST进行对比实验。实验结果表明所提出的SP-WOFRST算法在精度和速度上均优于SP-RST。

面向重大突发社会安全事件的新闻媒体国际影响力分析

陈晨, 张绍武, 杨亮, 张冬瑜, 林鸿飞

2020, 40(2): 524-529. DOI: 10.11772/j.issn.1001-9081.2019091629

摘要 ( )

HTML ( )

PDF (1388KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

大数据时代下重大突发社会安全事件的舆情主要通过媒体快速传播，但现有研究大都没有考虑新闻媒体这一特殊群体以及在某一类特定事件中新闻媒体的影响力。为了研究上述问题，提出一种综合用户间的网络结构与行为关系来评价影响力的方法，并以新疆暴恐和巴黎暴恐事件为例，得出在Twitter平台中各国新闻媒体在此类事件中的国际影响力。该评价方法可以更好地得出各新闻媒体在事件层面上的影响力。通过使用该评价方法对新疆暴恐事件和巴黎暴恐事件中新闻媒体影响力进行计算，实验结果显示，各国新闻媒体在新疆暴恐事件和巴黎暴恐事件中的影响力存在差异，说明这两起同类型事件的影响范围不同，同时也从侧面反映了各国政治立场的差异。

基于物品的统一推荐模型

邓凯, 黄佳进, 秦进

2020, 40(2): 530-534. DOI: 10.11772/j.issn.1001-9081.2019101791

摘要 ( )

HTML ( )

PDF (565KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

用户-物品交互模式建模是个性化推荐的一项重要任务，许多推荐系统都基于用户与商品之间存在线性关系的假设，忽略了现实物品与历史物品之间交互的复杂性和非线性，导致这些系统不足以捕捉到用户的复杂决策过程。为此，将一个更有表现力的Top-N推荐系统的物品相似性因子模型解决方法与多层感知机方法相结合，以有效地建模物品之间的高阶关系，捕获更复杂的用户决策。分别在三个数据集MovieLens、Foursquare和ratings_Digital_Music上验证了结合后的效果，并与基准方法MLP、分解物品相似度模型（FISM）、DeepICF和ItemKNN进行对比，结果表明，所提出的方法在推荐性能上有明显的提高。

基于BERT的警情文本命名实体识别

王月, 王孟轩, 张胜, 杜渂

2020, 40(2): 535-540. DOI: 10.11772/j.issn.1001-9081.2019101717

摘要 ( )

HTML ( )

PDF (642KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对警情领域关键实体信息难以识别的问题，提出一种基于BERT的神经网络模型BERT-BiLSTM-Attention-CRF用于识别和提取相关命名实体，且针对不同案由设计了相应的实体标记注规范。该模型使用BERT预训练词向量代替传统Skip-gram和CBOW等方式训练的静态词向量，提升了词向量的表证能力，同时解决了中文语料采用字向量训练时词语边界的划分问题；还使用注意力机制改进经典的命名实体识别（NER）模型架构BiLSTM-CRF。BERT-BiLSTM-Attention-CRF模型在测试集上的准确率达91%，较CRF++的基准模型提高7%，也高于BiLSTM-CRF模型86%的准确率，其中相关人名、损失金额、处理方式等实体的F1值均高于0.87。

面向NVM存储系统的快速文件访问系统

贺庆建, 蔡涛, 王杰, 牛德姣

2020, 40(2): 541-546. DOI: 10.11772/j.issn.1001-9081.2019091655

摘要 ( )

HTML ( )

PDF (602KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

NVM存储设备系统具备提供高吞吐的潜质，包括接近内存的读写速度、字节寻址特性和支持多路转发等优势。但现有的系统软件栈并没有针对NVM去设计，使得系统软件栈存在许多影响系统访问性能的因素。通过分析发现文件系统的锁机制具有较大的开销，这使得数据的并发访问在多核心环境下成为一个难题。为了缓解这些问题，设计了无锁的文件读写机制以及基于字节的读写接口。通过取消基于文件的锁机制改变了粗粒度的访问控制，利用自主管理请求提高了进程的并发度；在设计能够利用字节寻址的新的文件访问接口时，不仅考虑了NVM存储设备的读写非对称，还考虑了其读写操作的不同特性。这些设计减少了软件栈的开销，有利于发挥NVM特性来提供一个高并发、高吞吐和耐久的存储系统。最后利用开源NVM模拟器PMEM实现了FPMRW原型系统，使用Filebench通用测试工具对FPMRW进行测试与分析，结果显示，FPMRW相对EXT+PMEM和XFS+PMEM能提高3%~40%的系统吞吐率。

基于Kubernetes的云原生海量数据存储系统设计与实现

刘福鑫, 李劲巍, 王熠弘, 李琳

2020, 40(2): 547-552. DOI: 10.11772/j.issn.1001-9081.2019101732

摘要 ( )

HTML ( )

PDF (560KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为应对云原生技术的日益发展与普及伴随的云上数据量的激增及该技术在性能与稳定性等方面所出现的瓶颈，提出了一种基于Haystack的存储系统。该存储系统在服务发现、自动容错与缓存方面进行了优化，更适用于云原生业务，以满足数据采集、存储与分析行业不断增长且频次较高的文件存储与读写需求。该存储系统使用对象存储模型来满足高频海量的文件存储，为使用该存储系统的业务提供简单而统一的应用程序接口，应用了文件缓存策略提升资源利用率，同时利用Kubernetes丰富的自动化工具链使该存储系统比其他存储系统更容易部署和扩展且更稳定。实验结果表明，该存储系统在读多于写的大规模碎片数据存储情境下相比目前主流的对象存储与文件系统均有一定的性能与稳定性提升。

面向特定目标自识别的交通图像语义检索方法

赵一, 段兴, 谢仕义, 梁春林

2020, 40(2): 553-560. DOI: 10.11772/j.issn.1001-9081.2019101795

摘要 ( )

HTML ( )

PDF (1320KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了从海量的道路交通图像中检索出违反交通法规的图像，提出了一种特定目标自识别的语义图像检索方法。首先，通过交通领域专家建立交通领域本体及道路交通规则描述；然后，通过卷积神经网络（CNN）对交通图像的特征进行提取，并结合改进的支持向量机决策树（SVM-DT）算法对图像特征进行分类的策略，对交通图像中的特定目标及目标间空间位置关系进行自动识别，并映射成为相应的本体实例及其对象之间的关联关系（规则实例）；最后，利用本体实例和规则实例，通过推理得到语义检索结果。实验结果表明，相比关键字和本体交通图像语义检索方法，所提方法具有更高的准确率、召回率和检索效率。

基于多尺度卷积特征融合的肺结节图像检索方法

顾军华, 王锋, 戚永军, 孙哲然, 田泽培, 张亚娟

2020, 40(2): 561-565. DOI: 10.11772/j.issn.1001-9081.2019091641

摘要 ( )

HTML ( )

PDF (644KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了解决肺结节图像检索中特征提取难度大、检索精度低下的问题，提出了一种深度网络模型——LMSCRnet用于提取图像特征。首先采用多种不同尺寸滤波器卷积的特征融合方法以解决肺结节大小不一引起的局部特征难以获取的问题，然后引入SE-ResNeXt块来得到更高级的语义特征同时减少网络退化，最后得到肺结节图像的高级语义特征表示。为满足现实中大数据量检索任务的需求，将距离计算及排序过程部署到Spark分布式平台上。实验结果表明，基于LMSCRnet的特征提取方法能够更好地提取图像高级语义信息，在肺结节预处理数据集LIDC上能够达到84.48%的准确率，检索精度高于其他检索方法，而且使用Spark分布式平台完成相似度匹配及排序过程使得检索方法能够满足大数据量检索任务需求。

基于循环一致性对抗网络的数码迷彩伪装生成方法

滕旭, 张晖, 杨春明, 赵旭剑, 李波

2020, 40(2): 566-570. DOI: 10.11772/j.issn.1001-9081.2019091625

摘要 ( )

HTML ( )

PDF (5080KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对传统的数码迷彩生成方法无法根据背景实时生成数码迷彩的问题，提出一种基于循环一致性对抗网络的数码迷彩生成方法。首先，使用密集连接卷积网络提取图像特征，将学习到的数码迷彩特征映射到背景图像中；其次，加入颜色保持损失来提高数码迷彩的生成质量，保证生成的数码迷彩与周围的背景颜色相一致；最后，在判别器中加入自归一化神经网络以提高模型对噪声的鲁棒性。由于缺乏数码迷彩伪装效果的客观评价标准，采用边缘检测算法与结构相似性（SSIM）算法对生成的数码迷彩的伪装效果进行评估。实验结果表明，该方法在自制数据集上生成的数码迷彩伪装的SSIM得分比已有算法的得分降低了30%以上，验证了它在数码迷彩生成任务上的有效性。

基于HBase的多维索引查询机制的优化

徐江峰, 谭玉龙

2020, 40(2): 571-577. DOI: 10.11772/j.issn.1001-9081.2019081462

摘要 ( )

HTML ( )

PDF (1005KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

键值存储旨在从非常大的数据量中提取值，同时具有高可用性、容错性和可伸缩性，因此提供了非常需要的基础设施来支持基于位置的服务（LBS）。然而，多维数据上的复杂查询不能有效地处理，因为键值存储不提供访问多个属性的方法。针对键值存储HBase不能有效处理多维数据的问题，提出了一个统一的索引框架——New-grid，使键值存储HBase支持多维查询。在改进的P-grid覆盖网络中，组织了一组节点，提供了高效的数据分布、容错和多维数据的查询处理。为了进行索引，使用基于Hilbert空间填充曲线来保存数据的局部性，从而有效地管理键值存储中的多维数据。同时使用HBase底层存储管理数据，并提出了一种范围查询和K最近邻查询的算法，以消除维护单独索引表的开销。在Amazon EC2上使用4、8和16个普通节点的集群进行了广泛的实验。实验结果表明，New-grid的性能相比MD-Hbase以及MapReduce更优。

基于面积划分的轨迹相似性度量方法

吕一可, 徐凯, 黄振强

2020, 40(2): 578-583. DOI: 10.11772/j.issn.1001-9081.2019071249

摘要 ( )

HTML ( )

PDF (545KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

大数据时代背景下，时空轨迹数据应用的场景日益增多且这些数据蕴含着大量的信息，而轨迹的相似性度量作为轨迹挖掘工作的关键步骤起着举足轻重的作用。但传统轨迹相似度量方法有着时间复杂度高、基于轨迹点判断而不够精确的问题。为了解决这些问题，提出了适用于无路网结构轨迹的以轨迹间面积度量为原理的三角分割（TD）方法轨迹相似度量方法。通过建立“指针”选择两轨迹间的轨迹点连线以构建互不重叠的三角形，累加三角形面积并计算轨迹相似度，通过在不同应用场景下设置的阈值来确认轨迹的相似情况。实验结果表明，与传统的基于轨迹点的空间轨迹相似度量方法——最长公共子序列（LCSS）方法和弗雷歇距离度量方法相比，所提方法提升了识别的准确度，且时间复杂度降低了接近90%，能更好地适应轨迹点分布不均匀的轨迹相似度量工作。

突发事件下的医院应急资源冗余配置优化模型

万志远, 刘勤明, 叶春明, 刘文溢

2020, 40(2): 584-588. DOI: 10.11772/j.issn.1001-9081.2019071235

摘要 ( )

HTML ( )

PDF (539KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

突发事件发生前，医院需要保持一定的应急资源冗余量。针对突发事件下医院应急资源冗余的配置优化问题，首先，基于效用理论，通过分析医院应急资源冗余的效用体现来对应急资源冗余进行定义和分类，确定了符合边际规律的效用函数；其次，建立了总效用最大化的医院应急资源冗余配置模型，并给出应急资源储存量的上限及应急合理度的下限作为模型的约束条件；最后，把粒子群算法和序列二次规划法相结合进行寻优求解。通过案例分析，得出了医院四种应急资源冗余的优化方案，总结出了医院的应急水平对医院应急资源冗余的需求程度。研究表明，应急资源冗余配置优化模型能够帮助医院在突发事件下很好地进行应急救援，提高医院应急资源的利用效率。

基于去噪自编码器和长短时记忆网络的语音测谎算法

傅洪亮, 雷沛之

2020, 40(2): 589-594. DOI: 10.11772/j.issn.1001-9081.2019071183

摘要 ( )

HTML ( )

PDF (670KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为进一步提升语音测谎性能，提出了一种基于去噪自编码器（DAE）和长短时记忆（LSTM）网络的语音测谎算法。首先，该算法构建了优化后的DAE和LSTM的并行结构PDL；然后，提取出语音中的人工特征并输入DAE以获取更具鲁棒性的特征，同时，将语音加窗分帧后提取出的Mel谱逐帧输入到LSTM进行帧级深度特征的学习；最后，将这两种特征通过全连接层及批归一化处理后实现融合，使用softmax分类器进行谎言识别。CSC（Columbia-SRI-Colorado）库和自建语料库上的实验结果显示，融合特征分类的识别准确率分别为65.18%和68.04%，相比其他对比算法的识别准确率最高分别提升了5.56%和7.22%，表明所提算法可以有效提高谎言识别精度。

融合知识图谱和协同过滤的学生成绩预测方法

陈曦, 梅广, 张金金, 许维胜

2020, 40(2): 595-601. DOI: 10.11772/j.issn.1001-9081.2019071222

摘要 ( )

HTML ( )

PDF (714KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对高等教育本科教学场景中的学生成绩预测问题，提出了一种基于课程知识图谱（KG）的预测算法。首先，构造一个表示课程信息的课程知识图谱。然后，分别使用基于邻节点的方法和基于知识图谱表示学习的方法基于知识图谱计算课程在知识层面的相似度，并将课程的知识相似度集成到传统的成绩预测框架协同过滤（CF）中。最后，通过实验对比了融合知识图谱的算法和常见成绩预测算法在不同数据稀疏度场景下的性能。实验结果显示，在数据稀疏场景下，基于邻节点的算法和传统协同过滤算法相比，均方根误差（RMSE）下降约11%，平均绝对误差（MAE）下降约9%；基于图谱表示学习的算法与协同过滤算法相比RMSE下降17.55%，MAE下降11.40%。实验结果表明，运用知识图谱的协同过滤算法可使预测误差显著下降，验证了知识图谱可以作为历史数据缺乏场景下的信息补足，从而帮助协同过滤获得更好的预测效果。

即时战略游戏的智能流场寻路算法设计与实现

李恬, 张树美, 赵俊莉

2020, 40(2): 602-607. DOI: 10.11772/j.issn.1001-9081.2019071158

摘要 ( )

HTML ( )

PDF (662KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对即时战略游戏中多智能体寻路时间长和移动碰撞阻塞的问题，提出一种基于组合式改进的流场寻路算法。首先，采用红黑树存储数据，提高数据的存取速度；其次，采用惩罚函数将非线性的偏微分方程问题转化为线性的无约束问题，简化完整代价值的计算方式；最后，引入前置邻接点关联节点，生成流场方向。该算法与改进前的流场寻路算法相比，路径计算时间减少20%，平均移动时间稳定在20 s。实验结果表明，在即时战略游戏中采用改进后的流场寻路算法能够有效缩短寻路时间，提高智能体移动速度，提升游戏人工智能水平。

基于统计特征和熵特征融合的心肌梗死辅助诊断方法

王治忠, 钱龙龙, 韩闯, 师丽

2020, 40(2): 608-615. DOI: 10.11772/j.issn.1001-9081.2019071172

摘要 ( )

HTML ( )

PDF (900KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对心肌梗死临床诊断过程中临床实用性和准确率不高的问题，提出一种基于12导联心电图（ECG）的心肌梗死的辅助诊断方法。首先，对12导联ECG信号进行去噪和数据增强处理；其次，分别对各导联ECG信号提取包含标准差、峰度系数、偏度系数的统计特征，以此反映信号的形态特征；同时，提取包含香农熵、样本熵、模糊熵、近似熵和排列熵的熵特征，以此表征ECG信号时间序列的时间与频谱复杂性、新模式产生的概率、规律性和不可预测性以及检测ECG信号的微小变化；然后，融合ECG信号的统计特征和熵特征；最后，基于随机森林算法在病人内和病人间两种模式下对算法进行分析和验证，并通过交叉验证防止过拟合。实验结果表明，病人内模式下算法准确率和F1值分别为99.98%和99.99%，病人间模式下算法准确率和F1值分别为94.56%和97.05%；与基于单导联ECG的诊断方法相比，采用12导联ECG诊断心肌梗死更符合医生临床诊断逻辑。

多特征融合的运动想象脑电特征提取方法

罗飞, 刘鹏飞, 罗元, 朱思蒙

2020, 40(2): 616-620. DOI: 10.11772/j.issn.1001-9081.2019071167

摘要 ( )

HTML ( )

PDF (699KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对单一特征识别率低、自适应性差等问题，提出一种基于希尔伯特-黄变换（HHT）和共同空间模式（CSP）的特征提取方法HCHT。首先，对原始脑电信号（EEG）进行经验模态分解（EMD）得到固有模态函数（IMF），并将IMF分量合并成新的信号矩阵；然后，对IMF进行希尔伯特谱分析，得到信号的时-频域特征；接着，对构造的信号矩阵进行进一步的CSP分解，将时-频域特征扩展成时-频-空域特征；最后，通过支持向量机（SVM）对特征集进行分类。在BCI Competition II数据集的实验表明，与HHT时-频域和CSP空域特征的方法相比，所提方法的识别准确率分别提高了7.5、10.3和9.2个百分点，且标准差更小。在智能轮椅平台进行在线实验的结果表明，HCHT能有效提高识别准确率和稳定性。

当期目录