第九届CCF大数据学术会议(CCF Bigdata 2021)

Select

1. 基于用户激励的共享单车调度策略

石兵, 黄茜子, 宋兆翔, 徐建桥

《计算机应用》唯一官方网站 2022, 42 (11): 3395-3403. DOI: 10.11772/j.issn.1001-9081.2021122109

摘要（454）

HTML （19）

PDF （2192KB）（258）

针对共享单车的调度问题，在考虑预算限制、用户最大步行距离限制、用户时空需求以及共享单车分布动态变化的情况下，提出一种用户激励下的共享单车调度策略，以达到提高共享单车平台长期用户服务率的目的。该调度策略包含任务生成算法、预算分配算法和任务分配算法。在任务生成算法中，使用长短期记忆（LSTM）网络预测用户未来的单车需求量；在预算分配算法中，采用深度策略梯度（DDPG）算法来设计预算分配策略；任务分配完预算后，需要将任务分配给用户执行，因此在任务分配算法中使用贪心匹配策略来进行任务分配。基于摩拜单车的数据集进行实验，并把所提策略分别与无预算限制的调度策略（即平台不受预算限制，可以使用任意金钱激励用户将车骑行至目标区域）、贪心的调度策略、卡车拖运下的调度策略以及未进行调度的情况进行对比。实验结果表明，与贪心调度策略和卡车托运下的调度策略相比，用户激励下的共享单车调度策略能有效提高共享单车系统中的用户服务率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于演化模式的推特话题流行度预测方法

解伟凡, 郭岩, 匡广生, 余智华, 薛源海, 沈华伟

《计算机应用》唯一官方网站 2022, 42 (11): 3364-3370. DOI: 10.11772/j.issn.1001-9081.2022010045

摘要（448）

HTML （13）

PDF （934KB）（233）

针对以往流行度预测方法未利用演化模式之间的差异和忽略预测时效性的问题，提出了一种基于演化模式的推特话题流行度预测方法。首先，基于K?SC算法对大量历史话题的流行度序列进行聚类，并得到6类演化模式；然后，使用各类演化模式下的历史话题数据分别训练全连接网络（FCN）作为预测模型；最后，为选择待预测话题的预测模型，提出幅度对齐的动态时间规整（AADTW）算法来计算待预测话题的已知流行度序列与各演化模式的相似度，并选取相似度最高的演化模式的预测模型进行流行度预测。在根据已知前20 h的流行度预测后5 h的流行度的任务中，与差分整合移动平均自回归（ARIMA）方法以及使用单一的全连接网络进行预测的方法相比，所提方法的预测结果的平均绝对百分比误差（MAPE）分别降低了58.2%和31.0%。实验结果表明，基于演化模式得到的模型群相较于单一模型能更加准确地预测推特话题流行度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 面向流式数据处理系统的高效故障恢复方法

刘阳, 张扬扬, 周号益

《计算机应用》唯一官方网站 2022, 42 (11): 3337-3345. DOI: 10.11772/j.issn.1001-9081.2021122108

摘要（403）

HTML （15）

PDF （2031KB）（155）

针对流式数据处理系统Flink无法高效处理单点故障的问题，提出了一种基于增量状态和备份的故障容错系统Flink+。首先，提前建立备份算子和数据通路；然后，对数据流图中的输出数据进行缓存，必要时使用磁盘；其次，在系统快照时进行任务状态同步；最后，在系统故障时使用备份任务和缓存的数据恢复计算。在系统实验测试中，Flink+在无故障运行时没有显著增加额外容错开销；而在单机和分布式环境下处理单点故障时，与Flink系统相比，所提系统在单机8任务并行度下故障恢复时间减少了96.98%，在分布式16任务并行度下故障恢复时间减少了88.75%。实验结果表明，增量状态和备份方法一起使用可以有效减少流式系统单点故障的恢复时间，增强系统的鲁棒性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 联合立场的过程跟踪式多任务谣言验证模型

张斌, 王莉, 杨延杰

《计算机应用》唯一官方网站 2022, 42 (11): 3371-3378. DOI: 10.11772/j.issn.1001-9081.2021122148

摘要（294）

HTML （9）

PDF （1420KB）（102）

当前，社交媒体平台成为人们发布和获取信息的主要途径，但简便的信息发布也导致了谣言更容易迅速传播，因此验证信息是否为谣言并阻止谣言传播，已经成为一个亟待解决的问题。以往的研究表明，人们对信息的立场可以协助判断信息是否为谣言。在此基础上，针对谣言泛滥的问题，提出了一个联合立场的过程跟踪式多任务谣言验证模型（JSP?MRVM）。首先，分别使用拓扑图、特征图和公共图卷积网络（GCN）对信息的三种传播过程进行表征；然后，利用注意机制获取信息的立场特征，并融合立场特征与推文特征；最后，设计多任务目标函数使立场分类任务更好地协助验证谣言。实验结果表明，所提模型在RumorEval数据集上的准确度和Macro?F1较基线模型RV?ML分别提升了10.7个百分点和11.2个百分点，可以更有效地检验谣言，减少谣言的泛滥。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 不平衡多分类算法综述

李蒙蒙, 刘艺, 李庚松, 郑奇斌, 秦伟, 任小广

《计算机应用》唯一官方网站 2022, 42 (11): 3307-3321. DOI: 10.11772/j.issn.1001-9081.2021122060

摘要（996）

HTML （99）

PDF （1861KB）（646）

不平衡数据分类是机器学习领域的重要研究内容，但现有的不平衡分类算法通常针对不平衡二分类问题，关于不平衡多分类的研究相对较少。然而实际应用中的数据集通常具有多类别且数据分布具有不平衡性，而类别的多样性进一步加剧了不平衡数据的分类难度，因此不平衡多分类问题已经成为亟待解决的研究课题。针对近年来提出的不平衡多分类算法展开综述，根据是否采用分解策略把不平衡多分类算法分为分解方法和即席方法，并进一步将分解方法按照分解策略的不同划分为“一对一（OVO）”架构和“一对多（OVA）”架构，将即席方法按照处理技术的不同分为数据级方法、算法级方法、代价敏感方法、集成方法和基于深度网络的方法。系统阐述各类方法的优缺点及其代表性算法，总结概括不平衡多分类方法的评价指标，并通过实验深入分析代表性方法的性能，讨论了不平衡多分类的未来发展方向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 基于注意力消息共享的多智能体强化学习

臧嵘, 王莉, 史腾飞

《计算机应用》唯一官方网站 2022, 42 (11): 3346-3353. DOI: 10.11772/j.issn.1001-9081.2021122169

摘要（551）

HTML （20）

PDF （1668KB）（222）

通信是非全知环境中多智能体间实现有效合作的重要途径，当智能体数量较多时，通信过程会产生冗余消息。为有效处理通信消息，提出一种基于注意力消息共享的多智能体强化学习算法AMSAC。首先，在智能体间搭建用于有效沟通的消息共享网络，智能体通过消息读取和写入完成信息共享，解决智能体在非全知、任务复杂场景下缺乏沟通的问题；其次，在消息共享网络中，通过注意力消息共享机制对通信消息进行自适应处理，有侧重地处理来自不同智能体的消息，解决较大规模多智能体系统在通信过程中无法有效识别消息并利用的问题；然后，在集中式Critic网络中，使用Native Critic依据时序差分（TD）优势策略梯度更新Actor网络参数，使智能体的动作价值得到有效评判；最后，在执行期间，智能体分布式Actor网络根据自身观测和消息共享网络的信息进行决策。在星际争霸Ⅱ多智能体挑战赛（SMAC）环境中进行实验，结果表明，与朴素Actor?Critic （Native AC）、博弈抽象通信（GA?Comm）等多智能体强化学习方法相比，AMSAC在四个不同场景下的平均胜率提升了4 ~ 32个百分点。AMSAC的注意力消息共享机制为处理多智能体系统中智能体间的通信消息提供了合理方案，在交通枢纽控制和无人机协同领域都具备广泛的应用前景。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

7. 基于混合特征建模的图卷积网络方法

李卓然, 冶忠林, 赵海兴, 林晶晶

《计算机应用》唯一官方网站 2022, 42 (11): 3354-3363. DOI: 10.11772/j.issn.1001-9081.2021111981

摘要（608）

HTML （15）

PDF （3410KB）（158）

对于网络中拥有的复杂信息，需要更多的方式抽取其中的有用信息，但现有的单特征图神经网络（GNN）无法完整地刻画网络中的相关特性。针对该问题，提出基于混合特征的图卷积网络（HDGCN）方法。首先，通过图卷积网络（GCN）得到节点的结构特征向量和语义特征向量；然后，通过改进基于注意力机制或门控机制的聚合函数选择性地聚合语义网络节点的特征，增强节点的特征表达能力；最后，通过一种基于双通道图卷积网络的融合机制得到节点的混合特征向量，将节点的结构特征和语义特征联合建模，使特征之间互相补充，提升该方法在后续各种机器学习任务上的表现。在CiteSeer、DBLP和SDBLP三个数据集上进行实验的结果表明，与基于结构特征训练的GCN相比，HDGCN在训练集比例为20%、40%、60%、80%时的Micro?F1值平均分别提升了2.43、2.14、1.86和2.13个百分点，Macro?F1值平均分别提升了1.38、0.33、1.06和0.86个百分点。用拼接或平均值作为融合策略时，准确率相差不超过0.5个百分点，可见拼接和平均值均可作为融合策略。HDGCN在节点分类和聚类任务上的准确率高于单纯使用结构或语义网络训练的模型，并且在输出维度为64、学习率为0.001、2层图卷积层和128维注意力向量时的效果最好。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 基于多语BERT的无监督攻击性言论检测

师夏阳, 张风远, 袁嘉琪, 黄敏

《计算机应用》唯一官方网站 2022, 42 (11): 3379-3385. DOI: 10.11772/j.issn.1001-9081.2021112005

摘要（536）

HTML （12）

PDF （1536KB）（227）

攻击性言论会对社会安定造成严重不良影响，但目前攻击性言论自动检测主要集中在少数几种高资源语言，对低资源语言缺少足够的攻击性言论标注语料导致检测困难，为此，提出一种跨语言无监督攻击性迁移检测方法。首先，使用多语BERT（mBERT）模型在高资源英语数据集上进行对攻击性特征的学习，得到一个原模型；然后，通过分析英语与丹麦语、阿拉伯语、土耳其语、希腊语的语言相似程度，将原模型迁移到这四种低资源语言上，实现对低资源语言的攻击性言论自动检测。实验结果显示，与BERT、线性回归（LR）、支持向量机（SVM）、多层感知机（MLP）这四种方法相比，所提方法在丹麦语、阿拉伯语、土耳其语、希腊语这四种语言上的攻击性言论检测的准确率和F1值均提高了近2个百分点，接近目前的有监督检测，可见采用跨语言模型迁移学习和迁移检测相结合的方法能够实现对低资源语言的无监督攻击性检测。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

9. 神经正切核K‑Means聚类

王梅, 宋晓晖, 刘勇, 许传海

《计算机应用》唯一官方网站 2022, 42 (11): 3330-3336. DOI: 10.11772/j.issn.1001-9081.2021111961

摘要（580）

HTML （24）

PDF （2237KB）（224）

针对K-Means聚类算法利用均值更新聚类中心，导致聚类结果受样本分布影响的问题，提出了神经正切核K-Means聚类算法（NTKKM）。首先通过神经正切核（NTK）将输入空间的数据映射到高维特征空间，然后在高维特征空间中进行K-Means聚类，并采用兼顾簇间与簇内距离的方法更新聚类中心，最后得到聚类结果。在car和breast-tissue数据集上，对NTKKM聚类算法的准确率、调整兰德系数（ARI）及FM指数这3个评价指标进行统计。实验结果表明，NTKKM聚类算法的聚类效果以及稳定性均优于K?Means聚类算法和高斯核K-Means聚类算法。NTKKM聚类算法与传统的K-Means聚类算法相比，准确率分别提升了14.9%和9.4%，ARI分别提升了9.7%和18.0%，FM指数分别提升了12.0%和12.0%，验证了NTKKM聚类算法良好的聚类性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

10. 基于组蛋白修饰数据预测基因差异性表达的深度融合模型

李昕, 贾韬

《计算机应用》唯一官方网站 2022, 42 (11): 3404-3412. DOI: 10.11772/j.issn.1001-9081.2021111956

摘要（324）

HTML （8）

PDF （1734KB）（171）

针对使用大规模组蛋白修饰（HM）数据预测基因差异性表达（DGE）时未合理利用细胞型特异性（CS）和细胞型间异同两类信息，且输入规模大、计算量高等问题，提出一种深度学习方法dcsDiff。首先，使用多个自编码器（AE）和双向长短时记忆（Bi?LSTM）网络降维，并建模HM信号得到嵌入表示；然后，利用多个卷积神经网络（CNN）分别挖掘每类CS的HM组合效应以及两细胞型间每种HM的异同信息和所有HM的联合影响；最后，融合两类信息预测两细胞型间的 DGE。在对REMC数据库中10对细胞型的实验中，与DeepDiff相比，dcsDiff的预测DGE的皮尔逊相关系数（PCC）最高提升了7.2%、平均提升了3.9%，准确检测出差异表达基因的数量最多增加了36、平均增加了17.6，运行时间节省了78.7%；进一步的成分分析实验证明了合理整合上述两类信息的有效性；并通过实验确定了算法的参数。实验结果表明dcsDiff能有效提高DGE预测的效率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

11. 基于源语言句法增强解码的神经机器翻译方法

龚龙超, 郭军军, 余正涛

《计算机应用》唯一官方网站 2022, 42 (11): 3386-3394. DOI: 10.11772/j.issn.1001-9081.2021111963

摘要（425）

HTML （7）

PDF （1267KB）（172）

当前性能最优的机器翻译模型之一Transformer基于标准的端到端结构，仅依赖于平行句对，默认模型能够自动学习语料中的知识；但这种建模方式缺乏显式的引导，不能有效挖掘深层语言知识，特别是在语料规模和质量受限的低资源环境下，句子解码缺乏先验约束，从而造成译文质量下降。为了缓解上述问题，提出了基于源语言句法增强解码的神经机器翻译（SSED）方法，显式地引入源语句句法信息指导解码。所提方法首先利用源语句句法信息构造句法感知的遮挡机制，引导编码自注意力生成一个额外的句法相关表征；然后将句法相关表征作为原句表征的补充，通过注意力机制融入解码，共同指导目标语言的生成，实现对模型的先验句法增强。在多个IWSLT及WMT标准机器翻译评测任务测试集上的实验结果显示，与Transformer基线模型相比，所提方法的BLEU值提高了0.84~3.41，达到了句法相关研究的最先进水平。句法信息与自注意力机制融合是有效的，利用源语言句法可指导神经机器翻译系统的解码过程，显著提高译文质量。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

12. 面向高维特征缺失数据的K最近邻插补子空间聚类算法

乔永坚, 刘晓琳, 白亮

《计算机应用》唯一官方网站 2022, 42 (11): 3322-3329. DOI: 10.11772/j.issn.1001-9081.2021111964

摘要（594）

HTML （32）

PDF （1207KB）（382）

针对高维特征缺失数据在聚类过程中面临的因数据高维引发的维度灾难问题和数据特征缺失导致的样本间有效距离计算失效问题，提出一种面向高维特征缺失数据的K最近邻（KNN）插补子空间聚类算法KISC。首先，利用高维特征缺失数据的子空间下的近邻关系对原始空间下的特征缺失数据进行KNN插补；然后，利用多次迭代矩阵分解和KNN插补获得数据最终可靠的子空间结构，并在该子空间结构进行聚类分析。在6个图像数据集原始空间的聚类结果表明，相较于经过插补后直接进行聚类的对比算法，KISC算法聚类效果更好，说明子空间结构能够更加容易且有效地识别数据的潜在聚类结构；在6个高维数据集子空间下的聚类结果显示，KISC算法在各个数据集的聚类性能均优于对比算法，且在大多数据集上取得了最优的聚类精确度（ACC）和标准互信息（NMI）。KISC算法能够更加有效地处理高维特征缺失数据，提高算法的聚类性能。

图表 | 参考文献 | 相关文章 | 多维度评价

虚拟专题文章