第九届中国数据挖掘会议(CCDM 2022)

Select

1. 判别多维标度特征学习

唐海涛, 王红军, 李天瑞

《计算机应用》唯一官方网站 2023, 43 (5): 1323-1329. DOI: 10.11772/j.issn.1001-9081.2022030419

摘要（580）

HTML （92）

PDF （1101KB）（460）

传统多维标度方法学习得到的低维嵌入保持了数据点的拓扑结构，但忽略了低维嵌入数据类别间的判别性。基于此，提出一种基于多维标度法的无监督判别性特征学习方法——判别多维标度模型（DMDS），该模型能在学习低维数据表示的同时发现簇结构，并通过使同簇的低维嵌入更接近，让学习到的数据表示更具有判别性。首先，设计了DMDS对应的目标公式，体现所学习特征在保留拓扑性的同时增强判别性；其次，对目标函数进行了推理和求解，并根据推理过程设计所对应的迭代优化算法；最后，在12个公开的数据集上对聚类平均准确率和平均纯度进行对比实验。实验结果表明，根据Friedman统计量综合评价DMDS在12个数据集上的性能优于原始数据表示和传统多维标度模型的数据表示，它的低维嵌入更具有判别性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 改进的基于多路径特征的胶囊网络

徐清海, 丁世飞, 孙统风, 张健, 郭丽丽

《计算机应用》唯一官方网站 2023, 43 (5): 1330-1335. DOI: 10.11772/j.issn.1001-9081.2022030367

摘要（426）

HTML （41）

PDF （1560KB）（268）

针对胶囊网络（CapsNet）在复杂数据集上的分类效果差，而且在路由过程中参数数量过大等问题，提出一种基于多路径特征的胶囊网络（MCNet），包含新的胶囊特征提取器和新的胶囊池化方法。该胶囊特征提取器从多个不同路径中并行地提取不同层次、不同位置的特征，然后将特征编码为包含更多语义信息的胶囊特征；胶囊池化方法则在胶囊特征图的每个位置选取最活跃的胶囊，用少量的胶囊表示有效的胶囊特征。在4个数据集（CIFAR-10、SVHN、Fashion-MNIST、MNIST）上与CapsNet等模型进行了对比。实验结果显示，MCNet在CIFAR-10数据集上的分类准确率为79.27%，可训练的参数数量为6.25×10⁶，与CapsNet相比，MCNet的分类准确率提升了8.7%，参数数量减少了46.8%。MCNet能够有效提升分类准确率，同时减少可训练的参数数量。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 属性聚类下三支概念的对比

张晓燕, 王佳一

《计算机应用》唯一官方网站 2023, 43 (5): 1336-1341. DOI: 10.11772/j.issn.1001-9081.2022030399

摘要（288）

HTML （19）

PDF （471KB）（144）

三支概念分析是人工智能领域一个非常重要的研究方向，该理论最大的优势是可以同时研究形式背景中对象“共同具有”和“共同不具有”的属性。众所周知，经过属性聚类生成的新形式背景与原形式背景具有较强的联系，同时原三支概念与经过属性聚类得到的新三支概念也存在紧密的内在联系。为此，进行属性聚类下三支概念的对比研究和分析。首先基于属性聚类提出悲观属性聚类、乐观属性聚类以及一般属性聚类的概念，并研究了这三种属性聚类的关系；然后，通过对比聚类过程与三支概念形成的过程，研究了原三支概念与新三支概念的区别，分别从面向对象和面向属性的角度提出两个最低约束指数，探索了属性聚类对三支概念格的影响，进一步丰富了三支概念分析理论，为可视化数据处理领域提供了可行的思路。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 迭代修正鲁棒极限学习机

吕新伟, 鲁淑霞

《计算机应用》唯一官方网站 2023, 43 (5): 1342-1348. DOI: 10.11772/j.issn.1001-9081.2022030429

摘要（297）

HTML （16）

PDF （823KB）（102）

极限学习机（ELM）的许多变体都致力于提高ELM对异常点的鲁棒性，而传统的鲁棒极限学习机（RELM）对异常点非常敏感，如何处理数据中的过多极端异常点变成构建RELM模型的棘手问题。对于残差较大的异常点，采用有界损失函数消除异常点对模型的污染；为了解决异常点过多的问题，采用迭代修正技术修改数据以降低由异常点过多带来的影响。结合这两种方法，提出迭代修正鲁棒极限学习机（IMRELM）。IMRELM通过迭代的方式求解，在每次的迭代中，通过对样本重加权减小异常点的影响，在不断修正的过程中避免算法出现欠拟合。在具有不同异常点水平的人工数据集和真实数据集上对比了IMRELM、ELM、加权极限学习机（WELM）、迭代重加权极限学习机（IRWELM）和迭代重加权正则化极限学习机（IRRELM）。在异常点占比为80%的人工数据集上，IRRELM的均方误差（MSE）为2.450 44，而IMRELM的MSE为0.000 79。实验结果表明，IMRELM在具有过多极端异常点的数据上具有良好的预测精度和鲁棒性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 基于判别性矩阵分解的多标签跨模态哈希检索

谭钰, 王小琴, 蓝如师, 刘振丙, 罗笑南

《计算机应用》唯一官方网站 2023, 43 (5): 1349-1354. DOI: 10.11772/j.issn.1001-9081.2022030424

摘要（397）

HTML （17）

PDF （929KB）（176）

现有的跨模态哈希算法低估了不同类别标签之间语义差异的重要性，忽略了哈希向量的平衡条件，导致所学习到的哈希码的判别性能差。此外，一些方法利用标签信息构造相似性矩阵，并将多标签数据视为单标签数据进行建模，这在多标签跨模态检索中造成了较大的语义损失。为了保留异构数据之间精确的相似程度和哈希向量的平衡特性，提出了一种新的有监督哈希算法——基于判别性矩阵分解的多标签跨模态哈希检索（DMFH）。该方法利用核化特征的协同矩阵分解（CMF）获得了一个共享的隐式子空间；同时利用数据之间共有标签的比例来描述异构数据的相似程度；此外，利用标签的平衡信息构造平衡矩阵，生成具有平衡特性的哈希向量，并最大化不同类别标签之间的类间距。在两个常用多标签数据集MIRFlickr和NUS-WIDE上与7种先进的跨模态哈希方法进行对比，在“以图搜文”（I2T）和“以文搜图”（T2I）任务上，DMFH均取得了最高的平均精度均值（mAP），而且T2I任务的mAP更优，说明DMFH能够更有效地利用文本模态中的多标签语义信息。还分析了所构造的平衡矩阵与相似性矩阵的有效性，验证了DMFH算法能有效保持语义信息和相似性关系，在多标签跨模式检索中是有效的。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 基于协同变异与莱维飞行策略的教与学优化算法及其应用

高昊, 张庆科, 卜降龙, 李俊青, 张化祥

《计算机应用》唯一官方网站 2023, 43 (5): 1355-1364. DOI: 10.11772/j.issn.1001-9081.2022030420

摘要（440）

HTML （9）

PDF （2787KB）（210）

针对教与学优化（TLBO）算法在处理优化问题时存在搜索不均衡、易陷入局部最优、综合求解性能弱等缺陷，提出一种基于均衡优化与莱维飞行策略的改进教与学优化算法ELMTLBO。首先设计精英均衡引导策略，通过种群中多个精英个体的均衡引导提高算法的全局寻优能力；其次在TLBO算法的学习者阶段后，利用自适应权重策略对莱维飞行产生的步长进行自适应缩量，以提高种群局部寻优能力，增强个体对复杂环境的自适应性；最后设计了变异算子池逃逸策略，通过多个变异算子的协同引导，提升算法的种群多样性。为验证算法改进的有效性，将EMLTLBO算法与侏儒猫鼬优化算法（DMOA）等先进的智能优化算法以及平衡教与学优化（BTLBO）算法、标准TLBO等同类型算法在15个国际测试函数上进行综合收敛性能比较。统计实验结果表明，与先进的智能优化算法和TLBO算法变体相比，ELMTLBO算法能够有效平衡其搜索能力，不但有效求解单峰和多峰问题，而且在复杂多峰问题上仍有显著的寻优能力。在不同策略的共同作用下，ELMTLBO算法的综合优化性能突出，全局收敛性能较为稳定。此外，ELMTLBO算法成功应用于基于隐马尔可夫模型（HMM）的多序列比对（MSA）问题中，优化后得到的高质量对齐序列可用于疾病诊断、基因溯源等，可为生物信息学提供算法支撑。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

7. J-SGPGN：基于序列与图的联合学习复述生成网络

侯志荣, 范晓东, 张华, 马晓楠

《计算机应用》唯一官方网站 2023, 43 (5): 1365-1371. DOI: 10.11772/j.issn.1001-9081.2022040626

摘要（307）

HTML （9）

PDF （951KB）（152）

复述生成是一种基于自然语言生成（NLG）的文本数据增强方法。针对基于Seq2Seq （Sequence-to-Sequence）框架的复述生成方法中出现的生成重复、语意错误及多样性差的问题，提出一种基于序列与图的联合学习复述生成网络（J-SGPGN）。J-SGPGN的编码器融合了图编码和序列编码进行特征增强，而解码器中则设计了序列生成和图生成两种解码方式并行解码；然后采用联合学习方法训练模型，旨在兼顾句法监督与语义监督以同步提升生成的准确性和多样性。在Quora数据集上的实验结果表明，J-SGPGN的生成准确性指标METEOR （Metric for Evaluation of Translation with Explicit ORdering）较准确性最优基线模型——RNN+GCN提升了3.44个百分点，生成多样性指标Self-BLEU （Self-BiLingual Evaluation Understudy）较多样性最优基线模型——多轮回译复述生成（BTmPG）模型降低了12.79个百分点。J-SGPGN能够生成语义更准确、表达方式更多样的复述文本。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 融合人体全身表观特征的行人头部跟踪模型

张广耀, 宋纯锋

《计算机应用》唯一官方网站 2023, 43 (5): 1372-1377. DOI: 10.11772/j.issn.1001-9081.2022030377

摘要（382）

HTML （20）

PDF （2258KB）（230）

现有的行人多目标跟踪模型在密集场景下存在行人无法检出以及帧间关联混淆的问题。为了提高密集场景下行人跟踪的精确率，提出一种融合全身表观特征的行人头部跟踪模型HT-FF （Head Tracking with Full-body Features）。首先，使用行人头部检测器替代全身检测器，提高密集场景下行人的检出率；其次，利用人体姿态估计的信息为引导，获得去噪声的全身表观特征作为跟踪线索，大幅减少多帧之间关联时发生的混淆。HT-FF模型在密集场景下行人跟踪的基准数据集Head Tracking 21 （HT21）上的MOTA （Multiple Object Tracking Accuracy）和IDF1 （ID F1 Score）等多个指标上取得了最优的结果。HT-FF模型能有效缓解密集场景下行人跟踪丢失和混淆的问题，所提出的融合多线索的跟踪模型是行人跟踪任务的新范式。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

9. 融合市场动态层次宏观信息的股票趋势预测

张亚飞, 王晶, 赵耀帅, 武志昊, 林友芳

《计算机应用》唯一官方网站 2023, 43 (5): 1378-1384. DOI: 10.11772/j.issn.1001-9081.2022030400

摘要（351）

HTML （10）

PDF （1401KB）（165）

股票市场结构复杂、信息多样，股票趋势预测极具挑战性。但现有研究大都把每只股票当作一个独立的个体，或者使用图结构对股票市场中复杂的高阶关系进行建模，缺少对股票、行业、市场三者间相互影响的层次性和动态性考量。针对上述问题，提出一种动态宏观记忆网络（DMMN），并基于DMMN同时对多只股票进行价格趋势预测。该方法按照“股票-行业-市场”的层次对市场宏观环境信息进行建模，并捕获这些信息在时序上的长期依赖；然后将市场宏观环境信息与股票微观特征信息动态融合，在增强个股对市场整体情况的感知能力的同时间接捕获到股票、行业、市场三者间的相互依赖。在收集的CSI300数据集上得到的实验结果表明，相较于基于注意力长短期记忆（ALSTM）网络、添加了图卷积的LSTM网络（GCN-LSTM）、卷积神经网络（CNN）等模型的股票预测方法，基于DMMN的方法在F1分数、夏普比率上都取得了更好的效果，和表现最优的对比方法ALSTM相比分别提升了4.87%和31.90%，这表明DMMN在具备较好预测性能的同时还具备更好的实用价值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

10. 基于多尺度核自适应滤波的股票收益预测

汤兴恒, 郭强, 徐天慧, 张彩明

《计算机应用》唯一官方网站 2023, 43 (5): 1385-1393. DOI: 10.11772/j.issn.1001-9081.2022030401

摘要（357）

HTML （9）

PDF （1992KB）（152）

在股票市场中，投资者可通过捕捉历史数据中潜在的交易模式实现对股票未来收益的预测，股票收益预测问题的关键在于如何准确地捕捉交易模式，但受公司业绩、金融政策以及国家经济增长等不确定性因素的影响，交易模式往往难以捕捉。针对该问题，提出一种多尺度核自适应滤波（MSKAF）方法，从过去的市场数据中捕捉多尺度交易模式。为刻画股票的多尺度特征，该方法采用平稳小波变换（SWT）得到不同尺度的数据分量，不同尺度的数据分量蕴含着股票价格波动背后潜在的不同交易模式，然后采用核自适应滤波（KAF）方法捕捉不同尺度的交易模式，以预测股票未来收益。实验结果表明，相较于基于两阶段核自适应滤波（TSKAF）的预测模型，所提方法的预测结果的平均绝对误差（MAE）减小了10%，夏普比率增加了8.79%，可见所提方法实现了更好的股票收益预测性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

11. 基于烛台图模式匹配的PM _2.5扩散特征的提取

许睿, 梁爽, 万航, 文益民, 沈世铭, 李建

《计算机应用》唯一官方网站 2023, 43 (5): 1394-1400. DOI: 10.11772/j.issn.1001-9081.2022030437

摘要（269）

HTML （13）

PDF （2423KB）（92）

现有大气质量预测方法多基于单纯的时间序列数据进行趋势预测，忽略了污染物传输和扩散规律及其分类间模式特征的问题。为此，提出一种基于烛台图模式匹配（CPM）的PM_2.5（大气细颗粒物污染）扩散特征提取方法。首先，利用基于卷积神经网络（CNN）的卷积思想从大量历史PM_2.5序列中生成基础周期烛台图；然后，通过距离公式对不同烛台图特征向量的浓度模式进行聚类分析；最后，结合CNN在图像识别中的独特优势，形成融合图形特征与时序特征序列的混合模型，判断带有反转信号的烛台图将导致的趋势反转情况。在桂林市大气质量在线监测站的监测时序数据集上的实验结果表明，与使用单一时间序列数据的深度卷积神经网络VGG（Visual Geometry Group）相比，基于CPM的提取方法准确率提升了1.9个百分点。可见，基于CPM的方法能有效提取PM_2.5趋势特征，可以用于预测未来污染物浓度周期变化。

图表 | 参考文献 | 相关文章 | 多维度评价

虚拟专题文章