检索结果

Select

1. 双端聚类的自动调整聚类联邦学习

尹春勇, 周永成

《计算机应用》唯一官方网站 2024, 44 (10): 3011-3020. DOI: 10.11772/j.issn.1001-9081.2023101475

摘要（181）

HTML （10）

PDF （2248KB）（81）

联邦学习（FL）是一种分布式机器学习方法，旨在共同训练全局模型，然而全局模型难以胜任多数据分布情况。为应对多分布挑战，引入聚类联邦学习，以客户端分组方式优化共享多模型。其中，服务器端聚类难以修正分类错误，而客户端聚类则对初始模型的选择至关重要。为解决这些问题，提出自动调整聚类联邦学习（AACFL）框架，所提框架采用双端聚类整合服务器端和客户端聚类。首先用双端聚类将客户端分为可调整集群，其次自动调整局部客户端身份，最后获取正确的客户集群。在非独立同分布下，在3个经典联邦数据集上的评估实验结果表明，AACFL能够在双端聚类结果存在错误的情况下通过调整获得正确集群，当簇数为4，客户端数为100时，与联邦平均（FedAvg）算法、聚类联邦学习（CFL）和IFCA（Iterative Federated Clustering Algorithm）等方法相比，有效地提高模型收敛速度和获得正确聚类结果的速度，准确率平均提升0.20~23.16个百分点。验证了所提框架能够高效聚类，并提高模型收敛速度和准确率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于个性化差分隐私的联邦学习算法

尹春勇, 屈锐

《计算机应用》唯一官方网站 2023, 43 (4): 1160-1168. DOI: 10.11772/j.issn.1001-9081.2022030337

摘要（925）

HTML （44）

PDF （1800KB）（601）

联邦学习（FL）可以有效保护用户的个人数据不被攻击者获得，而差分隐私（DP）则可以实现FL的隐私增强，解决模型训练参数导致的隐私泄露问题。然而，现有的基于DP的FL方法只关注统一的隐私保护预算，而忽略了用户的个性化隐私需求。针对此问题，提出了一种两阶段的基于个性化差分隐私的联邦学习（PDP-FL）算法。在第一阶段，依据用户的隐私偏好对用户隐私进行分级，并添加满足用户隐私偏好的噪声，以实现个性化隐私保护，同时上传隐私偏好对应的隐私等级给中央聚合服务器；在第二阶段，为实现对全局数据的充分保护，采取本地和中心同时保护的策略，并根据用户上传的隐私等级，添加符合全局DP阈值的噪声，以量化全局的隐私保护水平。实验结果表明，在MNIST和CIFAR-10数据集上，PDP-FL算法的分类准确度分别为93.8%~94.5%和43.4%~45.2%，优于基于本地化差分隐私的联邦学习（LDP-Fed）和基于全局差分隐私的联邦学习（GDP-FL），同时满足了个性化隐私保护的需求。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于再编码的无监督时间序列异常检测模型

尹春勇, 周立文

《计算机应用》唯一官方网站 2023, 43 (3): 804-811. DOI: 10.11772/j.issn.1001-9081.2022010006

摘要（727）

HTML （52）

PDF （1769KB）（349）

针对时间序列的数据不平衡和高度复杂的时间相关性导致的异常检测准确率低的问题，以生成对抗网络（GAN）作为基础提出一种基于再编码的无监督时间序列异常检测模型RTGAN。首先，使用具有周期一致性的多个生成器保证生成样本的多样性，从而学习不同的异常模式；其次，使用堆叠式LSTM-dropout RNN捕获时间相关性；然后，使用二次编码在潜在空间中比较生成样本和真实样本之间的差异，并将此差异作为再编码误差当作异常分数的一部分，从而提高异常检测的准确率；最后，使用新的异常分数对单变量和多变量时间序列数据集进行异常检测。将所提模型与七种基线异常检测模型在单变量和多变量时间序列上进行了比较。实验结果表明，所提模型在所有数据集上均获得了最高的平均F1值（0.815），并且总体性能分别比原始自编码器（AE）模型Dense-AE和最新的基准模型USAD高出36.29%和8.52%。通过不同的信噪比（SNR）检测模型的健壮性，结果表明所提模型一直优于LSTM-VAE、USAD和OmniAnomaly，尤其在SNR为30%情况下，RTGAN的F1值分别比USAD和OmniAnomaly高出13.53%和10.97%。可见所提模型能有效提高异常检测的准确率和鲁棒性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 基于BCU-Tree与字典的高效用挖掘快速脱敏算法

尹春勇, 李荧

《计算机应用》唯一官方网站 2023, 43 (2): 413-422. DOI: 10.11772/j.issn.1001-9081.2021122161

摘要（370）

HTML （11）

PDF （2958KB）（117）

针对隐私保护效用挖掘（PPUM）中脱敏时间长、计算复杂度高，以及算法副作用大等问题，提出一种基于BCU-Tree和字典（BCUTD）的高效用挖掘快速脱敏算法。该算法提出了一种新的树结构BCU-Tree来存储敏感项信息，基于按位运算符编码模型降低树的构建时间并减小搜索空间。采用字典表存储树结构中的所有节点，修改敏感项时只需访问字典表，最终达到数据库脱敏目的。在4个不同的数据集上进行的实验中，BCUTD算法在脱敏时间和副作用上的表现要明显优于经典的优先隐藏高效用项（HHUIF）算法、最大敏感效用-最大项效用（MSU-MAU）算法和使用树与表结构的快速扰动（FPUTT）算法。实验结果表明，BCUTD算法能够有效减少脱敏时间，降低算法副作用以及计算复杂度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 基于CNN和Bi-LSTM的无监督日志异常检测模型

尹春勇, 张杨春

《计算机应用》唯一官方网站 2023, 43 (11): 3510-3516. DOI: 10.11772/j.issn.1001-9081.2022111738

摘要（356）

HTML （11）

PDF （1759KB）（1462）

日志能记录系统运行时的具体状态，而自动化的日志异常检测对网络安全至关重要。针对日志语句随时间演变导致异常检测准确率低的问题，提出一种无监督日志异常检测模型LogCL。首先，通过日志解析技术将半结构化的日志数据转换为结构化的日志模板；其次，使用会话和固定窗口将日志事件划分为日志序列；再次，提取日志序列的数量特征，使用自然语言处理技术对日志模板进行语义特征提取，并利用词频-词语逆频率（TF-IWF）算法生成加权的句嵌入向量；最后，将特征向量输入一个并列的基于卷积神经网络（CNN）和双向长短期记忆（Bi-LSTM）网络的模型中进行检测。在两个公开的真实数据集上的实验结果表明，所提模型较基准模型LogAnomaly在异常检测的F1?score上分别提高了3.6和2.3个百分点。因此LogCL能够对日志数据进行有效的异常检测。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 面向分布式漂移数据流的集成分类模型

尹春勇, 张帼杰

计算机应用 2021, 41 (7): 1947-1955. DOI: 10.11772/j.issn.1001-9081.2020081277

摘要（403）

PDF （1255KB）（372）

针对大数据环境下分类精度不高的问题，提出了一种面向分布式数据流的集成分类模型。首先，使用微簇模式减少局部节点向中心节点传输的数据量，降低通信代价；然后，使用样本重构算法生成全局分类器的训练样本；最后，提出一种面向漂移数据流的集成分类模型，采用动态分类器和稳定分类器的加权组合策略，使用混合标记策略标记最具代表性的样本以更新集成模型。在两个虚拟数据集和两个真实数据集上的实验结果表明，该模型与DS-means、BDS-ensemble这两个分布式挖掘模型相比，受到概念漂移时的波动较小；而与在线主动学习集成模型（OALEnsemble）相比，准确率更高，在四个数据集上的准确率分别提高了1.58、0.97、0.77和1.91个百分点。该模型虽然在内存消耗上略高于DS-means和BDS-ensemble模型，但是可以在较小的内存代价下获得较大的分类性能的提升。因此，该模型适用于具有分布式和流动性特征的大数据的分类工作，如网络监控、银行业务系统等。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于多任务学习的时序多模态情感分析模型

章荪, 尹春勇

计算机应用 2021, 41 (6): 1631-1639. DOI: 10.11772/j.issn.1001-9081.2020091416

摘要（981）

PDF （1150KB）（1404）

针对时序多模态情感分析中存在的单模态特征表示和跨模态特征融合问题，结合多头注意力机制，提出一种基于多任务学习的情感分析模型。首先，使用卷积神经网络（CNN）、双向门控循环神经网络（BiGRU）和多头自注意力（MHSA）实现了对时序单模态的特征表示；然后，利用多头注意力实现跨模态的双向信息融合；最后，基于多任务学习思想，添加额外的情感极性分类和情感强度回归任务作为辅助，从而提升情感评分回归主任务的综合性能。实验结果表明，相较于多模态分解模型，所提模型的二分类准确度指标在CMU-MOSEI和CMU-MOSI多模态数据集上分别提高了7.8个百分点和3.1个百分点。该模型适用于多模态场景下的情感分析问题，能够为商品推荐、股市预测、舆情监控等应用提供决策支持。

参考文献 | 相关文章 | 多维度评价

Select

8. 面向短文本情感分类的端到端对抗变分贝叶斯方法

尹春勇, 章荪

计算机应用 2020, 40 (9): 2536-2542. DOI: 10.11772/j.issn.1001-9081.2020010048

摘要（436）

PDF （1653KB）（711）

针对文本情感分析中文本过短而导致的分类准确度低的问题，结合对抗学习和变分推断提出一种端到端的短文本情感分类模型。首先，使用谱规范化技术解决了判别器在训练过程中的震荡问题；然后，添加额外的分类模型来指导推断模型的更新；其次，使用对抗变分贝叶斯（AVB）模型提取短文本的主题特征；最后，使用三次注意力机制来融合主题特征与预训练词向量特征进行分类。通过在一个产品评论和两个微博数据集上的实验结果证明，所提模型较基于自注意力的双向长短期记忆网络（BiLSTM-SA）在分类准确度上分别提高了2.9、2.2和8.4个百分点。由此可见，该模型适用于挖掘社交短文本中的情感和观点信息，对舆情发现、用户反馈、质量监督和其他相关领域具有重要的意义。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于改进胶囊网络的文本分类

尹春勇, 何苗

计算机应用 2020, 40 (9): 2525-2530. DOI: 10.11772/j.issn.1001-9081.2019122153

摘要（1180）

PDF （952KB）（1239）

针对卷积神经网络（CNN）中的池化操作会丢失部分特征信息和胶囊网络（CapsNet）分类精度不高的问题，提出了一种改进的CapsNet模型。首先，使用两层卷积层对特征信息进行局部特征提取；然后，使用CapsNet对文本的整体特征进行提取；最后，使用softmax分类器进行分类。在文本分类中，所提模型比CNN和CapsNet在分类精度上分别提高了3.42个百分点和2.14个百分点。实验结果表明，改进CapsNet模型更适用于文本分类。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于垂直集成Tri-training的虚假评论检测模型

尹春勇, 朱宇航

计算机应用 2020, 40 (8): 2194-2201. DOI: 10.11772/j.issn.1001-9081.2019112046

摘要（453）

PDF （1099KB）（417）

针对虚假评论会误导用户的偏向并使其利益遭受损失以及大规模人工标注评论的代价过高等问题，通过利用以往迭代过程中生成的分类模型来提高检测的准确性，提出一种基于垂直集成的Tri-training（VETT）的虚假评论检测模型。该模型在评论文本特征的基础上结合用户行为特征作为特征进行提取。在VETT算法中，迭代过程被分成组内垂直集成和组间水平集成两部分：组内集成是利用分类器以往的迭代模型集成为一个原始分类器，而组间集成是利用3个原始分类器通过传统过程训练得到这一轮迭代后的二代分类器，以此来提高标签标记的准确率。对比Co-training、Tri-training、基于AUC优化的PU学习（PU-AUC）和基于垂直集成的Co-training（VECT）等算法，VETT算法的F1值分别最大提高了6.5、5.08、4.27和4.23个百分点。实验结果表明VETT算法有较好的分类性能。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于多尺度的多变量时间序列异常检测模型

尹春勇张不凡

《计算机应用》唯一官方网站 DOI: 10.11772/j.issn.1001-9081.2025030302
预出版日期: 2025-05-08