Journal of Computer Applications ›› 2023, Vol. 43 ›› Issue (6): 1664-1675.DOI: 10.11772/j.issn.1001-9081.2022060881
Special Issue: 综述; CCF第37届中国计算机应用大会 (CCF NCCA 2022)
• The 37 CCF National Conference of Computer Applications (CCF NCCA 2022) • Previous Articles Next Articles
Dongliang MU, Meng HAN(), Ang LI, Shujuan LIU, Zhihui GAO
Received:
2022-06-20
Revised:
2022-08-09
Accepted:
2022-08-12
Online:
2022-08-24
Published:
2023-06-10
Contact:
Meng HAN
About author:
MU DongSupported by:
通讯作者:
韩萌
作者简介:
穆栋梁(1998—),男,山西大同人,硕士研究生,CCF会员,主要研究方向:大数据挖掘基金资助:
CLC Number:
Dongliang MU, Meng HAN, Ang LI, Shujuan LIU, Zhihui GAO. Overview of classification methods for complex data streams with concept drift[J]. Journal of Computer Applications, 2023, 43(6): 1664-1675.
穆栋梁, 韩萌, 李昂, 刘淑娟, 高智慧. 概念漂移复杂数据流分类方法综述[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1664-1675.
Add to citation manager EndNote|Ris|BibTeX
URL: https://www.joca.cn/EN/10.11772/j.issn.1001-9081.2022060881
算法 | HyperPlane | Sea | Electricity |
---|---|---|---|
SERA | √ | ||
Learn++.CDS | √ | √ | √ |
Learn++.NIE | √ | √ | √ |
ECISD | √ | ||
DWSE | √ | √ | |
MOS-ELM | √ | √ | |
DUE | √ | √ | √ |
TSCS | √ | √ | √ |
CSDS | √ | √ | √ |
OGUEIL | √ | √ | √ |
Tab. 1 Unbalanced classification algorithms using same dataset
算法 | HyperPlane | Sea | Electricity |
---|---|---|---|
SERA | √ | ||
Learn++.CDS | √ | √ | √ |
Learn++.NIE | √ | √ | √ |
ECISD | √ | ||
DWSE | √ | √ | |
MOS-ELM | √ | √ | |
DUE | √ | √ | √ |
TSCS | √ | √ | √ |
CSDS | √ | √ | √ |
OGUEIL | √ | √ | √ |
算法 | 方法 | 数据集 | 对比算法 | 优点 | 缺点 |
---|---|---|---|---|---|
HUWRS.IP | 海林格距离 | Stagger、 Text等 | HUWRS、 DWM | 对底层数据流的假设较少 | 依赖于观察批量实例 |
Learn++.CDS | SMOTE Learn++.NSE | HyperpPlane、 Electricity、 Sea等 | UCB、 SERA、 Learn++.NIE | 综合价值指标高,组合健壮,不需要访问以前的数据,而且它们不积累少数数据来平衡类基数 | F-measure值较高 |
Learn++.NIE | 装袋 加权召回 | Gaussians、 HyperPlane等 | UCB、 SERA等 | 不需要存储旧数据 | 子集成策略以计算复杂度为代价 |
ECISD | 过采样 周期更新分类器 | Stagger、 Sea、 Spam等 | VFDT、 AUE2、 Learn++.NIE | 有效应对不平衡问题,能快速捕捉概念变化, 对概念漂移敏感,对真实数据环境有 较好适应性 | 以数据块为单位进行处理,存在数据块选择问题 |
CIDD-ADODNN | 深度神经网络 自适应滑动窗口 ADASYN | KddCup、 Spam、 Chess | ADODNN、 SVM、 LR | 根据学习难度对不同少数类的例子采用 加权分布,采用了参数调优过程确定 DNN模型的最优值 | 在应用深度神经网络的 过程中,时间开销大 |
DWSE | 重采样 双窗口 动态衰减因子 | Sea、 HyperPlane、 Rbf | AWE、 SERA、 UCB | 减小了窗口的大小,可以提高少数样本的 分类性能而不影响多数样本的分类性能。 | 主要针对二类问题,对多类问题不适用 |
MOS-ELM | 过重采样 极限学习机 | Sea、 Electricity等 | ESOS-ELM、 WOS-ELM等 | 使用较少分类器就能达到很好的效果, 还可处理多类不平衡漂移数据流 | 基于块,不能对发生在单个块中的概念漂移作出反应 |
ESOS-ELM | 重采样 极端学习机 | image、 satellite等 | ELM | 泛化性能好,适用于静态和非静态环境 | 牺牲了多数类召回 |
DUE | 分量加权机制 分量更新 | Sea、 HyperPlane、 Electricity等 | SERA、 Learn++.CDS、 SRE等 | 不需要访问旧数据,内存使用有限,在切换 多数类和少数类的位置时,能快速适应新环境 | 没有实例相似性的 评价机制 |
TWB | 增量 加权投票 | Brazilian Bank、 credit card等 | AFDM、 CSNN等 | 对噪声具有鲁棒性,具有良好的扩展性, 应用范围广 | 不能处理概念漂移中的 循环递归 |
HIDC | 动态采样 差异因子 | Weather | DFGW | 可以在突然或逐渐的概念漂移期间替换 集成分类器中最差的成员 | 存在对少数类群体过去实例随机抽样不充分的情况 |
TSCS | 两段代价敏感 加权集成 | Hyperplane Sea等 | Learn++.NIE、 AUE2等 | 泛化能力强,能适应各种概念漂移, 对类不平衡环境具有较强适应性 | 在时空效率方面开销较大,还有待优化 |
CSDS | 代价敏感 成本敏感加权 | Sea、 Electricity等 | VFDT、 AUE2等 | 在性能和资源之间获得了最佳的折中 | 对多标签数据流分类具有局限性 |
OGUEIL | G-mean 重采样 | Electricity、 Sea、 HyperPlane等 | OAUE、 OOB、 REA | 可以根据当前数据分布及时调整每个 成员分类器的权重 | 时间复杂度有待降低 |
C-SMOTE | 少数过采样技术 | Syn、 Ann等 | OOB、 UOB | 这种新的元策略不需要访问所有数据, 新实例存储在动态大小窗口中 | 窗口保存的实例数目较多 |
Tab. 2 Classification methods for imbalanced concept drift data streams
算法 | 方法 | 数据集 | 对比算法 | 优点 | 缺点 |
---|---|---|---|---|---|
HUWRS.IP | 海林格距离 | Stagger、 Text等 | HUWRS、 DWM | 对底层数据流的假设较少 | 依赖于观察批量实例 |
Learn++.CDS | SMOTE Learn++.NSE | HyperpPlane、 Electricity、 Sea等 | UCB、 SERA、 Learn++.NIE | 综合价值指标高,组合健壮,不需要访问以前的数据,而且它们不积累少数数据来平衡类基数 | F-measure值较高 |
Learn++.NIE | 装袋 加权召回 | Gaussians、 HyperPlane等 | UCB、 SERA等 | 不需要存储旧数据 | 子集成策略以计算复杂度为代价 |
ECISD | 过采样 周期更新分类器 | Stagger、 Sea、 Spam等 | VFDT、 AUE2、 Learn++.NIE | 有效应对不平衡问题,能快速捕捉概念变化, 对概念漂移敏感,对真实数据环境有 较好适应性 | 以数据块为单位进行处理,存在数据块选择问题 |
CIDD-ADODNN | 深度神经网络 自适应滑动窗口 ADASYN | KddCup、 Spam、 Chess | ADODNN、 SVM、 LR | 根据学习难度对不同少数类的例子采用 加权分布,采用了参数调优过程确定 DNN模型的最优值 | 在应用深度神经网络的 过程中,时间开销大 |
DWSE | 重采样 双窗口 动态衰减因子 | Sea、 HyperPlane、 Rbf | AWE、 SERA、 UCB | 减小了窗口的大小,可以提高少数样本的 分类性能而不影响多数样本的分类性能。 | 主要针对二类问题,对多类问题不适用 |
MOS-ELM | 过重采样 极限学习机 | Sea、 Electricity等 | ESOS-ELM、 WOS-ELM等 | 使用较少分类器就能达到很好的效果, 还可处理多类不平衡漂移数据流 | 基于块,不能对发生在单个块中的概念漂移作出反应 |
ESOS-ELM | 重采样 极端学习机 | image、 satellite等 | ELM | 泛化性能好,适用于静态和非静态环境 | 牺牲了多数类召回 |
DUE | 分量加权机制 分量更新 | Sea、 HyperPlane、 Electricity等 | SERA、 Learn++.CDS、 SRE等 | 不需要访问旧数据,内存使用有限,在切换 多数类和少数类的位置时,能快速适应新环境 | 没有实例相似性的 评价机制 |
TWB | 增量 加权投票 | Brazilian Bank、 credit card等 | AFDM、 CSNN等 | 对噪声具有鲁棒性,具有良好的扩展性, 应用范围广 | 不能处理概念漂移中的 循环递归 |
HIDC | 动态采样 差异因子 | Weather | DFGW | 可以在突然或逐渐的概念漂移期间替换 集成分类器中最差的成员 | 存在对少数类群体过去实例随机抽样不充分的情况 |
TSCS | 两段代价敏感 加权集成 | Hyperplane Sea等 | Learn++.NIE、 AUE2等 | 泛化能力强,能适应各种概念漂移, 对类不平衡环境具有较强适应性 | 在时空效率方面开销较大,还有待优化 |
CSDS | 代价敏感 成本敏感加权 | Sea、 Electricity等 | VFDT、 AUE2等 | 在性能和资源之间获得了最佳的折中 | 对多标签数据流分类具有局限性 |
OGUEIL | G-mean 重采样 | Electricity、 Sea、 HyperPlane等 | OAUE、 OOB、 REA | 可以根据当前数据分布及时调整每个 成员分类器的权重 | 时间复杂度有待降低 |
C-SMOTE | 少数过采样技术 | Syn、 Ann等 | OOB、 UOB | 这种新的元策略不需要访问所有数据, 新实例存储在动态大小窗口中 | 窗口保存的实例数目较多 |
算法 | KddCup | Forest Cover | Pamap |
---|---|---|---|
MINAS | √ | ||
MineClass | √ | √ | |
MCM | √ | ||
ESCR | √ | ||
EMC | √ | √ | |
DAE | √ | √ | |
SAND | √ | √ | |
ECHO | √ | ||
C&NCBM | √ | ||
ECSMiner | √ | √ | |
SCANR | √ | ||
NCDC | √ | ||
SENCForest | √ | ||
AhtNODE | √ | ||
SACCOS | √ | √ |
Tab. 3 Conceptual evolution classification algorithms using same dataset
算法 | KddCup | Forest Cover | Pamap |
---|---|---|---|
MINAS | √ | ||
MineClass | √ | √ | |
MCM | √ | ||
ESCR | √ | ||
EMC | √ | √ | |
DAE | √ | √ | |
SAND | √ | √ | |
ECHO | √ | ||
C&NCBM | √ | ||
ECSMiner | √ | √ | |
SCANR | √ | ||
NCDC | √ | ||
SENCForest | √ | ||
AhtNODE | √ | ||
SACCOS | √ | √ |
数据流类型 | 算法 | 方法 | 数据集 | 优点 | 缺点 |
---|---|---|---|---|---|
概念 演化 概念 漂移 数据流 | OLINDDA | k-means | Breast、 Biomed、 Iris等 | 单一学习策略解决了数据流上的 概念漂移和新颖类别探测问题 | 无法解决数据流上多个已知类别的 情况 |
MLNAS | 决策模型 多分类 | KddCup、 Forest Cover等 | 将新颖性检测视为一个多类任务 | 对噪声和异常值的干扰处理还有待提升 | |
MineClass | KNN 决策树 | KddCup、 Forest Cover等 | 非参数方法,不假设任何特定的 数据分布 | 对比算法太少、使用的数据集太少 | |
MCM | 自适应方法 基尼系数 | Twitter、 Forest Cover等 | 滤掉了大部分的异常值,运行时间短 | 类在以前未使用的特征空间中被发现时才会将其检测为新类 | |
ESCR | 半监督 J-S散度 | HyperPlane、 Forest Cover、 Wave等 | 提出了动态规划、递归函数等构建策略,有选择地执行变化检测模块,提高了算法的效率 | 在时间效率上有待优化 | |
EMC | 在线微簇 | KddCup、 Forest Cover等 | 允许从噪声实例中区分概念漂移和概念演化 | 需要大量的微蔟才能更有效捕捉漂移,从而增加了时空复杂度 | |
DAE | 无监督 多维变化点检测 | Packets、 Forest Cover等 | 增加噪声量,DAE的性能会提高, 新的类检测速度快 | 在算法中假设金额标签都是周期性的 | |
SAND | 半监督 置信度分数 | Forest Cover、 Pamap等 | 概念漂移和概念演化的寻址高效 | 检测器假设每次只出现一个新类, 时间开销大 | |
ECHO | 不确定性采样 半监督 | Forest Cover、 HyperPlane、 Pamap | 通过检测分类器置信估计的变化, 促进概念漂移和概念演化的寻址 | 检测器假设每次只出现一个新类 | |
C&NCBM | 马氏距离 基于块 | KddCup、 ArtificialCDS | 对概念漂移数据流中出现的新类 具有更强的分类鲁棒性。 | 由于受添加马氏距离的影响,具有 较长的运行时间 | |
AnyNovel | 主动学习 基于类 | Wisdm、 Opportunity | 能够有效识别小规模的类, 很好地区分概念漂移和新概念 | 为每个数据集设置的参数需要手动调整 | |
ECSMiner | 延迟数据标记 分类决策 | KddCup、 Forest Cover等 | 正确区分了概念漂移和概念演化, 避免了在概念漂移的情况下 对新类的错误检测 | 空间开销大 | |
SCANR | 辅助集合 | SynC10、 KddCup | 降低了错误率和误报率,能够检测出重复出现的新类 | 辅助集成有待优化,额外运行时间长 | |
SENForest | 随机森林 | KddCup、 MNIST等 | 模型能够正确识别足够多的 新类样本 | 对于应用在大规模级别的数据挖掘 问题有一定的局限性 | |
AhtNODE | Hoeffding树 滑动窗口 | Hyperplane、 KddCup等 | 其分类性能优于集成分类器, 可以直接应用于流数据 | 不适合处理混合属性的新类检测情况 | |
SACCOS | 基于相互图模型 半监督 | KddCup、 Pamap等 | 克服了少数数据实例具有较大 特征值的影响,新颖类的实例标签 在检测后就可以使用 | 对噪声敏感,未解决新颖类和现有类可能存在重叠的情况 | |
多标签 概念 漂移 数据流 | DCEBR | 加权投票 二元相关 | Syn、 RCV1 | 对概念漂移具有更好的跟踪效果 | 每一个标签建立一个二值分类器, 会占用大量的内存空间 |
EALF | 主动学习 最大后验加权 | RCV1-V2、 Imdb等 | 避免了过拟合问题,降低了标签成本 | 独立地更新每个类的集合, 导致时间开销较大 | |
MW | 批量增量阈值 多窗口 | Tmc2007、 Imdb等 | 解决了类不平衡和多重概念漂移 | 受到阈值限制的影响,需要采取合适的阈值策略 | |
MLAW | J-S散度 周期性加权 | Imdb、 Tmc2007等 | 能处理不同类型的概念漂移 | 时空消耗有待优化 | |
MINAS-BR | 二元关联 无监督 | MOA-3C-5C-2D等 | 能同时处理多标签数据流中的 概念漂移和概念演化问题 | 未应用在真实多标签数据集上 | |
MINAS-PS | 无监督 PS | MOA-3C-2D、 MOA-5C-2D | 能适应不同类型的概念漂移 | 与当前主流算法的对比实验少 | |
BBML | Hoeffding不等式 | 20NG、 Slashdot等 | 可以确定预测标签数量,能有效处理数据流中的缺失值和概念漂移 | 时间复杂度高 | |
MLSAMkNN | KNN | 20NG、 Flags等 | 适用于处理经历各种和混合概念漂移的多标签数据流 | 性能以运行时间为代价 | |
MLSAMPkNN | 惩罚机制 自适应窗口 | Imdb、 Scene等 | 不需要繁琐模型选择和参数调优 | 在稀疏的标签流中学习性能较差 | |
AESAKNNS | KNN 自适应 | Birds、 Virus等 | 解决了其他各种多标签数据问题 | 没有与其他算法进行时空效率的对比实验 |
Tab. 4 Classification methods for concept evolution and multi-label concept drift data streams
数据流类型 | 算法 | 方法 | 数据集 | 优点 | 缺点 |
---|---|---|---|---|---|
概念 演化 概念 漂移 数据流 | OLINDDA | k-means | Breast、 Biomed、 Iris等 | 单一学习策略解决了数据流上的 概念漂移和新颖类别探测问题 | 无法解决数据流上多个已知类别的 情况 |
MLNAS | 决策模型 多分类 | KddCup、 Forest Cover等 | 将新颖性检测视为一个多类任务 | 对噪声和异常值的干扰处理还有待提升 | |
MineClass | KNN 决策树 | KddCup、 Forest Cover等 | 非参数方法,不假设任何特定的 数据分布 | 对比算法太少、使用的数据集太少 | |
MCM | 自适应方法 基尼系数 | Twitter、 Forest Cover等 | 滤掉了大部分的异常值,运行时间短 | 类在以前未使用的特征空间中被发现时才会将其检测为新类 | |
ESCR | 半监督 J-S散度 | HyperPlane、 Forest Cover、 Wave等 | 提出了动态规划、递归函数等构建策略,有选择地执行变化检测模块,提高了算法的效率 | 在时间效率上有待优化 | |
EMC | 在线微簇 | KddCup、 Forest Cover等 | 允许从噪声实例中区分概念漂移和概念演化 | 需要大量的微蔟才能更有效捕捉漂移,从而增加了时空复杂度 | |
DAE | 无监督 多维变化点检测 | Packets、 Forest Cover等 | 增加噪声量,DAE的性能会提高, 新的类检测速度快 | 在算法中假设金额标签都是周期性的 | |
SAND | 半监督 置信度分数 | Forest Cover、 Pamap等 | 概念漂移和概念演化的寻址高效 | 检测器假设每次只出现一个新类, 时间开销大 | |
ECHO | 不确定性采样 半监督 | Forest Cover、 HyperPlane、 Pamap | 通过检测分类器置信估计的变化, 促进概念漂移和概念演化的寻址 | 检测器假设每次只出现一个新类 | |
C&NCBM | 马氏距离 基于块 | KddCup、 ArtificialCDS | 对概念漂移数据流中出现的新类 具有更强的分类鲁棒性。 | 由于受添加马氏距离的影响,具有 较长的运行时间 | |
AnyNovel | 主动学习 基于类 | Wisdm、 Opportunity | 能够有效识别小规模的类, 很好地区分概念漂移和新概念 | 为每个数据集设置的参数需要手动调整 | |
ECSMiner | 延迟数据标记 分类决策 | KddCup、 Forest Cover等 | 正确区分了概念漂移和概念演化, 避免了在概念漂移的情况下 对新类的错误检测 | 空间开销大 | |
SCANR | 辅助集合 | SynC10、 KddCup | 降低了错误率和误报率,能够检测出重复出现的新类 | 辅助集成有待优化,额外运行时间长 | |
SENForest | 随机森林 | KddCup、 MNIST等 | 模型能够正确识别足够多的 新类样本 | 对于应用在大规模级别的数据挖掘 问题有一定的局限性 | |
AhtNODE | Hoeffding树 滑动窗口 | Hyperplane、 KddCup等 | 其分类性能优于集成分类器, 可以直接应用于流数据 | 不适合处理混合属性的新类检测情况 | |
SACCOS | 基于相互图模型 半监督 | KddCup、 Pamap等 | 克服了少数数据实例具有较大 特征值的影响,新颖类的实例标签 在检测后就可以使用 | 对噪声敏感,未解决新颖类和现有类可能存在重叠的情况 | |
多标签 概念 漂移 数据流 | DCEBR | 加权投票 二元相关 | Syn、 RCV1 | 对概念漂移具有更好的跟踪效果 | 每一个标签建立一个二值分类器, 会占用大量的内存空间 |
EALF | 主动学习 最大后验加权 | RCV1-V2、 Imdb等 | 避免了过拟合问题,降低了标签成本 | 独立地更新每个类的集合, 导致时间开销较大 | |
MW | 批量增量阈值 多窗口 | Tmc2007、 Imdb等 | 解决了类不平衡和多重概念漂移 | 受到阈值限制的影响,需要采取合适的阈值策略 | |
MLAW | J-S散度 周期性加权 | Imdb、 Tmc2007等 | 能处理不同类型的概念漂移 | 时空消耗有待优化 | |
MINAS-BR | 二元关联 无监督 | MOA-3C-5C-2D等 | 能同时处理多标签数据流中的 概念漂移和概念演化问题 | 未应用在真实多标签数据集上 | |
MINAS-PS | 无监督 PS | MOA-3C-2D、 MOA-5C-2D | 能适应不同类型的概念漂移 | 与当前主流算法的对比实验少 | |
BBML | Hoeffding不等式 | 20NG、 Slashdot等 | 可以确定预测标签数量,能有效处理数据流中的缺失值和概念漂移 | 时间复杂度高 | |
MLSAMkNN | KNN | 20NG、 Flags等 | 适用于处理经历各种和混合概念漂移的多标签数据流 | 性能以运行时间为代价 | |
MLSAMPkNN | 惩罚机制 自适应窗口 | Imdb、 Scene等 | 不需要繁琐模型选择和参数调优 | 在稀疏的标签流中学习性能较差 | |
AESAKNNS | KNN 自适应 | Birds、 Virus等 | 解决了其他各种多标签数据问题 | 没有与其他算法进行时空效率的对比实验 |
算法 | 年份 | 方法 | 数据集 | 对比算法 | 优缺点 |
---|---|---|---|---|---|
ECANCD | 2018 | 噪声过滤机制 假设检验方法 | HyperPlane、 KddCup等 | OzaBag、 Ozaboost等 | 能检测概念漂移和过滤噪声,拥有较高分类精度; 在不完全标记的数据流环境中实现漂移检测,分类有局限性 |
A-AUE2 | 2021 | BSS 自适应窗口 | Sea、 HyperPlane等 | AUE2、 ADWIN等 | 对块大小的依赖性较小;在时空性能上有所不足 |
GBDT | 2021 | 在线框架 损失函数 | Sea、 Weather等 | OABM、 EACD等 | 能在有噪声的数据流中准确地识别出真实模式; 实例数少时分类精度不高 |
SPL | 2020 | 基于实例 动态选择实例 | Spam、 Sensor等 | AUE2、 OzaBag等 | 具有较低空间复杂度,能有效区分噪声、离群值和漂移实例; 使用自适应窗口关注最近的数据,比传统的单模型算法慢 |
Tab. 5 Classification methods for data streams with noisy concept drift
算法 | 年份 | 方法 | 数据集 | 对比算法 | 优缺点 |
---|---|---|---|---|---|
ECANCD | 2018 | 噪声过滤机制 假设检验方法 | HyperPlane、 KddCup等 | OzaBag、 Ozaboost等 | 能检测概念漂移和过滤噪声,拥有较高分类精度; 在不完全标记的数据流环境中实现漂移检测,分类有局限性 |
A-AUE2 | 2021 | BSS 自适应窗口 | Sea、 HyperPlane等 | AUE2、 ADWIN等 | 对块大小的依赖性较小;在时空性能上有所不足 |
GBDT | 2021 | 在线框架 损失函数 | Sea、 Weather等 | OABM、 EACD等 | 能在有噪声的数据流中准确地识别出真实模式; 实例数少时分类精度不高 |
SPL | 2020 | 基于实例 动态选择实例 | Spam、 Sensor等 | AUE2、 OzaBag等 | 具有较低空间复杂度,能有效区分噪声、离群值和漂移实例; 使用自适应窗口关注最近的数据,比传统的单模型算法慢 |
1 | 丁剑,韩萌,李娟. 概念漂移数据流挖掘算法综述[J]. 计算机科学, 2016, 43(12): 24-29, 62. 10.11896/j.issn.1002-137X.2016.12.004 |
DING J, HAN M, LI J. Review of concept drift data streams mining techniques[J]. Computer Science, 2016, 43(12): 24-29, 62. 10.11896/j.issn.1002-137X.2016.12.004 | |
2 | WU X, LIU H. Application of big data unbalanced classification algorithm in credit risk analysis of insurance companies[J]. Journal of Mathematics, 2022, 2022: No.3899801. 10.1155/2022/3899801 |
3 | TAO X M, LI Q, GUO W J, et al. Self-adaptive cost weights-based support vector machine cost-sensitive ensemble for imbalanced data classification[J]. Information Sciences, 2019, 487: 31-56. 10.1016/j.ins.2019.02.062 |
4 | NGUYEN T T T, NGUYEN T T, LIEW A W C, et al. An online variational inference and ensemble based multi-label classifier for data streams[C]// Proceedings of the 11th International Conference on Advanced Computational Intelligence. Piscataway: IEEE, 2019: 302-307. 10.1109/icaci.2019.8778594 |
5 | XIA Y L, CHEN K, YANG Y. Multi-label classification with weighted classifier selection and stacked ensemble [J]. Information Sciences, 2021, 557: 421-442. 10.1016/j.ins.2020.06.017 |
6 | 杜诗语,韩萌,申明尧,等. 概念漂移数据流集成分类算法综述[J]. 计算机工程, 2020, 46(1): 15-24, 30. 10.19678/j.issn.1000-3428.0055747 |
DU S Y, HAN M, SHEN M Y, et al. Survey of ensemble classification algorithms for data streams with concept drift[J]. Computer Engineering, 2020, 46(1): 15-24, 30. 10.19678/j.issn.1000-3428.0055747 | |
7 | HU H Q, KANTARDZIC M, SETHI T S. No free lunch theorem for concept drift detection in streaming data classification: a review[J]. WIREs: Data Mining and Knowledge Discovery, 2020, 10(2): No.e1327. 10.1002/widm.1327 |
8 | ZHANG X L, HAN M, WU H X, et al. An overview of complex data stream ensemble classification[J]. Journal of Intelligent and Fuzzy Systems, 2021, 41(2): 3667-3695. 10.3233/jifs-211100 |
9 | GAO J, FAN W, HAN J W, et al. A general framework for mining concept-drifting data streams with skewed distributions[C]// Proceedings of the 2007 SIAM International Conference on Data Mining. Philadelphia, PA: SIAM, 2007: 3-14. 10.1137/1.9781611972771.1 |
10 | CHEN S, HE H B. SERA: selectively recursive approach towards nonstationary imbalanced stream data mining[C]// Proceedings of the 2009 International Joint Conference on Neural Networks. Piscataway: IEEE, 2009: 522-529. 10.1109/ijcnn.2009.5178874 |
11 | CHEN S, HE H B. Towards incremental learning of nonstationary imbalanced data stream: a multiple selectively recursive approach[J]. Evolving Systems, 2011, 2(1): 35-50. 10.1007/s12530-010-9021-y |
12 | HOENS T R, CHAWLA N V. Learning in nonstationary environments with class imbalance[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2012: 168-176. 10.1145/2339530.2339558 |
13 | DITZLER G, POLIKAR R. Incremental learning of concept drift from streaming imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(10): 2283-2301. 10.1109/tkde.2012.136 |
14 | DITZLER G, POLIKAR R. An ensemble based incremental learning framework for concept drift and class imbalance[C]// Proceedings of the 2010 International Joint Conference on Neural Networks. Piscataway: IEEE, 2010: 1-8. 10.1109/ijcnn.2010.5596764 |
15 | ZHANG Y, DU H L, KE G, et al. Dynamic weighted selective ensemble learning algorithm for imbalanced data streams[J]. The Journal of Supercomputing, 2022, 78(4): 5394-5419. 10.1007/s11227-021-04084-w |
16 | MIRZA B, LIN Z P. Meta-cognitive online sequential extreme learning machine for imbalanced and concept-drifting data classification[J]. Neural Networks, 2016, 80: 79-94. 10.1016/j.neunet.2016.04.008 |
17 | MIRZA B, LIN Z P, LIU N. Ensemble of subset online sequential extreme learning machine for class imbalance and concept drift[J]. Neurocomputing, 2015, 149(Pt A): 316-329. 10.1016/j.neucom.2014.03.075 |
18 | LI Z, HUANG W C, XIONG Y, et al. Incremental learning imbalanced data streams with concept drift: the dynamic updated ensemble algorithm[J]. Knowledge-Based Systems, 2020, 195: No.105694. 10.1016/j.knosys.2020.105694 |
19 | 孙艳歌,王志海,白洋. 一种面向不平衡数据流的集成分类算法[J]. 小型微型计算机系统, 2018, 39(6): 1178-1183. 10.3969/j.issn.1000-1220.2018.06.011 |
SUN Y G, WANG Z H, BAI Y. Ensemble classifier for mining imbalanced data streams[J]. Journal of Chinese Computer Systems, 2018, 39(6): 1178-1183. 10.3969/j.issn.1000-1220.2018.06.011 | |
20 | PRIYA S, UTHRA R A. Deep learning framework for handling concept drift and class imbalanced complex decision-making on streaming data [J/OL]. Complex and Intelligent Systems (2021-07-10) [2022-05-23].. 10.1007/s40747-021-00456-0 |
21 | WANG S, MINKU L L, YAO X. Resampling-based ensemble methods for online class imbalance learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(5): 1356-1368. 10.1109/tkde.2014.2345380 |
22 | SOMASUNDARAM A, REDDY S. Parallel and incremental credit card fraud detection model to handle concept drift and data imbalance[J]. Neural Computing and Applications, 2019, 31(S1): 3-14. 10.1007/s00521-018-3633-8 |
23 | ANCY S, PAULRAJ D. Handling imbalanced data with concept drift by applying dynamic sampling and ensemble classification model[J]. Computer Communications, 2020, 153: 553-560. 10.1016/j.comcom.2020.01.061 |
24 | 梁斌,李光辉,代成龙. 面向概念漂移且不平衡数据流的G-mean加权分类方法[J]. 计算机研究与发展, 2022, 59(12): 2844-2857. 10.7544/issn1000-1239.20210471 |
LIANG B, LI G H, DAI C L. G-mean weighted classification method for imbalanced data stream with concept drift[J]. Journal of Computer Research and Development, 2022, 59(12): 2844-2857. 10.7544/issn1000-1239.20210471 | |
25 | SUN Y G, SUN Y, DAI H H. Two-stage cost-sensitive learning for data streams with concept drift and class imbalance[J]. IEEE Access, 2020, 8: 191942-191955. 10.1109/access.2020.3031603 |
26 | SUN Y G, LI M, LI L, et al. Cost-sensitive classification for evolving data streams with concept drift and class imbalance [J]. Computational Intelligence and Neuroscience, 2021, 2021: No.8813806. 10.1155/2021/8813806 |
27 | SPINOSA E J, DE CARVALHO A C P L F, GAMA J. OLINDDA: a cluster-based approach for detecting novelty and concept drift in data streams[C]// Proceedings of the 2007 ACM Symposium on Applied Computing. New York: ACM, 2007: 448-452. 10.1145/1244002.1244107 |
28 | DE FARIA E R, DE CARVALHO A C P L F, CARLOS A, et al. MINAS: multiclass learning algorithm for novelty detection in data streams[J]. Data Mining and Knowledge Discovery, 2016, 30(3): 640-680. 10.1007/s10618-015-0433-y |
29 | MASUD M M, GAO J, KHAN L, et al. Integrating novel class detection with classification for concept-drifting data streams[C]// Proceedings of the 2009 Joint European Conference on Machine Learning and Knowledge Discovery in Databases, LNCS 5782. Berlin: Springer, 2009: 79-94. |
30 | MASUD M M, CHEN Q, KHAN L, et al. Classification and adaptive novel class detection of feature-evolving data streams [J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(7): 1484-1497. 10.1109/tkde.2012.109 |
31 | ZHENG X L, LI P P, HU X G, et al. Semi-supervised classification on data streams with recurring concept drift and concept evolution[J]. Knowledge-Based Systems, 2021, 215: No.106749. 10.1016/j.knosys.2021.106749 |
32 | DIN S U, SHAO J M. Exploiting evolving micro-clusters for data stream classification with emerging class detection[J]. Information Sciences, 2020, 507: 404-420. 10.1016/j.ins.2019.08.050 |
33 | MUSTAFA A M, AYOADE G, AL-NAAMI K, et al. Unsupervised deep embedding for novel class detection over data stream[C]// Proceedings of the 2017 IEEE International Conference on Big Data. Piscataway: IEEE, 2017: 1830-1839. 10.1109/bigdata.2017.8258127 |
34 | HAQUE A, KHAN L, BARON M. SAND: semi-supervised adaptive novel class detection and classification over data stream[C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 1652-1658. 10.1609/aaai.v30i1.10283 |
35 | HAQUE A, KHAN L, BARON M, et al. Efficient handling of concept drift and concept evolution over stream data[C]// Proceedings of the IEEE 32nd International Conference on Data Engineering. Piscataway: IEEE, 2016: 481-492. 10.1109/icde.2016.7498264 |
36 | LI X J, ZHOU Y, JIN Z Y, et al. A classification and novel class detection algorithm for concept drift data stream based on the cohesiveness and separation index of Mahalanobis distance[J]. Journal of Electrical and Computer Engineering, 2020, 2020: No.4027423. 10.1155/2020/4027423 |
37 | ABDALLAH Z S, GABER M M, SRINIVASAN B, et al. AnyNovel: detection of novel concepts in evolving data streams: an application for activity recognition[J]. Evolving Systems, 2016, 7(2): 73-93. 10.1007/s12530-016-9147-7 |
38 | MASUD M M, GAO J, KHAN L, et al. Classification and novel class detection in concept-drifting data streams under time constraints[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(6): 859-874. 10.1109/tkde.2010.61 |
39 | MASUD M M, AL-KHATEEB T M, KHAN L, et al. Detecting recurring and novel classes in concept-drifting data streams [C]// Proceedings of the IEEE 11th International Conference on Data Mining. Piscataway: IEEE, 2011: 1176-1181. 10.1109/icdm.2011.49 |
40 | FARID D M, RAHMAN C M. Novel class detection in concept-drifting data stream mining employing decision tree[C]// Proceedings of the 7th International Conference on Electrical and Computer Engineering. Piscataway: IEEE, 2012: 630-633. 10.1109/icece.2012.6471629 |
41 | MU X, TING K M, ZHOU Z H. Classification under streaming emerging new classes: a solution using completely-random trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(8): 1605-1618. 10.1109/tkde.2017.2691702 |
42 | GANDHI J, GANDHI V. Novel class detection with concept drift in data stream — AhtNODE[J]. International Journal of Distributed Systems and Technologies, 2020, 11(1): 15-26. 10.4018/ijdst.2020010102 |
43 | GAO Y, CHANDRA S, LI Y F, et al. SACCOS: a semi-supervised framework for emerging class detection and concept drift adaption over data streams[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(3): 1416-1426. 10.1109/tkde.2020.2993193 |
44 | BOUGUELIA M R, NOWACZYK S, PAYBERAH A H. An adaptive algorithm for anomaly and novelty detection in evolving data streams[J]. Data Mining and Knowledge Discovery, 2018, 32(6): 1597-1633. 10.1007/s10618-018-0571-0 |
45 | QU W, ZHANG Y, ZHU J P, et al. Mining multi-label concept-drifting data streams using dynamic classifier ensemble[C]// Proceedings of the 2009 Asian Conference on Machine Learning, LNCS 5828. Berlin: Springer, 2009: 308-321. |
46 | JÚNIOR J D C, FARIA E R, SILVA J A, et al. Novelty detection for multi-label stream classification[C]// Proceedings of the 8th Brazilian Conference on Intelligent Systems. Piscataway: IEEE, 2019: 144-149. 10.1109/bracis.2019.00034 |
47 | JÚNIOR J D C, FARIA E R, SILVA J A, et al. Pruned sets for multi-label stream classification without true labels[C]// Proceedings of the 2019 International Joint Conference on Neural Networks. Piscataway: IEEE, 2019: 1-8. 10.1109/ijcnn.2019.8851788 |
48 | SPYROMITROS-XIOUFIS E, SPILIOPOULOU M, TSOUMAKAS G, et al. Dealing with concept drift and class imbalance in multi-label stream classification[C]// Proceedings of the 22nd International Joint Conference on Artificial Intelligence. California: ijcai.org, 2011: 1583-1588. |
49 | WANG P, ZHANG P, GUO L. Mining multi-label data streams using ensemble-based active learning[C]// Proceedings of the 2012 SIAM International Conference on Data Mining. Philadelphia, PA: SIAM, 2012: 1131-1140. 10.1137/1.9781611972825.97 |
50 | NGUYEN T T, NGUYEN T T T, LUONG A V, et al. Multi-label classification via label correlation and first order feature dependance in a data stream[J]. Pattern Recognition, 2019, 90: 35-51. 10.1016/j.patcog.2019.01.007 |
51 | SUN Y G, SHAO H, WANG S S. Efficient ensemble classification for multi-label data streams with concept drift[J]. Information, 2019, 10(5): No.158. 10.3390/info10050158 |
52 | ZHANG M L, ZHOU Z H. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048. 10.1016/j.patcog.2006.12.019 |
53 | READ J, BIFET A, HOLMES G, et al. Scalable and efficient multi-label classification for evolving data streams[J]. Machine Learning, 2012, 88(1/2): 243-272. 10.1007/s10994-012-5279-6 |
54 | ROSEBERRY M, CANO A. Multi-label kNN classifier with self adjusting memory for drifting data streams [C]// Proceedings of the 2nd International Workshop on Learning with Imbalanced Domains: Theory and Applications. New York: JMLR.org, 2018: 23-37. 10.1145/3363573 |
55 | ROSEBERRY M, KRAWCZYK B, CANO A. Multi-label punitive knn with self-adjusting memory for drifting data streams[J]. ACM Transactions on Knowledge Discovery from Data, 2019, 13(6): No.60. 10.1145/3363573 |
56 | ALBERGHINI G, BARBON JUNIOR S, CANO A. Adaptive ensemble of self-adjusting nearest neighbor subspaces for multi-label drifting data streams[J]. Neurocomputing, 2022, 481: 228-248. 10.1016/j.neucom.2022.01.075 |
57 | 袁泉,郭江帆. 新型含噪数据流集成分类的算法[J]. 计算机应用, 2018, 38(6): 1591-1595. 10.11772/j.issn.1001-9081.2017122900 |
YUAN Q, GUO J F. New ensemble classification algorithm for data stream with noise[J]. Journal of Computer Applications, 2018, 38(6): 1591-1595. 10.11772/j.issn.1001-9081.2017122900 | |
58 | MYINT T M, LYNN K T. Handling the concept drifts based on ensemble learning with adaptive windows[J]. IAENG International Journal of Computer Science, 2021, 48(3): No.3. |
59 | LUO S L, ZHAO W X, PAN L M. Online GBDT with chunk dynamic weighted majority learners for noisy and drifting data streams [J]. Neural Processing Letters, 2021, 53(5): 3783-3799. 10.1007/s11063-021-10565-z |
60 | CHEN D Z, YANG Q L, LIU J M, et al. Selective prototype-based learning on concept-drifting data streams[J]. Information Sciences, 2020, 516: 20-32. 10.1016/j.ins.2019.12.046 |
61 | LI P P, WU X D, HU X G, et al. Learning concept-drifting data streams with random ensemble decision trees[J]. Neurocomputing, 2015, 166: 68-83. 10.1016/j.neucom.2015.04.024 |
62 | KRAWCZYK B, CANO A. Online ensemble learning with abstaining classifiers for drifting and noisy data streams[J]. Applied Soft Computing, 2018, 68: 677-692. 10.1016/j.asoc.2017.12.008 |
[1] | Hua HUANG, Ziyi YANG, Xiaolong LI, Chuang LI. Predictive business process monitoring method based on concept drift [J]. Journal of Computer Applications, 2024, 44(10): 3167-3176. |
[2] | Zhiqiang CHEN, Meng HAN, Hongxin WU, Muhang LI, Xilong ZHANG. Multi-stage weighted concept drift detection method [J]. Journal of Computer Applications, 2023, 43(3): 776-784. |
[3] | YIN Chunyong, ZHANG Guojie. Ensemble classification model for distributed drifted data streams [J]. Journal of Computer Applications, 2021, 41(7): 1947-1955. |
[4] | BAI Dongying, YI Yaxing, WANG Qingchao, YU Zhiyong. Gradual multi-kernel learning method for concept drift [J]. Journal of Computer Applications, 2019, 39(9): 2494-2498. |
[5] | ZHANG Yitian, YU Jiong, LU Liang, LI Ziyang. Task scheduling strategy based on data stream classification in Heron [J]. Journal of Computer Applications, 2019, 39(4): 1106-1116. |
[6] | YUAN Quan, GUO Jiangfan. New ensemble classification algorithm for data stream with noise [J]. Journal of Computer Applications, 2018, 38(6): 1591-1595. |
[7] | LIU Mao ZHANG Dongbo ZHAO Yuanyuan. Concept drift detection based on distance measurement of overlapped data windows [J]. Journal of Computer Applications, 2014, 34(2): 542-545. |
[8] | LI Nan GUO Gong-de CHEN Li-fei. Concept drift detection method with limited amount of labeled data [J]. Journal of Computer Applications, 2012, 32(08): 2176-2185. |
[9] | LI Nan GUO Gong-de. Ensemble classification algorithm for high speed data stream [J]. Journal of Computer Applications, 2012, 32(03): 629-633. |
[10] | . Incremental feature selection algorithm for data stream classification [J]. Journal of Computer Applications, 2010, 30(9): 2321-2323. |
Viewed | ||||||
Full text |
|
|||||
Abstract |
|
|||||