期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于哈希学习的投票样例选择算法
黄雅婕, 翟俊海, 周翔, 李艳
《计算机应用》唯一官方网站    2022, 42 (2): 389-394.   DOI: 10.11772/j.issn.1001-9081.2021071188
摘要384)   HTML22)    PDF (574KB)(120)    收藏

随着数据的海量型增长,如何存储并利用数据成为目前学术研究和工业应用等方面的热门问题。样例选择是解决此类问题的方法之一,它在原始数据中依据既定规则选出代表性的样例,从而有效地降低后续工作的难度。基于此,提出一种基于哈希学习的投票样例选择算法。首先通过主成分分析(PCA)方法将高维数据映射到低维空间;然后利用k-means算法结合矢量量化方法进行迭代运算,并将数据用聚类中心的哈希码表示;接着将分类后的数据按比例进行随机选择,在多次独立运行算法后投票选择出最终的样例。与压缩近邻(CNN)算法和大数据线性复杂度样例选择算法LSH-IS-F相比,所提算法在压缩比方面平均提升了19%。所提算法思想简单容易实现,能够通过调节参数自主控制压缩比。在7个数据集上的实验结果显示所提算法在测试精度相似的情况下在压缩比和运行时间方面较随机哈希有较大优势。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 基于随机森林和投票机制的大数据样例选择算法
周翔, 翟俊海, 黄雅婕, 申瑞彩, 侯璎真
计算机应用    2021, 41 (1): 74-80.   DOI: 10.11772/j.issn.1001-9081.2020060982
摘要588)      PDF (906KB)(608)    收藏
针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成 q个规模较小的子集,并将这些子集部署到 q个云计算节点,并将第二个中小型子集广播到 q个云计算节点。接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集。重复上述过程 p次,得到 p个样例子集。最后,用这 p个子集进行投票,得到最终选择的样例子集。在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制。此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短。证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题。
参考文献 | 相关文章 | 多维度评价