利用并行GPU对分层分布式狄利克雷分布算法加速

计算机应用 ›› 2013, Vol. 33 ›› Issue (12): 3313-3316.

• 2013年全国开放式分布与并行计算学术年会（DPCS2013）论文 • 下一篇

利用并行GPU对分层分布式狄利克雷分布算法加速

温腊¹,²,芮建武²,何婷婷¹,²,郭亮²

1. 中国科学院大学，北京 100190
2. 中国科学院软件研究所基础软件国家工程研究中心，北京 100190；

收稿日期:2013-07-16 发布日期:2013-12-31 出版日期:2013-12-01
通讯作者: 温腊
作者简介:温腊(1986-),女,河北保定人,硕士研究生,主要研究方向:分布式并行计算;
芮建武(1972-),男,云南祥云人,高级工程师,博士,CCF会员,主要研究方向:操作系统、分布式并行计算、中文信息处理;
何婷婷(1989-),女,四川攀枝花人,硕士研究生,主要研究方向:分布式并行计算;
郭亮(1976-),男,江西吉安人,高级工程师,博士,主要研究方向:嵌入式软件、编译技术。
基金资助:
国家科技支撑计划项目;国家科技支撑计划项目;中国科学院知识创新工程重要方向项目;新闻出版重大科技工程项目

Accelerating hierarchical distributed latent Dirichlet allocation algorithm by parallel GPU

WEN La¹,²,RUI Jianwu¹,HE Tingting¹,²,GUO Liang¹

1. National Engineering Research Center of Fundamental Software, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China
2. University of Chinese Academy of Sciences, Beijing 100190, China

Received:2013-07-16 Online:2013-12-31 Published:2013-12-01
Contact: WEN La

摘要/Abstract

摘要： 分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法，与只能在单机上运行的LDA算法相比，可以运行在分布式框架下，进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法，但是因为单节点算法的计算量大，仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导，单个节点上文档集合的推导仍是顺序进行的，所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此，提出将Hadoop与图形处理器(GPU)相结合，将单节点文本集合的推导过程转移到GPU上运行，实现单节点多个文档并行推导，利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明，使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。

关键词: 分层分布式狄利克雷分布, 潜在狄利克雷分布, 文本分类, 分布式框架, 并行图形处理器

Abstract: Hierarchical Distributed Latent Dirichlet Allocation (HD-LDA), a popular topic modeling technique for exploring collections, is an improved Latent Dirichlet Allocation (LDA) algorithm running in distributed environment. Mahout has realized HD-LDA algorithm in the framework of Hadoop. However the algorithm processed the whole documents of a single node in sequence, and the execution time of the HD-LDA program was very long when processing a large amount of documents. A new method was proposed to combine Hadoop with Graphic Processing Unit (GPU) to solve the above problem when transferring the computation from CPU to GPU. The application results show that combining the Hadoop with GPU which processes many documents in parallel can decrease the execution time of HD-LDA program greatly and achieve seven times speedup.

Key words: Hierarchical Distributed Latent Dirichlet Allocation (HD-LDA), Latent Dirichlet Allocation (LDA), text classification, distributed environment, parallel Graphic Processing Unit (GPU)

中图分类号:

TP311

温腊芮建武何婷婷郭亮. 利用并行GPU对分层分布式狄利克雷分布算法加速[J]. 计算机应用, 2013, 33(12): 3313-3316.

WEN La RUI Jianwu HE Tingting GUO Liang. Accelerating hierarchical distributed latent Dirichlet allocation algorithm by parallel GPU[J]. Journal of Computer Applications, 2013, 33(12): 3313-3316.

[1]	姚迅, 秦忠正, 杨捷. 生成式标签对抗的文本分类模型[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1781-1785.
[2]	余新言, 曾诚, 王乾, 何鹏, 丁晓玉. 基于知识增强和提示学习的小样本新闻主题分类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1767-1774.
[3]	余杭, 周艳玲, 翟梦鑫, 刘涵. 基于预训练模型与标签融合的文本分类[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 709-714.
[4]	张家伟, 高冠东, 肖珂, 宋胜尊. 基于改进分层注意网络和TextCNN联合建模的暴力犯罪分级算法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 403-410.
[5]	王楷天, 叶青, 程春雷. 基于异构图表示的中医电子病历分类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 411-417.
[6]	于碧辉, 蔡兴业, 魏靖烜. 基于提示学习的小样本文本分类方法[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2735-2740.
[7]	崔雨萌, 王靖亚, 刘晓文, 闫尚义, 陶知众. 融合注意力和裁剪机制的通用文本分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2396-2405.
[8]	杨森淇, 段旭良, 肖展, 郎松松, 李志勇. 基于ERNIE+DPCNN+BiGRU的农业新闻文本分类[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1461-1466.
[9]	张旭, 生龙, 张海芳, 田丰, 王巍. 基于标签混淆的院前急救文本分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(4): 1050-1055.
[10]	林呈宇, 王雷, 薛聪. 标签语义增强的弱监督文本分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 335-342.
[11]	江静, 陈渝, 孙界平, 琚生根. 融合后验概率校准训练的文本分类算法[J]. 《计算机应用》唯一官方网站, 2022, 42(6): 1789-1795.
[12]	杨先凤, 赵家和, 李自强. 融合字注释的文本分类模型[J]. 《计算机应用》唯一官方网站, 2022, 42(5): 1317-1323.
[13]	杨世刚, 刘勇国. 融合语料库特征与图注意力网络的短文本分类方法[J]. 《计算机应用》唯一官方网站, 2022, 42(5): 1324-1329.
[14]	唐望径, 许斌, 仝美涵, 韩美奂, 王黎明, 钟琦. 知识图谱增强的科普文本分类模型[J]. 《计算机应用》唯一官方网站, 2022, 42(4): 1072-1078.
[15]	张海丰, 曾诚, 潘列, 郝儒松, 温超东, 何鹏. 结合BERT和特征投影网络的新闻主题文本分类方法[J]. 《计算机应用》唯一官方网站, 2022, 42(4): 1116-1124.

利用并行GPU对分层分布式狄利克雷分布算法加速

Accelerating hierarchical distributed latent Dirichlet allocation algorithm by parallel GPU

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics