LU分解和Laplace算法在GPU上的实现

doi:10.3724/SP.J.1087.2011.00851

计算机应用 ›› 2011, Vol. 31 ›› Issue (03): 851-855.DOI: 10.3724/SP.J.1087.2011.00851

LU分解和Laplace算法在GPU上的实现

陈颖¹,林锦贤²,吕暾³

1. 福州大学数学与计算机科学学院，福州350108
2. 福州大学数学与计算机科学学院，福州350108; 福州大学福建省超级计算中心，福州350108
3. 福州大学福建省超级计算中心，福州350108；福州大学生物科学与工程学院，福州350108

收稿日期:2010-09-06 修回日期:2010-10-27 发布日期:2011-03-03 出版日期:2011-03-01
通讯作者: 陈颖
作者简介:陈颖(1983-)，男，福建宁德人，硕士研究生，主要研究方向：分子动力学并行算法；林锦贤(1957-)，男，福建福州人，副教授，主要研究方向：高性能计算；吕暾(1973-)，男，福建厦门人，研究员，主要研究方向：计算生物学。
基金资助:
福建省高校科研专项重点项目(JK2009002);福建省科技厅青年人才基金资助项目（2008F306010107）

Implementation of LU decomposition and Laplace algorithms on GPU

CHEN Ying¹,LIN Jin-xian²,LV Tun³

1. College of Mathematics and Computer Science, Fuzhou University, Fuzhou Fujian 350108, China
2. College of Mathematics and Computer Science, Fuzhou University, Fuzhou Fujian 350108, China; Fujian Supercomputing Center, Fuzhou University, Fuzhou Fujian 350108, China
3. Fujian Supercomputing Center, Fuzhou University, Fuzhou Fujian 350108, China; College of Biological Science and Technology, Fuzhou University, Fuzhou Fujian 350108, China

Received:2010-09-06 Revised:2010-10-27 Online:2011-03-03 Published:2011-03-01
Contact: CHEN Ying

摘要/Abstract

摘要： 随着图形处理器（GPU）性能的大幅度提升以及可编程性的发展，已经有许多算法成功地移植到GPU上。LU分解和Laplace算法是科学计算的核心，但计算量往往很大，由此提出了一种在GPU上加速计算的方法。使用Nvidia公司的统一计算设备架构（CUDA）编程模型实现这两个算法，通过对CPU与GPU进行任务划分，同时利用GPU上的共享存储器提高数据访问速度，对GPU程序进行分支消除，并且对矩阵分段计算以达到加速计算的目的。实验结果表明，随着矩阵规模的增大，基于GPU的算法相对于基于CPU的算法具有良好的加速效果。

关键词: 图形处理器, LU分解, Laplace算法, CUDA, 统一计算设备架构, 共享存储器

Abstract: With the advancement of Graphics Processing Unit (GPU) and the creation of its new feature of programmability, many algorithms have been successfully transferred to GPU. LU decomposition and Laplace algorithms are the core in scientific computation, but computation is usually too large; therefore, a speedup method was proposed. The implementation was based on Nvidia's GPU which supported Compute Unified Device Architecture (CUDA). Dividing tasks on CPU and GPU, using shared memory on GPU to increase the speed of data access, eliminating the branch in GPU program and stripping the matrix were used to speed up the algorithms. The experimental results show that with the size of matrix increasing, the algorithm based on GPU has a good speedup compared with the algorithm based on CPU.

Key words: Graphics Processing Unit (GPU), LU decomposition, Laplace algorithm, CUDA, Compute Unified Device Architecture (CUDA), shared memory

中图分类号:

TP312

陈颖林锦贤吕暾. LU分解和Laplace算法在GPU上的实现[J]. 计算机应用, 2011, 31(03): 851-855.

CHEN Ying LIN Jin-xian LV Tun. Implementation of LU decomposition and Laplace algorithms on GPU[J]. Journal of Computer Applications, 2011, 31(03): 851-855.

[1]	涂进兴, 李志雄, 黄建强. 基于GPU对角稀疏矩阵向量乘法的动态划分算法[J]. 《计算机应用》唯一官方网站, 2024, 44(11): 3521-3529.
[2]	蔡婧雯, 韦永壮, 刘争红. 基于GPU的密码S盒代数性质评估方法[J]. 《计算机应用》唯一官方网站, 2022, 42(9): 2750-2756.
[3]	徐启迪, 刘争红, 郑霖. 基于GPU的低密度奇偶校验码译码加速技术[J]. 《计算机应用》唯一官方网站, 2022, 42(12): 3841-3846.
[4]	解文博, 韦永壮, 刘争红. 基于CUDA的SKINNY加密算法并行实现与分析[J]. 计算机应用, 2021, 41(4): 1136-1141.
[5]	杨先凤, 贵红军, 傅春常. 统一计算设备架构下的F-X域预测滤波并行算法[J]. 计算机应用, 2021, 41(2): 486-491.
[6]	平凡, 汤小春, 潘彦宇, 李战怀. 不规则任务在图形处理器集群上的调度策略[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3295-3301.
[7]	何希, 吴炎桃, 邸臻炜, 陈佳. 基于图形处理器的形态学重建系统[J]. 计算机应用, 2019, 39(7): 2008-2013.
[8]	武旭晨, 朴春慧, 蒋学红. 基于GPU并行计算的电动出租车新建充电站选址模型[J]. 计算机应用, 2019, 39(10): 3071-3078.
[9]	姬丽娜, 陈庆奎, 陈圆金, 赵德玉, 方玉玲, 赵永涛. 基于GPU的视频流人群实时计数[J]. 计算机应用, 2017, 37(1): 145-152.
[10]	官亚勤, 赵学胜, 王鹏飞, 李大朋. 基于切片原理的海量点云并行简化算法[J]. 计算机应用, 2016, 36(7): 1793-1796.
[11]	蔡勇, 李胜. Matlab的图形处理器并行计算及其在拓扑优化中的应用[J]. 计算机应用, 2016, 36(3): 628-632.
[12]	龙超, 韩波, 张宇. 基于Kinect和视觉词典的三维SLAM[J]. 计算机应用, 2016, 36(3): 774-778.
[13]	张硕, 何发智, 周毅, 鄢小虎. 基于自适应线程束的GPU并行粒子群优化算法[J]. 计算机应用, 2016, 36(12): 3274-3279.
[14]	查珊珊, 王远军, 聂生东. 基于图形处理器加速的医学图像配准技术进展[J]. 计算机应用, 2015, 35(9): 2486-2491.
[15]	王磊, 王鹏飞, 赵学胜, 卢立托. 基于图形处理器的球面Voronoi图生成算法优化[J]. 计算机应用, 2015, 35(6): 1564-1566.

LU分解和Laplace算法在GPU上的实现

Implementation of LU decomposition and Laplace algorithms on GPU

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics