期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于图形重写和融合探索的张量虚拟机算符融合优化
王娜, 蒋林, 李远成, 朱筠
《计算机应用》唯一官方网站    2024, 44 (9): 2802-2809.   DOI: 10.11772/j.issn.1001-9081.2023091252
摘要154)   HTML2)    PDF (2329KB)(55)    收藏

针对计算密集型神经网络在使用张量虚拟机(TVM)算符融合过程中对计算图进行逐层查找导致访问次数过多、内存资源利用率低等问题,提出一种基于图形重写和融合探索的TVM算符融合优化方法。首先,对运算符的映射类型进行分析;其次,基于运算定律对计算图进行重写,简化计算图结构以减少中间结果生成,降低内存资源消耗并提升融合效率;再次,采用融合探索算法寻找融合代价较小的算符优先进行融合,避免数据冗余和寄存器溢出;最后,在CPU上实现神经网络算符融合,并测试融合加速性能。实验结果表明,所提方法可有效减少计算图层数和算符个数,降低访存频率和数据传输量。与TVM算符融合方法相比,所提方法在融合过程中的计算图层数平均减少18%,推理速度平均提升23%,验证了该方法在优化计算图融合过程中的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 异构平台下卷积神经网络推理模型自适应划分和调度方法
尚绍法, 蒋林, 李远成, 朱筠
《计算机应用》唯一官方网站    2023, 43 (9): 2828-2835.   DOI: 10.11772/j.issn.1001-9081.2022081177
摘要408)   HTML15)    PDF (3025KB)(150)    收藏

针对卷积神经网络(CNN)在异构平台执行推理时存在硬件资源利用率低、延迟高等问题,提出一种CNN推理模型自适应划分和调度方法。首先,通过遍历计算图提取CNN的关键算子完成模型的自适应划分,增强调度策略灵活性;然后,基于性能实测与关键路径-贪婪搜索算法,在CPU-GPU异构平台上根据子模型运行特征选取最优运行负载,提高子模型推理速度;最后利用张量虚拟机(TVM)中跨设备调度机制,配置子模型的依赖关系与运行负载,实现模型推理的自适应调度,降低设备间通信延迟。实验结果表明,与TVM算子优化方法在GPU和CPU上的推理速度相比,所提方法在模型推理准确度无损前提下,推理速度提升了5.88%~19.05%和45.45%~311.46%。

图表 | 参考文献 | 相关文章 | 多维度评价
3. 基于阵列处理器的最小均方误差检测算法并行设计与实现
刘帅, 蒋林, 李远成, 山蕊, 朱育琳, 王欣
《计算机应用》唯一官方网站    2022, 42 (5): 1524-1530.   DOI: 10.11772/j.issn.1001-9081.2021030460
摘要256)   HTML5)    PDF (1972KB)(81)    收藏

针对大规模多输入多输出(MIMO)系统中,最小均方误差(MMSE)检测算法在可重构阵列结构上适应性差、计算复杂度高和运算效率低的问题,基于项目组开发的可重构阵列处理器,提出了一种基于MMSE算法的并行映射方法。首先,利用Gram矩阵计算时较为简单的数据依赖关系,设计时间上和空间上可以高度并行的流水线加速方案;其次,根据MMSE算法中Gram矩阵计算和匹配滤波计算模块相对独立的特点,设计模块化并行映射方案;最后,基于Xilinx Virtex-6开发板对映射方案进行实现并统计其性能。实验结果表明,该方法在MIMO规模为 128 × 4 128 × 8 128 × 16 的正交相移键控(QPSK)上行链路中,加速比分别2.80、4.04和5.57;在 128 × 16 的大规模MIMO系统中,可重构阵列处理器比专用硬件减少了42.6%的资源消耗。

图表 | 参考文献 | 相关文章 | 多维度评价
4. 可重构结构下合成视点失真变化算法并行设计与实现
蒋林, 施佳琪, 李远成
计算机应用    2021, 41 (6): 1734-1740.   DOI: 10.11772/j.issn.1001-9081.2020091462
摘要362)      PDF (1262KB)(364)    收藏
针对三维高效视频编码(3D-HEVC)中,基于深度图的合成视点失真变化(SVDC)算法存在计算时间复杂度较高的问题,提出了一种在可重构阵列结构下基于混合粒度的SVDC算法并行化方法。首先,将SVDC算法分为虚拟视点合成(VVS)和失真值计算两个部分。其次,VVS部分采用流水线作业方式加速,而失真值计算部分采用两级划分加速:任务级——将合成后的图像按照像素点进行划分,指令级——将像素点内部的失真值按照计算过程进行划分。最后,采用可重构机制将VVS部分和失真值计算部分进行并行化处理。理论分析和硬件仿真结果表明,在执行时间上,采用4个处理单元(PE)的该方法具有2.11的加速比性能,与基于底层虚拟机(LLVM)和共享存储并行编程(OpenMP)的SVDC算法相比,计算时间分别缩短了18.56%和21.93%。可见所提方法能挖掘SVDC算法的并行性,并结合可重构阵列结构特点有效缩短了SVDC算法的执行时间。
参考文献 | 相关文章 | 多维度评价
5. 感应电机全阶观测器低速稳定运行的仿真
李洪波 蒋林 王海唐
计算机应用    2014, 34 (4): 1213-1216.   DOI: 10.11772/j.issn.1001-9081.2014.04.1213
摘要693)      PDF (638KB)(440)    收藏

针对基于全阶磁链观测器的感应电机无速度传感器矢量控制系统低速不稳定问题,采用波波夫(Popov)超稳定性理论分析了观测器在低速发电区域不稳定原因,提出了一种保证观测器低速稳定运行的反馈增益设计准则。为了简化该系统稳定性分析过程,基于转子磁通定向,利用劳斯赫尔维茨(Routh-Hurwitz)判据将一个关于系统极点稳定的多维问题转化为系统零点稳定的一维问题进行处理,推导了转速估算系统稳定性条件,并给出了反馈增益设计方法。仿真结果表明,该系统在低速50r/min和极低速10r/min时均能稳定运行,相对于传统的基于极点配置方法,在低速发电区域的收敛性和稳定性更优,改善了无速度传感器矢量控制系统低速区域的动、静态性能。

参考文献 | 相关文章 | 多维度评价