期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 大数据流式计算框架Heron环境下的流分类任务调度策略
张译天, 于炯, 鲁亮, 李梓杨
计算机应用    2019, 39 (4): 1106-1116.   DOI: 10.11772/j.issn.1001-9081.2018081848
摘要545)      PDF (1855KB)(408)    收藏
新型大数据流式计算框架Apache Heron默认使用轮询调度算法进行任务调度,忽略了拓扑运行时状态以及任务实例间不同通信方式对系统性能的影响。针对这个问题,提出Heron环境下流分类任务调度策略(DSC-Heron),包括流分类算法、流簇分配算法和流分类调度算法。首先通过建立Heron作业模型明确任务实例间不同通信方式的通信开销差异;其次基于流分类模型,根据任务实例间实时数据流大小对数据流进行分类;最后将相互关联的高频数据流整体作为基本调度单元构建任务分配计划,在满足资源约束条件的同时尽可能多地将节点间通信转化为节点内通信以最小化系统通信开销。在包含9个节点的Heron集群环境下分别运行SentenceWordCount、WordCount和FileWordCount拓扑,结果表明DSC-Heron相对于Heron默认调度策略,在系统完成时延、节点间通信开销和系统吞吐量上分别平均优化了8.35%、7.07%和6.83%;在负载均衡性方面,工作节点的CPU占用率和内存占用率标准差分别平均下降了41.44%和41.23%。实验结果表明,DSC-Heron对测试拓扑的运行性能有一定的优化作用,其中对接近真实应用场景的FileWordCount拓扑优化效果最为显著。
参考文献 | 相关文章 | 多维度评价
2. 基于流网络的流式计算动态任务调度策略
李梓杨, 于炯, 卞琛, 鲁亮, 蒲勇霖
计算机应用    2018, 38 (9): 2560-2567.   DOI: 10.11772/j.issn.1001-9081.2017122910
摘要1268)      PDF (1352KB)(521)    收藏
针对大数据流式计算平台中输入数据流速急剧上升所导致的计算延迟升高问题,提出了基于流网络模型的动态调度策略,并将其应用于Flink数据流计算平台。首先,通过定义有向无环图(DAG)中每条边的容量和流量将其转化为流网络模型,并通过容量检测算法确定每条边的容量值;然后,通过最大流算法计算对应的增进网络和优化路径,从而在输入速率上升阶段提升集群的吞吐量,并通过评估时空代价论证了算法的可行性;最后,讨论了重要参数对算法执行效果的影响,并通过实验得出了在不同类型的作业中推荐的参数取值。经实验验证得出:所提算法与Flink平台现有的任务调度策略相比,在输入速率上升阶段对不同作业类型中集群吞吐量的优化比均高于16.12%。实验结果表明动态调度策略在满足任务延迟约束的前提下有效提高了集群的吞吐量。
参考文献 | 相关文章 | 多维度评价
3. Storm环境下基于拓扑结构的任务调度策略
刘粟, 于炯, 鲁亮, 李梓杨
计算机应用    2018, 38 (12): 3481-3489.   DOI: 10.11772/j.issn.1001-9081.2018040741
摘要994)      PDF (1471KB)(467)    收藏
针对Storm流式计算平台中默认轮询调度策略存在通信开销大、负载不均衡的问题,提出基于拓扑结构的任务调度策略(TS 2)。首先,选取CPU资源充足且可用的工作节点并各分配一个进程,消除节点内进程间通信开销,优化进程部署;然后,分析拓扑结构,找出拓扑中度最大的组件,优先分配该组件的线程;最后,在满足节点可承载最大线程数的条件下,尽可能将关联任务部署到同一个节点来减少节点间通信开销,改善集群负载均衡,优化线程部署。实验结果表明:在系统延迟方面,与Storm默认调度策略和离线调度策略相比,TS 2的平均优化率分别为16.91%和5.69%,有效提高了系统的实时性;在节点间通信开销方面,TS 2相比于Storm默认调度策略平均降低了15.75%;在平均吞吐量方面,TS 2相比于Storm默认调度策略平均提升了14.21%。
参考文献 | 相关文章 | 多维度评价
4. 基于负载感知的数据流动态负载均衡策略
李梓杨, 于炯, 卞琛, 王跃飞, 鲁亮
计算机应用    2017, 37 (10): 2760-2766.   DOI: 10.11772/j.issn.1001-9081.2017.10.2760
摘要840)      PDF (1299KB)(943)    收藏
针对大数据流式计算平台中存在节点间负载不均衡、节点性能评估不全面的问题,提出基于负载感知算法的动态负载均衡策略,并将算法应用于Flink数据流计算平台中。首先通过有向无环图的深度优先搜索算法获取节点的计算延迟时间作为评估节点性能的依据,并制定负载均衡策略;然后基于数据分块管理策略实现流式数据的节点间负载迁移技术,通过反馈实现全局和局部的负载调优;最后通过实验评估时空代价论证算法的可行性,并讨论重要参数对算法执行效果的影响。经实验验证算法通过优化流式计算任务的负载分配提高了任务的执行效率,与采用Flink平台现有的负载均衡策略相比,任务执行时间平均缩短6.51%。
参考文献 | 相关文章 | 多维度评价