检索结果

Select

1. 大数据流式计算框架Heron环境下的流分类任务调度策略

张译天, 于炯, 鲁亮, 李梓杨

计算机应用 2019, 39 (4): 1106-1116. DOI: 10.11772/j.issn.1001-9081.2018081848

摘要（545）

PDF （1855KB）（408）

新型大数据流式计算框架Apache Heron默认使用轮询调度算法进行任务调度，忽略了拓扑运行时状态以及任务实例间不同通信方式对系统性能的影响。针对这个问题，提出Heron环境下流分类任务调度策略（DSC-Heron），包括流分类算法、流簇分配算法和流分类调度算法。首先通过建立Heron作业模型明确任务实例间不同通信方式的通信开销差异；其次基于流分类模型，根据任务实例间实时数据流大小对数据流进行分类；最后将相互关联的高频数据流整体作为基本调度单元构建任务分配计划，在满足资源约束条件的同时尽可能多地将节点间通信转化为节点内通信以最小化系统通信开销。在包含9个节点的Heron集群环境下分别运行SentenceWordCount、WordCount和FileWordCount拓扑，结果表明DSC-Heron相对于Heron默认调度策略，在系统完成时延、节点间通信开销和系统吞吐量上分别平均优化了8.35%、7.07%和6.83%；在负载均衡性方面，工作节点的CPU占用率和内存占用率标准差分别平均下降了41.44%和41.23%。实验结果表明，DSC-Heron对测试拓扑的运行性能有一定的优化作用，其中对接近真实应用场景的FileWordCount拓扑优化效果最为显著。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于流网络的流式计算动态任务调度策略

李梓杨, 于炯, 卞琛, 鲁亮, 蒲勇霖

计算机应用 2018, 38 (9): 2560-2567. DOI: 10.11772/j.issn.1001-9081.2017122910

摘要（1268）

PDF （1352KB）（521）

针对大数据流式计算平台中输入数据流速急剧上升所导致的计算延迟升高问题，提出了基于流网络模型的动态调度策略，并将其应用于Flink数据流计算平台。首先，通过定义有向无环图（DAG）中每条边的容量和流量将其转化为流网络模型，并通过容量检测算法确定每条边的容量值；然后，通过最大流算法计算对应的增进网络和优化路径，从而在输入速率上升阶段提升集群的吞吐量，并通过评估时空代价论证了算法的可行性；最后，讨论了重要参数对算法执行效果的影响，并通过实验得出了在不同类型的作业中推荐的参数取值。经实验验证得出：所提算法与Flink平台现有的任务调度策略相比，在输入速率上升阶段对不同作业类型中集群吞吐量的优化比均高于16.12%。实验结果表明动态调度策略在满足任务延迟约束的前提下有效提高了集群的吞吐量。

参考文献 | 相关文章 | 多维度评价

Select

3. Storm环境下基于权重的任务调度算法

鲁亮, 于炯, 卞琛, 英昌甜, 师康利, 蒲勇霖

计算机应用 2018, 38 (3): 699-706. DOI: 10.11772/j.issn.1001-9081.2017082125

摘要（623）

PDF （1385KB）（660）

大数据流式计算平台Apache Storm默认采用轮询的方式进行任务调度，未考虑到拓扑中各任务计算开销的差异以及任务之间不同类型的通信模式，在负载均衡和通信开销方面存在较大的优化空间。针对这一问题，提出一种Storm环境下基于权重的任务调度算法（TSAW-Storm）。该算法首先根据各任务的CPU资源占用情况以及任务间的数据流大小，分别确定拓扑的点权和边权；并利用最大化边权增益的思想，逐步构建起各工作节点中承载的任务集合，在保证集群负载均衡的同时，尽可能将边权较大的节点间数据流转化为节点内数据流，从而降低网络传输开销。实验结果表明，在包含有8个工作节点的WordCount基准测试中，TSAW-Storm的系统延迟和节点间数据流大小相比Storm默认调度算法分别降低了30.0%和32.9%，且各工作节点的CPU负载标准差仅为Storm默认调度算法的25.8%；此外，在与在线调度算法的对比实验中，TSAW-Storm在系统延迟、节点间数据流大小和CPU负载标准差方面分别降低了7.76%、11.8%和5.93%，且算法的执行开销明显降低，有效提高了Storm系统的运行效率。

参考文献 | 相关文章 | 多维度评价

Select

4. Storm环境下基于拓扑结构的任务调度策略

刘粟, 于炯, 鲁亮, 李梓杨

计算机应用 2018, 38 (12): 3481-3489. DOI: 10.11772/j.issn.1001-9081.2018040741

摘要（994）

PDF （1471KB）（467）

针对Storm流式计算平台中默认轮询调度策略存在通信开销大、负载不均衡的问题，提出基于拓扑结构的任务调度策略（TS ²）。首先，选取CPU资源充足且可用的工作节点并各分配一个进程，消除节点内进程间通信开销，优化进程部署；然后，分析拓扑结构，找出拓扑中度最大的组件，优先分配该组件的线程；最后，在满足节点可承载最大线程数的条件下，尽可能将关联任务部署到同一个节点来减少节点间通信开销，改善集群负载均衡，优化线程部署。实验结果表明：在系统延迟方面，与Storm默认调度策略和离线调度策略相比，TS ²的平均优化率分别为16.91%和5.69%，有效提高了系统的实时性；在节点间通信开销方面，TS ²相比于Storm默认调度策略平均降低了15.75%；在平均吞吐量方面，TS ²相比于Storm默认调度策略平均提升了14.21%。

参考文献 | 相关文章 | 多维度评价

Select

5. 大数据流式计算环境下的阈值调控节能策略

蒲勇霖, 于炯, 王跃飞, 鲁亮, 廖彬, 侯冬雪

计算机应用 2017, 37 (6): 1580-1586. DOI: 10.11772/j.issn.1001-9081.2017.06.1580

摘要（618）

PDF （1225KB）（574）

在大数据实时分析计算领域，流式计算的重要性不断提高，但是流式计算平台处理数据的能耗不断上升。针对这一问题，改变流式计算中节点对数据的处理方式，提出了一种阈值调控节能策略（ESTC）。首先，根据系统负载差异确定工作节点的阈值情况；其次，通过工作节点的阈值对系统数据流进行随机选择，确定不同数据处理情况调节系统的物理电压；最后，根据不同的物理电压确定系统功率。实验结果和理论分析表明，在20台普通PC机构成的流式计算集群中，实施ESTC的系统比原系统有效节能约35.2%；此外，ESTC下的性能与能耗的比值为0.0803 tuple/（s·J），而原系统性能与能耗的比值为0.0698 tuple/（s·J）。ESTC能够在不影响系统性能的前提下，有效降低了能耗。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于聚类层次模型的视频推荐算法

金亮, 于炯, 杨兴耀, 鲁亮, 王跃飞, 国冰磊, 廖彬

计算机应用 2017, 37 (10): 2828-2833. DOI: 10.11772/j.issn.1001-9081.2017.10.2828

摘要（661）

PDF （1025KB）（762）

目前推荐系统存在评论数据稀疏、冷启动和用户体验度低等问题，为了提高推荐系统的性能和进一步改善用户体验，提出基于聚类层次模型的视频推荐算法。首先，从相关用户方面着手，通过近邻传播（AP）聚类分析得到相似用户，从而收集相似用户中的历史网络视频数据，进而形成视频推荐集合；其次，利用用户行为的历史数据计算出用户对视频的喜好值，再把视频的喜好值转换成视频的标签权重；最后，通过层次分析模型算出视频推荐集合中用户喜好视频的排序，产生推荐列表。基于MovieLens Latest Dataset和YouTube视频评论文本数据集，实验结果表明所提算法在均方根误差和决策精度方面均表现出良好的性能。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于负载感知的数据流动态负载均衡策略

李梓杨, 于炯, 卞琛, 王跃飞, 鲁亮

计算机应用 2017, 37 (10): 2760-2766. DOI: 10.11772/j.issn.1001-9081.2017.10.2760

摘要（840）

PDF （1299KB）（943）

针对大数据流式计算平台中存在节点间负载不均衡、节点性能评估不全面的问题，提出基于负载感知算法的动态负载均衡策略，并将算法应用于Flink数据流计算平台中。首先通过有向无环图的深度优先搜索算法获取节点的计算延迟时间作为评估节点性能的依据，并制定负载均衡策略；然后基于数据分块管理策略实现流式数据的节点间负载迁移技术，通过反馈实现全局和局部的负载调优；最后通过实验评估时空代价论证算法的可行性，并讨论重要参数对算法执行效果的影响。经实验验证算法通过优化流式计算任务的负载分配提高了任务的执行效率，与采用Flink平台现有的负载均衡策略相比，任务执行时间平均缩短6.51%。

参考文献 | 相关文章 | 多维度评价

Select

8. 面向内存云的协调器选举策略

王跃飞, 于炯, 鲁亮

计算机应用 2016, 36 (9): 2402-2408. DOI: 10.11772/j.issn.1001-9081.2016.09.2402

摘要（376）

PDF （1102KB）（289）

针对ZooKeeper机制难以满足内存云（RAMCloud）低延迟、快恢复的问题，提出了一种面向内存云的协调器选举策略（CES）。首先根据内存云网络环境与协调器自身因素将协调器性能指标分为个体指标与协调器间指标两类并分别建立模型；然后将内存云的运行分为正常运行期与数据恢复期两阶段并分别建立适应度函数，再按时间比合并为总适应度函数；最后在备选协调器（RBC）的适应度值的基础上提出一个具备稳定择优性与随机性的新算子，CES首先通过筛选来排除性能较差的个体，缩小选择范围后再在理想协调器的集合中采用轮盘赌方法选择最终的个体。实验结果表明，在NS2仿真环境下CES选择的个体相比其他备选协调器数据处理延迟降低了19.35%；在搭建的内存云环境中，与ZooKeeper机制相比，CES的选择结果在快速恢复中时间减少了10.02%。在内存云的实际应用中，CES在处理单点失效问题上能有效选择性能更优的协调器，确保了低延迟、快恢复的要求。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于内存云的大块数据对象并行存取策略

褚征, 于炯, 鲁亮, 英昌甜, 卞琛, 王跃飞

计算机应用 2016, 36 (6): 1526-1532. DOI: 10.11772/j.issn.1001-9081.2016.06.1526

摘要（629）

PDF （1195KB）（407）

由于内存云(RAMCloud)只支持最大1 MB的小块数据对象存储,因此当大于1 MB的对象需要存储在内存云集群中就会受到对象大小的限制,无法在集群中进行存储。为了解决内存云存储限制的问题,提出了基于内存云的大块数据对象并行存取策略。该存储策略首先将大块数据对象分割成若干个1 MB的小块数据对象,然后在客户端生成数据摘要,最后使用并行存储算法将客户端分割成的小块数据对象存储在内存云集群中。读取时首先读取数据摘要,然后根据数据摘要从内存云集群中并行读取小块数据对象,并将小块数据对象合并生成大块数据对象。实验结果表明:大块数据对象的并行存取策略在不破坏内存云集群体系结构的前提下存储时间为16~18 μs,读取时间为6~7 μs。在InfiniBand网络架构下,所提并行算法的加速比呈现类似线性的增长,它使大块数据对象也能够像小块数据对象一样在微秒级别下快速、高效地进行存取。

参考文献 | 相关文章 | 多维度评价

Select

10. 面向内存云的数据块索引方法

王跃飞, 于炯, 鲁亮

计算机应用 2016, 36 (5): 1222-1227. DOI: 10.11772/j.issn.1001-9081.2016.05.1222

摘要（418）

PDF （876KB）（482）

内存云(RAMCloud)通常通过移动数据的位置来解决内存利用率低的问题,致使Hash表数据定位失效,查询数据效率低下;另一方面,在数据恢复过程中由于不能快速定位到需要的数据,每台备份服务器返回的数据段不能更好地组织起来。针对以上问题,提出内存云全局键(RGK)及二叉树索引。RGK分为三部分:定位到主服务器、定位到段以及定位到数据块。前两部分构成协调器索引键(CIK),在恢复中借助构造的协调器索引树(CIT)能够定位到段所在的主服务器;后两部分构成主服务器索引键(MIK),数据在内存中位移后也能通过主服务器索引树(MIT)快速获取到数据。与传统内存云集群相比,主服务器获取数据块的时间随数据吞吐量的增大而明显减少;协调器在闲散时间、重组日志时间等方面均有下降。实验结果表明,全局键在构造的二叉索引树的支持下能有效缩短获取数据及快速恢复的时间。

参考文献 | 相关文章 | 多维度评价

Select

11. 分布式文件系统数据块聚类存储节能策略

王政英, 于炯, 英昌甜, 鲁亮

计算机应用 2015, 35 (2): 378-382. DOI: 10.11772/j.issn.1001-9081.2015.02.0378

摘要（540）

PDF （766KB）（450）

针对分布式文件系统中由于数据块随机放置而导致的服务器利用率低、能耗管理复杂的问题,建立了数据块访问特征向量模型描述用户对数据块的随机访问,运用K-means算法对数据块进行聚类计算,根据计算结果将数据节点划分为多个区域以存储不同聚类簇的数据块,在系统负载较低时进行数据块动态重配置,关闭不必要节点达到节能的目的。为使得策略适用于对能耗和资源利用率有不同要求的场景,算法中聚类簇间隔参数可灵活设置。实验通过和冷热区划分算法进行比较表明:按照聚类结果进行数据块重配置后,能耗节省效率优于冷热区划分算法,节省能耗35%~38%。

参考文献 | 相关文章 | 多维度评价

Select

12. 内存云分级存储架构下的数据迁移模型

郭刚, 于炯, 鲁亮, 英昌甜, 尹路通

计算机应用 2015, 35 (12): 3392-3397. DOI: 10.11772/j.issn.1001-9081.2015.12.3392

摘要（541）

PDF （878KB）（370）

为了实现在线海量数据的高效存储与访问,在内存云分级存储架构下,提出一种基于数据重要性的迁移模型(MMDS)。首先,通过数据本身的大小、时间重要性、用户访问总量等因素对数据本身的重要性进行计算;其次,采用推荐系统中相似用户和PageRank算法中的重要性排名思想对数据的潜在价值进行评估,数据重要性和潜在价值共同决定了数据的重要程度;然后基于数据的重要性,设计了数据迁移机制。实验结果表明:该模型能够识别出数据的重要程度并分级放置数据,相比最近最少使用(LRU)、最近最不常用(LFU)、基于价值评估的数据迁移(MSDV)等算法,提高了存储系统的数据访问命中率。该模型能够缓解部分存储压力,数据访问性能也有了一定的提高。

参考文献 | 相关文章 | 多维度评价

Select

13. 融合评论分析和隐语义模型的视频推荐算法

尹路通, 于炯, 鲁亮, 英昌甜, 郭刚

计算机应用 2015, 35 (11): 3247-3251. DOI: 10.11772/j.issn.1001-9081.2015.11.3247

摘要（512）

PDF （790KB）（663）

针对网络视频元数据信息缺失严重和多媒体数据本身特征难以提取等问题,提出了融合评论分析和隐语义模型的网络视频推荐算法.从视频评论入手,通过分析用户对不同视频的评论内容以判断其情感倾向并加以量化,继而构建用户对项目的虚拟评分矩阵,弥补了显式评分数据稀疏性问题.考虑到网络视频的多元性和高维度特性,为了深度挖掘用户对网络视频的潜在兴趣,针对虚拟评分矩阵采用隐语义模型(LFM)对网络视频分类,在传统的用户—项目二元推荐系统基础之上添加虚拟类目信息以进一步发掘用户—类目—项目关联关系.实验在多重标准下进行,对YouTube评论集的实验表明,所提推荐方法获得了较高的推荐精度.

参考文献 | 相关文章 | 多维度评价

Select

14. 内存云架构的磁盘节能策略

鲁亮于炯英昌甜王政英刘建矿

计算机应用 2014, 34 (9): 2518-2522. DOI: 10.11772/j.issn.1001-9081.2014.09.2518

摘要（197）

PDF （777KB）（412）

内存云(RAMCloud)的出现改善了在线数据密集型(OLDI)应用的用户体验，但其能耗高于传统的云数据中心。针对该问题，提出一种适用于该架构的磁盘节能策略。首先，引入遗传算法中适应度函数和轮盘赌法，尽量选择更为节能的磁盘进行数据持久化备份；其次，设定合理的服务器内存缓冲区来延长磁盘的平均连续空闲时间，使得部分服务器磁盘在空闲时进入待机状态。仿真实验结果表明，在50台服务器的内存云系统中，该策略能有效节能约12.69%；而缓冲区大小的设定对于节能效果和数据可用性具有双重影响，需权衡考虑。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于用户访问特征的云存储副本动态管理节能策略

王政英于炯英昌甜鲁亮班爱琴

计算机应用 2014, 34 (8): 2256-2259. DOI: 10.11772/j.issn.1001-9081.2014.08.2256

摘要（344）

PDF （793KB）（568）

针对云计算环境下服务器利用率低、能耗浪费严重的问题，提出一种基于用户访问特征的云存储副本动态管理节能策略。通过把用户访问特征的研究转化为计算Block的访问热度，根据节点的整体访问热度，DataNode主动申请休眠从而达到节能的目的。给出了详细的休眠申请、休眠判断算法，以及在DataNode休眠期间出现对已休眠Block进行访问的情况时如何处理的解决方案。实验结果表明，采用该策略后可休眠29%~42%的DataNode，减少能耗31%，且服务器的用户响应时间不受影响。经过性能分析，得出该策略在保证数据可用性的同时可有效地降低能耗。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于小文件的内存云存储优化策略

英昌甜于炯鲁亮刘建矿

计算机应用 2014, 34 (11): 3104-3108. DOI: 10.11772/j.issn.1001-9081.2014.11.3104

摘要（318）

PDF （782KB）（672）

由于内存云RAMCloud采用日志段的方式存储数据,因此当大量小文件存储于RAMCloud集群时,每个小文件独占整个段,会产生较多的段内碎片,从而导致内存的有效利用率较低以及大量的内存空间浪费。为了解决这个问题,提出基于文件分类的RAMCloud小文件存储优化策略。该策略首先根据文件的相关特性将小文件分为结构相关文件、逻辑相关文件以及相互独立文件三类;然后在存储时对结构相关的文件使用文件合并算法,逻辑相关和相互独立的小文件则使用分组算法。实验结果表明:同未进行优化的RAMCloud存储策略相比,该策略能有效提高集群内存利用率。

参考文献 | 相关文章 | 多维度评价