计算机应用 ›› 2015, Vol. 35 ›› Issue (4): 1137-1142.DOI: 10.11772/j.issn.1001-9081.2015.04.1137

• 数据技术 • 上一篇    下一篇

大数据评测基准的研发现状与趋势

周晓云1, 覃雄派2, 王秋月2   

  1. 1. 江苏师范大学 计算机科学与技术学院, 江苏 徐州 221116;
    2. 中国人民大学 信息学院, 北京 100872
  • 收稿日期:2014-10-28 修回日期:2014-12-21 出版日期:2015-04-10 发布日期:2015-04-08
  • 通讯作者: 王秋月
  • 作者简介:周晓云(1971-),女,辽宁岫岩人, 副教授,博士,主要研究方向:高性能数据库、大数据分析; 覃雄派(1971-),男,广西百色人,讲师,博士,CCF会员,主要研究方向:高性能数据库、大数据分析、信息检索; 王秋月(1974-),女,山西定襄人,讲师,博士,CCF会员,主要研究方向:数据库、信息系统、信息检索、知识库、自然语言问答。
  • 基金资助:

    国家自然科学基金资助项目(61170013, 61202331);江苏省自然科学基金资助项目(BK2012578)。

Big data benchmarks: state-of-art and trends

ZHOU Xiaoyun1, QIN Xiongpai2, WANG Qiuyue2   

  1. 1. School of Computer Science and Technology, Jiangsu Normal University, Xuzhou Jiangsu 221116, China;
    2. School of Information, Renmin University of China, Beijing 100872, China
  • Received:2014-10-28 Revised:2014-12-21 Online:2015-04-10 Published:2015-04-08

摘要:

工业界、学术界,以及最终用户都急切需要一个大数据的评测基准, 用以评估现有的大数据系统,改进现有技术以及开发新的技术。回顾了近几年来大数据评测基准研发方面的主要工作。 对它们的特点和缺点进行了比较分析。在此基础上, 对研发新的大数据评测基准提出了一系列考虑因素:1)为了对整个大数据平台的不同子工具进行评测, 以及把大数据平台作为一个整体进行评测, 需要研发面向组件的评测基准和面向大数据平台整体的评测基准, 后者是前者的有机组合;2)工作负载除了SQL查询之外, 必须包含大数据分析任务所需要的各种复杂分析功能, 涵盖各类应用需求;3)在评测指标方面,除了性能指标(响应时间和吞吐量)之外, 还需要考虑其他指标的评测, 包括系统的可扩展性、容错性、节能性和安全性等。

关键词: 大数据, 评测基准, 性能, 可扩展性, 容错性, 节能性, 安全性

Abstract:

A big data benchmark is needed eagerly by customers, industry and academia, to evaluate big data systems, improve current techniques and develop new techniques. A number of prominent works in last several years were reviewed. Their characteristics were introduced and the shortcomings were analyzed. Based on that, some suggestions on building a new big data benchmark are provided, including: 1) component based benchmarks as well as end-to-end benchmarks should be used in combination to test different tools inside the system and test the system as a whole, while component benchmarks are ingredients of the whole big data benchmark suite; 2) workloads should be enriched with complex analytics to encompass different application requirements, besides SQL queries; 3) other than performance metrics (response time and throughput), some other metrics should also be considered, including scalability, fault tolerance, energy saving and security.

Key words: big data, benchmark, performance, scalability, fault tolerance, energy saving, security

中图分类号: