%0 Journal Article %A 崔晨 %A 韩凤萍 %A 何牧君 %A 郑林江 %T 基于内存的HBase二级索引设计 %D 2018 %R 10.11772/j.issn.1001-9081.2017112777 %J 计算机应用 %P 1584-1590 %V 38 %N 6 %X 在大数据时代,具有海量数据存储能力的HBase已被广泛应用。HBase只对行键进行了索引优化,对非行键的列未建立索引,这严重影响了复杂条件查询的效率。针对此问题,提出了基于内存的HBase二级索引方案。该方案对需要查询的列建立了映射到行键的索引,并将索引存储在Spark搭建的内存环境中,在查询时先通过索引获取行键,然后利用行键在HBase中快速查找对应的记录。由于列的基数大小和是否涉及范围查询决定了建立索引的类型,故针对三种不同情况构建了不同类型的索引,并利用Spark内存计算、并行化的特点来提高索引的查询效率。实验结果表明,该二级索引具有较好的查询性能,查询时间小于基于Solr的二级索引,可以解决HBase中因非行键的列缺乏索引导致查询效率较低的问题,提高基于HBase存储的大数据分析的查询效率。 %U http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2017112777