摘要: 摘 要: 在大数据与云计算时代,时态大数据的查询分析面临许多重要挑战。针对其中时态聚合范围查询的查询性能不佳和不能有效利用索引等问题,提出一种用于时态聚合范围查询的分布式时态索引。首先,采用随机或轮询策略对时态数据分区;其次,采用基于时间位数组前缀的分区内索引构造算法建立索引,同时记录包括时间跨度在内的分区统计信息;再次,利用谓词下推筛选出时间跨度与查询时间区间重叠的数据分区,扫描时间线进行预聚合;最后,将各分区得到的聚合值按时间归并并聚合。实验结果表明,索引的分区内构造算法处理时间密度2400条每单位时间和0.001条每单位时间的数据的执行时间相近。索引的聚合查询算法相比于ParTime算法,在查询时间线前75%的数据时,每一步用时都至少减少22%,执行选择型聚合函数,每一步用时都至少减少11%。因此,索引在多数时态聚合范围查询任务中具有更快的速度,其分区内构造算法能解决数据稀疏且执行效率高。
中图分类号: