栏目文章信息

    第37届CCF中国数据库学术会议(NDBC 2020) 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 面向多核CPU和GPU平台的数据库星形连接优化
    刘专, 韩瑞琛, 张延松, 陈跃国, 张宇
    计算机应用    2021, 41 (3): 611-617.   DOI: 10.11772/j.issn.1001-9081.2020091430
    摘要596)      PDF (1026KB)(833)    收藏
    针对联机分析处理(OLAP)中事实表与多个维表之间的星形连接执行代价较高的问题,提出了一种在先进的多核中央处理器(CPU)和图形处理器(GPU)上的星形连接优化方法。首先,对于多核CPU和GPU平台的星形连接中的物化代价问题,提出了基于向量索引的CPU和GPU平台上的向量化星形连接算法;然后,通过面向CPU cache和GPU shared memory大小的向量划分来提出基于向量粒度的星形连接操作,从而优化星形连接中向量索引的物化代价;最后,提出了基于压缩向量的星形连接算法,将定长向量索引压缩为变长的二元向量索引,从而在低选择率时提高cache内向量索引的存储访问效率。实验结果表明,在CPU平台上向量化星形连接算法相对于常规的行式或列式连接性能提升了40%以上,在GPU平台上向量化星形连接算法相对于常规星形连接算法性能提升超过了15%;与当前主流的内存数据库和GPU数据库相比,优化的星形连接算法性能相对于最优内存数据库Hyper性能提升了130%,相对于最优的GPU数据库OmniSci性能提升了80%。可见基于向量索引的向量化星形连接优化技术有效地提高了多表连接性能,与传统优化技术相比,基于向量索引的向量化处理提高了较小cache上的数据存储访问效率,压缩向量进一步提升了向量索引在cache内的访问效率。
    参考文献 | 相关文章 | 多维度评价
    2. 面向时序数据的两阶段日志结构合并树文件合并框架
    张凌哲, 黄向东, 乔嘉林, 勾王敏浩, 王建民
    计算机应用    2021, 41 (3): 618-622.   DOI: 10.11772/j.issn.1001-9081.2020122053
    摘要491)      PDF (793KB)(900)    收藏
    时序数据库中日志结构合并树(LSM-tree)在高写入负载或资源受限情况下的不及时的文件合并会导致LSM的 C 0层数据大量堆积,从而造成近期写入数据的即席查询延迟增加。针对上述问题,提出了一种在保持面向大块数据的高效查询的基础上实现对最新写入的时序数据的低延迟查询的两阶段LSM合并框架。首先将文件的合并过程分为少量乱序文件快速合并与大量小文件合并这两个阶段,然后在每个阶段内提供多种文件合并策略,最后根据系统的查询负载进行两阶段合并的资源分配。通过在时序数据库Apache IoTDB上分别实现传统的LSM合并策略以及两阶段LSM合并框架和测试,结果表明与传统的LSM相比,两阶段的文件合并模块在提升策略灵活性的情况下使即席查询读盘次数大大降低,并且使历史数据分析查询性能提升了约20%。实验结果表明,两阶段的LSM合并框架能够提高近期写入数据的即席查询效率,提高历史数据分析查询性能,而且提升合并策略的灵活性。
    参考文献 | 相关文章 | 多维度评价
    3. 非易失性内存友好的线性哈希索引——NVM-LH
    汤晨, 黄国锐, 金培权
    计算机应用    2021, 41 (3): 623-629.   DOI: 10.11772/j.issn.1001-9081.2020091451
    摘要391)      PDF (1035KB)(615)    收藏
    非易失性内存(NVM)因其大容量、持久化、按位存取和读延迟低等特性而受到人们的关注,但它同时也具有写次数有限、读写速度不均衡等缺点。针对传统线性哈希索引直接在NVM上实现时会导致大量的随机写操作这一问题,提出了一种新的NVM友好的线性哈希索引NVM-LH。NVM-LH通过存储数据时的缓存行对齐实现了缓存友好性,同时提出了无日志的数据一致性保证策略。此外,NVM-LH还通过优化分裂和删除操作来减少NVM写操作。实验结果表明,NVM-LH在空间利用率上比CCEH高30%,在NVM写次数上比CCEH减少了15%左右,表现了更好的NVM友好性。
    参考文献 | 相关文章 | 多维度评价
    4. 基于日志结构合并树的轻量级分布式索引实现方法
    崔双双, 王宏志
    计算机应用    2021, 41 (3): 630-635.   DOI: 10.11772/j.issn.1001-9081.2020091543
    摘要459)      PDF (896KB)(697)    收藏
    针对现有基于日志结构合并树(LSM-Tree)实现的分布式数据库仅支持高效的主键查询,无法让用户快速地应用在自己的集群中的问题,提出了基于LSM-Tree的轻量级分布式索引实现方法SIBL。首先,通过对主键属性列建立索引来提高非主键属性的查询效率;然后,提出了分布式索引构建算法以及基于等距取样的索引区间划分算法,从而保证了索引在系统中的均匀分布,并且优化了传统索引的查询算法,将索引文件看作特殊的数据文件分布式地存储在系统中,从而保证了系统的负载均衡和可扩展性;最后,将该方法与华为二级索引方案HIndex在HBase数据库上进行实验来比较二者的索引构建的时间和空间开销、索引的查询性能和系统的负载均衡等性能,验证得出所提出的方法使查询性能提升了50~200倍。
    参考文献 | 相关文章 | 多维度评价
    5. 关系数据库中聚合代数约束的高效发现算法——AAC-Hunter
    张效伟, 江大伟, 陈珂, 陈刚
    计算机应用    2021, 41 (3): 636-642.   DOI: 10.11772/j.issn.1001-9081.2020091473
    摘要326)      PDF (1077KB)(583)    收藏
    针对如何更好地维护关系数据库的数据完整性以及帮助审计员找出违规的报销记录的问题,提出了自动发现聚合代数约束(AAC)的算法AAC-Hunter。AAC是一种定义在数据库中两列的聚合结果之间的模糊约束,作用于大多数而非全部记录上。AAC-Hunter首先枚举连接、分组和代数表达式来产生候选AAC,然后分别计算这些候选AAC的值域集合,最后输出AAC结果。但该方法无法应对海量数据带来的性能挑战,因此AAC-Hunter提出了一套启发式规则减小候选约束空间规模以及基于中间结果复用和消除平凡候选AAC的两个优化策略来加速候选AAC的值域集合计算。实验结果表明了对比不使用启发式规则和优化策略的基线算法,AAC-Hunter在TPC-H和European Soccer数据集上分别减小了95.68%和99.94%的约束发现空间,分别缩短了96.58%和92.51%的运行时间。可见AAC-Hunter具备有效性,能够提升审计应用的效率和能力。
    参考文献 | 相关文章 | 多维度评价
    6. 个性化时空数据隐私保护
    刘向宇, 夏国平, 夏秀峰, 宗传玉, 朱睿, 李佳佳
    计算机应用    2021, 41 (3): 643-650.   DOI: 10.11772/j.issn.1001-9081.2020091463
    摘要443)      PDF (1280KB)(837)    收藏
    智能移动终端的普及导致收集的时空数据中个人位置隐私、签到数据隐私、轨迹隐私等敏感信息容易泄露,且当前研究分别针对上述隐私泄露单独提出保护技术,而没有面向用户给出防止上述隐私泄露的个性化时空数据隐私保护方法。针对这个问题,提出一种面向时空数据的个性化隐私保护模型( pqε)-匿名和基于该模型的个性化时空数据隐私保护(PPP ST)算法,从而对用户个性化设置的隐私数据(位置隐私、签到数据隐私和轨迹隐私)加以保护。设计了启发式规则对时空数据进行泛化处理,保证了发布数据的可用性并实现了时空数据的高可用性。对比实验中PPP ST算法的数据可用率比个性化信息数据K-匿名(IDU-K)和个性化Clique Cloak(PCC)算法分别平均高约4.66%和15.45%。同时,设计了泛化位置搜索技术来提高算法的执行效率。基于真实时空数据进行实验测试和分析,实验结果表明PPP ST算法能有效地保护个性化时空数据隐私。
    参考文献 | 相关文章 | 多维度评价
    7. 不平衡时间序列集成分类算法
    曹阳, 闫秋艳, 吴鑫
    计算机应用    2021, 41 (3): 651-656.   DOI: 10.11772/j.issn.1001-9081.2020091493
    摘要399)      PDF (925KB)(517)    收藏
    针对现有集成分类方法对不平衡时间序列数据学习能力欠佳的问题,采用优化组件算法性能和集成策略的思路,以异构集成方法即基于变换的集合的层次投票集合(HIVE-COTE)为基础,提出一种不平衡时间序列集成分类算法IMHIVE-COTE。该算法主要包含两个改进内容:首先,增加了一个新的不平衡分类组件SBST-HESCA,引入Boosting结合重采样的思路,并通过交叉验证预测结果来更新样本权重,从而使数据集的重采样过程更有利于提升少数类样本的分类质量;其次,结合SBST-HESCA组件对HIVE-COTE计算框架进行改进,通过优化组件算法的权重使不平衡时间序列分类算法对分类结果拥有更高的投票比重,从而再次提升集成算法整体的分类质量。实验部分对IMHIVE-COTE的性能进行了验证和分析:和对比方法相比,IMHIVE-COTE有最高的整体分类评价,并且在三个不平衡分类指标值上分别得到了最优、最优、第三优的整体分类评价,可以证明IMHIVE-COTE解决不平衡时间序列分类问题的能力明显较高。
    参考文献 | 相关文章 | 多维度评价
    8. 面向自动参数调优的动态负载匹配方法
    沈忱, 邰凌翔, 彭煜玮
    计算机应用    2021, 41 (3): 657-661.   DOI: 10.11772/j.issn.1001-9081.2020091424
    摘要358)      PDF (867KB)(513)    收藏
    针对OtterTune等自动参数调优方法采用静态负载描述不够准确的问题,提出了一种动态负载的时序描述方式和动态负载匹配方法。首先,提出一种动态负载描述方法来更准确地刻画负载变化;接着,对于负载匹配中序列不规则、欧氏距离算法不再适用等问题,基于动态时间规整(DTW)算法提出了一种使用数据对齐思想的动态负载匹配算法;最后,将所提出的方法应用于OtterTune上从而形成了基于动态负载的调优工具D-OtterTune,并对其进行若干实验。实验结果表明,和OtterTune原方法相比,动态负载匹配方法对自动参数调优的负载匹配的准确度有稳定幅度的提升,使D-OtterTune准确度提升达到3%。可见在数据密集型应用中,D-OtterTune对整体业务性能可以产生明显影响。
    参考文献 | 相关文章 | 多维度评价
    9. 数据异常情况下遥感影像时间序列分类算法
    任媛媛, 汪传建
    计算机应用    2021, 41 (3): 662-668.   DOI: 10.11772/j.issn.1001-9081.2020091425
    摘要370)      PDF (1226KB)(906)    收藏
    针对时序遥感图像数据异常时卷积神经网络对其分类性能较差的问题,提出了一种端到端的多模式与多单模架构相结合的网络结构。首先,通过多元时序模型和单变量时间序列模型对多维时间序列进行多尺度特征提取;然后,基于像素空间坐标信息,通过自动编码形式完成遥感图像的时空序列特征的构建;最后,通过全连接层和softmax函数实现分类。在数据异常(数据缺失和数据扭曲)的情况下,提出的算法和一维卷积神经网络(1D-CNN)、多通道深度神经网络(MCDNN)、时序卷积神经网络(TSCNN)和长短期记忆(LSTM)网络等通用时间序列遥感影像分类算法进行分析比较。实验结果表明,所提的利用端到端的多模式与多单模式架构融合的网络在数据异常的情况下分类精度最高,F1值达到了93.40%。
    参考文献 | 相关文章 | 多维度评价
2024年 44卷 4期
刊出日期: 2024-04-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会