栏目文章信息

    第36届CCF中国数据库学术会议(NDBC 2019) 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. TiDB的多索引访问优化
    兰海, 韩珂, 申砾, 崔秋, 彭煜玮
    《计算机应用》唯一官方网站    2020, 40 (2): 410-415.   DOI: 10.11772/j.issn.1001-9081.2019081908
    摘要1371)   HTML7)    PDF (613KB)(473)    收藏

    当查询条件涉及多个已建立索引的属性时,TiDB不能利用多个索引产生更优的执行计划。为了解决此问题,在研究现有数据库解决方案(如PostgreSQL和MySQL等)后,在TiDB中提出一种同时利用多个索引的新类型数据访问路径,称为MultiIndexPath。首先,设计算法生成一个查询可能的MultiIndexPath,并产生该路径的物理计划MultiIIndexPlan,然后计算物理计划的代价;其次,结合TiDB的架构与实现,提出MultiIndexPlan的通用执行框架;最后,当条件为合取范式时,提出Pipeline执行方案。整个工作基于TiDB 3.0实现并进行若干实验,结果表明:当条件为析取范式时,所提方案的性能比原TiDB至少有一个数量级提升;当条件为合取范式时,性能也优于原TiDB。

    图表 | 参考文献 | 相关文章 | 多维度评价
    2. 大数据上函数查询解答的复杂度分析
    吴文莉, 刘国华, 张君宝
    《计算机应用》唯一官方网站    2020, 40 (2): 416-419.   DOI: 10.11772/j.issn.1001-9081.2019091618
    摘要401)   HTML0)    PDF (436KB)(235)    收藏

    函数查询是大数据应用中重要的操作,查询解答问题一直是数据库理论中的核心问题。为了分析大数据上函数查询解答问题的复杂度,首先,使用映射归约方法将函数查询语言归约到已知的可判定语言,证明了函数查询解答问题的可计算性;其次,使用一阶语言描述函数查询,并分析了一阶语言的复杂度;在此基础上,使用NC-factor归约方法将函数查询类归约到已知的 Π Τ Q -complete类中。证明函数查询解答问题经过PTIME(多项式时间)预处理后,可以在NC(并行多项式-对数)时间内求解。通过以上证明可以推出,函数查询解答问题在大数据上是可处理的。

    图表 | 参考文献 | 相关文章 | 多维度评价
    3. 并行查询下查询执行计划的选择
    裴泽锋, 牛保宁, 张锦文, Muhammad Amjad
    《计算机应用》唯一官方网站    2020, 40 (2): 420-425.   DOI: 10.11772/j.issn.1001-9081.2019101762
    摘要389)   HTML0)    PDF (477KB)(234)    收藏

    查询是数据库系统的主要负载,其效率决定了数据库性能的好坏。一个查询存在多种执行计划,当前,查询优化器只能按照数据库系统的配置参数,静态地为查询选择一个较优的执行计划。并行查询间存在复杂多变的资源争用,很难通过配置参数准确反映,而且同一执行计划在不同情景下的效率并不一致。并行查询下执行计划的选择需考虑查询间的相互影响——查询交互。基于此,提出了一种在并行查询下度量查询受查询交互影响大小的标准QIs。针对并行查询下查询执行计划的选择,还提出了一种动态地为查询选择执行计划的方法TRating,该方法通过比较查询组合中按不同执行计划执行的查询受查询交互影响的大小,选择受查询交互影响较小的执行计划作为该查询的较优执行计划。实验结果表明,TRating方法为查询选择较优执行计划的准确率达61%,相比查询优化器提高了25%;而且在为查询选择次优执行计划时,其准确率也高达69%。

    图表 | 参考文献 | 相关文章 | 多维度评价
    4. 有向无环图上 k步可达查询优化算法
    杜明, 杨安平, 周军锋, 陈子阳, 杨云
    《计算机应用》唯一官方网站    2020, 40 (2): 426-433.   DOI: 10.11772/j.issn.1001-9081.2019081605
    摘要433)   HTML0)    PDF (654KB)(364)    收藏

    k步可达查询用于在给定的有向无环图(DAG)中回答两点之间是否存在长度不超过k的路径。针对现有方法的索引规模大、查询处理效率低的问题,提出一种基于部分点的双向最短路径索引来提升索引的可达信息覆盖率,并提出一组优化规则来减小索引规模;然后提出基于简化图的正反互逆拓扑索引来加速回答不可达查询;最后提出远距离优先的双向遍历策略来提高查询处理的效率。基于21个真实数据集(如引用网络、社交网络等)的实验结果表明,相比已有的高效方法PLL及BFSI-B,所提出的算法具有更小的索引规模和更快的查询响应速度。

    图表 | 参考文献 | 相关文章 | 多维度评价
    5. 基于聚类的超链路预测
    齐鹏飞, 周丽华, 杜国王, 黄皓, 黄通
    《计算机应用》唯一官方网站    2020, 40 (2): 434-440.   DOI: 10.11772/j.issn.1001-9081.2019101730
    摘要399)   HTML1)    PDF (2588KB)(308)    收藏

    超链路预测是利用已观测到网络的特性来复现网络中缺失的链路。现有的超链路预测算法通常利用整个网络来进行预测,预测结果会遗漏训练样本数据较少的链路类别,导致预测种类不够全面。为了解决这个问题,提出了基于聚类的超链路预测算法C-CMM,首先对数据集进行聚类分簇,进而对每一个簇建立模型进行超链路预测。所提算法能够充分利用各个簇的观察样本所蕴含的信息,扩大预测结果覆盖的类别。在三个真实数据集上的实验结果表明,C-CMM和多个先进的链路预测算法相比具有更高的预测精度和效率,同时其预测覆盖种类也更加全面。

    图表 | 参考文献 | 相关文章 | 多维度评价
    6. 主题关注网络的表示学习
    郭景峰, 董慧, 张庭玮, 陈晓
    《计算机应用》唯一官方网站    2020, 40 (2): 441-447.   DOI: 10.11772/j.issn.1001-9081.2019081529
    摘要291)   HTML0)    PDF (955KB)(246)    收藏

    针对异质网络表示学习仅从结构方面考虑社交关系而忽略语义这一问题,结合用户间的社交关系和用户对主题的偏好两个方面,提出基于主题关注网络的表示学习算法。首先,针对主题关注网络的特点,结合集对分析理论的同异反(确定与不确定)思想,给出转移概率模型;然后,在转移概率模型的基础上提出了一种基于两类节点的随机游走算法,以得到相对高质量的随机游走序列;最后,基于序列中两类节点建模得到主题关注网络的嵌入向量空间表示。理论分析和在豆瓣数据集上的实验结果表明,结合转移概率模型的随机游走算法能更全面地分析网络中节点的连接关系,当划分社区的个数为13时,所提算法的模块度为0.699 8,相比metapath2vec算法提高了近5%,可以更详细地捕获网络中的信息。

    图表 | 参考文献 | 相关文章 | 多维度评价
    7. 事件社交网中基于有向标签图及用户反馈的活动推荐方法
    单晓欢, 张志国, 宋宝燕, 任成林
    《计算机应用》唯一官方网站    2020, 40 (2): 448-453.   DOI: 10.11772/j.issn.1001-9081.2019081565
    摘要311)   HTML2)    PDF (859KB)(293)    收藏

    由于基于事件的社交网络(EBSN)中的活动具有时效性,传统社交网络推荐算法无法适用于EBSN。此外,大多数算法忽略了能影响后续推荐质量的前用户是否接受活动的反馈意见。为此,提出一种EBSN中基于有向标签图及用户反馈的活动推荐方法。首先,将EBSN抽象为有向标签图,并抽取图节点及边的属性特征信息,构建有向图结构特征(DGSF)索引,该索引由节点属性特征索引、有向边属性特征索引以及时间特征索引构成,利用该索引对节点及边进行初次过滤。其次,提出基于DGSF索引的多属性候选集过滤策略,利用时间、节点的出入度、标签类型等特征的限制,实现对查询图候选集的进一步剪枝,避免冗余计算。然后,提出一种具有用户反馈的改进UCB(Upper Confidence Bound)活动推荐算法——EN_UCB,通过引入弹性网回归,根据多影响因素计算用户对活动的兴趣值,为用户推荐兴趣值高的活动,同时接收用户是否接受该活动的反馈,以优化后续用户的推荐。大量实验结果表明,EN_UCB算法的接受率高于TS(Thompson Sampling)、UCB以及eGreedy算法,遗憾率远远低于TS和eGreedy算法,且运行效率高于TS、UCB以及eGreedy算法,活动数越大,优势越明显。所提算法能有效实现EBSN上的在线活动推荐。

    图表 | 参考文献 | 相关文章 | 多维度评价
    8. 关注长尾物品的推荐方法
    秦婧, 张青博, 王斌
    《计算机应用》唯一官方网站    2020, 40 (2): 454-458.   DOI: 10.11772/j.issn.1001-9081.2019091665
    摘要887)   HTML7)    PDF (799KB)(417)    收藏

    针对推荐系统算法中覆盖率和多样性偏低所带来的长尾问题,提出了一种长尾物品的推荐框架以及关注长尾物品的推荐算法FLTI。长尾物品的推荐框架是基于卷积神经网络(CNN)模型构建的,分为数据处理层、推荐算法层和推荐列表生成层。将FLTI算法加入到了框架中的推荐算法层,该算法首先计算了频繁推荐项以及非频繁推荐项,然后采用使用长尾物品替换频繁推荐项的方法来满足系统中指定的长尾比例。实验结果表明,在Movielens 1M和BookCrossing数据集上,FLTI算法比传统的基于用户的协同过滤(UserCF)算法、基于物品的协同过滤(ItemCF)算法、奇异值分解(SVD)推荐算法以及协同去噪自动编码(CDAE)算法在覆盖率指标上最多提高了51%,多样性指标上最多提高了59%。

    图表 | 参考文献 | 相关文章 | 多维度评价
    9. 基于BTM的物联网服务发现方法
    王舒漫, 李爱萍, 段利国, 付佳, 陈永乐
    《计算机应用》唯一官方网站    2020, 40 (2): 459-464.   DOI: 10.11772/j.issn.1001-9081.2019091662
    摘要390)   HTML1)    PDF (1058KB)(243)    收藏

    针对物联网(IoT)服务描述文本篇幅较短、特征稀疏,直接采用传统的主题模型对IoT服务建模得到的聚类效果不佳,从而导致无法发现最佳服务的问题,提出了一种基于BTM的IoT服务发现方法。该方法首先利用BTM挖掘现有IoT服务的隐含主题,并通过全局主题分布和主题-词分布计算推理得到服务文档-主题概率分布;其次利用K-means算法对服务进行聚类,并返回服务请求的最佳匹配结果。实验结果分析表明,该方法能够有效提高IoT服务的聚类效果,从而得到匹配的最佳服务。与现有的HDP(Hierarchical Dirichlet Process)、基于K-means的隐狄利克雷分配(LDA-K)等方法相比,该方法进行最佳服务发现的准确度(Precision)和归一化折损累积增益(NDCG)均有一定幅度的提高。

    图表 | 参考文献 | 相关文章 | 多维度评价
    10. 空间亚频繁co-location模式的主导特征挖掘
    马董, 陈红梅, 王丽珍, 肖清
    《计算机应用》唯一官方网站    2020, 40 (2): 465-472.   DOI: 10.11772/j.issn.1001-9081.2019081900
    摘要396)   HTML3)    PDF (1839KB)(232)    收藏

    空间co-location模式是一组空间特征的子集,它们的实例在邻域内频繁并置出现。通常,空间co-location模式挖掘方法假设空间实例相互独立,并采用空间实例参与到模式实例的频繁性(参与率)来度量空间特征在模式中的重要性,采用空间特征的最小参与率(参与度)来度量模式的有趣程度,忽略了空间特征间的某些重要关系。因此为了揭示空间特征间的主导关系而提出主导特征co-location模式。现有主导特征模式挖掘方法是基于传统频繁模式及其团实例模型进行挖掘,然而,团实例模型可能会忽略非团的空间特征间的主导关系。因此,基于星型实例模型,研究空间亚频繁co-location模式的主导特征挖掘,以更好地揭示空间特征间的主导关系,挖掘更有价值的主导特征模式。首先,定义了两个度量特征主导性的指标;其次,设计了有效的主导特征co-location模式挖掘算法;最后,在合成数据集和真实数据集上通过大量实验验证了所提算法的有效性以及主导特征模式的实用性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    11. 目标依赖的作者身份识别方法
    李扬, 张伟, 彭晨
    《计算机应用》唯一官方网站    2020, 40 (2): 473-478.   DOI: 10.11772/j.issn.1001-9081.2019101768
    摘要430)   HTML0)    PDF (650KB)(408)    收藏

    作者身份识别任务旨在判断一篇文档的作者,但目前已有的作者身份识别方法都是目标独立的,意味着这些方法在预测作者身份时假设没有任何限定条件,这与实际情况不相符合。为了解决限定条件下的作者身份识别问题,提出了一种目标依赖的作者身份识别方法TDAA。首先,使用用户评论对应的商品ID作为限定信息;其次,为了使文本建模过程更加具有普适性,使用BERT提取预训练的评论文本特征;然后,使用卷积神经网络(CNN)进行深层次的文本特征提取;最后,为了将两种不同的信息融合起来,讨论了两种不同的融合方式。在亚马逊电影评论(Amazon Movie_and_TV)和CD评论(CDs_and_Vinyl_5)两个数据集上的实验结果表明,所提出的方法在精确率评价指标上较对比方法提高了4%~5%。

    图表 | 参考文献 | 相关文章 | 多维度评价
    12. 防止暴露位置攻击的轨迹隐私保护
    刘向宇, 陈金梅, 夏秀峰, Singh Manish, 宗传玉, 朱睿
    《计算机应用》唯一官方网站    2020, 40 (2): 479-485.   DOI: 10.11772/j.issn.1001-9081.2019081612
    摘要315)   HTML1)    PDF (836KB)(285)    收藏

    为解决移动对象轨迹信息被大量收集所导致的轨迹隐私泄露问题,提出了基于假轨迹的轨迹隐私保护算法。在该算法中,考虑了用户的暴露位置,基于轨迹相似性和位置多样性的综合度量,设计了一种启发式规则来选择假轨迹,从而使得生成的假轨迹能有效隐匿真实轨迹和敏感位置。此外,还提出了轨迹有向图策略和基于网格划分的地图策略来优化算法的执行效率。基于真实的轨迹数据进行实验测试和分析,实验结果表明所提算法在保持数据可用性的情况下能有效保护真实轨迹。

    图表 | 参考文献 | 相关文章 | 多维度评价
    13. 结合梯度投影稀疏重构和复数小波的图像重构
    高彦彦, 李莉, 张晶, 贾英茜
    《计算机应用》唯一官方网站    2020, 40 (2): 486-490.   DOI: 10.11772/j.issn.1001-9081.2019101719
    摘要336)   HTML0)    PDF (680KB)(229)    收藏

    压缩感知主要包括随机投影和重构两部分。针对迭代收缩算法收敛速度较慢,普通二维小波变换缺少方向性表示的缺点,利用置乱离散余弦变换(PDCT)实现随机投影,重构时采用梯度投影算法,在简化计算的基础上,通过迭代的方式完善图像在双树复数小波域的变换系数,最后经反变换后得到重构图像。在同一重构算法下,比较了利用双树复数小波变换和双正交小波变换的重构结果,结果表明前者重构后的图像在细节和平滑度上优于后者,在峰值信噪比(PSNR)上平均高出约1.5 dB;同一稀疏域中,梯度投影算法的收敛速度优于迭代收缩算法;相同稀疏域和重构算法下,PDCT与结构随机矩阵相比在PSNR上略高。

    图表 | 参考文献 | 相关文章 | 多维度评价
2024年 44卷 4期
刊出日期: 2024-04-10
文章目录
过刊浏览
荣誉主编:张景中
主  编:徐宗本
副主编
:申恒涛 夏朝晖

国内邮发代号:62-110
国外发行代号:M4616
地址:四川成都双流区四川天府新区
   兴隆街道科智路1369号
   中科信息(科学城园区) B213
   (计算机应用编辑部)
电话:028-85224283-803
   028-85222239-803
网址:www.joca.cn
E-mail: bjb@joca.cn
期刊微信公众号
CCF扫码入会